CURSO 2008-2009
TRABAJOS de RECONOCIMIENTO DE
PATRONES
ÁRBOLES DE SUFIJOS
CRISTINA MARTÍN
En este trabajo se plantea resolver los siguientes problemas
mediante el uso de árboles de sufijos:
-
El problema de la búsqueda exacta de
patrones (el problema clásico de RP), esto es, encontrar
cuántas veces está un patrón P está
en un texto T.
- El problema de la subcadena común más larga, conocido
como el problema LCS, esto es, encontrar la subcadena más larga
que está en dos cadenas dadas S1 y S2.
- El problema de la contaminación del ADN, esto es, dada una
cadena S, compuesta por la combinación de varias subcadenas conocidas
de ADN, encontrar todas las subcadenas de S que están en T y
que tienen longitud mayor que cierto valor l. Si se encuentran esas
subcadenas, diremos que la muestra T está contaminada.
Para estos problemas se dan los siguientes ficheros:
PROBLEMA 1: Búsqueda exacta de patrones.
PROBLEMA 2: Subcadena común más larga. Se
trata de encontrar la LCS entre las cadenas String1 y String2
y String3 y String4, dadas en los ficheros de más
abajo.
PROBLEMA 3: Búsqueda de contaminación de Adn. El umbral
de reconocimiento de contaminación es l=30. Queremos buscar contaminación
de Adn en dos muestras String1 y String2 sacando la base
de datos de posibles contaminantes de la cadena Source.
|