Bases datos de secuencia¶

Introducción¶

Esta práctica se basa en el tutorial preparado por el NCBI para introducir a los usuarios en el Entrez.

Entrez es un sistema de búsqueda desarrollado por el NCBI que permite acceder a bases de datos de:

Bibliografia.

Secuencias de nucleótidos.

Secuencias de proteínas.

Genomas completos.

Estructuras.

Etc.

Para ver como funciona el Entrez vamos a buscar la información disponible sobre MLH1, un gen humano implicado en el cáncer de colon.

Los objetivos son buscar:

el mRNA más representativo del gen,

las referencias bibliográficas relevantes,

las secuencias de proteínas,

los dominios conservados de las proteínas,

las proteínas similares,

las mutaciones descritas,

la estructura de la proteína,

la región del genoma humano en la que se encuentra el gen.

Un par de trucos:

Se pueden buscar distintos términos a la vez, por ejemplo MLH1 y Human utilizando AND (debe estar en mayúsculas). La búsqueda sería MLH1 AND Human.

Se puede restringir la búsqueda a un campo concreto. Por ejemplo podemos exigir que la especie sea humana. Para hacerlo hay que poner, a continuación del término buscado, el código del campo. En este caso sería MLH1 AND Human[ORGN].

Principales campos en el formato Genbank¶

Más información sobre el formato en el NCBI.

Campo	Descripción	Búsqueda en Entrez
Locus name	Un nombre único para la secuencia	[ACCN]
Sequence length	Longitud de la secuencia	[SLEN]
Molecule Type	ADN, genómico, mRNA, etc.	[PROP]
Genbank Division	División a la que pertenece la secuencia	[PROP]
Modification Date	Fecha de la última modificación	[MDAT]
Definition	Breve descrición de la seucuencia	[TITL]
Accession	Identificador único de entrada, no varía aunuque se modifique la secuencia	[ACCN]
Version	Número de versión de la secuencia	All fields
GI	Identificador único de la secuencia, cambia con las modificaciones	All fiedls
Keywords	Palabras clave que describen la secuencia	[KYWD]
Source	Nombre del organismo	[ORGN]
Organism	Nombre científico del organismo	[ORGN]
Reference	Publicaciones relacionadas	[TITL] [AUTH] [JOUR]
Features	Información sobre las regiones de interés	[FKEY]
source	Longitud de la secuencia, nombre del organismo, taxón ID	[ALL]
Taxon	Taxón ID
CDS	Secuencia codificante	[FKEY]
protein_id	Identificador de la secuencia protéica	All fields
GI	Identificador único de la secuencia protéica	All fields
Translation	Traducción
gene	Región cubierta por un gen	[FKEY]

En cualquier resultado de búsqueda junto a cada entrada aparece la palabra “link”. Si hacemos click en ella aparecen enlaces a información referente a esa entrada en otras bases de datos.

mRNA¶

En el Entrez hay varias bases de datos de nucleótidos.

¿Cuantas referencias se encuentran si buscamos colon cáncer directamente en la sección de nucleótidos?

¿Y si buscamos MLH1?

¿Por qué hay tantas secuencias?

Para buscar secuencias con anotaciones de alta calidad, lo mejor es utilizar la base de datos RefSeq. Para buscar en RefSeq hay que elegir la base de datos CoreNucleotide y en “Only From” elegir RefSeq. Podemos además elegir en que campos buscar o excluir algunos resultados de la búsqueda como los ESTs.

¿Cuantos resultados se obtienen en RefSeq para “colon cancer” buscando sólo en el campo “TITL”?

En estos resultados hay secuencias que no son humanas. Para limitar la búsqueda a humano se hace una nueva búsqueda limitando ‘organism’ a ‘human’ y utilizando la historia.

La búsqueda será similar a: human and #1

¿Cuántos resultados se obtienen?

Se podría haber buscado por el nombre completo del gen, pero esto a veces puede ser problemático porque pueden haber sinónimos.

Buscar en los resultados el gen MLH1.

Referencias bibliográficas¶

Los enlaces presentes a la derecha en la página de búsqueda permiten encontrar información relativa al gen en otras bases de datos. Podemos buscar las citas bibliográficas en PubMed directamente.

¿Cuantos artículos aparecen?

En la página de resultados del PubMed se pueden distinguir las referencias que incluyen el texto completo del artículo, el resumen o sólo el título por el gráfico que aparece junto a cada entrada.

Muchos artículos con texto completo restringido son accesibles desde dentro de la Universidad porque la biblioteca está suscrita al servicio.

En cualquiera de los artículos se puede pinchar en ‘Similar articles’ para ver una lista de artículos relacionados.

Proteína¶

En los enlaces que aparecen en la entrada del gen también se puede elegir la proteína.

Para obtener otras proteínas similares se pude usar el enlace ‘Related Sequences’ en la página de la proteína.

Búsqueda Blast¶

En la proteína nos aparecen nuevos enlaces que nos proporcionan información adicional.

El Blink nos permite ver los resultados de una búsqueda BLAST. En esta página podemos elegir las secuencias correspondientes a una de las secciones taxonómicas de la Genbank o restringir la búsqueda a las secuencias con estructura.

Dominios conservados¶

Los dominios conservados informan sobre la función de las proteínas. Todas las proteínas en Entrez se comparan con la CDD (Conserved Domain Database). En ‘Show Domain Relatives’ podemos ver que otras proteínas comparten estos dominios conservados.

¿Qué dominios hay?

¿Qué funciones tienen?

¿Qué otras proteínas tienen estos dominios?

Mutaciones¶

En el NCBI también tienen una base de datos con mutaciones asociadas a los genes. Se pueden ver estas mutaciones en el link SNP del gen.

En la página de los SNP se puede acceder a GeneView, un página en la que están todas las mutaciones.

¿Hay alguna mutación con la estructura 3D resuelta?

¿Alguna mutación con enlaces a la OMIM?

Estructuras¶

Hay pocas proteínas con la estructura resuelta. De los 2.7 millones de proteínas en Entrez sólo 20000 tienen estructura. Si en los enlaces de la proteína no está ‘structure’ es que la estructura no ha sido resuelta.

Se pueden buscar las proteínas similares que sí tienen estructura utilizando el Blink y después seleccionando solamente las entradas con estructura 3D.

¿Qué proteínas similares tienen una estructura resuelta?

Región genómica¶

Puede ser útil obtener la región del cromosoma en la que se localiza el gen.

El enlace ‘Genome’ nos devolverá el cromosoma completo.

Para obtener una representación gráfica de la región hay que ir a ‘Map Viewer’.

En este mapa podemos obtener la secuencia de la región, ver los genes de alrededor, estudiar la estructura de intrones y exones del gen, descargar los mRNAs secuenciados del gen, etc.

Ejercicio 1¶

Buscar y hacer un resumen de la información más relevante para alguno de los genes humanos FXN, OCA2 o FOXP2

Buscar:

Función molecular del gen.

Consecuencias de las mutaciones.

Estructura genómica.

Secuencia de la proteína.

Homólogos en otras especies.

Ejercicio 2¶

¿Hay genes descritos para la hipercolesterolemia (HYPERCHOLESTEROLEMIA)?

Ir a la teoría del tema