Bases datos de secuencia

Introducción

Esta práctica se basa en el tutorial preparado por el NCBI para introducir a los usuarios en el Entrez.

Entrez es un sistema de búsqueda desarrollado por el NCBI que permite acceder a bases de datos de:

  • Bibliografia.

  • Secuencias de nucleótidos.

  • Secuencias de proteínas.

  • Genomas completos.

  • Estructuras.

  • Etc.

Para ver como funciona el Entrez vamos a buscar la información disponible sobre MLH1, un gen humano implicado en el cáncer de colon.

Los objetivos son buscar:

  • el mRNA más representativo del gen,

  • las referencias bibliográficas relevantes,

  • las secuencias de proteínas,

  • los dominios conservados de las proteínas,

  • las proteínas similares,

  • las mutaciones descritas,

  • la estructura de la proteína,

  • la región del genoma humano en la que se encuentra el gen.

Un par de trucos:

  • Se pueden buscar distintos términos a la vez, por ejemplo MLH1 y Human utilizando AND (debe estar en mayúsculas). La búsqueda sería MLH1 AND Human.

  • Se puede restringir la búsqueda a un campo concreto. Por ejemplo podemos exigir que la especie sea humana. Para hacerlo hay que poner, a continuación del término buscado, el código del campo. En este caso sería MLH1 AND Human[ORGN].

Principales campos en el formato Genbank

Más información sobre el formato en el NCBI.

Campo

Descripción

Búsqueda en Entrez

Locus name

Un nombre único para la secuencia

[ACCN]

Sequence length

Longitud de la secuencia

[SLEN]

Molecule Type

ADN, genómico, mRNA, etc.

[PROP]

Genbank Division

División a la que pertenece la secuencia

[PROP]

Modification Date

Fecha de la última modificación

[MDAT]

Definition

Breve descrición de la seucuencia

[TITL]

Accession

Identificador único de entrada, no varía aunuque se modifique la secuencia

[ACCN]

Version

Número de versión de la secuencia

All fields

GI

Identificador único de la secuencia, cambia con las modificaciones

All fiedls

Keywords

Palabras clave que describen la secuencia

[KYWD]

Source

Nombre del organismo

[ORGN]

Organism

Nombre científico del organismo

[ORGN]

Reference

Publicaciones relacionadas

[TITL] [AUTH] [JOUR]

Features

Información sobre las regiones de interés

[FKEY]

source

Longitud de la secuencia, nombre del organismo, taxón ID

[ALL]

Taxon

Taxón ID

CDS

Secuencia codificante

[FKEY]

protein_id

Identificador de la secuencia protéica

All fields

GI

Identificador único de la secuencia protéica

All fields

Translation

Traducción

gene

Región cubierta por un gen

[FKEY]

En cualquier resultado de búsqueda junto a cada entrada aparece la palabra “link”. Si hacemos click en ella aparecen enlaces a información referente a esa entrada en otras bases de datos.

mRNA

En el Entrez hay varias bases de datos de nucleótidos.

¿Cuantas referencias se encuentran si buscamos colon cáncer directamente en la sección de nucleótidos?

¿Y si buscamos MLH1?

¿Por qué hay tantas secuencias?

Para buscar secuencias con anotaciones de alta calidad, lo mejor es utilizar la base de datos RefSeq. Para buscar en RefSeq hay que elegir la base de datos CoreNucleotide y en “Only From” elegir RefSeq. Podemos además elegir en que campos buscar o excluir algunos resultados de la búsqueda como los ESTs.

¿Cuantos resultados se obtienen en RefSeq para “colon cancer” buscando sólo en el campo “TITL”?

En estos resultados hay secuencias que no son humanas. Para limitar la búsqueda a humano se hace una nueva búsqueda limitando ‘organism’ a ‘human’ y utilizando la historia.

La búsqueda será similar a: human and #1

¿Cuántos resultados se obtienen?

Se podría haber buscado por el nombre completo del gen, pero esto a veces puede ser problemático porque pueden haber sinónimos.

Buscar en los resultados el gen MLH1.

Referencias bibliográficas

Los enlaces presentes a la derecha en la página de búsqueda permiten encontrar información relativa al gen en otras bases de datos. Podemos buscar las citas bibliográficas en PubMed directamente.

¿Cuantos artículos aparecen?

En la página de resultados del PubMed se pueden distinguir las referencias que incluyen el texto completo del artículo, el resumen o sólo el título por el gráfico que aparece junto a cada entrada.

Muchos artículos con texto completo restringido son accesibles desde dentro de la Universidad porque la biblioteca está suscrita al servicio.

En cualquiera de los artículos se puede pinchar en ‘Similar articles’ para ver una lista de artículos relacionados.

Proteína

En los enlaces que aparecen en la entrada del gen también se puede elegir la proteína.

Para obtener otras proteínas similares se pude usar el enlace ‘Related Sequences’ en la página de la proteína.

Búsqueda Blast

En la proteína nos aparecen nuevos enlaces que nos proporcionan información adicional.

El Blink nos permite ver los resultados de una búsqueda BLAST. En esta página podemos elegir las secuencias correspondientes a una de las secciones taxonómicas de la Genbank o restringir la búsqueda a las secuencias con estructura.

Dominios conservados

Los dominios conservados informan sobre la función de las proteínas. Todas las proteínas en Entrez se comparan con la CDD (Conserved Domain Database). En ‘Show Domain Relatives’ podemos ver que otras proteínas comparten estos dominios conservados.

¿Qué dominios hay?

¿Qué funciones tienen?

¿Qué otras proteínas tienen estos dominios?

Mutaciones

En el NCBI también tienen una base de datos con mutaciones asociadas a los genes. Se pueden ver estas mutaciones en el link SNP del gen.

En la página de los SNP se puede acceder a GeneView, un página en la que están todas las mutaciones.

¿Hay alguna mutación con la estructura 3D resuelta?

¿Alguna mutación con enlaces a la OMIM?

Estructuras

Hay pocas proteínas con la estructura resuelta. De los 2.7 millones de proteínas en Entrez sólo 20000 tienen estructura. Si en los enlaces de la proteína no está ‘structure’ es que la estructura no ha sido resuelta.

Se pueden buscar las proteínas similares que sí tienen estructura utilizando el Blink y después seleccionando solamente las entradas con estructura 3D.

¿Qué proteínas similares tienen una estructura resuelta?

Región genómica

Puede ser útil obtener la región del cromosoma en la que se localiza el gen.

El enlace ‘Genome’ nos devolverá el cromosoma completo.

Para obtener una representación gráfica de la región hay que ir a ‘Map Viewer’.

En este mapa podemos obtener la secuencia de la región, ver los genes de alrededor, estudiar la estructura de intrones y exones del gen, descargar los mRNAs secuenciados del gen, etc.

Ejercicio 1

Buscar y hacer un resumen de la información más relevante para alguno de los genes humanos FXN, OCA2 o FOXP2

Buscar:

  • Función molecular del gen.

  • Consecuencias de las mutaciones.

  • Estructura genómica.

  • Secuencia de la proteína.

  • Homólogos en otras especies.

Ejercicio 2

¿Hay genes descritos para la hipercolesterolemia (HYPERCHOLESTEROLEMIA)?

Ir a la teoría del tema