Bioinformatics at COMAV

Bases de datos biológicas

Las bases de datos más relevantes en biología incluyen datos de secuencias de nucleótidos, proteínas, estructura de proteínas, genomas, expresión genética, bibliografía, taxonomía, metabolismo, factores de transcripción, etc. Nos podemos hacer una idea de las bases de datos disponibles en esta base de datos de bases de datos biológicas.

Principales bases de datos se secuencias de nucleótidos:

Algunas bases de datos de genomas de organismos concretos:

Principales bases de datos de proteínas:

Bibliografía:

Rutas metabólicas:

Enfermedades genéticas humanas:

Bases de datos de secuencias

Una base de datos de nucleótidos es una colección de secuencias de ADN o proteínas.

A estas secuencias normalmente se les añade alguna información relevante y una interfaz para poder acceder a la propia base de datos.

Las tres bases de datos principales de nucleótidos son: EMBL , Genbank y DDBJ.

Intercambian las nuevas secuencias todos los días, por lo tanto, en las tres se encuentra depositada la misma información.

Con el tiempo estas bases de datos han ido añadiendo información adicional a las secuencias y ahora incluyen funciones, mutaciones, proteínas codificadas, referencias bibliográficas, etc.

El crecimiento anual de estas bases de datos es enorme. En el recuento del 15 de Junio de 2007 había más de 73 millones de secuencias en la Genbank y en 2012 mas de 157 millones, y este crecimiento exponencial dista mucho de saturarse.

_images/716px-Growth_of_Genbank.svg.png

De http://commons.wikimedia.org/wiki/File:Growth_of_Genbank.svg

Dado el gran número de secuencias incluidas las bases de datos suelen estar divididas en secciones para facilitar la búsqueda.

Genbank

Genbank es una colección pública de secuencias de nucleótidos anotadas.

Incluye secuencias de ARNm con regiones codificantes, ADN genómico correspondientes a uno o varios genes y ARN ribosómico.

Es un almacén público de secuencias.

No modifican las secuencias sin el consentimiento de los autores.

Es redundante, pueden haber varias secuencias para un gen determinado.

Hay secuencias de muy buena calidad, pero también hay algunas no tan buenas.

Para facilitar la búsqueda han dividido las secuencias en distintas divisiones.

Hay divisiones taxonómicas para las secuencias de alta calidad: primate, rodent, other mamalian, invertebrate, etc.

Otras divisiones se reservan para las secuencias de menos calidad: EST (Expressed Sequence Tag), SRA, GSS (genome survey sequence), HTGS (high throughput genomic sequencing).

En este documento nos resumen las principales características y funcionalidades de la Genbank.

Refseq

Refseq (Reference Sequence) es otra base de datos de nucleótidos mantenida por el NCBI.

Es una base de datos secundaria.

Es una colección de secuencias de ADN, ARN y proteínas mantenida y revisada.

Sólo tiene una secuencia por gen y organismo.

Tiene entradas independientes para el ADN genómico, el transcrito y las proteínas.

Sólo incluye los principales organismos (10.854 frente a los más de 160.000 de la Genbank en las versiones de septiembre 2010).

Uniprot

Uniprot es una base de datos de proteínas.

Nace por la unión de tres bases de datos previas: Swiss-prot, TrEMBL y PIR-PSD.

Swiss-Prot y TrEML continuan siendo dos secciones en la Uniprot.

Swiss-Prot está compuesta por registros anotados manualmente.

Las proteínas de Swiss-prot tienen una información de alta calidad.

TrEMBL es una traducción automática de las secuencias de la EMBL.

El objetivo es ir anotando manualmente las secuencias de TrEMBL, pero dado el ritmo de secuenciación esta tarea no terminará nunca.

Swiss-Prot es mucho más pequeña que TrEMBL.

PDB, Protein Data Bank

PDB alberga información sobre estructura de proteínas y ácidos nucléicos.

Además de la estructura incluye información sobre la secuencia, las condiciones de cristalización, otras proteínas de estructura similar e imágenes 3D.

PubMed

PubMed da accesso a la base de datos de referencias bibliográficas MEDLINE.

Su ámbito principal es la medicina, por lo que las revistas de otros campos no siempre están incluidas.

Tiene una buena colección de entradas relacionadas con la bioquímica, biología celular y la medicina.

Incluye los títulos, autores y resúmenes de los artículos publicados.

Muchas de las revistas incluidas permiten el acceso a texto completo del artículo y PubMed permite buscar sólo textos de acceso libre.

Acceso a la información

El núcleo de una base de datos está constituido por los datos almacenados de forma estructurada.

Es difícil para un usuario sin una preparación previa acceder a los datos estructurados.

Para simplificar el acceso las bases de datos proporcionan un interfaz fácil de utilizar.

Lo más común es que estos interfaces sean un página web, lo que posibilita que se acceda a los datos utilizando un simple navegador web.

Los interfaces para las bases de datos proporcionan herramientas de búsqueda y ficheros de texto en los que mostrar la información.

_images/web_interface.png

El usuario obtiene una serie de ficheros de texto, bien sea en texto plano o en html.

Cada uno de los ficheros incluye la información de uno o varios registros de la base de datos.

Las distintas bases de datos muestras la información en archivos con distintos formatos.

Entrada en formato Genbank

LOCUS       EC750390                 558 bp    mRNA    linear   EST     03-JUL-2006
DEFINITION  POE00005652 PL(light) Polytomella parva cDNA similar to frataxin protein
            -related, mRNA sequence.
ACCESSION   EC750390
VERSION     EC750390.1  GI:110064507
KEYWORDS    EST.
SOURCE      Polytomella parva
ORGANISM    Polytomella parva
            Eukaryota; Viridiplantae; Chlorophyta; Chlorophyceae;Chlamydomonadales;
            Chlamydomonadaceae; Polytomella.
REFERENCE   1  (bases 1 to 558)
  AUTHORS   Lee,R.W. and Borza,T.
  TITLE     The colorless plastid of the green alga Polytomella parva: a repertoire of its functions
  JOURNAL   Unpublished (2006)
COMMENT     Contact: TBestDB
            Departement de Biochimie, Universite de Montreal
            Montreal, Canada
            Email: tbestdb-curator@bch.umontreal.ca
            Plate: 4065.
FEATURES             Location/Qualifiers
     source          1..558
                     /organism="Polytomella parva"
                     /mol_type="mRNA"
                     /db_xref="taxon:51329"
                     /clone_lib="PL(light)"
ORIGIN
        1 gcggccgctt tttttttttt tttttttttt ttttcgtccg ttatttcttt tttaagaatg
       61 cagtcatctg tacatcgtca agtattcgga gtgttatctc gttttgtggg aaacaaagcg
      121 ggtattttta caaagcataa tcatggtgtc tcaaggttgt cttcatgcac ttcgtcatgc
      181 gtaaagatgt atactagcaa caaggccccc gaggatcttc aaacgttcca ccggcaagca
      241 gacgaaactc tagagcaagt cactgaagcc cttgaaaact atgtagatga gcatgaagtg
      301 gaaggcagcg acattgagca tacgcaagga gtgcttacta ttaagcttgg aactcttgga
      361 agttatgtaa ttaataaaca gactcctaat aagcagatat ggttatcctc tcccgtcagt
      421 ggacccttcc gatatgatct taaagaaggt gcctgggttt atgaacgggc tggcgaggct
      481 cggcgcgagc ttatttctca attagaaaca gaaatttcgg atttagttgg tgtcgaatta
      541 aagataagta actgaacg
//

Entrada en formato EMBL

ID   EC750390; SV 1; linear; mRNA; EST; PLN; 558 BP.
XX
AC   EC750390;
XX
DT   04-JUL-2006 (Rel. 88, Created)
DT   04-JUL-2006 (Rel. 88, Last updated, Version 1)
XX
DE   POE00005652 PL(light) Polytomella parva cDNA similar to frataxin
DE   protein-related, mRNA sequence.
XX
KW   EST.
XX
OS   Polytomella parva
OC   Eukaryota; Viridiplantae; Chlorophyta; Chlorophyceae; Chlamydomonadales;
OC   Chlamydomonadaceae; Polytomella.
XX
RN   [1]
RP   1-558
RA   Lee R.W., Borza T.;
RT   "The colorless plastid of the green alga Polytomella parva: a repertoire of
RT   its functions";
RL   Unpublished.
XX
DR   UNILIB; 42732; 19932.
XX
CC   Contact: TBestDB
CC   Departement de Biochimie, Universite de Montreal
CC   Montreal, Canada
CC   Email: tbestdb-curator@bch.umontreal.ca
CC   Plate: 4065.
XX
FH   Key             Location/Qualifiers
FH
FT   source          1..558
FT                   /organism="Polytomella parva"
FT                   /mol_type="mRNA"
FT                   /clone_lib="PL(light)"
FT                   /db_xref="taxon:51329"
FT                   /db_xref="UNILIB:42732"
XX
SQ   Sequence 558 BP; 153 A; 105 C; 127 G; 173 T; 0 other;
     gcggccgctt tttttttttt tttttttttt ttttcgtccg ttatttcttt tttaagaatg        60
     cagtcatctg tacatcgtca agtattcgga gtgttatctc gttttgtggg aaacaaagcg       120
     ggtattttta caaagcataa tcatggtgtc tcaaggttgt cttcatgcac ttcgtcatgc       180
     gtaaagatgt atactagcaa caaggccccc gaggatcttc aaacgttcca ccggcaagca       240
     gacgaaactc tagagcaagt cactgaagcc cttgaaaact atgtagatga gcatgaagtg       300
     gaaggcagcg acattgagca tacgcaagga gtgcttacta ttaagcttgg aactcttgga       360
     agttatgtaa ttaataaaca gactcctaat aagcagatat ggttatcctc tcccgtcagt       420
     ggacccttcc gatatgatct taaagaaggt gcctgggttt atgaacgggc tggcgaggct       480
     cggcgcgagc ttatttctca attagaaaca gaaatttcgg atttagttgg tgtcgaatta       540
     aagataagta actgaacg                                                     558
//

Entrada en formato FASTA

>gi|110064507|gb|EC750390.1|EC750390 POE00005652 PL(light) Polytomella parva cDNA
 similar to frataxin protein-related, mRNA sequence
GCGGCCGCTTTTTTTTTTTTTTTTTTTTTTTTTTCGTCCGTTATTTCTTTTTTAAGAATGCAGTCATCTG
TACATCGTCAAGTATTCGGAGTGTTATCTCGTTTTGTGGGAAACAAAGCGGGTATTTTTACAAAGCATAA
TCATGGTGTCTCAAGGTTGTCTTCATGCACTTCGTCATGCGTAAAGATGTATACTAGCAACAAGGCCCCC
GAGGATCTTCAAACGTTCCACCGGCAAGCAGACGAAACTCTAGAGCAAGTCACTGAAGCCCTTGAAAACT
ATGTAGATGAGCATGAAGTGGAAGGCAGCGACATTGAGCATACGCAAGGAGTGCTTACTATTAAGCTTGG
AACTCTTGGAAGTTATGTAATTAATAAACAGACTCCTAATAAGCAGATATGGTTATCCTCTCCCGTCAGT
GGACCCTTCCGATATGATCTTAAAGAAGGTGCCTGGGTTTATGAACGGGCTGGCGAGGCTCGGCGCGAGC
TTATTTCTCAATTAGAAACAGAAATTTCGGATTTAGTTGGTGTCGAATTAAAGATAAGTAACTGAACG

Principales campos en el formato Genbank

Más información sobre el formato_en_el_NCBI

Campo Descripción Búsqueda en Entrez
Locus name Un nombre único para la secuencia [ACCN]
Sequence length Longitud de la secuencia [SLEN]
Molecule Type ADN, genómico, mRNA, etc. [PROP]
Genbank Division División a la que pertenece la secuencia [PROP]
Modification Date Fecha de la última modificación [MDAT]
Definition Breve descrición de la seucuencia [TITL]
Accession Identificador único de la entrada, no varía aunuque se modifique la secuencia [ACCN]
Version Número de versión de la secuencia All fields
GI Identificador único de la secuencia, cambia con las modificaciones All fiedls
Keywords Palabras clave que describen la secuencia [KYWD]
Source Nombre del organismo [ORGN]
Organism Nombre científico del organismo [ORGN]
Reference Publicaciones relacionadas [TITL] [AUTH] [JOUR]
Features Información sobre las regiones de interés [FKEY]
source Longitud de la secuencia, nombre del organismo, taxón ID [ALL]
Taxon Taxón ID  
CDS Secuencia codificante [FKEY]
protein_id Identificador de la secuencia protéica All fields
GI Identificador único de la secuencia protéica All fields
Translation Traducción  
gene Región cubierta por un gen [FKEY]

El campo features es especialmente importante, describe qué conocimiento se tiene sobre la secuencia.

Búsqueda de ejemplo

Podemos buscar en Entrez qué se sabe sobre el síndrome de Usher 1C.

Buscamos: Usher syndrome 1C.

Encontramos:
  • Pubmed: 22 artículos.
  • Pubmed Central: 255 artículos.
  • OMIM: 4 entradas.
  • Nucleotide: 1138 secuencias.
  • Protein: 76 secuencias.

Si vamos al Link_OMIM vemos que hay 2 entradas otras enfermedades, una para el síndrome y otra para el gen responsable.

El carácter está localizado en la región cromosómica 11p15.1.

Desde la pagina del gen de la base de datos OMIME, podemos ebtener informacion sobre el gen en la DB Gene del ncbi:
  • El gen (Link_Gene).
    • Las secuencias de la Ref seq relacionadas.
    • Podermos ver las publicaciones mas relevantes del gen

Tambien podemos seleccionar las que corresponden a RefSeq (4 sequencias). Entre estas se encuentran dos variantes del mRNA humano (human_b3 y human_1). En los links de las secuencias volvemos a tener la opción de buscar en otras bases de datos de Genes (Gene), Genes homólogos (HomoloGene), bibliografía gratuita (PMC), bibliografía (PubMed), secuencias relacionadas (Related Sequences), etc.

Formatos de secuencia

Las secuencias de nucleótidos y proteínas se pueden guardar en distintos formatos. Los más comunes utilizan algún tipo de fichero_de_texto.

Si sólo queremos guardar la secuencia se puede crear un fichero se texto y simplemente escribir la secuencia. Esto se conoce como secuencia en texto plano. El fichero sólo puede contener caracteres IUPAC para secuencia y espacios, los números no están permitidos.

ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCGCTGCCCTGCCCCTGGAGGGTAC
GGCCCCACCGGCCGAGACAGCGAGCATATGCAGGAAGCGGCAGGAATAAGGAAAAGCAGCCTCCTGACTTTCCTCGCTTGGT
AGTGGACCTCCCAGGCCAGTGCCGGGCCCCTCATAGGAGAGGAAGCTCGGGAGGTGGCCAGGCGGCAGGAAGGCGCACCCCC
ATCCGCGCGCCGGGACAGAATGCCCTGCAGGAACTTCTTCTGGAAGACCTTCTCCTCCTGCAAATAAAA

Secuencia en texto plano.

Este formato tiene algunas limitaciones, no puede haber más que una secuencia dentro del fichero y no puede incluirse el nombre de la secuencia dentro del fichero.

En el formato FASTA la secuencia comienza con un nombre y una descripción. Esta línea se distingue porque siempre comienza con el signo ‘>’. A continuación sigue la secuencia propiamente dicha con el formato en texto plano.

Pueden incluirse varias secuencias en un mismo fichero.

Es un formato muy utilizado.

>nombre_secuencia1 descripción
ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCGCTGCCCTGCC
CCTGGAGGGTGGCCCCACCGGCCGAGACAGCGAGCATATGCAGGAAGCGGCAGGAATAAGGAAAAGCAGC
CTCCTGACTTTCCTCGCTTGGTGGTTTGAGTGGACCTCCCAGGCCAGTGCCGGGCCCCTCATAGGAGAGG
AAGCTCGGGAGGTGGCCAGGCGGCAGGAAGGCGCACCCCCCCAGCAATCCGCGCGCCGGGACAGAATGCC
CTGCAGGAACTTCTTCTGGAAGACCTTCTCCTCCTGCAAATAAAACCTCACCCATGAATGCTCACGC
>nombre_secuencia2 descripción
ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCGCTGCCCTGCC
CCTGGAGGGTGGCCCCACCGGCCGAGACAGCGAGCATATGCAGGAAGCGGCAGGA

Secuencia en formato fasta.

El formato fastq se desarrolló para poder almacenar de un modo sencillo la secuencia junto a su calidad. Se utiliza sobre todo para guardar lecturas de secuenciadores de ADN. Se basa en ficheros de texto:

@seq_1
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
@seq_2
ATCGTAGTCTAGTCTATGCTAGTGCGATGCTAGTGCTAGTCGTATGCATGGCTATGTGTG
+
208DA8308AD8SF83FH0SD8F08APFIDJFN34JW830UDS8UFDSADPFIJ3N8DAA

En realidad este formato se inspiró en el fasta. Cada secuencia tiene 4 líneas. En la primera encontramos el nombre tras el símbolo “@” y, opcionalmente, la descripción. La segunda línea tiene la secuencia y la cuarta la calidad codificada como letras.

De este formato existen varias versiones: solexa, Illumina y Sanger, pero la más utilizada es Sanger.

SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS......................
..........................XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX......................
...............................IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII......................
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
|                         |    |        |                              |                     |
33                        59   64       73                            104                   126

S - Sanger        Phred+33,  raw reads typically (0, 40)
X - Solexa        Solexa+64, raw reads typically (-5, 40)
I - Illumina      Phred+64,  raw reads typically (0, 40)

Pero una secuencia puede tener más atributos además de la propia secuencia y su calidad asociada. Podemos querer incluir el nombre del investigador que la secuenció o un identificador para una base de datos. Los formatos más extendidos con estos atributos extras son el formato_embl y el formato_genbank. También hay formatos que contienen información sobre la calidad de las secuencias como FASTAQ.

Ejemplo de formato Genbank.

Existen otros muchos formatos de secuencia, pero estos son los más comunes. Hay varias utilidades para convertir secuencias de formato a otro, como por ejemplo Readseq.

Ontologías

Una ontología, en bioinformática, es un modo de estructurar el conocimiento.

Information Science: the hierarchical structuring of knowledge about things by subcategorizing them according to their essential (or at least relevant and/or cognitive) qualities.

En las bases de datos hay una gran cantidad de información, pero si no se organiza de forma estructurada es difícil tratarla de modo sistemático.

Supongamos que queremos buscar todos los genes implicados en el metabolismo de lípidos, ¿qué buscamos? lipid, lipid metabolism, fat degradation, etc...

Este problema se puede solucionar mediante un vocabulario controlado.

Existen varias ontologías relacionadas con la biología, pero la principal es la Gene Ontology (GO).

El proyecto pretende describir de un modo consistente los genes de distintas bases de datos.

GO se compone de tres ontologías dedicadas a los procesos biológicos, los componentes celulares y las funciones moleculares.

  • Molecular function: la función que cumple el producto de un gen. Ejemplos: transcription factor, DNA helicase.
  • Biological process: procesos, como “mitosis” o “metabolismo de purinas”.
  • Cellular component: estructuras subcelulares, localizaciones, complejos macromoleculares. Ejemplos: nucleo, telomero, origin recognition complex.

Un gen puede tener varios términos GO asociados en cada ontología.

Los términos GO facilitan las búsquedas en las bases de datos y las búsquedas sistemáticas.

Las onotolgías GO están estructuradas.

_images/go_structure.png

De http://www.geneontology.org/

Los genes se anotan a un nivel u otro dependiendo de lo que se sepa sobre ellos.

Una ontología se parece a un diccionario, pero se diferencia en un par de aspectos:

  • Los términos están definidos de forma exacta y no hay sinónimos.
  • Los términos están ordenados en una estructura jerárquica.

Cada término GO está asociado a un identificador único y una definición concreta.

_images/go_term.png

from http://www.geneontology.org/

Ir a la práctica del tema

| | index