Bioinformatics at COMAV

Anotación automática, Blast2GO

Hemos visto en temas anteriores que la secuencia sin analizar no nos aporta ninguna información; por lo que es necesario extraer ésta a partir de la secuencia. En el curso hemos visto diferentes programas que podemos utilizar, pero que no son muy útiles cuando tenemos miles de secuencias para anotar. Existen programas especificos para identificar y extraer información, por ejemplo para alinear cDNAs con ADN genómico podemos utilizar el Blast , est2genome o otros pensados para grandes proyectos como Tophat o GMAP. Pero todos estos programas necesitan de un procesado de datos posterior que nos permita integrar los resultado en un fichero de anotación y ponerlo en el formato adecuado para posteriores análisis. Esto es un proceso complejo que necesita cierto dominio en informática y bioinformática. En esta práctica vamos a usar un programa gráfico que está diseñado para la anotación funcional, podemos utilizarlo para anotar funcionalmente cDNA, ESTs o CDS o proteínas predichas a partir de datos genómicos. El programa que utilizaremos es el Blast2GO, que está diseñado especialmente para anotar usando los términos GO. Pero además este programa nos puede ser muy ítil al facilitar el manejo y la búsqueda de información de nuestras secuencias.

Tenemos que descargar el programa desde la página web del programa. El blast2go tiene una licencia dual, con una versión básica que ofrece los analisis más básicos y una versión Pro de pago con la que tendremos más opciones. Para poder usar cualquiera de los dos modos tendremos que tener una licencia de activacion por lo que tendremos que solicitarla.

En un uso habitual de blast2go realizariamos los siguientes pasos:

  • Hacer un blast contra lse de datos nr.
  • Mappear los hits del blast con sus anotaciones correspondientes. Para ello utiliza el identificador de la genbank del hit para buscar las annotaciones en varias Bases de datos, tanto de la NCBI como del pIR y la gene ontology.
  • Annotacion: transferir la anotación de los hits a nuestra secuencia. Evalua cada Go de los hits con un score AR.(Annotation Rule). Compuesto por un apartado que tiene en cuenta la similaridad y la validez de la evidencia y otro apartado que tiene en cuenta el grafo de GOs y el numero de paders/hijos.
  • Realizar un analisis de interproscan y unir las anotaciones a las que ya tenemos.
  • Generar las graficas que más informacion nos aporten.

Vamos a realizar este ejercicio de forma guiada.

Los pasos que vamos a realizar son:

  • Cargar la las secuencias de ejemplo y dejar marcada solo la primera.
  • Realizar el Blast contra la nr, poner el corte del e-value a 10e-5.
  • Buscar los términos GO asociados a los hits del Blast (mapping).
  • Seleccionar únicamente aquellos GO que tengan suficiente apoyo estadístico y ya tendremos la anotación (annotation).
  • Ampliar usando InterProScan, para comparar contra bases de dominos.
  • Ampliar buscando en la base de metabólica KEGG ó utilizando ANNEX.

Anotación de unigenes obtenidos a partir de un proyecto de secuenciación

Vamos a simular con un número pequeño de secuencias (para acortar los tiempos del Blast, etc) la anotación de un proyecto de secuenciación del transcriptoma. Descargar el fichero con las secuencias y guardarlo en un directorio.

Anotar el conjunto de secuencias con el Blast2GO.

Estadísticas y análisis de la anotación

El Blast2GO también realiza estadísticas que nos permiten por un lado valorar la anotación realizada y por otro, extraer información funcional. Puede realizar desde los típicos circulos de porcentajes de términos GO presentes en un grupo de secuencias, a comparaciones de dos grupos de secuencias para identificar términos sobrepresentados. Para practicar usaremos un proyecto ya anotado con más secuencias.

Descargar el fichero comprimido y descomprimirlo.

Cargar el proyecto en el Blast2GO y obtener las estadísticas disponibles como:

  • una representación circular del porcentaje de aparición de cada término GO a nivel 6 de la categoria funcional
  • una red con los términos que aparecen en 2 o más secuencias.

Información adicional

Existen anotaciones disponibles ya realizadas de diferentes especies y plataformas de microarray, disponibles en la pagina web del Blast2go_Far. Descargar una anotación y practicar las diferentes estadísticas con datos reales, es recomendable ejecutar el Blast2G0 con 1 o 2 Gb de memoria.

Ir a la teoría del tema

| | index