Práctica de ensamblaje

Cromatogramas

La información obtenida en los secuenciadores automáticos se guarda en ficheros binarios.

Estos ficheros suelen incluir, además del cromatograma procesado (trace), la secuencia de nucleótidos obtenida y la calidad asociada a la misma.

Los secuenciadores Sanger de Applied generan los datos en formato abi.

Estos ficheros abi se pueden leer con distintos programas: chromas, el Sequence Scanner (Win), FintchTV (Mac, PC, Linux) o el trev del paquete de análisis Staden (Mac, Pc, Linux).

El formato utilizado por el Staden para guardar los cromatogramas es el scf.

En el NCBI_ se pueden encontrar, por ejemplo en la sección EST, algunas secuencias que incluyen también el cromatograma original.

Análisis de cromatogramas con el Trev

Descargar los el fichero cromprimido de cromatogramas de ejemplo.

Abrir los cromatogramas que habíamos descargado con el trev de uno en uno y comprobar su calidad. El trev denomina a la calidad confidence. Conviene pedir al trev que marque la calidad de la asignación de cada base (view -> display confidence).

Marcar las regiones de mala calidad del principio y el final de las secuencias (edit -> left quality, edit -> right quality).

Evaluar para cada un de ellos:

  • ¿Tiene señal? ¿Se ven bandas o es todo ruido?

  • ¿Dónde comienza la región de buena calidad? ¿Dónde termina?

  • ¿Acaba la región de mala calidad de forma brusca?

  • Posible diagnóstico de los problemas.

  • ¿Hay bases mal interpretadas por el basecaller?

  • ¿Hay mucho ruido de fondo?

  • Guardar la secuencia obtenida en texto plano.

Análisis de cromatogramas automático con el pregap

El PreGap puede analizar automáticamente la calidad y otros aspectos de los cromatogramas determinando las regiones de buena y mala calidad.

Reanalizar con el PreGap los cromatogramas anteriores.

El PreGap generará para cada archivo abi original un archivo de texto con extensión exp. En este archivo exp incluirá la secuencia, la calidad y los puntos que delimitan las regiones de buena calidad y las regiones que se corresponden con vector.

Con el Trev abrir los ficheros analizados (.exp) y comparar los analisis manuales con el realizado por el PreGap.

Alineamiento manual

Usando el Openoffice draw realiza un alineamiento manual con estas lecturas. Las letras y colores identifican secuencias similares en esa región. Obtén los contigs, pero recuerda que pueden aparecer problemas con el repetitivo, vectores, splicing alternativo, etc.

Cuando lo tengas compara con este resultado.

Ensamblaje de ESTs 1

Ahora vamos a realizar un proyecto de secuenciación a partir de varias lecturas generadas por Sanger.

Descargar los cromatogramas del fichero cromprimido secuencias1.

Preanalizar las secuencias con el PreGap y utilizar los ficheros producidos para crear el proyecto con el Gap4.

¿Cuántas secuencias se han introducido en la base de datos?

¿Cuántos contigs se han producido?. ¿De cuantas lecturas?

Ejecutar el editor de contigs y comprobar el contig producido, comprobar las incongruencias en las secuencias viendo los cromatogramas.

Practicar con las diferentes opciones y análisis del programa Gap4

Salvar los consensos en ficheros separados y en un único fichero

Ensamblaje de ESTs 2

Ahora vamos a realizar un proyecto de secuenciación a partir de lecturas de ESTs. Descargar el fichero comprimido secuencias2.

Una vez hayais obtenido los contigs con el Gap4:

  • Comprobar el número de contigs obtenido.

  • El número de secuencias por contigs

  • Buscar regiones similares en el interior del contig utilizando el análisis de Internal Join del Gap4.

  • ¿Que sucede?.

Editar alguna de los regiones encontradas.

  • ¿Por qué el Gap4 no junta esos contigs?.

Repetir todo el análisis pero ahora incluyendo las opciones de búsqueda de adaptadores y vector del PreGap4.

  • ¿Cuantos contigs aparecen ahora?.

  • Comprueba si existen regiones similares internas y justifica su existencia

Control calidad ensamblaje

SGN ha secuenciado un borrador del genoma de Nicotiana benthamiana.

El método de secuenciación ha sido el siguiente: A partir del ADN genómico, se han creado tres librerias para Illumina HiSeq-2000:

  • una paired end con un tamaño de inserto de 500 pb aprox (4 líneas)
  • a mate-pair libreria con un tamaño de inserto de 2Kb (1 línea
  • a mate pair libreria con un tamaño de inserto de 5Kb (1 línea)

Se muestran las estadśiticas que corresponden a dos ensamblados distintos realizados con el SOAPdenovo.

¿Cuál de los dos corresponder a la v0.3 y v0.42 del ensamblaje?

¿Cuál prefieres?

Statistic Result
Sequence Count 3,010,735 sequences
Total Length 2462490758 bp
Longest sequence 208210 bp
Shortest sequence 201 bp
Average length 5336.26 bp
N95 length 1564 bp
N95 index 215459 sequences
N90 length 3403 bp
N90 index 163811 sequences
N75 length 8068 bp
N75 index 96046 sequences
N50 length 16480 bp
N50 index 42984 sequences
Statistic Result
Sequence Count 461,463 sequences
Total Length 2899410662 bp
Longest sequence 103554 bp
Shortest sequence 201 bp
Average length 963.02 bp
N95 length 233 bp
N95 index 2338365 sequences
N90 length 274 bp
N90 index 1763126 sequences
N75 length 619 bp
N75 index 606395 sequences
N50 length 4140 bp
N50 index 156329 sequences

Comparación de ensamblajes

Se han utilizado varios ensambladores para ensamblar el cloroplasto de N. benthamiana (100Kb aprox).

Se utilizaron 883811 Illumina pair-ends de un tamaño de 101pb y un tamaño de inserto de 400bp (cobertura 1700X). El SOAPdenovo se utilizó con todas las secuencias y con solo un subconjunto de estas.

Los resultados del experimento realizado por el Dr Aureliano Bombarely fueron:

Assembler Total Scaffold Size (Kb) Number Scaffolds Scaffold Max. Len (b) Scaffold N50 Total Contig Size (Kb) Number Contigs Contig Max. Length (b) Contigs N50 Running Time (min)
SOAP K63 cov >255 1019 7712 1,395 127 1024 7790 547 127 4.75
SOAP K63 subset 134 20 110,468 110,468 133 40 35,718 13,627 0.5
SOAP K63 subset + GapCloser - - - - 133 20 109,638 18,725 1
ABySS 170 25 61,293 37,547 170 28 57,534 37,547 20
Velvet - - - - 255 1138 2,445 215 2
Ray 1327 10418 45,896 116 1325 10423 45,896 116 20

¿ Qué ensamblador utilizarías?