Assembly¶
Práctica de ensamblaje¶
Cromatogramas¶
La información obtenida en los secuenciadores automáticos se guarda en ficheros binarios.
Estos ficheros suelen incluir, además del cromatograma procesado (trace), la secuencia de nucleótidos obtenida y la calidad asociada a la misma.
Los secuenciadores Sanger de Applied generan los datos en formato abi.
Estos ficheros abi se pueden leer con distintos programas: chromas, el Sequence Scanner (Win), FintchTV (Mac, PC, Linux) o el trev del paquete de análisis Staden (Mac, Pc, Linux).
El formato utilizado por el Staden para guardar los cromatogramas es el scf.
En el NCBI se pueden encontrar, por ejemplo en la sección EST, algunas secuencias que incluyen también el cromatograma original.
Análisis de cromatogramas con el Trev¶
Descargar los el fichero cromprimido de cromatogramas de ejemplo
.
Abrir los cromatogramas que habíamos descargado con el trev de uno en uno y comprobar su calidad. El trev denomina a la calidad confidence. Conviene pedir al trev que marque la calidad de la asignación de cada base (view -> display confidence).
Marcar las regiones de mala calidad del principio y el final de las secuencias (edit -> left quality, edit -> right quality).
Evaluar para cada un de ellos:
¿Tiene señal? ¿Se ven bandas o es todo ruido?
¿Dónde comienza la región de buena calidad? ¿Dónde termina?
¿Acaba la región de mala calidad de forma brusca?
Posible diagnóstico de los problemas.
¿Hay bases mal interpretadas por el basecaller?
¿Hay mucho ruido de fondo?
Guardar la secuencia obtenida en texto plano.
Análisis de cromatogramas automático con el pregap¶
El PreGap puede analizar automáticamente la calidad y otros aspectos de los cromatogramas determinando las regiones de buena y mala calidad.
Reanalizar con el PreGap los cromatogramas anteriores.
El PreGap generará para cada archivo abi original un archivo de texto con extensión exp. En este archivo exp incluirá la secuencia, la calidad y los puntos que delimitan las regiones de buena calidad y las regiones que se corresponden con vector.
Con el Trev abrir los ficheros analizados (.exp) y comparar los analisis manuales con el realizado por el PreGap.
Alineamiento manual¶
Usando el Openoffice draw realiza un alineamiento manual con estas lecturas
.
Las letras y colores identifican secuencias similares en esa región. Obtén los contigs, pero recuerda que pueden aparecer problemas con el repetitivo, vectores, splicing alternativo, etc.
Cuando lo tengas compara con este resultado
.
Ensamblaje de ESTs 1¶
Ahora vamos a realizar un proyecto de secuenciación a partir de varias lecturas generadas por Sanger.
Descargar los cromatogramas del fichero cromprimido secuencias1
.
Preanalizar las secuencias con el PreGap y utilizar los ficheros producidos para crear el proyecto con el Gap4.
¿Cuántas secuencias se han introducido en la base de datos?
¿Cuántos contigs se han producido?. ¿De cuantas lecturas?
Ejecutar el editor de contigs y comprobar el contig producido, comprobar las incongruencias en las secuencias viendo los cromatogramas.
Practicar con las diferentes opciones y análisis del programa Gap4
Salvar los consensos en ficheros separados y en un único fichero
Ensamblaje de ESTs 2¶
Ahora vamos a realizar un proyecto de secuenciación a partir de lecturas de ESTs. Descargar el fichero comprimido secuencias2
.
Una vez hayais obtenido los contigs con el Gap4:
Comprobar el número de contigs obtenido.
El número de secuencias por contigs
Buscar regiones similares en el interior del contig utilizando el análisis de Internal Join del Gap4.
¿Que sucede?.
Editar alguna de los regiones encontradas.
¿Por qué el Gap4 no junta esos contigs?.
Repetir todo el análisis pero ahora incluyendo las opciones de búsqueda de adaptadores y vector del PreGap4.
¿Cuantos contigs aparecen ahora?.
Comprueba si existen regiones similares internas y justifica su existencia
Control calidad ensamblaje¶
SGN ha secuenciado un borrador del genoma de Nicotiana benthamiana.
El método de secuenciación ha sido el siguiente: A partir del ADN genómico, se han creado tres librerias para Illumina HiSeq-2000:
una paired end con un tamaño de inserto de 500 pb aprox (4 líneas)
a mate-pair libreria con un tamaño de inserto de 2Kb (1 línea
a mate pair libreria con un tamaño de inserto de 5Kb (1 línea)
Se muestran las estadśiticas que corresponden a dos ensamblados distintos realizados con el SOAPdenovo.
¿Cuál de los dos corresponder a la v0.3 y v0.42 del ensamblaje?
¿Cuál prefieres?
Statistic |
Result |
---|---|
Sequence Count |
3,010,735 sequences |
Total Length |
2462490758 bp |
Longest sequence |
208210 bp |
Shortest sequence |
201 bp |
Average length |
5336.26 bp |
N95 length |
1564 bp |
N95 index |
215459 sequences |
N90 length |
3403 bp |
N90 index |
163811 sequences |
N75 length |
8068 bp |
N75 index |
96046 sequences |
N50 length |
16480 bp |
N50 index |
42984 sequences |
Statistic |
Result |
---|---|
Sequence Count |
461,463 sequences |
Total Length |
2899410662 bp |
Longest sequence |
103554 bp |
Shortest sequence |
201 bp |
Average length |
963.02 bp |
N95 length |
233 bp |
N95 index |
2338365 sequences |
N90 length |
274 bp |
N90 index |
1763126 sequences |
N75 length |
619 bp |
N75 index |
606395 sequences |
N50 length |
4140 bp |
N50 index |
156329 sequences |
Comparación de ensamblajes¶
Se han utilizado varios ensambladores para ensamblar el cloroplasto de N. benthamiana (100Kb aprox).
Se utilizaron 883811 Illumina pair-ends de un tamaño de 101pb y un tamaño de inserto de 400bp (cobertura 1700X). El SOAPdenovo se utilizó con todas las secuencias y con solo un subconjunto de estas.
Los resultados del experimento realizado por el Dr Aureliano Bombarely fueron:
Assembler |
Total Scaffold Size (Kb) |
Number Scaffolds |
Scaffold Max. Len (b) |
Scaffold N50 |
Total Contig Size (Kb) |
Number Contigs |
Contig Max. Length (b) |
Contigs N50 |
Running Time (min) |
---|---|---|---|---|---|---|---|---|---|
SOAP K63 cov >255 |
1019 |
7712 |
1,395 |
127 |
1024 |
7790 |
547 |
127 |
4.75 |
SOAP K63 subset |
134 |
20 |
110,468 |
110,468 |
133 |
40 |
35,718 |
13,627 |
0.5 |
SOAP K63 subset + GapCloser |
133 |
20 |
109,638 |
18,725 |
1 |
||||
ABySS |
170 |
25 |
61,293 |
37,547 |
170 |
28 |
57,534 |
37,547 |
20 |
Velvet |
255 |
1138 |
2,445 |
215 |
2 |
||||
Ray |
1327 |
10418 |
45,896 |
116 |
1325 |
10423 |
45,896 |
116 |
20 |
¿ Qué ensamblador utilizarías?