Secuenciación del ADN para niños
La secuenciación del ADN es un conjunto de métodos y técnicas bioquímicas cuya finalidad es la determinación del orden de los nucleótidos (A, C, G y T) en un oligonucleótido de ADN. La secuencia de ADN constituye la información genética heredable que forman la base de los programas de desarrollo de los seres vivos (de procariotas, de eucariotas en el núcleo celular, y en los plásmidos, en la mitocondria y en cloroplastos de las plantas). Así pues, determinar la secuencia de ADN es útil en el estudio de la investigación básica de los procesos biológicos fundamentales, así como en campos aplicados, como la investigación forense. Además, se puede utilizar la secuenciación del ADN para conocer las mutaciones somáticas, como las sustituciones de bases, generadas entre distintos organismos. Es por esto que la secuenciación del ADN es una técnica bastante popular en el ámbito del diagnóstico o cribado de enfermedades a nivel molecular. Este método es usado para detectar posibles aneuploidías bien mediante un test prenatal no invasivo (NIPT) para fetos humanos (en el que se toma una muestra de sangre de la madre que contiene las células fetales), o bien haciendo uso de la secuenciación "next generation" para personas adultas; también, se aplica la secuenciación Sanger o la pirosecuenciación para el estudio de enfermedades monogénicas cuyos alelos responsables son desconocidos.
El desarrollo de la secuenciación del ADN ha acelerado significativamente la i.ar esta secuenciación a gran velocidad, lo cual ha sido de gran importancia para proyectos de secuenciación a gran escala como el Proyecto Genoma Humano. Otros proyectos relacionados, en ocasiones fruto de la colaboración investigadora a escala mundial, han establecido la secuencia completa de ADN de muchos genomas de animales, plantas y microorganismos. A pesar de las distintas técnicas que permiten secuenciar el ADN, no siempre se puede llegar a conocer el genoma completo de los organismos. Esto puede llevar a errores en la reconstrucción de los linajes y en la estimación del tipo de mutaciones y del número de mitosis generadas.
Contenido
- Inicios
- Secuenciación de Maxam-Gilbert
- Métodos de terminación de la cadena
- Pirosecuenciación
- Automatización y preparación de las muestras
- Estrategias de secuenciación a gran escala
- Nuevos métodos de secuenciación
- Principales hitos en la secuenciación del ADN
- Evaluación de la calidad del ADN
- Véase también
Inicios
Durante treinta años la mayor parte de la secuenciación de ADN se llevó a cabo con el método de terminación de la cadena desarrollado por Frederick Sanger y colaboradores, en 1975. Antes del desarrollo de métodos rápidos de secuenciación del ADN a principios de los 70 por Sanger en Inglaterra y Walter Gilbert y Allan Maxam en Harvard, se utilizaban varios métodos de laboratorio. Por ejemplo, en 1973 Gilbert y Maxam publicaron una secuencia de 24 pares de bases utilizando un método conocido como "de punto corrido" (wandering spot).
La secuenciación del ARN, que por razones técnicas es más sencilla de llevar a cabo que la del ADN, se desarrolló con anterioridad a la del ADN. El mayor hito en la secuenciación del ARN, que data de la era previa al ADN recombinante, es la secuencia del primer gen completo y del genoma completo del Bacteriófago MS2, identificado y publicado por Walter Fiers y colaboradores de la Universidad de Gante.
Secuenciación de Maxam-Gilbert
En 1976-1977, Allan Maxam y Walter Gilbert desarrollaron un método para secuenciar ADN basado en la modificación química del ADN y posterior escisión en bases específicas Aunque Maxam y Gilbert publicaron su secuenciación química dos años después del trascendental artículo de Sanger y Coulson sobre su método de secuenciación "más-menos", la secuenciación de Maxam y Gilbert rápidamente se hizo más popular hasta que se pudo utilizar ADN directamente, mientras que el método inicial de Sanger requería que cada comienzo de lectura fuera clonado para producir un ADN de cadena simple. No obstante, con el desarrollo y mejora del método de terminación de la cadena (ver más adelante), la secuenciación de Maxam y Gilbert ha quedado en desuso debido a su complejidad técnica, el uso extensivo de productos químicos peligrosos y dificultades para escalarla. Además, a diferencia del método de terminación de la cadena, los reactivos que se usan en el método de Maxam y Gilbert no se pueden adaptar para utilizarse en un kit biológico estándar.
En resumen, el método requiere marcaje radiactivo en uno de los extremos y la purificación del fragmento de ADN que se desea secuenciar. El tratamiento químico genera rupturas en una pequeña proporción de uno o dos de los cuatro nucleótidos en cada una de las cuatro reacciones (A, A+G, C, C+T). Los agentes químicos utilizados en cada caso son: dimetilsulfato, o DMS (A+G), ácido fórmico (A), hidrazina (C+T) e hidrazina más sales (C).De ese modo se genera una serie de fragmentos marcados a partir del final marcado radiactivamente hasta el primer lugar de "corte" en cada molécula.
Los fragmentos posteriormente se separan por tamaño mediante electroforesis en gel, separando los productos de las cuatro reacciones en cuatro carreras distintas, pero una al lado de la otra. El gel utilizado presenta condiciones desnaturalizantes, y un contenido en poliacrilamida que varía entre un 6 y un 20 %. Para visualizar los fragmentos generados en cada reacción, se hace una autoradiografía del mismo, lo que proporciona una imagen de una serie de bandas oscuras correspondientes a los fragmentos marcados con el radioisótopo, a partir de las cuales se puede inferir la secuencia.
Conocido en ocasiones como "secuenciación química", este método se originó en el estudio de las interacciones entre ADN y proteínas (huella genética), estructura de los ácidos nucleicos y modificaciones epigenéticas del ADN, y es en estos campos donde aún tiene aplicaciones importantes.
Métodos de terminación de la cadena
Mientras que el método de secuenciación química de Maxam y Gilbert y el método más-menos de Sanger y Coulson eran órdenes de magnitud más rápidos que los métodos previos, el método de terminación de la cadena desarrollado por Sanger era incluso más eficiente y rápidamente se convirtió en el método de elección. La Técnica de Maxam-Gilbert requiere el uso de productos químicos altamente tóxicos y grandes cantidades de ADN marcado radiactivamente, mientras que el método de terminación de la cadena utiliza pocos reactivos tóxicos y cantidades menores de radiactividad. El principio clave del método de Sanger es el uso de didesoxinucleótidos trifosfato (ddNTPs) como terminadores de la cadena de ADN.
El método clásico de terminación de la cadena o método de Sanger necesita una hebra molde de ADN de cadena sencilla, un cebador de ADN, una ADN polimerasa con nucleótidos marcados radiactivamente o mediante fluorescencia y nucleótidos modificados que terminan la elongación de la cadena de ADN. La muestra de ADN se divide en cuatro reacciones de secuenciación separadas que contienen los cuatro desoxinucleótidos estándar (dATP, dGTP, dCTP and dTTP) y una ADN polimerasa. En cada reacción se añade solo uno de los cuatro didesoxinucleótidos (ddATP, ddGTP, ddCTP, o ddTTP). Estos didesoxinucleótidos terminan la elongación de la cadena al carecer un grupo 3'-OH que se necesita para la formación del enlace fosfodiéster entre dos nucleótidos durante la elongación de la cadena de ADN. La incorporación de un didesoxinucleótido en la cadena naciente de ADN termina su extensión, lo que produce varios fragmentos de ADN de longitud variable. Los didesoxinucleótidos se añaden a concentraciones lo suficientemente bajas como para que produzcan todas las posibilidades de fragmentos y al mismo tiempo sean suficientes para realizar la secuenciación.
Los fragmentos de ADN sintetizados y marcados de nuevo son desnaturalizados por calor y separados por tamaño (con una resolución de un solo nucleótido) mediante electroforesis en gel de poliacrilamida - urea. Cada una de las cuatro reacciones de síntesis se corre en carriles individuales (Carril A, T, G y C) y se visualizan las bandas de ADN mediante autoradiografía o luz ultravioleta, y la secuencia de ADN se puede leer directamente a partir de la placa de rayos X o de la imagen del gel. En la imagen de la derecha, la película de rayos-X se expuso directamente al gel de modo que las bandas oscuras corresponden a los fragmentos de ADN de diferentes longitudes. Una banda oscura en un carril indica un fragmento de ADN que es el resultado de una terminación de la cadena tras la incorporación de un didesoxinucleótido (ddATP, ddGTP, ddCTP, or ddTTP). El nucleótido terminal puede ser identificado de acuerdo al didesoxinucleótido que se añadió en la reacción que dio lugar a esa banda. Las posiciones relativas entre las cuatro calles se utilizan entonces para leer (de abajo arriba) la secuencia de ADN como se indica.
Existen algunas variaciones técnicas del método de secuenciación de terminación de la cadena. En un método, los fragmentos de ADN son marcados con nucleótidos marcados con fósforo radiactivo. Como alternativa se puede utilizar un cebador marcado en el extremo 5' mediante un colorante fluorescente.
Se siguen necesitando cuatro reacciones, pero los fragmentos de ADN marcados con colorantes se pueden leer utilizando un sistema óptico, lo que facilita un análisis más rápido y económico y su automatización. Esta variante se conoce como "secuenciación mediante colorantes acoplados al cebador" (dye-primer sequencing). El último avance de L Hood y colaboradores desarrollando ddNTPs y cebadores con marcaje fluorescente señala el marco para una secuenciación de ADN automatizada y de alto rendimiento.
Los diferentes métodos de terminación de la cadena han simplificado en gran medida la cantidad de trabajo y planificación necesaria para la secuenciación de ADN. Por ejemplo, el kit "Sequenase" de la casa USB Biochemicals, basado en el método de terminación de la cadena contiene la mayoría de los reactivos necesarios para la secuenciación, pre-divididos en alícuotas y listos para usar. Se pueden dar algunos problemas de secuenciación con el método de Sanger, como uniones no específicas del cebador al ADN, que afectan a la correcta interpretación de la secuencia de ADN. Además también puede afectar a la fidelidad de la secuencia obtenida estructuras secundarias internas de la cadena de ADN molde o ARN que pueda actuar de cebador al azar. Otros contaminantes que pueden afectar a la reacción son el ADN exógeno o inhibidores de la ADN polimerasa.
Secuenciación por terminador fluorescente
Una alternativa al marcado del cebador es el marcado de los terminadores de la cadena, un método conocido como "secuenciación por terminador fluorescente". La mayor ventaja de este método es que la secuenciación se puede llevar a cabo en una sola reacción, en lugar de en cuatro reacciones como en el método del cebador marcado. En una secuenciación por terminador fluorescente se marcan cada uno de los cuatro didesoxinucleótidos que terminan la cadena con un colorante fluorescente diferente, con fluorescencias a diferentes longitudes de onda. Este método es atractivo por su gran capacidad y rapidez y actualmente es el método de referencia en la secuenciación automatizada con analizadores de secuencia controlados por computadora (ver más abajo). Entre sus limitaciones potenciales están los efectos de los terminadores fluorescentes en el fragmento de ADN, que produce alturas y formas de picos desiguales en los registros de secuencia de ADN del cromatograma tras la electroforesis capilar (ver ilustración de la derecha) Este problema se ha solventado en gran medida con la introducción de nuevos sistemas enzimáticos de polimerasas de ADN y colorantes que minimizan la variabilidad de la incorporación, así como métodos para eliminar los "pegotes de colorante" producidos por ciertas características químicas de los colorantes que pueden dar lugar a artefactos en los registros de secuencia de ADN. El método de secuenciado por terminador fluorescente junto con analizadores de secuencia de ADN de alto rendimiento se utiliza ahora para la inmensa mayoría de los proyectos de secuenciación, puesto que es más fácil de llevar a cabo y tiene un coste menor que los anteriores métodos de secuenciación.
Secuenciación alelo-específica por bisulfito
La secuenciación por bisulfito es una variante de la secuenciación Sanger utilizada para el mapeo de metilaciones alelo-específicas en los sitios CpG.
Metodología:
Se extrae el ADN y se divide en dos fracciones que serán tratadas de manera diferente (fracciones A y B). A continuación, la fracción A se amplifica por PCR y se secuencia. Mientras que la fracción B se desnaturaliza y se incuba en presencia de bisulfito entre 15 y 20 horas. Dicho compuesto actúa desaminando las citosinas no metiladas del ADN convirtiéndolas en uracilo. Sin embargo, es incapaz de actuar sobre aquellas que se encuentren metiladas.
El siguiente paso consiste en la amplificación de la fracción B y su posterior secuenciación. Finalmente, se comparan ambas secuencias: aquellas citosinas que no estuviesen metiladas aparecerán como timinas en la fracción B, pero permanecerán como citosinas en la fracción A. De este modo podremos detectar todas las variaciones de citosina a timina en la fracción B. Estas variaciones nos indican que en la cadena de ADN original, la citosina no estaba metilada.
La secuenciación alelo-específica por bisulfito presenta algunas limitaciones, entre las cuales se encuentran las siguientes:
- Conversión incompleta: la secuenciación mediante bisulfito depende de la conversión de cada uno de los residuos de citosina no metilados a uracilo. Si la conversión es incompleta, los posteriores análisis que se realicen interpretarán incorrectamente las citosinas no metiladas no convertidas en uracilo como citosinas metiladas, dando lugar a falsos positivos para la metilación.Sólo las citosinas que se encuentren en cadenas simples de ADN serán susceptibles de ser atacadas por bisulfito por lo que el paso de desnaturalización del ADN es crítico en este análisis.Es importante por tanto optimizar parámetros como la temperatura y la concentración de sales para mantener el ADN desnaturalizado y así permitir una conversión completa por bisulfito. Por otra parte también se ha propuesto que embebiendo el ADN en gel de agarosa se incrementa el grado de separación debido a que se mantienen las cadenas separadas.
- Degradación del ADN durante el tratamiento con bisulfito: es una de las limitaciones más importantes de este método y tiene lugar paralelamente a la conversión. Para que se produzca una total conversión son necesarias una serie de condiciones tales como largos tiempos de incubación, temperatura elevada y altas concentraciones de bisulfito. Estas condiciones en su conjunto pueden promover la degradación del ADN en una proporción elevada. Esto puede suponer un grave problema si se parte de muestras con una baja concentración de ADN o de muestras tomadas post mortem, además dicha degradación dará lugar a pequeñas roturas al azar a lo largo de la cadena de ADN lo que puede dar lugar a errores durante la amplificación por PCR.
- Desulfonación incompleta de los residuos de pirimidina: una inadecuada alcalinización de la solución puede tener como consecuencia una incompleta desulfonación de los residuos de pirimidina, lo cual a su vez puede afectar negativamente a las polimerasas de ADN, las cuales serán incapaces de replicar la cadena molde.Esta situación se puede evitar monitorizando el pH de la solución asegurando así que se produzca una desulfonación completa.
Pirosecuenciación
La pirosecuenciación es un método de secuenciación de ADN en tiempo real basado en la liberación de los pirofosfatos (PPi) que tiene lugar en la reacción de polimerización del ADN a partir de sus dNTPs. Inicialmente, esta metodología se empleaba para monitorizar de forma continua la actividad de la ADN-polimerasa. Frente a otras técnicas de secuenciación, esta variante no requiere correr en un gel los fragmentos de ADN generados en la reacción de polimerización, ni marcadores fluorescentes o ddNTPs (dideoxinucleótidos). Este método requiere de la preparación de una molécula monocatenaria de ADN a la cual se híbrida un pequeño cebador. Igualmente, la pirosecuenciación requiere de los 4 dNTPs, la polimerasa de ADN, así como tres enzimas: sulfurilasa (y el sustrato adenosina 5'- fosfosulfato o APS), luciferasa (y el sustrato luciferina) y apirasa. A medida que la reacción transcurra, se irá sintetizando la cadena complementaria y obteniendo una serie de picos de señal en el pirograma que nos permitirán determinar la secuencia. El proceso ocurre en ciclos sucesivos de tres pasos:
En el primero de ellos, se añade al medio de reacción uno de los 4 dNTPs el cual, si es el complementario a la base de la hebra molde que toca copiar, será procesado en la reacción de polimerización e incorporado a la cadena en extensión por la ADN-polimerasa, liberando un PPi.
Dicho PPi es posteriormente convertido a ATP al reaccionar con una molécula de adenosina 5’-fosfosulfato por medio de la ATP-sulforilasa.
Finalmente, tiene lugar la emisión de luz como consecuencia de la oxidación de la luciferina a oxiluciferina catalizada por la luciferasa de luciérnaga, consumiendo el ATP generado en la reacción anterior.
Si el dNTP que ha sido añadido al medio de reacción no es el complementario al que ocupa la posición que toca copiar, este es degradado por una enzima llamada apirasa antes de que se añada el siguiente dNTP. Esto último permite eliminar el exceso de dNTP, ya que de no ser este complementario y permanecer en el medio, al añadir posteriormente la base complementaria a la cadena en extensión, no sería posible discenir si la emisión de luz detectada se debe a la incorporación de uno u otro nucleótido.
El número medio de fotones emitidos por cadena molde es proporcional al número de nucleótidos incorporados a la cadena, siendo esta relación lineal únicamente para un número bajo de incorporaciones. La luminiscencia emitida es captada por una cámara acoplada a un sistema de cargas, el cual representa la señal en forma de pico en el pirograma.
La adición de uno o varios nucleótidos resulta en una reacción que genera una señal verde y es grabada por la cámara CCD. La fuerza de esta señal es proporcional al número de nucleótidos como, por ejemplo, las bandas de homopolímeros.
Así se ve que la información de la secuencia se representa en el pirograma en la que la altura de los picos refleja la cantidad de nucleótidos incorporada: picos de mayor altura indicarán que se ha incorporado el mismo nucleótido varias veces, esto es, que en la cadena de ADN dicho nucleótido se encuentra varias veces repetido de manera seguida. En muchas ocasiones encontramos picos de distintos colores en el pirograma, correspondiéndose cada uno al tipo de nucleótido que ese pico representa, gracias a la automatización de esta técnica.
La pirosecuenciación es un método que presenta varias ventajas con respecto a otras formas de secuenciación del ADN: no necesita de muchos aparatos (al ser la emisión de luz dependiente de la reacción de polimerización, ambos procesos ocurren en un mismo tubo), es capaz de leer fragmentos más cortos y es muy eficaz para detectar mutaciones puntuales (SNPs) debido a que ha sido diseñada para la lectura de fragmentos pequeños de ADN. Además, puede servir de utilidad para secuenciar pequeños clones de inusuales regiones genéticas. En cambio, analizar un gen completo haciendo uso de la pirosecuenciación requiere de una mayor inversión económica.
Algunos de los primeros usos clínicos de este método fue para el estudio de enfermedades infecciosas, y para la elección de donantes en trasplantes de médula ósea mediante la tipificación del HLA.
Automatización y preparación de las muestras
Los instrumentos modernos automáticos de secuenciación del ADN (secuenciadores de ADN) pueden secuenciar más de 384 muestras marcadas por fluoresciencia de una sola vez y llevar a cabo 24 ciclos de secuenciación al día. No obstante, los secuenciadores automáticos de ADN llevan a cabo solamente separación del ADN basada en el tamaño (por electroforesis capilar), detección y registro de la coloración fluorescente, y los datos resultantes se dan como cromatogramas que registran los picos de fluorescencia. Se efectúan por separado las reacciones de secuenciación mediante un termociclador, lavado y resuspensión en una solución tamponada antes de pasar las muestras al secuenciador. En el pasado los operadores tenían que arreglar los extremos terminales de baja calidad (ver imagen de la derecha) de cada secuencia manualmente para eliminar los errores de secuenciación. Sin embargo, hoy se puede realizar mediante software como "Fast Chromatogram Viewer" el arreglo automático de los extremos terminales en grandes cantidades.
Estrategias de secuenciación a gran escala
Los procedimientos actuales solo pueden secuenciar directamente fragmentos relativamente cortos (de entre 300-1000 nucleótidos de longitud) en una sola reacción. El principal obstáculo para secuenciar fragmentos de ADN de una longitud superior a este límite es la capacidad insuficiente de separación para resolver grandes fragmentos de ADN cuyo tamaño difiere en un solo nucleótido. En cambio, las limitaciones impuestas por la incorporación de ddNTPs fueron resueltas en gran medida por Tabor, de la Harvard Medical, Carl Fueller, de USB biochemicals, y colaboradores.
La secuenciación a gran escala persigue la secuenciación de fragmentos muy grandes de ADN. Incluso los genomas bacterianos relativamente pequeños constan de miles de nucleótidos y sólo el Cromosoma 1 humano consta de 246 millones de bases. Así pues, algunos enfoques abordan el problema cortando (con enzimas de restricción) o cizallando (mediante fuerzas mecánicas) fragmentos grandes para obtener otros más pequeños. El ADN fragmentado se clona en un Vector de ADN, normalmente un cromosoma artificial bacteriano (BAC) y amplificado en Escherichia coli. El ADN amplificado se puede purificar entonces a partir de las células bacterianas (Una desventaja de los clones bacterianos para el secuenciado es que algunas secuencias de ADN pueden ser inherentemente inclonables en todas las líneas bacterianas disponibles debido al efecto deletéreo de la secuencia clonada en la bacteria hospedadora u otros efectos). Estos fragmentos cortos de ADN purificados a partir de colonias bacterianas individuales se secuencian completamente y se ensamblan computacionalmente en una secuencia larga y contigua identificando las secuencias que se solapan entre ellas (por secuenciación por fuerza bruta o "shotgun"). Este método no requiere información preexistente sobre la secuencia de ADN y a menudo se la conoce como secuenciación de novo. Los intervalos entre las secuencias ensambladas se pueden rellenar mediante paseos de cebadores, a menudo mediante pasos de sub-clonado (o secuenciación a base de transposones dependiendo del tamaño del resto de región que quede por secuenciar). Todas estas estrategias implican efectuar muchas lecturas menores del ADN por alguno de los métodos anteriores y posteriormente ensamblarlos en secuencias contiguas. Las diferentes estrategias tienen diferentes inconvenientes en cuanto a velocidad y exactitud. El método de secuenciación por fuerza bruta es el más práctico para secuenciar genomas grandes, pero su proceso de ensamblaje es complejo y potencialmente proclive al error -en particular en presencia de repetición de secuencias. Debido a esto, el ensamblaje del genoma humano no está literalmente completo — las secuencias repetitivas de los centrómeros, telómeros y otras partes del cromosoma quedan como huecos en el ensamblaje del genoma. A pesar de contar con solo el 93 % del genoma ensamblado, el Proyecto Genoma Humano se declaró completado porque la definición de secuencia del genoma humano se limitó a la secuencia eucromática (completa al 99 % en aquel momento), para excluir esas regiones repetitivas intratables.
El genoma humano tiene una longitud de unos 3000 millones de pares de bases; si la longitud media de cada fragmento es de 500 bases, llevaría un mínimo de seis millones de fragmentos secuenciar el genoma humano (sin tener en cuenta el solapamiento, es decir si fuera posible hacerlo de una sola vez). Mantener el control de un número tan elevado de secuencias presenta desafíos significativos que sólo se pueden abordar mediante el desarrollo y la coordinación de varios algoritmos de procedimiento y computación, tales como el desarrollo y mantenimiento eficientes de bases de datos.
Se utiliza la Resecuenciación o secuenciación marcada para determinar un cambio en la secuencia de ADN a partir de la secuencia "de referencia". A menudo se efectúa utilizando la PCR para amplificar la región de interés (se necesita una secuencia de ADN preexistente para diseñar los cebadores de ADN). La resecuenciación realiza tres pasos, la extracción del ADN o ARN del tejido biológico, la amplificación del ARN o ADN (habitualmente por PCR) y después la secuenciación. La secuencia resultante se compara con la de referencia o con una muestra normal para detectar mutaciones.
Nuevos métodos de secuenciación
Secuenciación de alto rendimiento o "next-generation"
La elevada demanda de secuenciación de bajo costo ha dado lugar a las distintas tecnologías de secuenciación de alto rendimiento que son capaces de paralelizar muchas operaciones de secuenciación, produciendo miles o millones a la vez, reduciendo los costos gracias a ello. Son las llamadas también secuenciaciones de nueva generación o "next-generation sequencing" (NGS).
Estos esfuerzos han sido financiados por instituciones públicas y privadas así como desarrolladas y comercializadas dentro de la empresa privada por las compañías de biotecnología. Se pretende que las tecnologías de secuenciación de alto rendimiento disminuyan los costes de secuenciación de las bibliotecas de ADN más allá de lo que se puede hacer con el método corriente del terminador marcado basado en la separación del ADN por electroforesis capilar.
Este tipo de secuenciación a gran escala ha permitido llevar a cabo una lectura eficiente del genoma humano llegando a encontrar incluso regiones no definidas en el genoma de referencia hg38, como apuntan ciertos estudios a coberturas superiores a las previamente utilizadas (≥30x, también denominada secuenciación profunda o "deep sequencing", con respecto a 4-20x de profundidad, cobertura media-baja), mejorando así las representaciones existentes. Por otro lado, ha propiciado la identificación de SNPs aún no descritos contribuyendo a un aumento de la tasa de descubrimiento de variantes mediante el estudio de base de un gran número de genomas de diversas poblaciones humanas. Este hecho podría ser de utilidad en la identificación de nuevas variantes, fundamentalmente aquellas con relevancia clínica, siendo uno de los aspectos de nuevo abordaje en la actualidad.
La secuenciación "next-generation" no sólo presenta ventajas del tipo económico, sino que también ofrece mayor rapidez en el proceso: mientras que los primeros genomas enteros secuenciados utilizando pirosecuenciación fueron procesos con una duración de años, para la secuenciación de alto rendimiento fue cuestión de meses.
Algunos de estos métodos de secuenciación de alto rendimiento son:
- Amplificación clonal in vitro
Ya que los métodos de detección molecular frecuentemente no son lo suficientemente sensibles para la secuenciación de una sola molécula, la mayoría de los métodos utilizan un paso con clonación in vitro para generar muchas copias de cada molécula individual. Uno de los métodos es la PCR de emulsión, en la que se aíslan las moléculas individuales de ADN junto con microesferas (estructuas similares a abalorios) recubiertas con cebadores, y son introducidos en tubos eppendorf a los que se les añade también los reactivos para la reacción de PCR y aceite de emulsión; esto resulta en una emulsión de tipo "agua en aceite", y provoca la aparición de micro-reactores (burbujas acuosas que contienen las microesferas y las moléculas de ADN y que se encuentran en la fase oleosa). Posteriormente, se lleva a cabo la PCR de emulsión y cada microesfera queda recubierta con millones de copias clonales de la biblioteca de moléculas de ADN aisladas, las cuales se inmovilizan para ser más tarde secuenciadas. La PCR de emulsión se usa en los métodos publicados por Margulis y colaboradores (comercializado por 454 Life Sciences, adquirido por Roche), Shendure y Porreca et al. (conocido como "secuenciación polony ", —término formado por polimerasa "pol" y colonia "colony"), y la secuenciación SOLiD (desarrollada por Agencourt y adquirida por Applied Biosystems). Otro método para la amplificación clonal in vitro, desarrollado y usado por Solexa (de la que ahora es propietaria la empresa Illumina),es la "PCR de puente", en la que los fragmentos se amplifican a partir de los cebadores unidos a una superficie sólida. Estos métodos producen ambos muchas localizaciones físicamente aisladas que contienen cada una muchas copias de un solo fragmento. El método con una única molécula desarrollado por el laboratorio de Stephen Quake (y más tarde comercializado por Helicos) se salta este paso de amplificación, fijando directamente las moléculas de ADN a una superficie.
- Illumina (Solexa)
En este método, se usan polimerasas diseñadas por la empresa y nucleótidos fluorescentes y de terminador reversible. Las hebras de ADN y los primers se pegan a un portaobjetos, y se lleva a cabo una amplificación por la polimerasa, de forma que se crean colonias locales de ADN o "clusters de ADN". Tras eso se usan las cuatro tipos de bases nucleotídicas de terminador reversible (bases RT), de forma que cuando una de ellas se una a la secuencia se pare la reacción. Una cámara recoge la fluorescencia etiquetada de los nucleótidos, y determinará qué nucleótido es el que se ha unido en esa posición. Aquellos nucleótidos que no se hayan unido serán lavados para continuar con el ciclo: una vez que se ha identificado la primera base y se hayan lavado las demás, se eliminará el terminal de bloqueo del extremo 3' que impedía continuar con la síntesis de la cadena. Se vuelve a echar una nueva tanda de nucleótidos y se continúa la secuenciación hasta completar toda la cadena de ADN.
A diferencia de la pirosecuenciación, por cada ciclo se incorpora un único nucleótido, lo que ofrece ventajas como poder tomar las imágenes de forma retrasada y secuencialmente desde una única cámara.
- Ion Torrent semiconductor
Este método de secuenciación se basa en la detección de iones de hidrógeno que se generan durante la polimerización del ADN. Posee micropocillos en los que se inserta la cadena de ADN a secuenciar, y se inunda con un único tipo de nucleótido.
La incorporación de un nucleótido en la polimerización de forma natural implica la formación de un enlace covalente, y la liberación de un pirofosfato y una carga positiva en forma de iones de hidrógeno. Aprovechando este hecho y la capacidad de los sensores de pH ISFET se ha desarrollado la tecnología del Ion Torrent semiconductor.
Si el nucleótido incorporado no es complementario a la secuencia de ADN a secuenciar, no se incorporará y no se dará ninguna reacción. Si el nucleótido es complementario a la cadena de ADN, se incorporará, provocando la liberación de un ion hidrógeno, cuya señal será recogido por un sensor de tipo ISFET. Tras cada ciclo, se lavan los nucleótidos para añadir un nuevo tipo, y la reacción se volverá a producir o no dependiendo de la secuencia los nucleótidos de la cadena a secuenciar. Al usar polimerasa naturales, la reacción ocurre a tiempo real.
En caso de que haya dos o más bases iguales consecutivas, se incorporarán múltiples nucleótidos en un único ciclo, se liberarán más átomos de hidrógeno y la señal electrónica será proporcionalmente mayor. Las ventajas de este sistema es la tecnología de medición eléctrica, sin necesidad del uso de medición óptica mediante nucleótidos modificados, que permiten que el proceso sea más barato tanto en los costes iniciales como de operación, así como su alta velocidad gracias a las polimerizaciones a tiempo real.
- Secuenciación paralelizada
Una vez que las secuencias clonales de ADN se localizan físicamente en posiciones separadas de la superficie, se pueden utilizar varios métodos de secuenciación para determinar las secuencias de ADN de todas las localizaciones en paralelo. La "secuenciación por síntesis", como en la popular secuenciación electroforética con terminador marcado con colorante, usa el proceso de síntesis de ADN por ADN polimerasa para identificar las bases presentes en la molécula complementaria de ADN. Los métodos de terminador reversible (usados por Illumina y Helicos) utilizan versiones reversibles de terminadores marcados con colorante, añadiendo un nucleótido cada vez, y detectando la fluorescencia correspondiente a esa posición y removiendo posteriormente el grupo de bloqueo para permitir la polimerización de otro nucleótido. La pirosecuenciación (utilizada por 454) también usa la polimerización del ADN para añadir nucleótidos, añadiendo cada vez un tipo diferente y después detectando y cuantificando el número de nucleótidos añadidos a una determinada localización a través de la luz emitida por la liberación de los pirofosfatos unidos a ellos.
- Secuenciación por ligación
La "secuenciación por ligación" ("SOLiD sequencing") es otro método enzimático de secuenciación que emplea una ADN ligasa en lugar de una polimerasa para identificar la secuencia objetivo. Se usa en el método polony y en la tecnología SOLiD que ofrece Applied Biosystems. Este método utiliza un reservorio de todos los oligonucleótidos posibles de una longitud dada, marcados de acuerdo con la posición secuenciada. Los oligonucleótidos se templan y ligan; el ligamiento preferente de las ADN ligasas por su secuencia específica produce una señal correspondiente a la secuencia complementaria en esa posición concreta.
Secuenciación de una única molécula de ADN
La secuenciación de una única molécula de ADN se conoce con el nombre de secuenciación "next next".
El método tSMS (siglas en Inglés de True Single-Molecule Sequencing) de Helicos es uno de los más modernos comercializados hoy día para la secuenciación. A diferencia de sus predecesores, no lleva a cabo ningún tipo de amplificación de la muestra, sino que es capaz de secuenciar a partir de una única molécula monocatenaria de ADN.
La muestra de ADN a analizar es troceada en fragmentos de entre 100 y 200 pares de bases. A continuación, se añade una cola de poli-A al extremo 3' de cada uno de estos fragmentos generados, estando el último de ellos marcado con una sonda fluorescente. Estas moléculas servirán directamente de sustrato para el proceso de secuenciación.
El siguiente paso consiste en la hidridación de los fragmentos sobre una micro-placa que contiene millones de poli-T pegados en su superficie. Dicha molécula de poli-T actuará además como cebador en el proceso de secuenciación.
A continuación, la micro-placa es introducida en un dispositivo dotado de una cámara CCD capaz de captar la fluorescencia emitida por cada uno de los fragmentos unidos a los poli-T, localizando así la posición de cada una de las moléculas en la placa. Una vez ha sacado una foto de toda la superficie, la micro-placa es tratada con una solución cuyos componentes producen la escisión del fluoróforo unido a la última adenina.
La reacción de secuenciación comienza mediante la adición de una solución con la polimerasa. A continuación, se añade una solución de un único tipo de nucleótido marcado con un fluoróforo (por ejemplo, la adenina). Entonces, la polimerasa cataliza su incorporación al cebador en aquellos casos donde corresponda, según la secuencia del fragmento concreto. El siguiente paso es el lavado de la solución para eliminar aquellos nucleótidos no unidos, tras lo cual la cámara toma una nueva foto de la superficie, localizando aquellas moléculas donde sí se han incorporado.
De nuevo, la placa se trata con una solución que elimina el fluoróforo de los nucleótidos incorporados. A continuación, el proceso se repite añadiendo una nueva solución con la polimerasa y un nucleótido diferente (por ejemplo la timina), e igualmente con la guanina y la citosina.
La magnitud de la técnica radica en que, simultáneamente se están secuenciando millones de fragmentos distintos de ADN; proceso que se puede seguir al mismo tiempo gracias a las imágenes captadas por la cámara. Un software analiza dichas imágenes y reconstruye las secuencias de cada fragmento, las cuales deben ser ensambladas posteriormente por programas informáticos.
Por otra parte, la secuenciación SMRT (del inglés single molecule real time sequencing ) de la empresa Pacific Biosciences también utiliza tecnologías que permiten la secuenciación de una molécula de El secuenciador PacBio contiene una ADN polimerasa fijada en el fondo de los pocillos que van a contener las muestras. Se utilizan nucleótidos con bases nitrogenadas modificadas que al incorporarse a la cadena en proceso de polimerización liberan fluorescencia, distinta para cada tipo de base, evitando de esta manera el lavado de nucleótidos como en el caso de la pirosecuenciación. La marca fluorescente se encuentra en el grupo fosfato de la base, de ahí que la señal se observe cuando se produce la incorporación de ésta a la cadena incipiente. El proceso de secuenciación es más rápido debido a que no es necesario lavar nucleótidos ni enzimas.
Las ventajas del secuenciador PacBio es que es capaz de realizar lecturas de una longitud media de 4200-8500 pb, con lecturas máximas de 30000 pb. La precisión y la sensibilidad son extremadamente altas, además de que se reduce el bias evitando la amplificación del ADN (caso de las secuenciaciones "next").
Otras tecnologías de secuenciación
Otros métodos de secuenciación por ADN podían tener ventajas en términos de eficiencia o exactitud. Al igual que la secuenciación por terminador marcado por tinción, están limitadas a la secuenciación de fragmentos únicos aislados. La "secuenciación por hibridación" es un método no enzimático que usa un chip de ADN. En este método, un único reservorio de ADN se marca mediante fluorescencia y se híbrida con un colección de secuencias conocidas. Si el ADN desconocido se híbrida fuertemente en un punto dado de entre las secuencias, haciéndole que "luzca", entonces se infiere que esa secuencia existe dentro de los ADN desconocidos que son secuenciados. La espectrometría de masas también se puede usar para secuenciar las moléculas de ADN; las reacciones convencionales de terminación de la cadena producen moléculas de ADN de diferentes longitudes y la longitud de esos fragmentos se determina entonces por las diferencias de masa entre ellas (en lugar de utilizar una separación por gel).
Hay nuevas propuestas para la secuenciación de ADN que están en desarrollo, pero aún no han sido probadas. Entre estas están el marcaje de la ADN polimerasa, o la lectura de la secuencia a medida que la cadena de ADN pasa por nanoporos. (secuenciación de nanoporos).
La secuenciación en el sistema nanoporo se puede resumir en los siguientes pasos:
- El ADN a secuenciar se rompe en fragmentos de 100 kb aproximadamente.
- Se desnaturalizan para obtener fragmentos monocatenarios y se hibridan con sondas que se unen a distintas partes del fragmento de ADN.
- Los fragmentos de ADN con las sondas unidas se hacen pasar por el nanoporo, creando una curva de corriente frente a tiempo. Los picos que se forman determinan la posición de la sonda en cada fragmento de genómico.
- De acuerdo con una serie de reglas del apareamiento de bases, se puede determinar la secuencia de ciertas porciones del fragmento de ADN genómico. Esto se hace para cada sonda y de manera paralela para todos los fragmentos de la librería de ADN.
- El resultado es una especie de mapa que nos detalla las posiciones de las sondas para cada fragmento de la librería.
- Por técnicas de análisis de los datos con un software se llega a conocer la secuencia de ADN.
Otras técnicas de secuenciación están basadas en microscopías, como la microscopía de fuerza atómica o el microscopio electrónico que se usan para identificar las posiciones de los nucleótidos individuales dentro de largos fragmentos de ADN marcando los nucleótidos con elementos pesados (p.ej. halógenos) para la detección visual y su registro. En octubre de 2006 el NIH publicó un boletín de noticias describiendo las nuevas técnicas de secuenciación y anunciando varias concesiones de becas.
No obstante, en 2011 se desarrolló una técnica de secuenciación en la cual no se utilizaban medio ópticos para detectar la secuencia de bases, sino que se detectaban pequeñas variaciones de pH a través de la liberación de protones durante el proceso de replicación de ADN. Se trata de la secuenciación por Ion Torrent, con el cual se gana en velocidad y escalabilidad.
En octubre de 2006, la Fundación Premio X estableció el Premio Arconte X (Archon X Prize), que premia con 10 millones de dólares al "primer equipo que pueda construir un dispositivo y utilizarlo para secuenciar 100 genomas humanos en 10 días o menos, con una exactud no menor a un error por cada 100 000 bases secuenciadas, con secuencias que cubran correctamente al menos el 98 % del genoma, y a un coste no mayor de 1000 dólares por genoma."
Principales hitos en la secuenciación del ADN
- 1953 descubrimiento de la estructura de la doble hélice de ADN.
- 1972 desarrollo de la tecnología del ADN recombinante, que permite el aislamiento de fragmentos definidos de ADN; antes de este descubrimiento las únicas muestras accesibles para la secuenciación eran de bacteriófacos o virus de ADN.
- 1975 el primer genoma de ADN completamente secuenciado fue el del bacteriófago φX174.
- 1977 Allan Maxam y Walter Gilbert publicaron el artículo "Secuenciación del ADN mediante degradación químicas. Fred Sanger, independientemente, publica "Secuenciación del ADN mediante síntesis enzimática".
- 1980 Fred Sanger y Wally Gilbert reciben el Premio Nobel de química.
- 1982 GenBank comienza su andadura como repositorio público de secuencias de ADN.
- Andre Marion y Sam Eletr de Hewlett Packard crean Applied Biosystems en mayo, que acaba siendo hegemónica en la secuenciación automatizada.
- Akiyoshi Wada propone la secuenciación automatizada y recibe apoyo para la construcción de rebots con la ayuda de Hitachi.
- 1984 científicos del Medical Research Council descifran la secuencia completa de ADN del virus de Epstein-Barr, de una longitud de 170 Kbases.
- 1985 Kary Mullis y colaboradores desarrollan la reacción en cadena de la polimerasa, una técnica para replicar pequeños fragmentos de ADN.
- 1986 el laboratorio de Leroy E. Hood en el Instituto de Tecnología de California y Smith anuncian la primera máquina semiautomática de secuenciación de ADN.
- 1987 Applied Biosystems comercializa la primera máquina de secuenciación automatizada, el modelo ABI 370.
- Walter Gilbert abandona el panel sobre el genoma del Consejo Nacional de Investigación de los Estados Unidos para crear Genome Corp., cuyo objetivo es la secuenciación y comercialización de los datos.
- 1990 el Instituto Nacional de salud de los Estados Unidos comienza ensayos a gran escala de secuenciación de Mycoplasma capricolum, Escherichia coli, Caenorhabditis elegans, and Saccharomyces cerevisiae (a 75 centavos (US)/base).
- Lipman y Myers publican el algoritmo BLAST para la alineamiento de secuencias.
- Barry Karger (Enero), Lloyd Smith (Agosto), y Norman Dovichi (septiembre) hacen una publicación sobre la electroforesis capilar.
- 1991 Craig Venter desarrolla la estrategia para encontrar genes que se expresan con ESTs (Expressed sequence tags).
- Uberbacher desarrolla GRAIL, un programa de predicción de genes.
- 1992 Craig Venter abandona el NIH para abrir el "The Institute for Genomic Research" (Instituto para la investigación genómica, El TIGR).
- el Trust Wellcome comienza su participación en el Proyecto Genoma Humano.
- Simon y al. desarrollan los BACs (cromosoma artificial bacteriano) para el clonado.
- Mapa físico del primer cromosoma publicado:
- Page y otros. - Cromosoma Y.
- Cohen y otros. cromosoma 21.
- Lander - mapa genético completo del ratón.
- Weissenbach - mapa genético humano completo.
- 1993 El trust Wellcome y MRC crean el Centro Sanger, cerca de Cambridge, Reino Unido.
- La base de datos GenBank se traslada de Los Álamos (DOE) al NCBI (NIH).
- 1995 Venter, Fraser y Smith publican la primera secuencia de un organismo de vida libre, Haemophilus influenzae (tamaño del genoma: 1.8 Mbase).
- Richard Mathies y colaboradores escriben un artículo sobre los marcajes colorantes en la secuenciación (PNAS, Mayo).
- Michael Reeve y Carl Fuller, polimerasa termoestable para la secuenciación.
- 1996 los socios internacionales del Proyecto Genoma Humano acuerdan publicar los datos de secuenciación en bases de datos públicas en 24 horas.
- Un consorcio internacional publica la secuencia del genoma de la levadura S. cerevisiae (tamaño del genoma 12.1 Mbases).
- Yoshihide Hayashizaki en el RIKEN completa el primer juego de cDNAs de longitud completa de ratón.
- ABI presenta un sistema de electroforesis capiar, el analizador de secuencias ABI310.
- 1997 Blattner, Plunkett y colaboradores. publican la secuencia de E. coli (Tamaño genómico 5 Mb).
- 1998 Phil Green y Brent Ewing de la Universidad de Washington publican
“phred”
para interpretar los datos de secuenciación(en uso desde 1995).- Venter funda una nueva compañía, “Celera”; “Secuenciará el genoma humano en 3 años con un coste de $300m.”
- Applied Biosystems presenta la máquina de secuenciación capilar 3700.
- Wellcome dobla su financiación al Proyecto Genoma humano hasta $330 million para llegar a 1/3 de la secuencia.
- Objetivos del NIH y el DOE: obtener un "borrador de trabajo" del genoma humano para 2001.
- Sulston, Waterston y otros finalizan la secuencia de C. elegans (tamaño del genoma de 97 Mb).
- 1999 el NIH cambia la fecha de finalización del borrador a la primavera de 2000.
- NIH lanza el proyecto de secuenciación del genoma del ratón.
- primera secuencia del cromosoma humano 22 publicada.
- 2000 Celera y colaboradores secuencian la mosca de la fruta Drosophila melanogaster (Tamaño del genoma 180Mb) - lo que supone la validación del método de Venter de secuenciación por fuerza bruta. El consorcio Proyecto Genoma Humano y Celera debaten sobre aspectos relacionados con la publicación de datos.
- el consorcio Proyecto Genoma Humano publica la secuencia del cromosoma 21.
- HGP y Celera anuncian conjuntamente los borradores de trabajo de la secuencia del genoma humano y prometen una publicación conjunta.
- Las estimaciones del número de genes del genoma humano se sitúan entre 35 000 y 120 000. El consorcio internacional completa la primera secuencia de una planta, Arabidopsis thaliana (Tamaño del genoma 125 Mb).
- 2001 el Proyecto Genoma Humano publica el borrador de la secuencia del genoma humano en Nature el 15 de febrero.
- Celera publica la secuencia del genoma humano.
- 2005 420.000 secuencias VariantSEQr de cebadores de resecuenciación humanas publicadas en la nueva base de datos NCBI Probe.
- 2007 Por primera vez se secuencia un grupo de especies estrechamente relacionadas. Se secuencian 12 Drosofílidos (mosca de la fruta), haciendo despegar la era de la filogenómica.
- Craig Venter publica su genoma diploide completo: el primer genoma humano en ser completamente secuenciado.
Evaluación de la calidad del ADN
Puntuación de desequilibrio global
La puntuación de desequilibrio global o "GIV", de sus siglas en inglés global imbalance score, es un parámetro utilizado por los bioinformáticos para medir el daño que ha sufrido una muestra de ADN durante los distintos procesos de estrés a los que se enfrenta durante su procesado en el laboratorio. Existen distintos GIV, aunque por consenso general el más utilizado es el que mide el desbalance entre G>T/C>A. Durante el procesado de muestras de ADN, uno de los daños más comúnmente observados en este es la oxidación de algunas de sus guaninas a su contraparte oxidada la 8-oxo-2'-desoxiguanosina (8-oxo-dG), esto supone un problema puesto que a la hora de secuenciar bajas cantidades de ADN este requiere un previo paso de amplificación que se realiza por PCR. Durante esta amplificación, el daño oxidativo se corrige pero de manera errónea, sustituyéndose las guaninas dañadas por timinas que a su vez serán emparejadas con adeninas, dando lugar a dos hebras teóricamente correctas (sin daño aparente), pero distintas y no complementarias, entre las que existe un desbalance, este desbalance es el GIV .
Al ser una fracción, el GIV se expresa como un valor decimal, siempre mayor que 0 y cuyo valor óptimo es 1, lo que sería equivalente a que la muestra de ADN no presenta desbalance alguno. Valores mayores a 1,5 se consideran negativos y los resultados obtenidos de un análisis con esos valores podrían estar altamente sesgados .
Véase también
En inglés: Sequence analysis Facts for Kids
- Análisis moleculares de ADN
- Secuenciación 454
- Proyecto Genoma Humano
- Medicina genómica
- Metagenómica
- Transistor de ADN de efecto de campo
- Bioinformática