SECUENCIACIÓN DE ÁCIDOS NUCLEICOS - Instituto de

INSTITUTO DE BIOTECNOLOGÍA-UNAM

MÉTODOS FISICOQUÍMICOS EN BIOTECNOLOGÍA:

SECUENCIACIÓN DE ÁCIDOS NUCLEICOS

PROYECTO DE INVESTIGACIÓN: ROSALIA DE NECOCHEA CAMPION JUAN CARLOS CANUL TEC CUERNAVACA,MOR

JUNIO 2004

INDICE

Algunos acontecimientos relevantes al desarrollo de los métodos de secuenciación de los ácidos nucleicos

3

1.0 INTRODUCCIÓN 1.1 Los orígenes de la investigación de los ácidos nucleícos 1.2 La identificación de los componentes 1.3 El descubrimiento de la estructura del ADN

5 6 7 8

2.0 FUNDAMENTOS TEÓRICOS 2.1 Estructura de los ácidos nucleicos 2.2 Función biológica de los ácidos nucleicos

11 11 12

3.0 DESARROLLO HISTÓRICO 3.1 Secuenciación de ácidos nucleicos 3.2 El método de degradación química 3.2.1 Ventajas y desventajas 3.3 El método enzimático 3.3.1 Limitaciones del método enzimático

13 13 17 19 20 21

4.0 MÉTODOS CONTEMPORÁNEOS EN LA SECUENCIACIÓN 4.1 Automatización del método de Sanger 4.1.1 La técnica de PCR y su relevancia a la secuenciación 4.1.2 Polimerasa Taq 4.1.3 Marcado de la cadena de ADN 4.1.4 Incorporación del marcaje a la cadena de ADN 4.1.5 Secuenciación automatizada 4.1.6 El desarrollo de maquinas de secuenciación 4.2 Secuenciación de ARN 4.2.1 Métodos indirectos 4.2.2 Métodos directos 4.3 Resumen de enzimas utilizadas en la secuenciación

22 22 23 24 25 26 28 29 31 31 33 34

5.0 ESTRATEGIAS Y APLICACIONES DE LA SECUENCIACIÓN DE ÁCIDOS NUCLEICOS 5.1 Proyecto de secuenciación del genoma humano 5.2 Estrategias para la secuenciación de fragmentos grandes 5.2.1 “Chromosome Walking” 5.2.2 “Shotgun Sequencing” 5.3 Otras aplicaciones

35 35 37 37 38 40

6.0 El FUTURO DE LA SECUENCIACION 6.1 Secuenciación por hibridización 6.2 Secuenciación a futuro sin fragmentación de ADN

41 41 41

7.0 REFERENCIAS

43

1

INDICE DE TABLAS Y FIGURAS Figuras Figura 1.

Las bases presentes en los ácidos nucleicos

7

Figura 2.

Estructura química de los nucleótidos

8

Figura 3.

Estructura de la doble hélice del ADN

11

Figura 4.

El método de secuenciación de Maxam y Gilbert

19

Figura 5.

Enzimas de restricción

20

Figura 6.

El método de secuenciación de Sanger

21

Figura 7.

La reacción de PCR

23

Figura 8.

Secuenciadora con detección paralela para 96 caplilares

31

Figura 9.

La secuenciadora ABI PRISM 3700

32

Figura 10.

La estrategia de “chromosome walking”

38

Figura 11.

La estrategia de secuenciación “shotgun”

39

Figura 12.

Secuenciación por hibridización

41

Tablas Tabla 1. 22 Descubrimientos significativos que permitieron el desarrollo de métodos automatizados de secuenciación de ácidos nucleicos Tabla 2. Algunas de las enzimas que han tenido un papel importante en el desarrollo de los métodos de secuenciación

35

2

Algunos acontecimientos relevantes al desarrollo de los métodos de secuenciación de los ácidos nucleícos 1871. Johann Meisher describe el ácido desoxirribonucleico (ADN) en el esperma de la trucha. 1944. Oswald Avery, Colin McLeod y Macyln McCarthy demuestran que el ADN es la substancia en donde reside la información genética. 1950. Erwin Chargaff determina que las cantidades de adenina y timina, y de citosina y guanina, son las mismas en el ADN: “reglas de Chargaff”. 1952. Rosalind Franklin y Maurice Wilkins llevan a cabo estudios de cristalografía de rayos X del ADN. 1953. James Watson y Francis Crick proponen el modelo de la doble hélice del ADN. 1958. Matthew Meselson y Frank Stahl demuestran que la replicación del ADN es semiconservativa. 1960. Arthur Kornberg descubre y aísla la enzima ADN polimerasa. 1961. Marshall Niremberger y Severo Ochoa establecen el código genético universal. 1968. Matthew Meselson y Robert Yuan aíslan la primera endonucleasa de restricción. 1977. Allan Maxam y Walter Gilbert, y Frederick Sanger et al., desarrollan simultáneamente métodos para la determinación de la secuencia de nucleótidos del ADN. 1978. F. Sanger y su equipo reportan la secuencia genómica completa del virus øX174. 1981. Se reporta la secuencia del genoma de la mitocondria humana. 1983. Marvin Carruthers y Leroy Hood desarrollan un método para secuenciar automáticamente fragmentos de ADN de 5 a 75 pares de bases.

3

1986. Leroy Hood y Lloyd Smith desarrollan el primer secuenciador automático, que usa un láser que reconoce marcadores de fluorescencia en el ADN. 1987. Kary Mullis desarrolla la técnica de PCR que permite amplificar millones de veces fragmentos específicos de ADN. 1988. Por iniciativa de Watson, el Instituto Nacional de Salud en EUA, establece la Oficina para la Investigación del Genoma Humano. 1990. Tres grupos desarrollan simultáneamente el método de electroforesis capilar, que optimiza la automatización de los métodos de secuenciación del ADN. Se inicia el Proyecto del Genoma Humano. 1995. Se reporta la primera secuencia completa del genoma de un organismo vivo, el de la bacteria Haemophilus influenzae. 1996. Se reporta la primera secuencia del genoma de un eucarionte, el de la levadura Saccharomyces cerevisiae. 1998. Se reporta la primera secuencia del genoma de un animal; el de Caenorhabditis elegans. 1999. Se reporta la secuencia nucleotídica del cromosoma humano 22. 2000. Se reporta la primera secuencia del genoma de una planta, el de Arabidopsis thaliana. 2001. Se reporta por dos grupos en forma simultánea, la secuencia nucleotídica del genoma humano. 2002. Se reportan las secuencias nucleotídicas de los genomás del ratón (Mus musculus) y del arroz (Oryza sativa).

4

1.0 INTRODUCCIÓN. El lento y tortuoso progreso que acompañó los inicios de la investigación de los ácidos nucleicos es representativo de lo limitado de las técnicas y la falta de facilidades en los períodos tempranos de la bioquímica. Las dificultades encontradas por los investigadores fueron muchas. Era difícil asegurar la homogeneidad del material de trabajo. No existían métodos establecidos para el estudio de macromoléculas, y tampoco pautas para el aislamiento de unidades estructurales. Afortunadamente, algunas substancias cercanamente relacionadas fueron sintetizadas por químicos orgánicos en experimentos que usualmente no estaban relacionados con los ácidos nucleicos. Si la investigación de los ácidos nucleicos debe mucho a la química orgánica en su período inicial, el trabajo conjunto de la biología y la química han hecho de la investigación contemporánea de los ácidos nucleicos una rica fuente de descubrimiento e invención que ha transformado y mejorado la condición humana. En general, los ácidos nucleicos son polímeros lineales de nucleótidos. Pueden tener desde 80 nucleótidos, como en el tARN, hasta más de 108 pares de nucleótidos en un cromosoma eucariótico. El cromosoma de Escherichia coli tiene 4 x 106 pares de bases, 4Mpb. El ADN genómico de una sola célula humana tiene 3,900 Mpb. A un laboratorio de la mitad de la década de los setentas le habría tomado dos meses secuenciar 150 nucleótidos. Actualmente, un laboratorio especializado es capaz de secuenciar varios millones de nucleótidos al día. Desde esta perspectiva, resulta notoria la capacidad de secuenciación de ácidos nucleicos de las tecnologías disponibles actualmente. Y es principalmente, el desarrollo y la automatización de los métodos fisicoquímicos de macromoléculas biológicas, en general, lo que ha permitido lograr estos avances en el conocimiento del material genético. A finales del siglo pasado, se secuenciaron los primeros genomás, correspondientes a las bacterias Haemophilus Influenzae y Mycobacterium genitalium. Esfuerzos más recientes han permitido la determinación de secuencias genómicas más complejas. El primer eucarionte secuenciado fue Saccharomyces cerevisiae. Posteriormente se reportaron las secuencias de los genomás de Caenorhabditis elegans, de Drosophila melanogaster y de Arabidopsis thaliana. A principios del año 2001, dos grupos, de manera simultánea e independiente, reportaron la secuencia del genoma humano, y a fines del año 2002 se reportó el genoma del ratón y del arroz.

5

Con la determinación de la secuencia nucleotídica del genoma humano y la de otros organismos nos hemos adentrado en el conocimiento de la célula. Conociendo la secuencia de todos los genes de un organismo, es posible deducir su proteoma. Asimismo, con la información que se tiene, es posible empezar el estudio integral y global de las redes metabólicas y conocer la manera en que una célula regula la expresión genética en diferentes condiciones metabólicas. Sin embargo, este nuevo conocimiento es preliminar. Si bien podemos enlistar todos los genes de una célula, la determinación de las posibles interacciones entre sus productos es una meta a largo plazo todavía. Hay, pues, mucho más que conocer para entender el proceso mismo de la vida. En este trabajo se expone una breve perspectiva histórica de algunos de los hechos que han repercutido sensiblemente en el avance de las tecnologías para la secuenciación de los ácidos nucleícos. Desde el tortuoso camino que llevo a la elucidación de la estructura de la doble hélice, pasando por los esfuerzos iniciales para desentrañar el lenguaje del ADN (y de la vida) y los esfuerzos más recientes que inauguraron la era de la genómica. Una mirada hacia atrás siempre es importante, no sólo porque ayuda a consolidar los conceptos de una materia en particular, sino también porque se puede aprender de las experiencias de otros. Además, se presentan los fundamentos teóricos y físicos relacionados con la química de los ácidos nucleicos.y su secuenciación. Finalmente, se citan algunas de las aplicaciones que han permitido profundizar en el conocimiento del material genético de las células. 1.1 Los orígenes de la investigación de los ácidos nucleicos. La historia de los ácidos nucleicos iniciando en 1869, con los estudios del bioquímico sueco Friedrich Miescher. En Tuebingen, Miescher extrajo un material de una fracción nuclear de leucocitos presentes en pus obtenido de vendajes quirúrgicos. El material extraído, al cual denomino nucleína, era rico en fósforo. En 1870, Miescher se movió a Basel, donde encontró que el extracto de esperma de salmón era una gran fuente de nucleína. La nucleína era una substancia albuminoide y fuertemente ácida, combinada con una base nitrogenada que Miescher cristalizó y llamo protamina. De hecho, la nucleína era en realidad una nucleoproteína. Richard Altmann (1889) obtuvo el primer material libre de proteína, al cual dio el nombre de ácido nucleico. Jules Piccard, compañero de Miescher en Basel, hizo más estudios con la nucleína y encontró que también contenía guanina e hipoxantina. Sin embargo, ni Meischer, ni sus colegas y sucesores se imaginaron que el ácido nucleico pudiera llevar mensajes complejos en patrones repetidos de componentes más pequeños (Levine y Suzuki, 2000). La botella con el inocente polvo blanco se 6

quedó en el anaquel del laboratorio. Tuvieron que pasar varias décadas para revelar que, de hecho, era una botella de genes. 1.2 La identificación de los componentes. Lentamente se fueron llevando a cabo estudios más exactos para la identificación de los componentes de los ácidos nucleicos. La guanina (G) había sido aislada del guano; sin embargo, su relación con los ácidos nucleicos se estableció hasta 1910, al compararla con el nucleósido que Phoebus Levene obtuvo del ácido guanílico. Albrecht Kossel y A. Neumann aislaron la adenina (A) y la timina (T) de la glándula del timo. Ascoli y Steudel descubrieron la citosina (C) y el uracilo (U) (Schlenk, 1988). La ribosa y la desoxirribosa fueron aisladas por Levene en 1909 y 1930, respectivamente. En ambos casos, el aislamiento de los nucleósidos fue un requisito para proveer el material inicial. La hidrólisis con piridina del ácido nucleico de levadura produjo fosfatos y los nucleósidos adenosina, citosina, guanosina y uridina. Levene determinó que en todos los nucleósidos la pentosa era una ribosa y nombró al ácido original como ácido ribonucleico (ARN). Los nucleósidos fueron identificados como derivados de las bases A, C, G y U (figura 1). En 1929, Levene identificó la desoxirribosa del ácido nucleico aislado del tejido de la pantorrilla, al cual denominó ácido desoxirribonucleico (ADN). Este ácido exhibía una mayor resistencia a la hidrólisis química que el ARN, y consiguió degradarlo con enzimás, seguido de la hidrólisis ácida de sus desoxinucleótidos. En 1935, se descubrió que el ADN podría ser cortado enzimáticamente en mononucleótidos, en presencia de arsenato. Usando este procedimiento, Klein y Thannhauser obtuvieron los desoxirribonucleótidos y establecieron que cada nucleótido está unido por un enlace fosfodiéster del hidroxilo 5´ al hidroxilo 3´ de su otro vecino (figura 2). Figura 1. Las bases presentes en los ácidos nucleicos. Las bases guanina (G), adenina (A) y citosina (C) existen en el ADN y el ARN. La timina (T) sólo se encuentra en el ADN y es substituida en el ARN por el uracilo (U). Estas bases están unidas covalentemente a los azúcares desoxirribosa y ribosa, para formar así los nucleótidos del ADN y ARN, respectivamente (ver figura 3).

7

De manera lenta y errática, las ideas provenientes de diversos campos empezaron a señalar al ADN como un participante de importancia en la vida de la célula. El trabajo de Fred Griffith en 1928 y el de los investigadores Oswald Avery, Colin McLeod y Macyln McCarthy, en 1944, permitió demostrar inequívocamente que la información genética reside en el ADN. Esta contribución dio lugar a que un importante esfuerzo científico se enfocara en la determinación de la composición y la estructura química de la molécula del ADN. Pese a lo anterior, durante algún tiempo muchos bioquímicos insistieron en que el ADN era una molécula demásiado “tonta” como para llevar mucha información; los componentes del ADN parecían muy simples y repetitivos como para ser portadores de información. Figura 2. Estructura química de los (a) ribonucleótidos y (b) desoxirribonucleótidos , constituyentes de los ácidos nucleicos. En el ARN, el C-1´ de la Dribosa está unido al N9 de A o G, o al N-1 de C o U. En el ADN, la 2´desoxi-D-ribosa está unida de la misma forma a las cuatro bases, pero la T toma el lugar del U (los números con tilde se refieren a los átomos de la pentosa; los números sin tilde se refieren a los de la base nitrogenada). Los grupos fosfato pueden estar unidos al C3´ o al C5´ de la pentosa. Si el grupo fosfato está ausente, el compuesto es un nucleósido. En todos los nucleótidos y nucleósidos naturales, el enlace Nglicosídico que une la base nitrogenada al C1´ del azúcar es de configuración _ (Voet & Voet, 1995).

1.3 El descubrimiento de la estructura del ADN. A mediados del siglo pasado, los investigadores no pudieron avanzar más en la elucidación de la estructura primaria del ADN. Ninguno de los requerimientos claves para la determinación de la secuencia estaba a la mano: no habían métodos para obtener muestras puras de ADN con una secuencia de bases homogénea, y tampoco estaban disponibles métodos para el corte de cadenas de ADN en una base específica. Consecuentemente, toda la atención se centró en la estructura secundaria. Dos experimentos independientes demostraron que el ADN poseía una estructura secundaria ordenada. Ambos dejaron información vital para sus 8

sucesores, sin embargo, cada contribución tenía un error. En 1938, William Astbury obtuvo un patrón de difracción de rayos-x de fibras secas de ADN, y dedujo que el espacio de 3.34 Å a lo largo del eje de la fibra correspondía al de una sucesión cercana de nucleótidos planos. Éstos sobresalían perpendicularmente a lo largo del eje de la molécula para formar una estructura relativamente rígida. Algunos años después, J. Gulland estudió la viscosidad y la birrefringencia de flujo del ADN y postuló la presencia de puentes de hidrógeno que unían a los grupos hidroxilo de la piridina y la purina y a algunos de los grupos aminos. Desafortunadamente, utilizó las formás tautoméricas enol para la timina y la guanina. La importancia de las formás tautoméricas correctas (ceto), se reconoció hasta 1953. Erwin Chargaff estudió la composición del ADN de una amplia variedad de fuentes. Mediante cromatografía en papel separó los productos de la hidrólisis del ADN y con espectroscopia ultravioleta cuantificó sus abundancias relativas. Sus datos mostraron que la proporción de purinas (A+G) siempre es igual a la proporción de pirimidinas (C-T) en el ADN de cualquier organismo. Aunque la proporción (G+C)/(A+T) varía de especie a especie, diferentes tejidos de una sola especie tienen la misma composición de ADN. Cualquier estructura propuesta para el ADN tenía que considerar este patrón (figura 3). Los patrones de difracción de rayos X realizados por Rosalind Franklin y Maurice Wilkins revelaron que el ADN podía tener dos estructuras secundarias posibles, cuya formación dependía de la humedad relativa a la cual se obtuvieran los datos. La forma A del ADN se obtuvo a baja humedad. En cambio, el patrón del B-ADN prevalece a una humedad elevada. Éste patrón entrecruzado, representativo de las estructuras helicoidales, tiene una fuerte reflexión a 0.34 nm, que indica el espaciamiento entre los pares de bases adyacentes, y una reflexión a 3.4 nm que corresponde a un giro completo de la hélice. Franklin propuso que este comportamiento requería que los grupos fosfatos estuvieran expuestos al agua en el exterior de la hélice, con el corolario de que las bases estuvieran en el interior de la hélice. En 1953, James Watson y Francis Crick descifraron la estructura del ADN. Watson propuso que el número de nucleótidos en la célula unitaria cristalográfica favorecía una hélice de doble cadena. Crick dedujo de los datos del patrón de difracción que la estructura era una díada, es decir, que tiene una asimetría tal que las cadenas equivalentes son antiparalelas, es decir, corren en direcciones opuestas a lo largo del eje longitudinal. Sólo quedaba por resolver un problema: cómo construir el núcleo de la hélice, empacando las bases juntas en una estructura regular. A partir de las conclusiones de Gulland, Watson sabía que los puentes de hidrógeno unían las bases del ADN. Esto lo 9

convenció de que la esencia de la cuestión tenía que ser una regla que gobernara los puentes de hidrógeno entre las bases. Aconsejado por Jerry Donohue, Watson manipuló modelos de las bases, en las formás tautoméricas ceto, apareando la A con la T y la G con la C. Encontró una relación simple y convincente que involucraba dos puentes de hidrógeno para una pareja A·T y tres puentes de hidrógeno para una pareja G·C. La característica especial de este esquema de apareamiento de bases es que la geometría relativa de los enlaces uniendo las bases a las pentosas es virtualmente idéntico para los pares A·T y G·C. Resultó obvio que si una purina siempre se aparea con una pirimidina, entonces una secuencia irregular de bases en una cadena sencilla de ADN podría estar apareada regularmente en el centro de una doble hélice sin pérdida de simetría. Las reglas de Chargaff fueron reveladas directamente como una consecuencia obligatoria de una estructura de doble hélice para el ADN. Sobre todo, ya que la secuencia de bases de una cadena automáticamente determina la de su pareja, Crick y Watson pudieron visualizar fácilmente cómo una cadena sencilla podría ser el templado para la síntesis de una segunda cadena de secuencia de bases complementaria (figura 3). El modelo de Watson y Crick de la estructura del ADN fue aceptado rápidamente porque lograba dos cuestiones importantes. Primero, daba cuenta de toda la evidencia química y física disponible. Segundo, abría el camino para explicar, de manera más detallada, como lleva a cabo el ADN las funciones necesarias para ser el portador de la información hereditaria. A partir de este momento, fue aparente que toda la información requerida para especificar la diversidad de las moléculas biológicas, necesaria para llevar a cabo las funciones de la célula, había que buscarla en la secuencia irregular de las bases nucleotídicas. Alexander Dounce, en 1950, postuló que el ARN era el templado que dirigía la síntesis de proteínas celulares y que una secuencia de tres nucleótidos especificaba solo un aminoácido. El reconocimiento de varios tipos de ARN por Robert Holley no tardó en llegar. Más adelante, Gobind Khorana sintetizó los 64 tri-ribonucleósidos difosfato y los poli-ribonucleótidos con secuencias repetidas de di-, tri- y tetranucleótidos que fueron usados como mARN para identificar cada triplete del código. Y el establecimiento del código genético por Marshall Niremberg y Severo Ochoa fue el evento culminante.

10

Figura 3. Representación esquemática de la estructura de la doble hélice del ADN. En el texto se explica la configuración de la estructura.

2.0 FUNDAMENTOS TEORICOS. 2.1 Estructura de los ácidos nucleicos. El ADN es una doble hélice. Cada una de las hélices es un polímero integrado por millones de nucleótidos que son los monómeros del polímero. Cada nucleótido está formado por una desoxirribosa, una base púrica o pirimídica y un grupo fosfato. Las dos cadenas de ADN son antiparalelas y se unen entre sí a través de puentes de hidrógeno que se forman entre las bases complementarias (A·T y G·C) de las dos hebras del ADN. De esta manera, se obtiene una estructura tipo doble hélice, donde las bases de los nucleótidos se encuentran orientadas hacia el interior, mientras que los grupos fosfato y las desoxirribosas lo hacen hacia el exterior, formando los esqueletos fosfodiéster de cada hélice (figura 3). Los pares de nucleótidos se encuentran separados entre sí por 3.4 Å, cada diez pares de nucleótidos (34 Å) se alcanza una vuelta de la hélice. La diferencia fundamental entre todas las moléculas de ADN que forman el material genético de los seres vivos es la secuencia de los millones de estos cuatro tipos de nucleótidos con sus bases A, T, G y C en cada molécula de ADN. 11

Al igual que en el ADN, los estudios de la estructura del ARN empezaron con su estructura primaria. Esta búsqueda se logró en paralelo que la del ADN, pero tuvo la complejidad extra del grupo hidroxilo 2´ de los ribonucleótidos. A diferencia del ADN, las moléculas de ARN constan generalmente de cadenas únicas de polinucleótido, debido a que se forman copiando la secuencia de bases de una cadena de ADN. El apareamiento de las bases de Watson-Crick en el ARN es normal, aunque el tARN es una rica fuente de pares de bases inusuales. Hoy se sabe que el ARN tiene una mayor versatilidad estructural que el ADN en la variedad de sus especies, en la diversidad de sus conformaciones, y en su reactividad química. Los ARNs naturales pueden formar estructuras de doble cadena o adoptar una forma globular compuesta por pequeños dominios dobles conectados por segmentos de cadena sencilla. Las dobles hélices del ARN sólo pueden adoptar la forma A, ya que el hidroxilo 2´ de la ribosa constituye un impedimento estérico. 2.2 Función biológica de los ácidos nucleicos. Las funciones de los ácidos nucleicos son de almacenamiento, expresión y replicación de la información biológica. En términos generales, todas las moléculas de ADN tienen una configuración similar. Sin embargo, el ADN de una determinada especie de organismos tiene una secuencia de bases propia: su estructura primaria está agrupada en unidades funcionales llamadas genes. La información que contiene esta secuencia desempeña diversas funciones. Los genes estructurales codifican para enzimás, proteínas estructurales y proteínas reguladoras. Otros tipos de genes codifican moléculas de ARN que no especifican la estructura primaria de un polipéptido, i.e., tARNs. El primer paso en la síntesis de proteínas es la síntesis de una molécula de ARN usando como molde un segmento de una de las cadenas del ADN. En la transcripción, el orden de los desoxirribonucleótidos de uno o varios genes se transfiere uno por uno a una secuencia de ribonucleótidos complementaria. Este proceso está mediado por la enzima ARN polimerasa; y al igual que la replicación del ADN, siempre ocurre en la dirección 5' a 3'. Como los procariontes no tienen membrana nuclear, las moléculas de ARN que se transcriben de los genes son inmediatamente traducidas a nivel de los ribosomás para sintetizar las proteínas. En el caso de los eucariontes, los ARN transcritos son transportados del núcleo al citoplasma, a través de la membrana nuclear. Además, los genes de los eucariontes contienen intrones, estructuras de ADN que interrumpen la región del gen que codifica para la proteína (exón). Al transcribirse un gen en los núcleos de las células de los eucariontes, el ARN resultante incluye tanto las regiones de los intrones como 12

las de los exones. Esta molécula de ARN se “procesa” para dar lugar al mARN maduro que se exporta del núcleo de la célula al citoplasma, donde luego se traduce en proteína. La información genética contenida en cada molécula de mARN se traduce en proteínas a través de un proceso enzimático que se realiza en los ribosomás. En la traducción participan principalmente tres tipos distintos de ARN: el ARN ribosomal (rARN), que junto con varias proteínas forman los ribosomás; el ARN mensajero (mARN), que acarrea la información genética contenida en genes específicos del ADN y los ARNs de transferencia (tARN), que sirven como adaptadores específicos para cada aminoácido durante el ordenamiento lineal de éstos en la síntesis de proteínas, conforme la secuencia del mARN. La síntesis de proteínas, que de facto es la traducción de la secuencia de nucleótidos presentes en el mARN, se lleva a cabo mediante la polimerización de aminoácidos en proteínas, a nivel de los ribosomás en dirección 5' a 3'. La secuencia del mARN realiza la codificación en forma de tripletes de bases (codones) de acuerdo con el código genético, incorporando en cada paso de lectura un aminoácido de la proteína. Cada tARN tiene una secuencia complementaria o anticodón para el codón del aminoácido, que le permite reconocer el codón correcto sobre el mARN. 3.0 DESARROLLO HISTORICO 3.1 Secuenciación de ácidos nucleicos. Inicialmente, se pensaba que la secuenciación de los ácidos nucleicos era mucho más difícil que la de las proteínas, y muy poco progreso se hizo hasta 1960. Esto se debió, en parte, a la falta de substratos puros del tamaño adecuado, con los cuales desarrollar los métodos y en parte, a la composición de los ácidos nucleicos. Se esperaba que la interpretación de los resultados de la secuenciación de los ácidos nucleicos (cuatro monómeros) fuera más difícil que el de las proteínas (20 aminoácidos), y se tendrían que aislar productos de degradación más grandes para poder traslaparlos y deducir sus secuencias. Por otro lado, el hecho de tener cuatro componentes solamente, se pensaba, haría más fáciles los analices finales. Al inicio, la dificultad predominante fue la interpretación de los resultados, pero a medida que las técnicas se fueron mejorando y que se fueron estudiando moléculas más largas, la cuestión del análisis empezó a ser más importante. Hoy, la secuenciación de ácidos nucleicos es más rápida y simple que la secuenciación de proteínas. 13

La estrategia básica de la secuenciación de ácidos nucleicos es idéntica a la que se utiliza en la secuenciación de proteínas. Ésta involucra: 1.- La degradación específica y el fraccionamiento de los polinucleótidos de interés a fragmentos suficientemente pequeños para ser secuenciados. 2.- La secuenciación de los fragmentos pequeños. 3.- El ordenamiento de los fragmentos a través de la repetición de los pasos anteriores, usando un procedimiento de degradación que produce una serie de fragmentos de polinucleótidos que traslapan el punto de corte en la primera serie. El primer ácido nucleico en ser secuenciado fue el tARNAla de levadura. La secuencia de este nucleótido de 76 bases fue realizada por Holley y colaboradores en siete años (Stewart y Letham, 1977). Ellos usaron métodos de secuenciación similares a los que se usaban para secuenciar proteínas; la hidrólisis parcial con enzimás y el fraccionamiento de los productos en columnas de intercambio iónico. El grupo de Holley introdujo el uso de la ribonucleasa T1 (de Aspergillus oryzae), la cual corta ARN después de residuos de guanina y de la ribonucleasa pancreática A, que corta después de residuos pirimídinicos. Poco después, Frederick Sanger y sus colaboradores dirigieron sus esfuerzos para desarrollar técnicas de fraccionamiento más rápidas y simples, las cuales permitieron la secuenciación de ARN y luego de ADN. El grupo de Sanger marcó el ARN con 32P, y pudo detectarlo mediante autoradiografías. Además, introdujeron un método más sencillo para fraccionar los oligonucleótidos. Una técnica de separación bidimensional, con electroforesis en acetato de celulosa, seguido de la electroforesis de intercambio iónico en papel. Siguiendo este enfoque general, el grupo de Sanger desarrollo varios métodos para estudiar los nucleótidos aislados (Sanger, 1988). Uno de los métodos consistía en someter a los oligonucleótidos digeridos con la ribonucleasa T1, a una digestión parcial con una exonucleasa 5´ y correr los productos en una electroforesis sobre papel de dietilaminoetil (DEAE)-celulosa a pH 1.9. La degradación secuencial del extremo 5´ da una mezcla de fragmentos, en donde todos tienen el mismo extremo 3´ pero difieren en sus extremos 5´. En la electroforesis los fragmentos se ordenan por tamaño, y de la posición relativa de dos bandas adyacentes es posible identificar la naturaleza de los nucleótidos, por los cuales ellos difieren. Otro método exitoso fue la técnica “correría de puntos” (“wandering spot”). Se 14

desarrolló un sistema bidimensional en el que primero se digería con una exonucleasa y los fragmentos obtenidos se ordenaban de acuerdo a su tamaño, de tal manera que cada punto difería del punto siguiente por un nucleótido. El sistema fue arreglado para que las posiciones relativas de dos puntos vecinos dependieran de los nucleótidos por los cuales diferían. El método fue extendido para usarse con digestiones más complejas, pero no fue posible distinguir la A de la G con absoluta certidumbre. Con estos métodos, se secuenció el ARN ribosomal 5S de 120 residuos (Sanger, 1988). El arte de secuenciar ARN por estás técnicas alcanzó su cenit en 1976, con la secuenciación del genoma de 3,569 nucleótidos del bacteriofago MS2 por Walter Fiers. El principal problema con la secuenciación del ADN era su talla muy larga; el ADN más pequeño que se encontraba disponible era el de genomas de bacteriófagos de cadena simple, de cerca de 5000 nucleótidos, como el øX174. Y éstos eran muy largos para poder secuenciarlos con los métodos que existían hasta ese momento. Otra dificultad era la falta de enzimas de restricción adecuadas. No existía una enzima con una especificidad análoga a la de la ribonucleasa T1 para el ADN. Alrededor de 1973, se usaron técnicas similares a las empleadas con el ARN para secuenciar ADN, y se pudieron determinar unas pocas secuencias de unos 50 residuos. Sin embargo, los métodos eran lentos y laboriosos, y resultó obvio que si se iban a atacar secuencias vastas de materiales genéticos, se necesitaba un nuevo enfoque. Una alternativa a la hidrólisis parcial fue usar técnicas de copiado enzimático para la secuenciación. C. Weissmann y sus colaboradores descubrieron que el bacteriófago Q_ tiene una ARN polimerasa que copia su propio ARN y desarrollaron técnicas para marcar el ARN y deducir su secuencia. La enzima obvia para copiar el ADN fue la ADN polimerasa. Un enfoque elegante para conseguir la digestión específica del ADN, que pudo ser combinado con un procedimiento de copiado, fue sugerido por C. Chamberlin en 1963. La técnica hace referencia a que en condiciones normales los substratos de la ADN polimerasa son los desoxirribonucleósidos trifosfatos, pero si se remplaza el magnesio por manganeso en el medio, se pueden usar ribonucleósidos trifosfatos. Si la incubación se hace con un ribonucleósido trifosfato, por ejemplo, el rCTP y tres desoxirribonucleósidos trifosfatos, se puede construir una cadena de ADN con todos los dCs remplazados por rCs. Estos enlaces son lábiles en soluciones alcalinas o pueden ser digeridos con una ribonucleasa. De esta manera, se puede 15

preparar una digestión específica en C y otras digestiones similares para escindir los otros residuos. Por otra parte, la ADN polimerasa requiere un ADN de cadena sencilla como templado y un iniciador o “primer”. Éste es un oligonucleótido que contiene un extremo 3´ libre que es complementario con una cadena molde de ADN y funciona como punto de inicio para la adición de nucleótidos. Sanger y su grupo utilizaron como templado el ADN de cadena sencilla del bacteriófago f1 y sintetizaron el iniciador con base en el método desarrollado por Khorana. Como iniciador usaron un desoxirribonucleótido con una secuencia predicha a partir de la secuencia de aminoácidos, ya conocida, de una proteína de la superficie del bacteriófago. Con este método, pudieron determinar la secuencia de 80 nucleótidos. Sin embargo, para poder sintetizar otros 80 residuos, necesitaban hacer otro iniciador. Este procedimiento era todavía lento para analizar muchos fragmentos. Hasta el momento, Sanger y su grupo habían obtenido en sus experimentos ADN altamente marcado, usando el substrato radioactivo con una actividad específica alta y en bajas concentraciones. Ellos observaron que cuando usaban 32P-ATP, los productos de ADN formados se terminaban antes de que se incorporara una A. Debido, presumiblemente, a que a la enzima le faltaba ATP. Esto les sugirió un nuevo enfoque para secuenciar ADN. Si uno puede producir una mezcla de fragmentos con el mismo extremo 5´ (que corresponde al extremo 5´ del iniciador) y terminarlos en posiciones 3´ correspondientes a las A´s, la determinación de los tamaños relativos de todos esos fragmentos debería producir una medida de la posición relativa de las A´s. Esto, combinado con datos similares de los otros tres nucleótidos, es todo lo que uno necesita para la determinación completa de una secuencia. Paralelamente, se estudiaron otros métodos de fraccionamiento, y la electroforesis en gel de acrilamida resulto ser la más eficiente. Con esta técnica se pudieron separar nucleótidos de hasta 250 residuos de acuerdo a su tamaño. En el gel, los fragmentos más pequeños migran más rápido que los más grandes, y cada uno puede ser separado de sus vecinos, los cuales difieren en tamaño sólo por un nucleótido. Después de introducir ligeras modificaciones, desarrollaron el método del “más y menos”, con el que se determinó la mayoría de la secuencia del bacteriofago øX174. Sin embargo, el grupo de Sanger no tardaría en desarrollar un método más eficiente y confiable: el enzimático, que se discute más adelante.

16

Después de 1975, se realizó un progreso dramático en la tecnología de la secuenciación de los ácidos nucleicos. Tres avances hicieron esto posible: 1.- El descubrimiento de las endonucleasas de restricción, enzimás que cortan ADN de cadena doble en secuencias específicas. 2.- El desarrollo de mejores técnicas de secuenciación de ADN. 3.- El desarrollo de técnicas de clonación que permitieron la adquisición de un segmento de ADN en las cantidades necesarias para secuenciarlo. En 1977, se reportaron dos protocolos para la secuenciación de ADN. El primer método fue el de Maxam y Gilbert. Con este método, al igual que con el de Sanger, se obtiene una autoradiografía en donde puede leerse una secuencia. Sin embargo, se determina la secuencia de una molécula de ADN utilizando químicos que cortan en posiciones específicas fragmentos marcados en sus extremos 5´. El segundo método es el de Sanger. Éste utiliza un templado de ADN de cadena sencilla para sintetizar la hebra complementaria, la cual se termina en posiciones específicas. En los dos casos, la secuencia de la molécula se determina por diferencias en los tamaños de los fragmentos generados. 3.2 El método de degradación química (Maxam and Gilbert, 1977). En este método, un fragmento de ADN de cadena doble o sencilla se marca en los extremos 5´ o 3´ de una o ambas hebras con 32P. Después, la muestra de ADN se divide en cuatro alícuotas y se fragmenta en cuatro reacciones químicas distintas. Posteriormente, los fragmentos de ADN generados pueden ser separados por electroforesis en cuatro carriles distintos con base en su tamaño. Conociendo el nucleótido en el que se realizaron los cortes, se puede inferir la secuencia de la molécula original (figura 4). Las reacciones químicas que se utilizan para fragmentar la molécula de ADN son las siguientes: 1. Corte de las purinas. Las purinas adenina y guanina se metilan con dimetil sulfato (DMS). Después, la reacción es tratada en condiciones alcalinas; la molécula de ADN se fragmenta en las purinas metiladas. Como resultado, se obtiene una serie de bandas oscuras que corresponden a las guaninas (las cuales se metilan 5 veces más rápido), y bandas claras que corresponden a las adeninas. Para interpretar fácilmente el patrón de bandas 17

generadas, se puede comparar contra un tratamiento que favorezca el corte de las adeninas. 2. Corte de adeninas. Esta reacción es una variación de la anterior. Las purinas metiladas se tratan inicialmente con un ácido diluido. Esto favorece el corte de las adeninas metiladas. Después de un tratamiento alcalino las guaninas también son cortadas. Este tratamiento genera una serie de bandas oscuras y claras que también corresponden a las adeninas, y las guaninas, respectivamente. 3. Corte de pirimidinas. Esta reacción utiliza el reactivo hidracina, que corta las bases citosina y timina. Posteriormente, se trata con piperidina para completar la reacción. 4. Corte de citosina. La presencia de NaCl 2M inhibe la reacción de hidracina con tiamina, y el tratamiento posterior con piperidina, produce solamente fragmentos que terminan en citosina. Desde que se reporto este método, no se han encontrado reactivos químicos específicos que corten las bases A o T, por lo que se utiliza la estrategia de corte descrita en la figura 4. Esta estrategia permite distinguir entre los nucleótidos que se encuentran al final de cada corte y deducir la secuencia de ADN.

18

1 2 3 4

Figura 4. El método de Maxam y Gilbert para secuenciar ADN. Los números de los carriles en el gel corresponden a los distintos tipos de corte que se describen en el texto.

3.2.1 Ventajas y desventajas del método de degradación química. La baja resolución obtenida cuando se reportó la técnica no se debió a un factor inherente al método de Maxam-Gilbert, si no a una limitante de los geles de acrilamida. En un inicio, se consideraba un logro poder diferenciar el tamaño de 250 fragmentos y determinar la secuencia de ese tamaño. El análisis de una secuencia en geles de acrilamida era complicado, ya que no se podía separar los fragmentos grandes. Otro problema que comúnmente afecta la resolución de las bandas obtenidas en el gel es el ensanchamiento de bandas cuyas secuencias favorecen la formación de estructuras secundarias. Para mejorar la resolución del gel se ha reportado que el uso de geles de acrilamida muy delgados, en conjunto con un voltaje alto de corrimiento, produce bandas más delgadas y mejor separadas (Sanger y Coulson, 1978). Otro aspecto del método de Maxam-Gilbert que puede ser un poco laborioso es la necesidad de separar y analizar individualmente las hebras del ADN que se quiere secuenciar (Sanger et al., 1977). Esto se puede realizar mediante enzimás de restricción (figura 5) que separen los extremos 19

etiquetados para el análisis. Alternativamente, las dos hebras marcadas pueden ser desnaturalizadas y separadas en un gel (Maxam y Gilbert, 1977). Hoy en día, el método más usado para la secuenciación de ácidos nucleicos es el método de Sanger. Sin embargo, es justo decir que el método de Maxam-Gilbert es el más adecuado para determinar la secuencia de fragmentos cortos de ADN, debido a que puede determinar la secuencia desde la primera base. En cambio, el método de Sanger sólo permite la lectura a partir de la base 10-20 (Tahara et al., 1990).

Figura 5. Las enzimás de restricción reconocen secuencias específicas de ADN y pueden ser utilizadas para separar las hebras etiquetadas antes de secuenciar por el método de Maxam-Gilbert.

3.3 El método enzimático (Sanger et al., 1977). El método de secuenciación enzimático salió casi al mismo tiempo que el de Maxam y Gilbert, pero ha sido más utilizado. Esto se debe, en gran parte, a que se han realizado grandes avances en la automatización de esta técnica, lo cual se discutirá más adelante. El método de Sanger se basa en el uso de la ADN polimerasa para sintetizar cadenas de ADN con una terminación específica. Con este método se generan fragmentos de ADN de todos los tamaños posibles que se puedan distinguir entre sí, por el tipo de marcaje que llevan o por la incorporación de un terminador específico. Las enzimás del tipo de la ADN polimerasa requieren de un templado de ADN de cadena sencilla, y realizan la síntesis de la hebra complementaria extendiéndola a partir de un iniciador en dirección 5’ a 3’. Entre los componentes de la reacción se incluyen nucleótidos que no tienen un grupo hidroxilo en su extremo 3’ (ddNTP), para poder obtener una terminación especifica en las cadenas. Una vez que el ddNTP se incorpora como el residuo terminal, evita que la cadena de ADN sintetizada continúe extendiéndose. La incorporación de los ddNTPs es al azar, de tal forma que se obtienen fragmentos de todos los tamaños posibles que terminan en un residuo especifico. En el método de Sanger (1977), la estrategia es hacer cuatro reacciones diferentes de síntesis de ADN, utilizando un ddNTP distinto en cada tubo. Con la mezcla del nucleótido normal (dNTP) y su 20

terminador (ddNTP), se pueden generar fragmentos complementarios de diferentes tamaños que terminan en el mismo nucleótido. Después, estos fragmentos se pueden separar en un gel de electroforesis con cuatro carriles distintos, para determinar la secuencia del templado (figura 6).

Figura 6. El método de Sanger. Cuatro reacciones con ddNTPs diferentes permiten la síntesis de distintos fragmentos con una terminación específica. Estos fragmentos se pueden separar por electroforesis y comparando los tamaños, se puede determinar la secuencia del templado.

El método de Sanger tiene varias ventajas sobre el método de MaxamGilbert (Blackburn y Gait, 1996). Las reacciones de secuenciación del método enzimático se pueden realizar en unas horas, en cambio las del método de Maxam-Gilbert tardan al menos un día. Las reacciones del método de Sanger son más “puras”, con menos contaminantes que puedan afectar la resolución del gel. 3.3.1 Limitaciones del método enzimático. Cuando se reportó este método para la secuenciación de ADN, se usaba el fragmento Klenow de la polimerasa I, y sólo un ciclo de síntesis (incubando a 37 ºC) para obtener fragmentos de distintos tamaños. Todos los fragmentos tenían incorporados en sus cadenas, nucleótidos marcados con 32P. El grupo 21

de Sanger reportó que con esta técnica se podía determinar una secuencia de hasta 300 nucleótidos, a partir de 15 bases del iniciador, aproximadamente. Al momento de publicar esta técnica, también reportaron que la mayor dificultad era que los ddGTPs no estaban disponibles comercialmente. Desde entonces se ha experimentado con variaciones del protocolo original y se han realizado grandes avances en la automatización de este método. En la tabla 1 se resumen algunos de los avances más importantes que han permitido el desarrollo de métodos automatizados para la secuenciación de ADN. 4.0 MÉTODOS CONTEMPORÁNEOS EN LA SECUENCIACIÓN 4.1 Automatización del método de Sanger En la tabla 1 se resumen algunos de los avances mas importantes que han permitido el desarrollo de métodos automatizados para la secuenciación de ADN (usando el método de Sanger). Tabla 1. Descubrimientos significativos que permitieron el desarrollo de los métodos automatizados de secuenciación de ácidos nucleicos.

Avance Reacción en cadena de la polimerasa (PCR) Polimerasa Taq Marcaje del ADN Secuenciadores automatizados

Descripción Técnica que permite la amplificación exponencial de un fragmento de ADN

Referencia Mullis, 1990

Polimerasa termoestable que puede utilizarse en el PCR

Innis et al., 1988; Carballeira et al., 1990 Prober et al., 1987; Igloi, 1998

El marcaje y el tipo de detección utilizado para identificar los fragmentos de ADN sintetizados Desarrollo de máquinas automatizadas Hunkapiller, et al., con la capacidad determinar la secuencia 1991; Lipshutz y de miles de pares de bases por día Fodor, 1994

22

4.1.1 La técnica de PCR y su relevancia en la secuenciación de ADN. En 1985, el químico Kary Mullis desarrolló la técnica de la reacción en cadena de la polimerasa (PCR). Este método permite la amplificación exponencial de una molécula de ADN, generando millones de copias de un fragmento. Esto se lleva acabo con oligonucleótidos que contienen un grupo extremo 3´ libre, que es complementario con la cadena molde de ADN. Los “oligos” funcionan como punto de inicio para la adición de nucleótidos y para copiar la cadena molde en el PCR. Una vez que el oligonucleótido se une a su blanco, la polimerasa de ADN puede seguir extendiendo la hebra complementaria. En una reacción típica de PCR se usan dos oligonucleótidos que flanquean la región de ADN que se desea amplificar. El número de copias del fragmento de ADN que se encuentra entre los dos oligonucleotidos se amplifica con varios ciclos de reacción. Cada ciclo de una reacción de PCR consta de tres pasos (figura 7): 1) Desnaturalización de las hebras de ADN- El templado es el fragmento de ADN que se desea amplificar, junto con la región que reconocen los oligonucleótidos. Para que el oligonucleótido se pueda unir, es necesario que el templado sea de cadena sencilla. Así que este paso del PCR es para separar las cadenas de ADN, si el templado es de doble cadena. Además, en este paso se deshace cualquier tipo de estructura secundaria formada entre los segmentos complementarios de los oligonucleótidos y que pudiera interferir con su habilidad de unirse al templado. Típicamente, la desnaturalización del ADN se hace con una incubación breve del tubo de reacción a una temperatura de 94 ºC.

Figura 7. La reacción de PCR consiste en varios ciclos de 3 pasos. Las temperaturas y los tiempos indicados son ejemplos y varían dependiendo de las características del ADN que se desee amplificar.

2) Temperatura de alineamiento - Esta temperatura se calcula con base en las características de los oligos que serán utilizados. La temperatura a la cual la mitad de los oligos están unidos a su blanco (Tm), se calcula tomando en cuenta el tamaño de los oligos y su contenido de GC (%GC). Después de 23

desnaturalizar las hebras de ADN, se incuba a una temperatura cercana a la Tm, para que los oligos puedan encontrar su región complementaria en el templado. y se unan a ella. 3). Extensión de la cadena de ADN - Este es el último paso de un ciclo de reacción de PCR y normalmente se hace a 72 ºC, la temperatura óptima para la polimerasa de ADN. En este paso, la polimerasa extiende la cadena complementaria del templado. La síntesis de la cadena complementaria tiene como punto de inicio el complejo oligonucleótido/templado. El tiempo de incubación de este paso depende del tamaño del segmento que se desea amplificar. Como regla general se considera que la polimerasa puede sintetizar 1,000 bases por minuto. En la reacción de PCR, típicamente, se llevan acabo de 30 a 40 ciclos de estos tres pasos, para lograr la amplificación deseada. La técnica de PCR resultó relevante para la secuenciación de ácidos nucleicos debido a que se adaptó al método de Sanger, de tal forma que se puede sintetizar un mayor número de copias de los fragmentos con una terminación específica. De esta forma, la señal del marcaje que lleva cada fragmento aumenta, y es posible obtener lecturas más claras de los fragmentos grandes, lo que a su vez, permite la lectura de secuencias más largas, una vez que se pueda superar el problema de la resolución de los geles. 4.1.2 Polimerasa Taq. Cuando se desarrolló el método de secuenciación de Sanger, se usó el fragmento Klenow de la polimerasa I de E. coli para hacer la síntesis de los fragmentos de ADN con una terminación específica (Sanger et al, 1977). En 1957, se aisló la Polimerasa I y durante muchos años se pensó que era la única polimerasa que tenía E. coli (Brown, 1999). De hecho, su actividad es tan grande que enmáscara la actividad de las otras polimerasas de esta bacteria, y hasta que se obtuvó una mutante que no producía la polimerasa I (polA), fue que se pudieron detectar las otras enzimás (Lewin, 1997). El uso de esta enzima tiene algunas desventajas, en comparación con las polimerasas que se aislaron de otros organismos, años después. La reacción de síntesis de ADN reportada por Sanger en 1977, es de un solo paso, y en esta se tienen que sintetizar todas las posibles combinaciones de fragmentos de ADN necesarios para determinar la secuencia de un templado. La razón por la que la síntesis se realiza en un solo paso se debe a que la temperatura óptima para la actividad de Klenow es alrededor de 37 ºC (temperatura óptima de crecimiento de E. coli). Por lo tanto, al elevar la temperatura para desnaturalizar los híbridos o estructuras secundarias del ADN, se inactiva la Klenow, y es necesario añadir más enzima para hacer un segundo ciclo de síntesis de fragmentos de ADN. 24

El uso de la Klenow para generar fragmentos de ADN en las reacciones de PCR y para síntetizarlo en la secuenciación de ácidos nucleicos se fue reemplazando con otras polimerasas más estables, aisladas de organismos termófilos. Una de las polimerasas más conocidas, fue aislada de Thermus aquaticus, y se le dio el nombre de Taq (Innis et al., 1988). Dedido a que esta enzima es resistente a altas temperaturas, fue posible automatizar la reacción de PCR, sin necesidad de añadir enzima nueva en cada ciclo de reacción. La temperatura de extensión de las cadenas de ADN se realiza a 72 ºC, en lugar de 37 ºC. Al hacer el alineamiento de los oligos a una temperatura más elevada, se obtiene una mayor especificidad y homogeneidad en los fragmentos generados para la reacción. Las polimerasas termoestables que se caracterizaron a finales de los 80s contribuyeron a optimizar el método de Sanger para secuenciar ácidos nucleicos. En ese tiempo, se reportó la purificación de polimerasas que podían sintetizar hasta 1500 bases de ADN por minuto, y que mantenían su actividad en un intervalo amplio de temperaturas elevadas (70-80 ºC) (Carballeira et al., 1990). Con estas enzimás, por fin fue posible obtener fragmentos uniformes de ADN de hasta 1000 bases y se pudo determinar una secuencia de este tamaño (Innis et al., 1988). 4.1.3 Marcado de la cadena de ADN. Se han explorado distintas maneras de marcar la cadena de ácidos nucleicos sintetizados para la secuenciación de ácidos nucleicos por el método de Sanger. Originalmente, se utilizaron nucleótidos marcados con 32P en la mezcla de síntesis y algunos de éstos se incorporaban en la cadena (Sanger et al., 1977). Los nucleótidos incorporados al final de la cadena (ddNTPs) no llevaban ningún marcaje (32P), sólo carecían del grupo hidroxilo 3’ para evitar que se siguiera extendiendo la cadena. Para poder resolver el orden de los fragmentos sintetizados de esta forma, era necesario separarlos en un gel de archilamida de cuatro carriles distintos y luego tomarle una radiografía para detectar el marcaje (32P). En los años siguientes, se exploraron otros tipos de marcas que no fueran radioactivas para etiquetar estos fragmentos de ADN (Igloi, 1998). Eventualmente, los fluoróforos fueron remplazando a los isótopos radioactivos, como el método preferido de marcaje (Prober et al., 1987). La razón de esto, es que marcar moléculas de ADN con isótopos radioactivos es laborioso, tardado, peligroso y caro (Smith et al., 1985). Además, las propiedades de las moléculas fluorescentes han contribuido al desarrollo de técnicas automatizadas de secuenciación de ácidos nucleicos. Por ejemplo, la posibilidad hacer todas las reacciones de terminación específica en un solo tubo (Prober et al., 1987). 25

Existen muchas diferentes etiquetas para los fragmentos de ADN. Las moléculas fluorescentes tienen varias propiedades que se adaptaron con cierta facilidad hacia el desarrollo de métodos automatizados para la secuenciación de ácidos nucleicos, y las limitaciones en su uso se han ido resolviendo. Por ejemplo, se observó que una inconsistencia en la intensidad de la señal de los distintos fragmentos, podía complicar la interpretación de la información que se obtenía del detector (Bennett, 2003). Experimentando con distintos fluoróforos, se han encontrado algunos que dan una señal constante y que se pueden distinguir entre si con mayor facilidad (Rosenblum et al., 1997). También, se observó que la modificación de los dideoxynucleótidos (ddNTPs) con algún componente fluorescente, puede causar que la migración del fragmento de ADN en un gel de acrilamida sea un poco distinta, y causar dificultad en la interpretación de la secuencia. Prober et al. (1987) encontraron que era posible usar cuatro etiquetas fluorescentes de la misma familia y que estaban estructuralmente relacionados, pero con distintos rangos de absorción. La similitud de estructura provoca que la influencia sobre la migración de los distintos fragmentos sea mínima y facilita la interpretación de la secuencia. Además, se ha intentado variar la proporción de nucleótidos que están en la mezcla de reacción. Ansorge et al. (1990) encontraron que la polimerasa T7 tiene preferencia por algunos nucleótidos. Observaron que si se usa una proporción equimolar de cada ddNTP, marcado con una molécula fluorescente, la magnitud de la señal que se obtiene es distinta, y se incrementa en el orden A
ADN y no existen muchas posibilidades de que el marcaje interfiera con el proceso enzimático de la síntesis. Sin embargo, en la práctica esta región ha sido difícil de modificar enzimáticamente porque es muy inerte. Kempe et al. (1985) reportaron que después de una incubación de 96 horas con ARN ligasa, sólo pudieron modificar 20% del iniciador en el extremo 5’ con un marcador de biotina. 2. Marcaje incorporado en la cadena- Se pueden incorporar nucleótidos marcados a la cadena de ADN durante su síntesis, tal como lo hicieron Sanger et al.(1997). Es importante que el marcaje no interfiera con la actividad de la polimerasa que incorpora los nucleótidos a la cadena. Igloi (1998) reportó que sólo dos de las polimerasas termoestables, utilizadas comúnmente en la secuenciación, aceptan dNTPs fluorescentes como sustratos. A pesar de que el marcaje de ADN fue el primero en reportarse, no se ha utilizado tan ampliamente porque no tiene ventajas claras sobre los otros métodos. 3. Marcaje del nucleótido terminal- Este método de marcaje, claramente, es el más sencillo y el mejor por varias razones. En este caso, el nucleótido responsable de la terminación (ddNTP), es el que lleva la marca. Esto asegura que todas las cadenas sintetizadas a partir de un templado, lleven incorporado una sola marca en el mismo lugar (al final de la cadena, en el extremo 3’). De esta manera, se obtienen fragmentos que producen bandas uniformes y cuyas secuencias se pueden determinar más fácilmente. Sin embargo, esta no ha sido la razón principal por la que este método ha sido el más popular. Una ventaja adicional de tener el nucleótido terminal marcado, es que se pueden usar nucleótidos terminales que lleven cuatro tipos distintos de marcaje (uno diferente para cada nucleótido). Esto implica que las cuatro reacciones de terminación específica (ddATP, ddCTP, ddGTP, y ddTTP) se pueden llevar acabo en el mismo tubo, y ya no se tienen que hacer por separado (Prober et al., 1987). Además, debido a que se puede determinar cual es el nucleótido terminal de los fragmentos de ADN con base en su señal, es posible resolver la secuencia de un templado con sólo un carril. Las bandas que se ven, emiten una señal distinta, dependiente del nucleótido terminal incorporado. El hecho de que las bandas puedan ser diferenciadas con un carril, elimina la variación que puede ocurrir entre carriles. Además, si por alguna razón se produce terminación inespecífica (en un dNTP), no se detecta el fragmento, porque no lleva un ddNTP marcado al final. Hoy en día, este es el método que más se utiliza para marcar las cadenas de ADN. Kelley (1994) reportó que la información obtenida en las primeras 300 bases de la secuenciación, es más precisa (98% contra 95%) utilizando terminadores (ddNTPs) que llevan una marca fluorescente en lugar de iniciadores con una marca fluorescente. 27

4.1.5 Secuenciación automatizada Los hallazgos de la década de los 80s (mejores polimerasas, PCR, marcas fluorescentes) contribuyeron al desarrollo de máquinas automatizadas capaces de determinar miles de bases de secuencia por día. Las primeras máquinas de secuenciación salieron a finales de los 80s. En 1986, Smith et al. reportaron una técnica de secuenciación automatizada, basada en la terminación específica con cuatro diferentes fluoróforos. La mezcla de síntesis se cargaba en un solo carril de gel, en tubo, y se usaba un detector óptico para determinar la absorción de cada banda, casi al final del tubo. Esta información pasaba directamente a una computadora y permitía obtener información precisa de hasta 200 pares de bases (pb) de la secuencia. Sin embargo, habían varias áreas que podían ser optimizadas para aumentar la longitud de la secuencia obtenida: (1) el tamaño, diámetro y composición del gel electroforético, (2) los reactivos para la reacción de secuenciación, (3) las condiciones de electroforesis, (4) equipo óptico/electrónico de detección, (5) los marcadores fluorescentes (Smith et al., 1986). Posteriormente, se experimentó con el uso de una máquina que tenía un detector óptico capaz de leer la información de cuatro carriles (Ansorge et al., 1987). En este caso, se reportó que era posible obtener información precisa de más de 400 pb, usando solo un marcador fluorescente y separando las cuatro reacciones. Sin embargo, se reportó que a pesar de las aparentes ventajas del uso de marcadores distintos y un carril de detección, era mejor separar las reacciones para que los resultados no se vieran afectados por las diferencias (causantes de variación en la migración electroforética) o similitudes (espectros de absorción traslapados) entre los marcadores (Ansorge et al, 1987). Ansorge et al. (1988) reportaron el primer protocolo que usaba marcadores fluorescentes en lugar de isótopos radioactivos para el método de secuenciación de Maxam-Gilbert. Utilizaron un marcador que no interfería con la degradación de la molécula de ADN y lograron secuenciar 50 oligonucleótidos de 20 bases cada uno, en un sólo gel. En este reporte, los autores demuestran que también es factible automatizar el método de MaxamGilbert usando fluoróforos. Sin embargo, en los años siguientes no hubo muchos avances en esta área, ya que el desarrollo de las técnicas automatizadas de secuenciación se enfocó principalmente en mejorar el método de Sanger. En 1994, se reportó el uso de la polimerasa termoestable “SequiTherm”, que es capaz de sintetizar fragmentos grandes con terminación específica. Esto permitió determinar hasta 1000 bases de una secuencia por reacción 28

(Zimmmerman et al., 1994). Esto fue un gran hallazgo, porque a pesar de los avances en la automatización de la secuenciación la información que se obtenía después de unas 400 bases de secuencia era difícil de interpretar y susceptible a error. La excepción eran reacciones de secuenciación utilizando la polimerasa T7, con la cual era posible obtener hasta 700 bases de secuencia con 99% de precisión, pero esta tenia la desventaja de no ser termoestable (Ansorge et al., 1990; Church et al., 1994). 4.1.6 El desarrollo de máquinas de secuenciación Después de que Smith et al. (1986) reportaron el uso de la primera máquina automatizada que usaba un detector óptico para obtener la información de secuenciación (la cual pasaba directamente a una computadora). Se empezó a experimentar con otros equipos y variaciones de la técnica de secuenciación con el objetivo de mejorar el rendimiento con estas máquinas. a) Secuenciadoras basadas en geles tipo “slab”--Estas secuenciadoras usan un gel vertical para separar los fragmentos generados durante la reacción de secuenciación y tienen distintos sistemas de detección para leer el orden de los marcadores fluorescentes. Meldrum (2000) hace una comparación de algunas propiedades de las máquinas comerciales más comunes que salieron en los 1990s: ABI PRISM 377 _ Esta secuenciadora salió a finales de los 80s. Se basaba en el uso de un carril para detectar cuatro marcadores fluorescentes distintos. Usa una cámara CCD y es capaz de leer hasta 200 bases por muestra por hora. Se pueden cargar hasta 96 muestras en un solo gel y éstos se detectan simultáneamente. ASTRAL _ Esta máquina usa un láser de Argón para iluminar las muestras lateralmente. Puede detectar más de cuatro marcadores distintos por muestra y es capaz de acomodar hasta 96 muestras por gel. En un experimento típico se pueden obtener 300 bases de secuencia por muestra en un tiempo de 7-8 hrs. LI-COR Modelo 4200 _ Esta máquina salió en 1997 y tiene un sistema de análisis que detecta una longitud de onda cercana al infrarrojo. Esta máquina es capaz de detectar los productos de 2 reacciones de secuenciación simultáneos y bidireccionales, produciendo 2 veces más información de cada reacción de secuenciación. Tiene 64 carriles y se producen secuencias de hasta 1000 bases de cada extremo del templado con una precisión del 99%. 29

Había mucho interés en reducir el tiempo requerido para obtener los datos de secuenciación, dado que esto era uno de los pasos limitantes para completar proyectos de secuenciación. La compañía MJ Research, Inc. introdujo una máquina en 1998 que llamaron el sistema “HUGE”. Ésta se basaba en el uso de un gel horizontal de poliacrilamida ultradelgado (75 µm); Tenía 96 carriles y podía leer 450 bases por carril en 90 minutos (Meldrum, 2000) . Este aparato se superó en 1999, cuando se introdujo el secuenciador “Clipper”, desarrollado por la compañía Visible Genetics, Inc. Éste era capaz de secuenciar 400 bases en 30 minutos en un gel de poliacrilamida con un grosor de 50 µm, o 1000 bases en menos de cuatro horas (Yager et al., 1999). b) Secuenciadoras basadas en electroforesis capilar- El segundo tipo de secuenciadoras automáticas se basaba en un sistema capilar para hacer la separación de los fragmentos de distinto tamaños. Los capilares se caracterizan por tener un diámetro pequeño (≈200 µm) y permiten hacer una separación rápida de alta resolución sin calentar la muestra (Huang y Mathies, 1994). Por mucho tiempo, esta técnica de separación se vio limitada por el problema de cómo detectar múltiples capilares sin tener que usar múltiples detectores. Por lo tanto, a pesar del beneficio de que la separación capilar es muy rápida (1-2 horas con excelente resolución), no podía competir con las secuenciadoras que separaban las muestras en un gel tipo “slab” (Huang y Mathies, 1994; Behr et al., 1999). En 1994, Huang y Mathies reportaron el uso de un aparato con un sistema de detección paralelo de dos fluoróforos que podía leer la información de 25 capilares simultáneamente. Esta máquina era aproximadamente 10 veces más rápida que las secuenciadoras típicas de geles tipo “slab”. Pronto empezaron a salir otras secuenciadoras automáticas que usaban separación por electroforesis capilar, con sistemas de detección paralelos (figura 8) para multiples capilares, por ejemplo: CEQ 2000 (Evans, 2000) _ Esta secuenciadora tiene ocho capilares con un detector de cuatro colores. Los pasos para preparar el gel, i.e., la desnaturalización de la muestra y la carga, son automatizadas. Este sistema es capaz de determinar 500 bases de secuencia de cada capilar en 2 horas, o leer hasta 96 muestras automáticamente en un día. Secuenciadora MCE (Behr et al., 1999) _ Esta secuenciadora se desarrolló en el Instituto Max-Planck. Tiene una detección paralela de 96 capilares (Figura 8) y es capaz de procesar 15,000 muestras sin intervención humana. 30

Figura 8. Esta secuenciadora tiene un detector paralelo capaz de leer la información de 96 capilares simultáneamente. Luz de un láser de Argón se guía por una fibra óptica (Fi) hasta el generador (PI) que distribuye la luz de forma uniforme por todos los capilares.

MegaBACE 1000 _ Esta máquina también tiene 96 capilares y es posible obtener secuencias hasta de 800 pares de bases por corrida (Meldrum, 2000) ABI PRISM 3700 _ Esta es la secuenciadora que se utiliza en el Instituto de Biotecnología de la UNAM (figura 9). Puede detectar 5 marcadores fluorescentes distintos y correr 24 horas sin intervención humana. Cuenta con 96 capilares (y 8 de reserva) y se puede recargar hasta cuatro veces automáticamente. Se pueden hacer hasta 500 corridas sin necesidad de cambiar los capilares. Cada corrida dura aproximadamente 2.5 hrs y detecta un promedio de 550 bases por reacción de secuenciación (Meldrum, 2000).

31

Figura 9. La secuenciadora ABI PRISM 3700. Es el aparato que actualmente se tiene en el IBt-UNAM. Hay una segunda máquina en el Centro de Investigación sobre Fijación de Nitrogeno (CIFN-UNAM). Puede correr 768 reacciones de secuencia sin atención técnica en 36 horas. La longitud de las lecturas obtenidas es de un promedio de 600-700 bases” (kinish.cifn.unam.mx/~retligen/infrastructura.htm).

4.2 Secuenciación de ARN Paralelo al desarrollo de los métodos de secuenciación de ADN, también se reportaron avances en la secuenciación de ARN. Desde que Holley secuenció un tARN para Alanina en 1965, se han desarrollado métodos de secuenciación de ARN similares a los utilizados para secuenciar ADN (Blackburn y Gait, 1996). Básicamente, los métodos de secuenciación de ARN se dividen en 2 categorías. 4.2.1 Métodos indirectos En este caso, el ARN se convierte primero a cADN con la enzima transcriptasa reversa y luego se usa el fragmento obtenido como templado para la reacción de secuenciación. En realidad, este método determina la secuencia de una molécula de ADN a partir de la cual se infiere la secuencia de la molécula de ARN. Este método indirecto es uno de los más comunes para la secuenciación de ARN porque tiene todas las ventajas de la secuenciación de ADN.

32

4.2.2 Métodos directos Estos métodos se utilizan para secuenciar la molécula de ARN cuando es complicado utilizar el método indirecto (Igloi, 1998). Esto suele suceder con ARNs muy pequeños, o con estructuras secundarias extensas (ribosomales, transferencia). Todas estas técnicas requieren de que el ARN este en forma pura. a) Método enzimático-- En los primeros reportes se experimentó con una forma enzimática para secuenciar ARN directamente. En este caso, los autores Brownlee y Cartwright (1977) reportaron los resultados de la secuenciación de una molécula de mARN de casi 200 pb. Utilizaron un iniciador marcado con 32P y la transcriptasa reversa. Usando reacciones similares a las del método de Sanger, los autores generaron fragmentos de cADN con una terminación específica dada por ddNTPs. Después, resolvieron el orden de los fragmentos de ADN generados en un gel de acrilamida. Se ha visto que la concentración del ARN templado influye mucho en la resolución del gel. Los autores Carpenter y Simon (1990) reportaron que cuanto mayor era la cantidad de ARN viral usado como templado, menor era la resolución obtenida en el gel de acrilamida debido a que las bandas eran anchas, complicando la interpretación del orden. Ellos obtuvieron la mejor resolución utilizando 0.4 µg (0.75 pmol) de ARN como templado. En una reacción de secuenciación de rARN, Bakin y Ofengand (1992) obtuvieron la mejor resolución empleando 10 veces menos ARN, es decir, solamente 0.13 pmol. A pesar de que se generan fragmentos de ADN, el método enzimático es un método directo porque el templado es una molécula de ARN. La marca se puede incorporar a los fragmentos de ADN de maneras alternativas a la usada por Brownlee y Cartwright en 1977. El uso de ddNTPs marcados tiene la ventaja de que los fragmentos que sufren una terminación prematura no se detectan ni interfieren con la interpretación de la secuencia. La terminación prematura suele ser un problema más común en la secuenciación de ARN por la formación de estructuras secundarias que interfieren con la actividad de la transcriptasa reversa. Además, la síntesis de fragmentos de ADN a 37 ºC carece de las ventajas de las altas temperaturas que se pueden usar con otras enzimas (polimerasa Taq).

33

b) Método químico-- En 1977 se presentó un método de ruptura química del ARN similar al de Maxam y Gilbert (Donis-Keller et al., 1977). La molécula de ARN (en este caso ARN ribosomal) se marca con una molécula de 32P en un extremo. Después se utilizaron nucleasas para hacer digestiones de la molécula de ARN marcado en distintos lugares. La RNAsa T1 corta las guaninas, la RNAsa U2 corta las adeninas y una hidrólisis alcalina rompe todos los enlaces fosfodiéster (Donis-Keller et al., 1977). Se utiliza un gel de acrilamida para separar los fragmentos de estos tres tipos de ruptura, lo que permite determinar el orden de las guaninas, adeninas y pirimidinas de una molécula de ARN ribosomal. A diferencia del método enzimático, en el que se puede usar un iniciador marcado para generar los fragmentos que serán secuenciados, el método químico requiere que la molécula de ARN sea marcada directamente. Esto se puede hacer introduciendo una marca de 32P en el extremo 5’ de la molécula con una cinasa T4, o en el extremo 3’ con una ligasa T4 (Blackburn and Gait, 1996). 4.3 Resumen de enzimas usadas en la secuenciación de ácidos nucleicos. En la tabla 2 se resumen algunas de las enzimas mas comunes utilizadas en la secuenciación de ácidos nucleicos. Estas enzimas eran entre las primeras herramientas en la biología molecular y se aprovecharon sus actividades naturales en la secuenciación de los ácidos nucleicos.

34

Tabla 2- Algunas de las enzimas que han tenido un papel importante en el desarrollo de los métodos de secuenciación Enzima Fragmento Klenow T7

Taq polimerasa Enzimas de restricción

Transcriptasa reversa RNAsa T1 RNAsa U2 RNA ligasa Cinasa T4

Función Una polimerasa de ADN que utilizo Sanger en su reacción de secuenciación. No es termoestable. Una polimerasa de ADN no termoestable que se utilizaba frecuentemente en las reacciones de secuenciación con el Método Sanger. Se utilizaba frecuentemente para incorporar terminadores (ddNTPs) etiquetadas con un fluoroforo. Una polimerasa termoestable aislada de T. aquaticus (termofilo). Fue una gran herramienta en el desarrollo de la técnica de PCR. El primero fue aislado de E. coli en 1968 por Matthew Meselson y Robert Yuan. Son nucleasas que reconocen y cortan secuencias específicas de ADN (doble cadena). Se utilizan en el método de degradación química para aislar los fragmentos (32P) que serán secuenciados. Una polimerasa de ADN que sintetiza una cadena de ADN utilizando una molécula de ARN como templado

Referencia Sanger et al., 1977 (Ansorge et al., 1990)

Innis et al., 1988 Maxam y Gilbert, 1977

Brownlee y Cartwright, 1977 La RNAsa T1 corta las moléculas de ARN (cadena sencilla) Donis-Keller en las guaninas. et al., 1977 RNAsa U2 corta las moléculas de ARN (cadena sencilla) Donis-Keller en las adeninas. et al., 1977 32 Se utiliza para unir una marca radioactiva ( P) en el Blackburn y extremo 5’ de la molécula de ARN (cadena sencilla). Gait, 1996 Se utiliza para unir una marca radioactiva (32P) en el Blackburn y extremo 3’ de la molécula de ARN (cadena sencilla). Gait, 1996

5.0 ESTRATEGIAS Y APLICACIONES DE LA SECUENCIACIÓN DE ÁCIDOS NUCLEICOS 5.1 Proyecto de secuenciación del genoma humano Uno de los factores principales que motivó el desarrollo de la tecnología de las secuenciadoras automáticas fue el proyecto de secuenciación del genoma humano. Tal vez ningún proyecto de secuenciación genómica ha recibido tanta atención como éste, concebido en Estados Unidos en 1988 (Olson, 1993). En ese tiempo, la tecnología de secuenciación automatizada estaba en sus primeras etapas de desarrollo, y era muy ambicioso intentar secuenciar un genoma de miles de millones de pb. Sin embargo, el comienzo 35

de este proyecto se anunció oficialmente en 1990 por los departamentos de Salud y Energía con un presupuesto de 3 mil millones de dólares y la meta de completar la secuencia en 15 años (Venter et al., 2001). ¿De qué nos sirve la información de la secuencia de un genoma? De una forma muy general, los objetivos principales del proyecto de secuenciación del genoma humano eran los siguientes (Olson, 1993): a) Mejorar la infraestructura de la investigación genética - La secuencia del genoma humano permitiría la ampliación del conocimiento genético de nuestro organismo. Se pueden utilizar técnicas como el PCR para analizar detalladamente ciertos segmentos del genoma. Conociendo su secuencia, se pueden diseñar oligonucleótidos que reconocen y se unen a secuencias complementarias en el ADN. b) Comparar el papel de una secuencia de ADN en los humanos y en los organismos modelo – Se pueden comparar las secuencias de los genes identificados en el genoma humano con los genes de otros organismos y conocer el grado de similitud o diferencia que existe entre dos especies. También se puede inferir la función de ciertos genes con base en los conocimientos de otro gen similar, identificado en otro organismo. c) Mejorar la bioquímica analítica del ADN - Este era el reto más grande cuando se anunció el inicio del proyecto de secuenciación del genoma humano, ya que se refería a mejorar las herramientas para el análisis de ADN. Éste era un reto técnico, ya que para obtener la secuencia completa del genoma humano en el tiempo propuesto era necesario desarrollar la estrategia y las máquinas de secuenciación con capacidad de secuenciar dos Mpb por año. La secuencia del genoma humano se reportó en el 2001, cuatro años antes de la fecha prevista (Venter et al., 2001). Esto se debe en parte a los esfuerzos de más de 20 grupos internacionales que colaboraron para completar la secuencia, y a los avances en la tecnología de las secuenciadoras automaticas (la mayor parte de la secuencia se obtuvo con máquinas ABI PRISM 3700; figura 9). Pero la razón principal por la que se logró completar la secuencia fue un cambio en la estrategia de secuenciación (Internacional Human Genome Sequencing Consortium, 2001). La necesidad de tener una buena estrategia para secuenciar fragmentos grandes de ADN (e.g, un cromosoma), fue evidente en el proyecto de secuenciación del genoma humano. 36

5.2 Estrategias para la secuenciación de fragmentos grandes de ADN. 5.2.1 “Chromosome Walking” Hay dos estrategias generales para secuenciar fragmentos grandes de ADN. La primera se llama caminata cromosomal “chromosome walking” (Brown, 1999; figura 10) y consiste en lo siguiente: (1) la fragmentación parcial del ADN para su inserción en un vector de clonación; (2) la obtención de un banco de clonas de fragmentos que contienen segmentos que se traslapan y; (3) la secuenciación de una clona y la identificación de una segunda que posea la continuación del segmento que se está secuenciando. Este proceso se repite hasta que se completa la secuencia de la molécula original de ADN (e.g., un cromosoma). Esta estrategia se utilizó originalmente en el proyecto de secuenciación del genoma humano. Tiene la ventaja de que se asegura la obtención de la secuencia completa de la molécula original de ADN. En teoría, no se requiere hacer secuenciación redundante; sin embargo, tiene varias desventajas que afectan el tiempo y el costo de un proyecto de secuenciación. Primero, cada clona se tiene que analizar individualmente y en serie. No se puede secuenciar la siguiente clona hasta no conocer la primer secuencia. Segundo, se requiere la síntesis de un enorme número de iniciadores para continuar la secuenciación. Suponiendo que cada iniciador empleado es único y sirve para secuenciar sólo una parte de una clona particular, se requiere sintetizar de 5 a 10% de la secuencia total (Cantor y Smith, 1999). Tomando esto en cuenta, no es sorprendente que hasta 1998 sólo se había secuenciado el 5% del genoma humano (Venter et al., 2001). Era necesario un cambio de estrategia para completar la secuencia del genoma humano en el tiempo previsto.

37

Figura 10. La estrategia “chromosome walking” permite determinar la secuencia de un fragmento enorme de ADN ensamblando muchas secuencias pequeñas de distintas clonas (www.bio.miami.edu/dana/250/25003_10.htm).

5.2.2 “Shotgun Sequencing” La segunda estrategia general para la secuenciación de fragmentos grandes de ADN, se llama secuenciación tipo “shotgun” (figura 11). La gran diferencia entre esta estrategia y la anterior es que en el “shotgun” la secuenciación se hace a partir de fragmentos al azar. Después, se utiliza un programa de cómputo para encontrar las regiones que se traslapan entre las secuencias individuales. Así se va ensamblando la secuencia del fragmento original (Brown, 1999). Esta estrategia de secuenciación tiene la ventaja de que es rápida, requiere la síntesis de pocos iniciadores, y tiene una eficiencia comprobada (Cantor y Smith, 1999). Una de las desventajas de esta estrategia es que requiere la redundancia de las secuencias para asegurar la obtención de una muestra completa del ADN original. Otra desventaja es que se requiere mucha tecnología computacional para ensamblar la secuencia original y que a veces quedan “gaps” (regiones del fragmento original que no se secuenciaron). Utilizando esta estrategia de secuenciación, es necesario secuenciar al menos 5 veces el ADN original para poder lograr un muestreo completo (Venter et al., 38

2001). Tal vez, esta razón es suficiente para explicar la resistencia durante tanto tiempo para la realización del proyecto del genoma humano, considerando que es un genoma al menos 25 veces más grande que cualquier otro genoma ya secuenciado (Internacional Human Genome Sequencing Consortium, 2001). Aun cuando Weber y Myers (1997) presentaron un plan para terminar la secuenciación del genoma humano con esta estrategia, demostrando que sería más rápido y menos costoso, su propuesta no fue bien recibida.

Figura 11. En la estrategia “shotgun” se secuencian fragmentos al azar y luego usando un programa computacional se encuentran las regiones que se traslapan para determinar la secuencia del fragmento original (http://www.bioteach.ubc.ca/Bioinformatics/GenomeProjects/shotgun%201.gif).

En 1998 se fundó la compañía de biotecnología Celera Genomics, con el propósito de completar el proyecto de secuenciación del genoma humano utilizando la estrategia “shotgun” (Myers, 1999). La validez de esta estrategia fue establecida en el 2001 cuando Venter et al. (investigadores de Celera Genomics) reportaron que habían completado la secuenciación del genoma humano en menos de un año.

39

Al conocerse la secuencia del genoma humano se hicieron varios hallazgos importantes (Venter et al., 2001; Internacional Human Genome Sequencing Consortium, 2001): a) El genoma está compuesto por 1% de exones, 24% de intrones y 75% de regiones intergénicas. b) Hay entre 30,000 y 40,000 genes que codifican para proteínas. c) Se han identificado más de 2.1 millones de polimorfismos de un solo nucleótido (SNPs) en el genoma. Éstos ocurren más o menos uno de cada 1300 bases. Si se secuencia una región del genoma de dos individuos, se encontrará que son 99.3% idénticos. En gran parte, las diferencias son cambios de una sola base conocidos como SNPs; se encontraran las dos alternativas en más de 1% de la población (Chiche et al., 2002). Dado que muchas enfermedades genéticas están asociadas a variaciones pequeñas como los SNPs, hay interés en utilizar la información del proyecto del genoma humano para identificar los SNPs responsables de ciertas enfermedades (Tang et al., 2004). 5.3 Otras aplicaciones El avance en la secuenciación de los ácidos nucleicos ha sido una herramienta que ha generado muchos conocimientos en el campo de la genómica. Hasta el 2001 se habían reportado los genomas completos de 599 virus, 185 organelos, 31 eubacterias, 7 arqueobacterias, un hongo, dos animales y una planta (Internacional Human Genome Sequencing Consortium, 2001). Las ramificaciones de tener esta información son innumerables, y su valor incalculable. Entre otras cosas, nos ha permitido entender cómo se asocian las enfermedades con la variabilidad genética, la función de genes caracterizados en otros organismos, el patrón de expresión de genes nuevos, el aislamiento de genes específicos por PCR, la similitud o variación genética entre especies diferentes, la organización de la información genética, el origen de algunos genes, etc. Hay cientos de ejemplos de cada una de estas categorías. Tal vez, lo que sea más importante recordar es que no parece haber límite en las aplicaciones de la información que se obtiene de la secuenciación de los ácidos nucleicos. Gracias a esta información, se han logrado avances en la investigación de áreas como la medicina, la química, la biología molecular, la sistemática, la proteómica, y mucho más. 40

6.0 El FUTURO DE LA SECUENCIACION

6.1 Secuenciación por hibridización Entre otras cosas el conocimiento de la secuencia de los genomas o los genes de los organismos también ha permitido desarrollar nuevos métodos de secuenciación. Como reportan Isaksson y Landegren (1999) uno de estos es la secuenciación por hibridización. Una forma en la cual puede funcionar este método es utilizando “microarrays”. Estos son soportes pequeños en los cuales se imobilian pequeños fragmentos de ADN en un orden conocido. Después se pasa la muestra de ADN (con secuencia desconocida) y se cuantifica el grado de hibridización, y por consecuencia el grado de identidad con las secuencias fijas en el soporte (Cantor y Smith, 1999). Esto parece funcionar especialmente bien en la identificación de SNPs. Wang et al. (1998) reportaron que es posible identificar el genotipo de un individuo analizando 500 SNPs a la vez en un experimento de hibridización con un “microarray” de oligonucleotidos. Una posibilidad para la secuenciación de acidos nucleicos a futuro, que discuten los autores Cantor y Smith (1999) es el hacer hibridización contra oligonucleotidos que formen palabras de tal forma que se pueda ir determinando la secuencia sobrelapando los fragmentos (de 6-8 nucleótidos) con los cuales híbrida el fragmento secuenciado (Figura 12).

Figura 12. La forma en la cual se puede utilizar hibridización para secuenciar. La molécula de ADN se hibridiza contra pequeños oligonucleotidos que son como “palabras”. Después, se determina la secuencia.

6.2 Secuenciación a futuro sin fragmentación de ADN Los autores Cantor y Smith (1999) presentan algunas posibilidades de cómo puedan evolucionar los métodos en la secuenciación de acidos nucleicos. Las posibilidades se discuten en función de que poder secuenciar moléculas individuales de ADN sin fragmentarlos en segmentos. Por ejemplo, usar moléculas de ADN fijas a un soporte que se van degradando con una exonucleasa y algún detector que determine cuales son los nucleótidos que se van liberando (Cantor y Smith, 1999). Una segunda posibilidad es utilizar microscopia electronica para determinar la secuencia de acidos nucleicos en 41

una molécula de ADN. Esto se podría hacer tal vez marcando las bases individuales con algún metal pesado. Ninguno de estos dos métodos se ha implementado por dificultades en los detalles (Cantor y Smith, 1999). En el primer caso hay dos complicaciones: como marcar cada base con alguna etiqueta como un fluoroforo, y tener un detector suficientemente sensible que sea capaz de detectar un solo nucleótido marcado. En el segundo caso (microscopia electronica), no se pudo marcar cada base con algún metal sin tener reacciones laterales no deseadas (con otras bases la molécula de ADN). Sin embargo, tal vez a futuro, se logren resolver estas dificultades, o se descubran otras alternativas eficientes para hacer la secuenciación de moléculas individuales de ADN.

42

7.0 REFERENCIAS Ansorge, W., B. Sproat, J. Stegemann, C. Schwager and M. Zenke (1987) AutomatedDNA sequencing: ultrasensitive detection of fluorescent bands during electrophoresis. Nucleic Acids Res 15(11): 4593-4602 Ansorge, W. A. Rosenthal, B. Sproat, C. schwager, J. Stegemann and H. Voss (1988) Non-radioactive automated sequencing of oligonucleotides by chemical degradation. Nucleic Acids Res 16(5): 2203-2206 Ansorge, W., J. Zimmerman, C. Schwager, J. Stegemann, H. Erfle, and H. Voss (1990) One label, one tube, Sanger DNA sequencing in one and two lanes on a gel. Nucleic Acids Res 18(11): 3419-3420 Bakin, A. and J. Ofengand (1992) A high sensitivity method for sequencing RNA: application to ribosomal RNA. BioTechniques 13(5):682-683 Behr, S., M. Matzig, A. Levin, H. Eickhoff, C. Heller, (1999) A fully automated multicapillary electrophoresis device for DNA analysis. Electrophoresis 20: 1492-1507 Bennet, P. (2003) DNA sequencing and the human genome Project. Molecular Biology In Cellular Pathology. John Wiley & Sons, Ltd pp. 308-328 Blackburn, G. M. and M. Gait (1996), Nucleic Acids in Chemistry and Biology, 2nd Ed., Oxford, U. Pr., NY, EUA. Brown, T.A. (1999) Genomes. Bios Scientific Publishers, Ltd. John Wiley & Sons, Inc, New York, USA. pp. 59-82 Brownlee, G. and E. Carterwright (1977) Rapid gel sequencing of RNA by primed synthesis with reverse transcriptase. J Mol Biol 114: 93-117 Cantor, C. and C. Smith (1999) Genomics: The science and technology behind the human genome project. John Wiley & Sons, Inc. Carballeira, N., M. Nazabal, J. Brito, O. Garcia (1990)Purification of a thermostable DNA polimerase from Thermus thermophilus HB8, useful in the polymerase Chain reaction. BioTechniques 9(3): 276-281 Carpenter, C. and A. Simon (1990) Simplified RNA sequencing using dideoxy chain termination. BioTechniques 8(1): 26-27 43

Chiche, J., A. Cariou, J. Mira (2002) Bench-to-bedside review: Fulfilling promises of the human genome project. Critical Care 6(3): 212-215 Church, G. G. Gryan, N. Lakey, S. Kieffer-Higgins, L. Mintz, M. Temple, M. Rubenfield, L. Jaehn, H. Ghazizadeh, K. Robison, and P. Richterich (1994) Automated multiplex sequencing. Chapt 2. Automated DNA sequencing and analysis. Edit. Adams, M. C. Fields, J. Venter. Academic Press, Inc. SD, USA. Pp. 11-16 Donis-Keller, H. A. Maxam, and W. Gilbert (1977) Mapping adenines, guanines, and pyrimidines in RNA. Nucleic Acids Res 4(8): 2527-2538 Evans, T. (2000) Engineering in genomics. Developing and commercializing a DNA sequencer. IEE EMB 19(4): 117-120 Huang, X. and R. Mathies (1994) Application of capillary array electrophoresis to DNA sequencing. Chapt 3. Automated DNA sequencing and analysis. Edit. Adams, M. C. Fields, J. Venter. Academic Press, Inc. SD, USA. Pp. 17-28 Hunkapiller, T., R. Kaiser, B. Koop, and L. Hood (1991) Large-scale and automated DNA sequence determination. Science 25: 59-67 Igloi, G. (1998) Strategies for introducing non-radioactive labels during the automated Sequence analysis of nucleic acids. Elec J Biotech 1(1): 23 30 Innis, M., D. Myambo, D. Gelfand, and M. Brow (1988) DNA sequencing with Thermus aquaticus DNA polymerase and direct sequencing of polymerase Chain reaction-amplified DNA. Proc Natl Acad Sci, 85:9436 9440 International Human Genome Sequencing Consortium (2001) Initial sequencing and analysis of the human genome. Nature 409: 860-921 Isaksson, A. and U. Landegren (1999) Accessing genomic information: alternatives to PCR. Curr Opin Biotechnology 10: 11-15 Kelley, J. (1994) Automated Dye-terminator DNA sequencing. Chapt 26. Automated DNA sequencing and analysis. Edit. Adams, M. C. Fields, J. Venter. Academic Press, Inc. SD, USA. Pp. 175-181 44

Kempe, T., W. Sundquist, F. Chow, and L. Hu (1985) Chemical and enzymatic biotin-labeling of oligodeoxyribonucleotides. Nucleic Acids Res 13:45-57 Levine, J., Suzuki, D. El secreto de la vida. Dirección General de Divulgación de la ciencia, UNAM, México (2000). Lewin, B. (1997) Genes. Oxford University Press, Inc. New York. Pp. 472-477 Lipshutz, R. and S. Fodor (1994) Advanced DNA sequencing technologies. Curr Opin Struct Biol 4:376-380 Maxam, A. and W. Gilbert (1977) A new method for sequencing DNA. Proc Natl Acad Sci 74(2): 560-564 Meldrum, D. (2000) Automation for genomics, part two: sequencers, microarrays, and future trends. Genome Res 10: 1288-1303 Mullis, K (1990) The unusual origin of the polymerase chain reaction. Sci Am 262(4):56-65 Myers, G. (1999) Whole-genome DNA sequencing. Computing in Science & Engineering. IEEE pp. 33-43 Olson, M. (1993) The human genome project. Proc Natl Acad Sci, USA. 90: 4338-4344 Prober, J. et al., (1987) A system for rapid DNA sequencing with fluorescent chain-terminating dideoxynucleotides. Science. 238: 336-341 Rosenblum, B., L. Lee, S. Spurgeon, S. Khan, S. Menchen, C Heiner, and S. Chen (1997) New dye-labeled terminators for improved DNA sequencing patterns. Nucleic Acids Res 25(22):4500-4504 Sanger, F., S. Nicklen, and A.R. Coulson (1977) DNA sequencing with chain terminating inhibitors. Proc Natl Acad Sci 74(12): 5463-5467 Sanger, F. and A.R. Coulson (1978) The use of thin acrylamide gels for DNA sequencing. FEBS Lett 87(1): 107-110 Sanger, F. (1988) Early nucleic acid chemistry. Trends Biochem Sci 13: 67-69 45

Schlenk, F., (1988).Early nucleic acid chemistry, Trends Biochem. Sci., 13: 67-69 Smith, L., S. Fung, M. Hunkapiller, T. Hunkapiller, and L Hood (1985) The synthesis of oligonucleotides containing an aliphatic amino group at the 5’ terminus: synthesis of fluorescent DNA primers for use in DNA sequence analysis. Nucleic Acids Res. 13(7): 2399-2412 Smith, L. J. Sandlers, R. Kaiser, P. Hughes, C. Dodd, C. Connell, C. Heiner, S. Kent, and L. Hood (1986) Fluorescence detection in automated DNA sequence analysis. Nature 321: 64-69 Stewart, P. R. and D. Letham (1977), The ribonucleic acids, 2nd Ed., Springer Verlag, NY, EUA, pp. 374. Tabor, S. and C. Richardson (1995) A single residue in DNA polymerases of the Escherichia coli DNA polymerase I family is critical for distinguishing between deoxy and dideoxyribonucleotides. Proc Natl Acad Sci, USA 92: 6339-6343 Tahara, T., J. Kraus, and L. Rosenberg (1990) Direct DNA sequencing of PCR Amplified genomic DNA by the Maxam-Gilbert method. BioTechniques 8(4): 366-367 Tang, K., P. Oeth, S. Kammerer, M. Denissenko, J. Ekblom, C. Jurinke, D. van den Boom, A. Braun, and C. Cantor. (2004) Minin Disease susceptibility genes through SNP analyses and expression profiling using MALDI-TOF máss spectrometry. J. Proteome Res 3(2): 218-227 Venter, C. et al. (2001) The sequence of the human genome. Science 291: 1304-1351 Voet, D. and J. Voet, (1995) Biochemistry, 2nd Ed. John Wiley and Sons, Inc. NY, EUA Wang, D. et al. (1998) Large-scale identification, mapping, and genotyping of single nucleotide polymorphisms in the human genome. Science 280: 1077-1082 Watson, J. and F. Crick.(1953) Molecular structure of nucleic acids: structure for deoxyribose nucleic acids. Nature, 171: 737-738 46

Weber, J. and E. Myers (1997) Human Whole-genome shotgun sequencing. Genome Res 7: 401-409 Yager, T., L. Baron, R. Batra, A. Bouevitch, D. Chan, K. Chan, S. Darasch, R. Gilchrist, A. Izmailov, J. Lacroix, K. Marchellata, J. Renfrew, D. Rushlow, E. Stinbach, C. Ton, P. Waterhouse, H. Zaleski, J. Dunn, and J. Stevens (1999) High performance DNA sequencing, and the detection of mutations and polymorphisms on the Clipper sequencer. Electophoresis 20: 1280-1300 Zimmermann, J., S. Wirmann, H. Voss, C. Schwager, and W. Ansorge (1994) Improved fluorescent cycle sequencing protocol allows reading nearly 1000 bases. BioTechniques 17(2): 302-305

47

SECUENCIACIÓN DE ÁCIDOS NUCLEICOS - Instituto de

Recommend Documents