[go: up one dir, main page]

O xenoma humano é o xenoma do Homo sapiens, é dicir, a secuencia do ADN, con toda a información xenética dos seus xenes e as secuencias non codificantes, contida nos seus 23 pares de cromosomas situados no núcleo de cada célula humana diploide. Tamén forma parte do xenoma humano o ADN mitocondrial.

Xenoma humano clasificado polos produtos dos seus xenes.

Dos 23 pares de cromosomas, 22 pares son cromosomas autosómicos e un par determina o sexo, que está formado por dous cromosomas X nas mulleres e un X e un Y en homes, polo que a muller ten 23 cromosomas distintos e o home 24. O xenoma haploide (é dicir, cunha soa copia dos cromosomas de cada par) ten unha lonxitude total aproximada de 3.200 millóns de pares de bases (nucleótidos do ADN) ou 3.200 megabases (Mb) que conteñen entre 20.000 e 25.000 xenes [1] (as estimacións máis recentes indican uns 20.500). Das 3.200 Mb unhas 2.950 Mb corresponden a eucromatina e unhas 250 Mb a heterocromatina. O Proxecto Xenoma Humano obtivo unha secuencia de referencia do xenoma humano eucromático, usado en todo o mundo nas ciencias biomédicas.

A secuencia de ADN que forma o xenoma humano contén codificada a información necesaria para a expresión, altamente coordinada e adaptable ao ambiente, do proteoma humano, é dicir, do conxunto das proteínas do ser humano. As proteínas, e non o ADN, son as principais biomoléculas efectoras; posúen funcións estruturais, encimáticas, metabólicas, reguladoras, sinalizadoras..., organizándose en enormes redes funcionais de interaccións. O proteoma fundamenta a particular morfoloxía e funcionalidade de cada célula. Igualmente, a organización estrutural e funcional das distintas células conforma cada tecido e cada órgano, e, finalmente, o organismo vivo no seu conxunto. O xenoma humano contén a información básica precisa para o desenvolvemento físico dun ser humano completo.

O xenoma humano presenta unha densidade de xenes moi inferior á que inicialmente se predixera, e só arredor do 1,5%[2] da súa lonxitude está composta por exóns codificantes de proteínas. Un 70% está composto por ADN extraxénico e un 30 % por secuencias relacionadas con xenes. Do total de ADN extraxénico, aproximadamente un 70% corresponde a repeticións dispersas, de maneira que, máis ou menos, a metade do xenoma humano corresponde a secuencias repetitivas de ADN. En canto ao total de ADN relacionado con xenes estímase que o 95% corresponde a ADN non codificante: pseudoxenes, fragmentos de xenes, intróns ou secuencias UTR, entre outros.

Contido en xenes e tamaño do xenoma
de varios organismos[3]
Especie Tamaño do
xenoma (Mb)
Número
de xenes
Mycoplasma genitalium 0,58 500
Streptococcus pneumoniae 2,2 2300
Escherichia coli 4,6 4.400
Saccharomyces cerevisiae 12 5.800
Caenorhabditis elegans 97 19.000
Arabidopsis thaliana 125 25.500
Drosophila melanogaster (mosca) 180 13.700
Oryza sativa (arroz) 466 45-55.000
Mus musculus (rato) 2500 29.000
Homo sapiens (ser humano) 2900 27.000
Unha estimación dos diferentes compoñentes do xenoma humano.

Compoñentes

editar

Cromosomas

editar

O xenoma humano (como o de calquera organismo eucariota) está contido en cromosomas, que son longas secuencias continuas de ADN moi organizadas espacialmente (con axuda de proteínas histónicas e non histónicas) para adoptar unha forma ultracondensada en metafase. Son observables con microscopía óptica convencional ou de fluorescencia por medio de técnicas de citoxenética e ordénanse formando un cariotipo.

O cariotipo humano normal contén un total de 23 pares de cromosomas distintos: 22 pares de autosomas máis un par de cromosomas sexuais que determinan o sexo do individuo. Os cromosomas 1-22 foron numerados en orde decrecente de tamaño. Porén, posteriormente puido comprobarse que o cromosoma 22 é en realidade maior que o 21.

 
Representación gráfica do cariotipo humano normal.

As células somáticas dun organismo posúen no seu núcleo un total de 46 cromosomas (23 pares) e os óvulos e espermatozoides teñen 23.

Cromosoma Xenes Número de
bases
Bases
secuenciadas[4]
1 4.220 247.199.719 224.999.719
2 1.491 242.751.149 237.712.649
3 1.550 199.446.827 194.704.827
4 446 191.263.063 187.297.063
5 609 180.837.866 177.702.766
6 2.281 170.896.993 167.273.993
7 2.135 158.821.424 154.952.424
8 1.106 146.274.826 142.612.826
9 1.920 140.442.298 120.312.298
10 1.793 135.374.737 131.624.737
11 379 134.452.384 131.130.853
12 1.430 132.289.534 130.303.534
13 924 114.127.980 95.559.980
14 1.347 106.360.585 88.290.585
15 921 100.338.915 81.341.915
16 909 88.822.254 78.884.754
17 1.672 78.654.742 77.800.220
18 519 76.117.153 74.656.155
19 1.555 63.806.651 55.785.651
20 1.008 62.435.965 59.505.254
21 578 46.944.323 34.171.998
22 1.092 49.528.953 34.893.953
Cromosoma X 1.846 154.913.754 151.058.754
Cromosoma Y 454 57.741.652 25.121.652
Total 32.185 3.079.843.747 2.857.698.560

ADN intraxénico

editar

Un xene é a unidade básica da herdanza, e leva a información xenética necesaria para a síntese dunha proteína (xenes codificantes) ou dun ARN non codificante (xenes de ARN). Está formado por unha secuencia promotora, que regula a súa expresión, e unha secuencia que se transcribe, composta á súa vez por: secuencias UTR (rexións flanqueantes non traducidas), necesarias para a tradución de proteínas e a estabilidade do ARNm, exóns (codificantes) e intróns, que son secuencias de ADN non traducidas situadas entre dous exóns que serán eliminadas durante o procesamento do ARNm (splicing).

 
Este diagrama esquemático mostra un xene, a súa estrutura física (dobre hélice de ADN) e un cromosoma (dereita). Os intróns son rexións que se encontran frecuentemente nos xenes de eucariotas, que se transcriben, pero son eliminadas durante o procesamento do ARN (splicing) para producir un ARNm formado só por exóns, encargados de traducir unha proteína. Este diagrama está moi simplificado, xa que mostra un xene composto por uns 40 pares de bases cando en realidade o seu tamaño medio é de 20.000-30.000 pares de bases.

Actualmente, estímase que o xenoma humano contén entre 20.000 e 25.000 xenes codificantes de proteínas, estimación moi inferior ás predicións iniciais que falaban duns 100.000 xenes ou máis. Isto implica que o xenoma humano ten menos do dobre de xenes que organismos eucariotas moito máis simples, como a mosca da froita ou o nematodo Caenorhabditis elegans. Porén, as células humanas recorren en gran medida ao splicing alternativo para produciren varias proteínas distintas a partir dun mesmo xene, e como consecuencia o proteoma humano é máis amplo que o doutros organismos moito máis simples. Na práctica, o xenoma tan só leva a información necesaria para unha expresión perfectamente coordinada e regulada do conxunto de proteínas que forman o proteoma, e é este o encargado de executar a maior parte das funcións celulares.

Baseándose nos resultados iniciais obtidos polo proxecto ENCODE [5] (acrónimo de ENCyclopedia Of DNA Elements), algúns autores propuxeron redefinir o concepto actual de xene. As observacións máis recentes fan dificilmente sostible a visión tradicional dun xene, como unha secuencia formada polas rexións UTRs, os exóns e os intróns. Estudos detallados acharon un número de secuencias de inicio de transcrición por xene moi superior ás estimacións iniciais, e algunhas destas secuencias sitúanse en rexións moi afastadas da traducida, polo que os UTR 5' poden abranguer secuencias longas dificultando a delimitación do xene. Por outro lado, un mesmo transcrito pode dar lugar a ARN maduros totalmente diferentes (ausencia total de solapamento), debido a unha grande utilización do splicing alternativo. Deste modo, un mesmo transcrito primario pode dar lugar a proteínas de secuencia e funcionalidade moi diversa. En consecuencia, algúns autores propuxeron unha nova definición de xene:[6][7] unión de secuencias xenómicas que codifican un conxunto coherente de produtos funcionais, potencialmente solapantes. Deste modo, identifícanse como xenes os xenes de ARN e os conxuntos de secuencias traducidas parcialmente solapantes (exclúense, así, as secuencias UTR e os intróns, que pasan a ser considerados como "rexións asociadas a xenes", xunto cos promotores). De acordo con esta definición, un mesmo transcrito primario que dá lugar a dous transcritos secundarios (e dúas proteínas) non solapantes debe considerarse en realidade dous xenes diferentes, independentemente de que estes presenten un solapamento total ou parcial dos seus transcritos primarios.

As novas evidencias achegadas por ENCODE, segundo as cales as rexións UTR non son doadamente delimitables e esténdense por longas distancias, obrigarían a reidentificar novamente os xenes que en realidade compoñen o xenoma humano. De acordo coa definición tradicional (actualmente vixente), sería necesario identificar como un mesmo xene a todos aqueles que mostren un solapamento parcial (incluíndo as rexións UTR e os intróns), co que á luz das novas observacións, os xenes incluirían múltiples proteínas de secuencia e funcionalidade moi diversa. Colateralmente reduciríase o número de xenes que compoñen o xenoma humano. A definición proposta, polo contrario, fundaméntase no produto funcional do xene, polo que se mantén unha relación máis coherente entre un xene e unha función biolóxica. Como consecuencia, coa adopción desta nova definición, o número de xenes do xenoma humano aumentará significativamente.

Xenes de ARN
editar

Ademais dos xenes codificantes de proteínas, o xenoma humano contén varios miles de xenes de ARN, cuxa transcrición produce ARN transferente (ARNt), ARN ribosómico (ARNr), microARN (miARN), ou outros xenes de ARN non codificantes. Os ARN ribosómicos e de transferencia son esenciais na constitución dos ribosomas e na tradución de proteínas. Os microARN teñen grande importancia na regulación da expresión xénica, e estímase que ata un 20-30% dos xenes do xenoma humano pode estar regulado polo mecanismo de interferencia por miARN. Ata o momento identificáronse máis de 300 xenes de miARN e estímase que poden existir uns 500.

Distribución de xenes
editar

A continuación indícanse algúns valores medios do xenoma humano. Téñase en conta que a enorme heteroxeneidade que presentan estas variables fai pouco representativos os valores medios, pero teñen valor orientativo.

A densidade media de xenes é de 1 xene cada 100 kb, cun tamaño medio de 20–30 kb, e un número de exóns medio de 7-8 por cada xene, cun tamaño medio de 150 nucleótidos. O tamaño medio dun ARNm é de 1,8-2,2 kb, incluíndo as rexións UTR (rexións non traducidas flanqueantes), e a lonxitude media da rexión codificante é de 1,4 kb.

 
Isocoros. Frecuencia e riqueza en G+C e xenes, no xenoma humano.

O xenoma humano caracterízase por presentar unha grande heteroxeneidade na súa secuencia. En particular, a riqueza nas bases guanina (G) e citosina (C) fronte a adenina (A) e timina (T) distribúese heteroxeneamente, con rexións moi ricas en G+C flanqueadas por rexións moi pobres. O contido medio de G+C é do 41%, o que é un valor menor ao teoricamente agardado (50%). Dita heteroxeneidade está correlacionada coa riqueza en xenes, de maneira que os xenes tenden a se concentrar nas rexións máis ricas en G+C. Este feito era coñecido xa desde hai anos grazas á separación mediante centrifugación en gradiente de densidade de rexións ricas en G+C (que recibiron o nome de isocoros H; do inglés High) e rexións ricas en A+T (isocoros L; do inglés Low).

Secuencias reguladoras
editar

O xenoma ten diversos sistemas de regulación da expresión xénica, baseados na regulación da unión de factores de transcrición ás secuencias promotoras, en mecanismos de modificación epixenética (metilación do ADN ou metilación-acetilación de histonas) ou no control da accesibilidade aos promotores determinada polo grao de condensación da cromatina; todos eles moi interrelacionados. Ademais hai outros sistemas de regulación a nivel do procesamento, estabilidade e tradución do ARNm, entre outros. Polo tanto, a expresión xénica está intensamente regulada, o cal permite desenvolver os múltiples fenotipos que caracterizan os distintos tipos celulares dun organismo eucariota multicelular, ao mesmo tempo que se dá á célula a plasticidade necesaria para adaptarse a un medio cambiante. Porén, toda a información necesaria para a regulación da expresión xénica, en función do ambiente celular, está codificada na secuencia de ADN igual que o están os xenes.

As secuencias reguladoras son tipicamente secuencias curtas que se encontran nas proximidades ou no interior (frecuentemente en intróns) dos xenes. Na actualidade, o coñecemento sistemático destas secuencias e de como actúan en complexas redes de regulación xénica, sensibles a sinais exóxenos, é moi escaso e está comezando a desenvolverse por medio de estudos de xenómica comparada, bioinformática e bioloxía de sistemas. A identificación de secuencias reguladoras baséase en parte na procura de rexións non codificantes evolutivamente conservadas.[8] Por exemplo, a diverxencia evolutiva entre o rato e o ser humano ocorreu hai 70-90 millóns de anos.[9] Facendo estudos de xenómica comparada, aliñando secuencias de ambos os xenomas poden identificarse rexións con alto grao de coincidencia, moitas correspondentes a xenes e outras a secuencias non codificantes de proteínas pero de grande importancia funcional, porque estiveron sometidas a presión selectiva.

Elementos ultraconservados
editar

Reciben o nome de elementos ultraconservados as rexións que mostran unha constancia evolutiva case total, maior mesmo que as secuencias codificantes de proteínas, nos estudos de xenómica comparada. Estas secuencias xeralmente están solapadas cos intróns de xenes implicados na regulación da transcrición ou no desenvolvemento embrionario e cos exóns de xenes relacionados co procesamento do ARN. A súa función é xeralmente pouco coñecida, mais probablemente de estrema importancia dado o seu grao de conservación evolutiva.

Na actualidade lévanse encontrado uns 500 segmentos dun tamaño maior de 200 pares de bases totalmente conservados (100% de coincidencia) entre os xenomas de humano, rato e rata, e case totalmente conservados en can (99%) e polo (95%).[10]

Pseudoxenes

editar
Artigo principal: pseudoxene.

No xenoma humano atopáronse uns 19.000 pseudoxenes, que son versións completas ou parciais de xenes que acumularon diversas mutacións e que xeralmente non se transcriben. Clasifícanse en pseudoxenes non procesados (~30%) e pseudoxenes procesados (~70%)[11]

  • Os pseudoxenes non procesados son copias de xenes xeralmente orixinadas por duplicación, que non se transcriben por carecer dunha secuencia promotora e ter acumulado múltiples mutacións, algunhas das cales sen sentido (o que orixina codóns de parada prematuros). Caracterízanse pola posesión tanto de exóns coma de intróns.
  • Os pseudoxenes procesados son copias de ARN mensaxeiro retrotranscritas e inseridas no xenoma, razón pola que carecen de intróns e de secuencia promotora.

ADN interxénico

editar

As rexións interxénicas ou extraxénicas comprenden a maior parte da secuencia do xenoma humano, e a súa función é xeralmente descoñecida. Boa parte destas rexións está composta por elementos repetitivos, clasificables como repeticións en tándem ou repeticións dispersas, aínda que o resto da secuencia non responde a un patrón definido e clasificable. Gran parte do ADN interxénico pode ser un artefacto evolutivo sen unha función determinada no xenoma actual, polo que tradicionalmente estas rexións foron denominadas ADN "lixo" (junk DNA), denominación na que se inclúen tamén as secuencias intrónicas e pseudoxenes. Porén, esta denominación talvez non é a máis axeitada dado o papel regulador coñecido de moitas destas secuencias. Ademais, o notable grao de conservación evolutiva dalgunhas destas secuencias parece indicar que posúen outras funcións esenciais aínda descoñecidas ou pouco coñecidas. Polo tanto, cada vez é máis frecuente o uso da denominación "ADN non codificante" (aínda que o chamado "ADN lixo" inclúe tamén transposóns codificantes) ou "ADN repetitivo", algunhas destas rexións constitúen en realidade xenes precursores para a síntese de microARN (reguladores da expresión xénica e do silenciamiento xénico).

 
Frecuencia das rexións interxénicas e intraxénicas do cromosoma 22. Adaptado de: Dunham, I., et al., 1999. The DNA sequence of human chromosome 22, Nature 402(6761):489–495.

Estudos recentes enmarcados no proxecto ENCODE obtiveron resultados sorprendentes, que esixen a reformulación da nosa visión da organización e a dinámica do xenoma humano. Segundo estes estudos, o 15% da secuencia do xenoma humano transcríbese a ARN maduros, e ata o 90% transcríbese polo menos a transcritos inmaturos nalgún tecido:[7] Así, unha gran parte do xenoma humano codifica xenes de ARN funcionais. Isto é coherente coa tendencia da literatura científica recente a asignar unha importancia crecente ao ARN na regulación xénica. Ademais, estudos detallados identificaron un número moito maior de secuencias de inicio de transcrición por xene, algunhas moi afastadas da rexión próxima á traducida. Como consecuencia, actualmente é máis complicado definir unha rexión do xenoma como xénica ou interxénica, dado que os xenes e as secuencias relacionadas cos xenes se estenden nas rexións habitualmente consideradas interxénicas.

ADN repetido en tándem

editar

As repeticións en tándem son repeticións que se ordenan unha detrás da outra, consecutivamente, de modo que secuencias idénticas, ou case, presentan varias copias seguidas. Constitúe os satélites, minisatélites e microsatélites.

Satélites
editar

O conxunto de repeticións en tándem de tipo satélite comprende un total de 250 Mb do xenoma humano. Son secuencias de entre 5 e varios centos de nucleótidos que se repiten en tándem miles de veces xerando rexións repetidas con tamaños que oscilan entre 100 kb (100.000 nucleótidos) ata varias megabases.

Reciben o seu nome das observacións iniciais de centrifugacións en gradiente de densidade do ADN xenómico fragmentado, que orixinaban unha banda principal correspondiente á maior parte do xenoma e tres bandas satélites de menor densidade. Isto débese a que as secuencias satélite teñen unha riqueza en nuclétidos A+T superior á media do xenoma e en consecuencia son menos densas.

Hai principalmente 6 tipos de repeticións de ADN satélite [10]

  1. Satélite 1: secuencia básica de 42 nucleótidos. Situado nos centrómeros dos cromosomas 3 e 4 e no brazo curto dos cromosomas acrocéntricos (en posición distal respecto ao cluster codificante de ARNr).
  2. Satélite 2: a secuencia básica é ATTCCATTCG. Presente nas proximidades dos centrómeros dos cromosomas 2 e 10, e na constrición secundaria do 1 e 16.
  3. Satélite 3: a secuencia básica é ATTCC. Presente na constrición secundaria dos cromosomas 9 e Y, e en posición proximal respecto ao cluster de ADNr (que codifica ARNr) do brazo curto dos cromosomas acrocéntricos.
  4. Satélite alfa: secuencia básica de 171 nucleótidos. Forma parte do ADN dos centrómeros cromosómicos.
  5. Satélite beta: secuencia básica de 68 nucleótidos. Aparece arredor do centrómero nos cromosomas acrocéntricos e na constrición secundaria do cromosoma 1.
  6. Satélite gamma: secuencia básica de 220 nucleótidos. Próximo ao centrómero dos cromosomas 8 e X.
Minisatélites
editar

Están compostas por unha unidade básica de secuencia de 6-25[10] nucleótidos que se repite en tándem xerando secuencias de entre 100 e 20.000 pares de bases. Estímase que o xenoma humano contén uns 30.000 minisatélites.

Diversos estudos relacionaron os minisatélites con procesos de regulación da expresión xénica, como o control do nivel de transcrición, o splicing alternativo ou a impronta (imprinting). Tamén se asociaron con puntos de fraxilidade cromosómica dado que se sitúan preto de lugares preferentes de rotura cromosómica, translocación xenética e recombinación meiótica. Por último, algúns minisatélites humanos (~10%) son hipermutables, e presentan unha taxa media de mutación entre o 0,5% e o 20% nas células da liña xerminal, polo que son as rexións máis inestables do xenoma humano coñecidas ata agora.

No xenoma humano, aproximadamente o 90% dos minisatélites sitúanse nos telómeros dos cromosomas. Neles a secuencia básica de seis nucleótidos TTAGGG repítese miles de veces en tándem, xerando as rexións de 5–20 kb que forman os telómeros.

Algúns minisatélites pola súa grande inestabilidade presentan unha notable variabilidade entre individuos distintos. Considéranse polimorfismos multialélicos, dado que poden presentarse nun número de repeticións moi variable, e denomínanse VNTR (Variable Number Tandem Repeats). Son marcadores moi utilizados en xenética forense, xa que permiten establecer unha pegada xenética característica de cada individuo, e son identificables polas técnicas de Southern blot e hibridación.

Microsatélites
editar

Están compostos por secuencias básicas de 2-4 nucleótidos que se repiten en tándem, orixinando frecuentemente secuencias de menos de 150 nucleótidos. Algúns exemplos importantes son o dinucleótido CA e o trinucleótido CAG.

Os microsatélites son tamén polimorfismos multialélicos, denominados STR (siglas de Short Tandem Repeats) e poden identificarse utilizando a PCR, de modo rápido e sinxelo, polo que tamén se poden utilizar para identificar individuos. Estímase que o xenoma humano contén uns 200.000 microsatélites, que se distribúen máis ou menos homoxeneamente, ao contrario que os minisatélites, o que os fai máis informativos como marcadores.

ADN repetido disperso

editar

Son secuencias de ADN que se repiten de modo disperso (ou intercalado) por todo o xenoma, constituíndo o 45% do xenoma humano. Os elementos cuantitativamente máis importantes son os LINEs e SINEs, que se distinguen polo tamaño da unidade repetida.

Estas secuencias teñen a potencialidade de autopropagarse ao transcribirse a un ARNm intermediario, retrotranscribirse e inserirse noutro punto do xenoma. Este fenómeno prodúcese cunha baixa frecuencia, estimándose que 1 de cada 100-200 neonatos levan unha inserción nova dun Alu ou un L1, que poden ser patóxenos por mutaxénese insercional, por desregulación da expresión de xenes próximos (polos propios promotores dos SINE e LINE) ou por recombinación ilexítima entre dúas copias idénticas de distinta localización cromosómica (recombinación intra ou intercromosómica), especialmente entre elementos Alu.

Frecuencias e tipos de repeticións dispersas no xenoma de varios organismos[10]
Tipo de repetición Homo
sapiens
Drosophila
melanogaster
Caenorhabditis
elegans
Arabidopsis
thaliana
LINE,SINE 33,4% 0,7% 0,4% 0,5%
LTR/HERV 8,1% 1,5% 0% 4,8%
Transposóns de ADN 2,8% 0,7% 5,3% 5,1%
Total 44,4% 3,1% 6,5% 10,4%

As SINE (Short Interspersed Nuclear Elements, Elementos Nucleares Intercalados Curtos) son secuencias curtas, xeralmente duns poucos centos de bases, que aparecen repetidas miles de veces no xenoma humano. Supoñen o 13% do xenoma humano,[10] un 10% debido exclusivamente á familia de elementos Alu (característica de primates).

Os elementos Alu son secuencias de 250-280 nucleótidos presentes en 1.500.000 [10] copias dispersas por todo o xenoma. Estruturalmente son dímeros case idénticos, agás que a segunda unidade contén un inserto de 32 nucleótidos, e é maior que a primeira. En canto á súa secuencia, teñen unha considerable riqueza en G+C (56%),[10] polo que predominan nas bandas R, e ambos monómeros presentan unha cola poli(A) (secuencia de bases adeninas) vestixio evidente da súa orixe a partir dun ARNm. Ademais posúen un promotor da ARN polimerase III para transcribirse. Considéranse retrotransposóns non autónomos, xa que dependen para propagarse da retrotranscrición do seu ARNm por unha retrotranscriptase presente no medio.

 
Esquema simplificado do mecanismo de retrotransposición dun elemento LINE e un SINE. Un elemento LINE é transcrito producindo un ARNm que sae do núcleo celular. No citoplasma tradúcese nos seus dous marcos de lectura abertos xerando ambas as proteínas que codifica, que para simplificar se representaron como ORF1p e ORF2p. Ambas as dúas permiten retrotranscribir o ARNm do LINE e doutros retrotransposóns non autónomos, como SINEs e pseudoxenes procesados. Durante a retrotranscrición a nova secuencia de ADN intégrase noutro punto do xenoma.

As LINE (Long Interspersed Nuclear Elements, Elementos Nucleares Intercalados Longos) constitúen o 20% do xenoma humano. A familia de maior importancia cuantitativa é LINE-1 ou L1 que é unha secuencia de 6 kb repetida unhas 800.000 veces de modo disperso por todo o xenoma, aínda que a gran maioría das copias é incompleta porque presentan o extremo 5' truncado por unha retrotranscrición incompleta. Estímase que hai unhas 5.000 copias completas de L1, pero só 90 delas son activas,[10] e o resto están inhibidas pola metilación do seu promotor.

A súa riqueza en G+C é do 42%,[10] próxima á media do xenoma (41%) e localízanse preferentemente nas bandas G dos cromosomas. Posúen ademais un promotor da ARN polimerase II.

Os elementos LINE completos son codificantes. En concreto LINE-1 codifica dúas proteínas:

  1. Proteína de unión a ARN (’’RNA-binding protein’’): codificada polo marco de lectura aberto 1 (ORF1, acrónimo do inglés ‘’Open reading Frame 1’’)
  2. Encima con actividade retrotranscriptase e endonuclease: codificada polo ORF2.

Polo tanto, considéranse retrotransopsóns autónomos, xa que codifican as proteínas que necesitan para propagarse. A ARN polimerase II presente no medio transcribe o LINE, e este ARNm tradúcese en ambos os marcos de lectura producindo unha retrotranscriptase que actúa sobre o ARNm xerando unha copia de ADN do LINE, coa capacidade potencial de inserirse no xenoma. Ademais, estas proteínas poden ser utilizadas por pseudoxenes procesados ou elementos SINE para a súa propagación.

Diversos estudos mostraron que as secuencias LINE poden ter importancia na regulación da expresión xénica, e comprobouse que os xenes próximos a LINE presentan un nivel de expresión inferior. Isto é especialmente importante porque aproximadamente o 80% dos xenes do xenoma humano contén algún elemento L1 nos seus intróns.[10]

Os HERV (Human endogenous retrovirus, retrovirus endóxenos humanos) son copias parciais do xenoma de retrovirus integrados no xenoma humano ao longo da evolución dos vertebrados, vestixios de antigas infeccións retrovirais que afectaron a células da liña xerminal. Os retrovirus son virus cun xenoma de ARN que poden retrotranscribirse e integrarse no xenoma da célula infectada. Algunhas estimacións establecen que hai unhas 98.000 secuencias HERV ,[12] pero outras afirman que son máis de 400.000.[10] En calquera caso, acéptase que arredor do 5-8% do xenoma humano está constituído por xenomas antigamente virais. O tamaño dun xenoma retroviral completo é duns 6-11 kb, pero a maioría dos HERV son copias incompletas.

Ao longo da evolución estas secuencias sen interese para o xenoma hospedador foron acumulando mutacións sen sentido e delecións que os deixaron inactivadas. A maioría dos HERV teñen millóns de anos de antigüidade, e polo menos unha familia de retrovirus integrouse durante a diverxencia evolutiva de humanos e chimpancés, a familia HERV-K(HML2), que supón un 1% dos HERV.

Transposóns de ADN
editar

Dentro da denominación de transposóns ás veces inclúense os retrotransposóns, tales como os pseudoxenes procesados, os SINEs e os LINEs. En tal caso fálase de transposóns de clase I para facer referencia aos retrotransposóns, e de clase II para referirse a transposóns de ADN, aos que se dedica o presente apartado.

Os transposóns de ADN completos posúen a potencialidade de autopropagarse sen utilizar un intermediario de ARNm que despois se retrotranscribe. Un transposón contén o xene dun encima transposase, flanqueado por repeticións invertidas. O seu mecanismo de transposición consiste en cortar e pegar, movendo a súa secuencia a outra localización distinta do xenoma. Os distintos tipos de transposases actúan de modo diferente, e hai algunhas que poden unirse a calquera parte do xenoma entanto que outras se unen a secuencias diana específicas. A transposase codificada polo propio transposón extráeo realizando dous cortes flanqueantes na fibra de ADN, xerando extremos cohesivos, e insíreo na secuencia diana noutro punto do xenoma. Unha ADN polimerase rechea os ocos xerados polos extremos cohesivos e unha ADN ligase restablece os enlaces fosfodiéster, recuperando a continuidade da secuencia de ADN. Isto comporta unha duplicación da secuencia diana arredor do transposón, na súa nova localización.

Calcúlase que o xenoma humano contén unhas 300.000 copias [10] de elementos repetidos dispersos orixinados por transposóns de ADN, que constitúen un 3% do xenoma. Hai múltiples familias, das que se pode salientar pola súa importancia patoxénica debido á xeración de reordenacións cromosómicas, aos elementos mariner e ás familias MER1 e MER2.

Variabilidade

editar

Aínda que dous seres humanos do mesmo sexo comparten unha porcentaxe elevadísima (dun 99,9%)[10] da súa secuencia de ADN, o que nos permite traballar cunha única secuencia de referencia, pequenas variacións xenómicas fundamentan boa parte da variabilidade fenotípica interindividual. Unha variación no xenoma, por substitución, deleción ou inserción, denomínase polimorfismo xenético ou alelo xenético. Non todo polimorfismo xenético provoca unha alteración na secuencia dunha proteína ou do seu nivel de expresión, é dicir, moitos son silenciosos e carecen de expresión fenotípica.

A principal fonte de variabilidade nos xenomas de dous seres humanos procede das variacións nun só nucleótido, coñecidas como polimorfismos dun só nucleótido (SNPs ou Single nucleotide polimorphisms), nos cales se centraron a maior parte dos estudos. Dada a súa importancia, na actualidade existe un proxecto internacional (International HapMap Project) para catalogar a grande escala os SNPs do xenoma humano. Neste contexto, a denominación de SNP frecuentemente se restrinxe a aqueles polimorfismos dun só nucleótido nos que o alelo menos frecuente aparece en polo menos o 1% da poboación.

Os SNP son marcadores tetralélicos, dado que en teoría nunha posición pode haber catro nucleótidos distintos, cada un dos cales identificaría un alelo; porén, na práctica adoitan presentar só dous alelos na poboación. Estímase que a frecuencia de SNPs no xenoma humano é dun SNP cada 500-100 pares de bases,[10] dos que unha parte relevante son polimorfismos codificantes, que causan a substitución dun aminoácido por outro nunha proteína.

Grazas á súa abundancia e a que presentan unha distribución aproximadamente uniforme no xenoma, tiveron grande utilidade como marcadores para os mapas de ligamento, ferramenta fundamental do Proxecto Xenoma Humano. Ademais son facilmente detectables a grande escala utilizando chips de ADN (comunmente coñecidos como micromatrices ou microarrays).

Variación estrutural

editar

Este tipo de variacións refírense a duplicacións, inversións, insercións ou variacións no número de copias de segmentos grandes do xenoma (polo xeral de 1000 nucléotidos ou máis). Estas variantes implican a unha gran proporción do xenoma, polo que se pensa que son, como mínimo, tan importantes coma os SNPs.[13]

A pesar de que este campo de estudo é relativamente novo (os primeiros estudos a grande escala publicáronse nos anos 2004 e 2005), tiveron un gran pulo, ata o punto de que se creou un nuevo proxecto para estudar este tipo de variantes nos mesmos individuos nos que se baseou o Proxecto HapMap.

Aínda que quedan dúbidas sobre as causas deste tipo de variantes, cada vez existen máis evidencias a favor de que é un fenómeno recorrente que aínda continua moldeando e creando novas variantes do xenoma.

O estudo deste tipo de variacións potenciou a idea de que o xenoma humano non é unha entidade estática, senón que se encontra en constante cambio e evolución.

Enfermidades xenéticas

editar

A alteración da secuencia de ADN que constitúe o xenoma humano pode causar a expresión anormal dun ou máis xenes, orixinando un fenotipo patolóxico. As enfermidades xenéticas poden ser causadas por mutación da secuencia de ADN, afectando á secuencia codificante (o que producirá proteínas incorrectas) ou de secuencias reguladoras (alterando o nivel de expresión dun xene), ou por alteracións cromosómicas, numéricas ou estruturales. A alteración do xenoma das células xerminais dun individuo transmítese frecuentemente á súa descendencia. Actualmente o número de enfermidades xenéticas coñecidas é de aproximadamente de 4.000, e a máis común é a fibrose quística.

O estudo das enfermidades xenéticas frecuentemente se inclúe dentro da xenética de poboacións. Os resultados do Proxecto Xenoma Humano son de grande importancia para a identificación de novas doenzas xenéticas e para o desenvolvemento de novos e mellores sistemas de diagnóstico xenético, e para a investigación en novos tratamentos, incluída a terapia xénica.

Evolución

editar

Os estudos de xenómica comparada baséanse en comparacións de secuencias xenómicas a grande escala, xeralmente por medio de ferramentas bioinformáticas. Ditos estudos permiten mellorar o coñecemento de aspectos evolutivos de escala temporal e espacial moi diversa, desde o estudo da evolución dos primeiros seres vivos hai miles de millóns de anos ou as radiacións filoxenéticas en mamíferos, ata o estudo das migracións de seres humanos nos últimos 100.000 anos, que explican a actual distribución das distintas razas humanas.

Xenómica comparada entre distintas especies

editar

Os estudos de xenómica comparada con xenomas de mamíferos suxiren que aproximadamente o 5% do xenoma humano se conservou evolutivamente nos últimos 200 millóns de anos; o cal inclúe a gran maioría dos xenes e secuencias reguladoras. Porén, os xenes e as secuencias reguladoras actualmente coñecidas supoñen só o 2% do xenoma, o que suxire que a maior parte da secuencia xenómica con grande importancia funcional é descoñecida. Unha porcentaxe importante dos xenes humanos presenta un alto grao de conservación evolutiva. A semellanza entre o xenoma humano e o de chimpancé (Pan troglodytes) é do 98,77%. Como media, unha proteína humana diferénciase da súa ortóloga de chimpancé en tan só dous aminoácidos, e case un terzo dos xenes ten a mesma secuencia. Unha diferenza importante entre os dous xenomas é o cromosoma 2 humano, que é o produto dunha fusión entre os cromosomas 12 e 13 do chimpancé[14]

Outra conclusión da comparación do xenoma de distintos primates é a notable perda de xenes de receptores olfactivos que se produciu paralelamente ao desenvolvemento da visión en cor (tricrómica) durante a evolución dos primates.[15]

Tamén se fixeron estudos comparativos entre o ADN mitocondrial do Home de Neanderthal e os humanos modernos. O ADN extraeuse dos seus ósos en 1997 e 2000 [16]. Dito ADN tiña unha similitude moi elevada coa do home moderno, pero non mostraba signos de que o ser humano moderno descenda ou se hibridase significativamente co neanderthal.[17][18]

Xenómica comparada entre xenomas humanos

editar
 
Mapa das migracións humanas creado a partir de xenómica comparada cos xenomas mitocondriais de individuos actuais. Os números da lenda representan miles de anos antes do presente. A liña azul raiada delimita a área cuberta de xeo ou de tundra durante a última glaciación. As letras dentro de círculos indican os haplogrupos do ADN mitocondrial; os haplogrupos úsanse para definir subpoboacións xenéticas, que a miúdo teñen unha correlación xeográfica. Os principais haplogrupos de ADNmt son: Africa: L, L1, L2, L3. Oriente próximo: J, N. Europa meridional: J, K. Europa (xeral): H, V. Europa setentrional: T, U, X. Asia: A, B, C, D, E, F, G (no debuxo: M está composta por C, D, E, e G). Nativos Americanos: A, B, C, D e a miúdo X. Véxase o artigo: Haplogrupos do ADN mitocondrial humano.

Durante décadas as únicas evidencias que permitían estudar a orixe e a expansión do Homo sapiens eran os escasos achados arqueolóxicos. Porén, máis tarde utilizáronse estudos moleculares e actualmente os estudos de xenómica comparada a partir de xenomas de individuos actuais de todo o mundo están achegando moita información. O seu fundamento básico consiste en identificar un polimorfismo, unha mutación, que se asume que se orixinou nun individuo dunha poboación ancestral, e que herdou toda a súa descendencia ata a actualidade. Ademais, dado que as mutacións parecen producirse a un ritmo constante, pode estimarse a antigüidade dunha determinada mutación en base ao tamaño do haplotipo no que se sitúa, é dicir, o tamaño da secuencia conservada que flanquea a mutación. Esta metodoloxía vese complicada polo fenómeno da recombinación entre cromosomas dun mesmo par dun individuo, procedentes dos seus dous proxenitores. Porén, hai dúas rexións nas que non existe dito inconveniente porque presentan unha herdanza uniparental: o xenoma mitocondrial (de herdanza matrilinear), e o cromosoma Y (de herdanza patrilinear).

Nas últimas décadas, os estudos de xenómica comparada baseada no xenoma mitocondrial, e en menor medida no cromosoma Y, obtiveron conclusións de moito interese. En diversos estudos trazouse a filoxenia destas secuencias, estimándose que todos os seres humanos actuais comparten un antepasado feminino común que viviu en África hai uns 150.000 anos. Pola súa parte, por razóns aínda pouco coñecidas, a maior converxencia do ADN do cromosoma Y establece que o antepasado masculino común máis recente data de hai uns 60.000 anos. Estes individuos foron bautizados como Eva mitocondrial e Adán cromosómico Y, por analoxía cos famosos personaxes das narracións bíblicas. (Ver antepasado común máis recente).

A maior diversidade de marcadores xenéticos e en consecuencia, os haplotipos de menor lonxitude, atopáronse en África. Todo o resto da poboación mundial presenta só unha pequena parte destes marcadores, de modo que a composición xenómica do resto da poboación humana actual é só un subconxunto da que pode apreciarse en África. Isto induce a afirmar que un pequeno grupo de seres humanos (quizais arredor dun milleiro) emigrou do continente africano cara ás costas de Asia occidental, hai uns 50.000-70.000 anos, segundo estudos baseados no xenoma mitocondrial. Hai uns 50.000 anos chegaron a Australia e hai uns 40.000-30.000 anos outras subpoboacións colonizaron Europa occidental e o centro de Asia. Estímase que hai 20.000-15.000 anos chegaron a América a través do estreito de Bering (o nivel do mar era menor durante a última glaciación, ou glaciación de Würm ou Wisconsin), poboando Suramérica hai uns 15.000-12.000 anos. Porén, estes datos só son estimacións, e a metodoloxía presenta certas limitacións. Na actualidade, a tendencia é combinar os estudos de xenómica comparada baseados no ADN mitocondrial con análises da secuencia do cromosoma Y.

Xenoma mitocondrial

editar
Artigo principal: Xenoma mitocondrial.

O xenoma mitocondrial é o xenoma propio das mitocondrias das células eucariotas. A mitocondria é un orgánulo esencial no metabolismo aerobio ou oxidativo das células eucariotas. A súa orixe é endosimbionte, é dicir, considérase que antigamente foron organismos procariotas independentes, que foron captados por unha célula eucariota ancestral, coa que desenvolveron unha relación simbiótica. As características do seu xenoma, por tanto, son moi semellantes ás dun organismo procariota actual, e o seu código xenético é lixeiramente distinto ao considerado universal. Para adaptarse ao nicho intracelular e aumentar a súa taxa de replicación, o xenoma mitocondrial foise reducindo substancialmente ao longo da súa coevolución, presentando na actualidade un tamaño de 16.569 pares de bases. Así, a gran maioría das proteínas localizadas nas mitocondrias (~1500 en mamíferos) están codificadas polo xenoma nuclear (ao que fai referencia todo o resto deste artigo), de modo que moitos destes xenes foron transferidos da mitocondria ao núcleo celular no decurso da coevolución da célula eucariota. Na maioría dos mamíferos, só a femia transmite ao cigoto as súas mitocondrias, polo que presentan un patrón hereditario matrilinear. En xeral unha célula humana media contén 100-10.000 copias do xenoma mitocondrial por cada célula, a razón dunhas 2-10 moléculas de ADN por mitocondria.

 
Diagrama simplificado do xenoma mitocondrial. Poden apreciarse os 37 xenes e a secuencia orixe de replicación non codificante. Neste esquema non se sinala a cadea lixeira e a pesada.

O xenoma mitocondrial posúe 37 xenes:[10]

Ao contrario do que acontecía co xenoma nuclear, no que só o 1,5% era codificante, no xenoma mitocondrial o 97% corresponde a secuencias codificantes. Está constituído por unha única molécula de ADN bicatenario circular, pero dela pode haber varias copias na mitocondria. Unha das cadeas recibe o nome de cadea pesada ou cadea H, e contén 28 dos 37 xenes (2 para ARNr, 14 para ARNt e 12 para polipéptidos). A cadea complementaria (cadea lixeira ou L) codifica os 9 xenes restantes. En ambas as cadeas, os xenes dos ARNt aparecen distribuídos entre dous xenes de ARNr ou codificantes de proteínas, o cal é de grande importancia para o procesamento do ARN mitocondrial.

  1. International Human Genome Sequencing Consortium (2004). "Finishing the euchromatic sequence of the human genome.". Nature 431 (7011): 931–45. PMID 15496913.  [1]
  2. International Human Genome Sequencing Consortium (2001). "Initial sequencing and analysis of the human genome.". Nature 409 (6822): 860–921. PMID 11237011.  [2]
  3. Watson, JD, Baker TA, Bell SP, Gann A, Levine M, Losick R. (2004). “Ch9-10”, Molecular Biology of the Gene, 5th ed., Peason Benjamin Cummings; CSHL Press.
  4. As porcentaxes secuenciadas están baseadas na porción eucromatínica, xa que o obxectivo do Proxecto Xenoma Humano era a determinación de só a porción eucromatínica do xenoma. Os telómeros, centrómeros, e outras rexións heterocromáticas quedaron sen determinar, xa que teñen un pequeno número de tramos non clonables. Ver http://www.ncbi.nlm.nih.gov/genome/seq/ para máis información sobre o Proxecto Xenoma Humano.
  5. The ENCODE Project Consortium. (2007). "Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project.". Nature 447 (7146): 799–816. PMID 17571346. .
  6. Mark B. Gerstein, Can Bruce, Joel S. Rozowsky, Deyou Zheng, Jiang Du, Jan O. Korbel, Olof Emanuelsson, Zhengdong D. Zhang, Sherman Weissman, and Michael Snyder (2007). "What is a gene, post-ENCODE? History and updated definition". Genome Research 17: 669–681.  [3] Versión completa accesible gratuitamente.
  7. 7,0 7,1 http://www.unav.es/genetica/GH/cap5.html Arquivado 01 de xuño de 2008 en Wayback Machine. Páxina web con recentes actualizacións do libro do Dr. Novo. Inclúe un video sobre a redefinición do concepto de xene [4][Ligazón morta].
  8. Loots G, Locksley R, Blankespoor C, Wang Z, Miller W, Rubin E, Frazer K (2000). "Identification of a coordinate regulator of interleukins 4, 13, and 5 by cross-species sequence comparisons.". Science 288 (5463): 136–40. PMID 10753117.  Summary Arquivado 06 de novembro de 2009 en Wayback Machine.
  9. Nei M, Xu P, Glazko G (2001). "Estimation of divergence times from multiprotein sequences for a few mammalian species and several distantly related organisms.". Proc Natl Acad Sci U S A 98 (5): 2497–502. PMID 11226267. 
  10. 10,00 10,01 10,02 10,03 10,04 10,05 10,06 10,07 10,08 10,09 10,10 10,11 10,12 10,13 10,14 Novo Villaverde, F.J. (2007). Madrid: Pearson, ed. Genética Humana. ISBN 8483223598. 
  11. Torrents D., Suyama M., Zdobnov E. and Bork p. (2003). "A Genome-Wide Survey of Human Pseudogenes.". Genome Research 13 (12): 2559–2567. PMID 14656963.  [5]
  12. Belshaw, Robert; Pereira, Vini; Katzourakis, Aris; Talbot, Gillian; Pačes, Jan; Burt, Austin; Tristem, Michael (2004-04-06). "Long-term reinfection of the human genome by endogenous retroviruses". Proceedings of the National Academy of Sciences (en inglés) 101 (14): 4894–4899. ISSN 0027-8424. PMC 387345. PMID 15044706. doi:10.1073/pnas.0307800101. Arquivado dende o orixinal o 01 de maio de 2022. Consultado o 01 de maio de 2022. 
  13. Feuk L., Carson A. R. y Scherer S. W. (2006). "Structural Variation in the human Genome.". Nature Reviews Genetics 7 (2): 85–97. PMID 16418744. [6]
  14. "O cromosoma 2 humano orixinouse pola fusión de dous cromosomas ancestrais que permaneceron separados na liñaxe do chimpancé" The Chimpanzee Sequencing and Analysis Consortium (2005). "Initial sequence of the chimpanzee genome and comparison with the human genome.". Nature 437 (7055): 69–87. PMID 16136131. 
    "A secuenciación a grande escala do xenoma do chimpancé é agora inminente."Olson M, Varki A (2003). "Sequencing the chimpanzee genome: insights into human evolution and disease.". Nat Rev Genet 4 (1): 20–8. PMID 12509750. 
  15. "Os nosos descubrimentos suxiren que a deterioración do repertorio olfactorio occorrida concomitantemente coa adquisición dunha visión en cor tricromática plena nos primates." Gilad Y, Wiebe V, Przeworski M, Lancet D, Pääbo S (2004). "Loss of olfactory receptor genes coincides with the acquisition of full trichromatic vision in primates.". PLoS Biol 2 (1): E5. PMID 14737185. 
  16. Brown, Cynthia Stokes. Big History. New York, NY: The New Press, 2008. Print.
  17. Ovchinnikov, Iv; Götherström, A; Romanova, Gp; Kharitonov, Vm; Lidén, K; Goodwin, W (marzo de 2000). "Molecular analysis of Neanderthal DNA from the northern Caucasus". Nature 404 (6777): 490–3. doi:10.1038/35006625. ISSN 0028-0836. PMID 10761915.
  18. "Neanderthal Genome Sequencing Yields Surprising Results And Opens A New Door To Future Studies". Lawrence Berkeley National Laboratory. 16 de novembro de 2006. Consultado o 8 de maio de 2012. 

Véxase tamén

editar

Outros artigos

editar

Ligazóns externas

editar