Glotocronología

La glotocronología es una técnica para calcular la separación temporal o divergencia entre dos lenguas que se suponen emparentadas. Está basada en el porcentaje de palabras o cognados que son substituidos por otras palabras a lo largo del tiempo. Morris Swadesh, basándose en datos de diferentes familias lingüísticas, cuya historia es conocida por documentos, estimó que debido a cambios internos y aportaciones externas, aproximadamente el 14 % de las palabras básicas del vocabulario de una lengua serán sustituidas cada mil años. La glotocronología es un método de estudio cuyos resultados no pueden ser precisos. No obstante, está propuesta para la investigación de la evolución de aquellas lenguas que carecen de textos escritos, por lo que hay que descartar el método comparativo, usado para la reconstrucción del indoeuropeo y buscar alternativas de investigación.^[1]

Glotocronología de Swadesh

Supuestos básicos

Explícitamente los dos supuestos fuertes en los que se basa el método glotocronológico son:

La tasa de substitución léxica es aproximadamente constante si consideramos períodos muy largos, al menos para el léxico del llamado vocabulario básico.
La tasa de substitución léxica es aproximadamente uniforme entre todas las lenguas del mundo, al menos para el vocabulario básico.

En forma de ecuación, estos dos supuestos se pueden expresar de la siguiente manera. Si llamamos P(t) al porcentaje esperado de palabras básicas que retiene una lengua después del período t,^[2] entonces el primer supuesto puede escribirse en forma matemática como:

${\frac {dP(t)}{dt}}=-\alpha P(t)$

O equivalentemente si integramos la ecuación diferencial anterior:

$P(t)=100\cdot e^{-\alpha t}$

El segundo supuesto lleva a que α debe ser una constante universal para todas las lenguas del mundo, que se debe calibrar a partir de datos experimentales de reemplazo de vocabulario básico en las lenguas con largos registros escritos. Las estimaciones sugieren que después de 10 siglos de evolución histórica el promedio, medido para varias familias de lenguas, está en torno al 14% del vocabulario básico, esto lleva a la siguiente estimación de α:

$\alpha =-\ln \left(1-{\frac {14}{100}}\right)\approx 0,1508\cdot {\mbox{milenio}}^{-1}$

A partir de esa estimación, el tiempo de separación T_s (medido en milenios) puede estimarse comparando el porcentaje de cognados retenidos p_C (expresado en tanto por uno) como:

$T_{s}={\frac {\log(p_{C})}{\log(p_{0})}}$ , de una lengua con su lengua madre, $T_{s}\approx {\frac {\log(p_{C})}{2\cdot \log(p_{0})}}$ , de dos lenguas hermanas

Donde p₀ = 0.86 (= 86 %) es el porcentaje de retención por milenio estimado por Swadesh (= 100 % - 14 %). El tiempo calcuado así ha sido comparado con el del carbono 14 en materia biológica, usado en arqueología. Con el método se podría calcular la fecha en que dos o más lenguas emparentadas habrían formado un tronco común. Efectivamente, los dos métodos se parecen, pero difieren en un hecho esencial: la desintegración del C14 siempre es constante. No hay nada que lo cambie, ni el calor, ni el frío ni reacciones con otros elementos químicos.

Calibración

Distribución de probabilidad para el número de cognados de la lista de Swadesh retenidos tras un milenio, bajo la hipótesis de que todas las palabras de la lista tienen la misma tasa de retención y esta es constante en el tiempo e igual a p = 0,86. La esperanza matemática para el número de cognados es 86 (se obtendría este valor exacto para 11,4 % de las ocasiones), pero existe una probabilidad no nula de obtener un valor ligeramente diferente de cognados en un caso real.

Morris Swadesh estimó que la tasa de reemplazo en la lista de 100 términos de vocabulario básico que desarrolló estaba en torno al 14 %, por lo que la tasa de retención es p₀ = 0.86 (= 86 %). Más tarde, Robert Lees cambió el valor medio, calculándolo en el 80.5 % cada milenio. Otros lingüistas han estimado tasas de retención de 92-95 % eliminando los préstamos y centrándose solamente en el reemplazo "nativo" dentro de la lengua.

Puede demostrarse sin embargo que si la lista está formada por términos de diferente estabilidad (tasa de cambio individual), entonces la tasa de cambio de la lista no puede ser constante sino decreciente a medida que las palabras más volátiles o inestables van siendo reemplazadas, pues la proporción de palabras retenidas más estables va aumentado (en proporción a las palabras retenidas). Este hecho ha sido analizado en diversas modificaciones posteriores de la glotocronología.

Las fluctuaciones estadísticas también pueden ser importantes ya que el número de cognadas retenidas sigue una distribución binomial del tipo:

$P_{k}={\begin{pmatrix}100\\k\end{pmatrix}}p^{k}(1-p)^{100-k}$

Para diferentes valores de la tasa de retención se puede ver que el valor esperado del tiempo de separación se separa del valor teórico:

Autor	Tasa de retención $p\,$	Tasa de cambio $1-p\,$	Tiempo de separación (teórico)	Tiempo de separación (promedio) $\mu \,$	Tiempo de separación (desv. est.) $\sigma \,$
M. Swadesh	0,86	0,14	1000 años	1005 años	8,51 años
R. Lees	0,805	0,195	1000 años	1006 años	7,22 años
	0,93	0,07	1000 años	1005 años	12,0 años

Críticas

La metodología original ha sido repetidamente criticada. Eugenio Coseriu (1962), por ejemplo, aportó algunos datos tomados de las lenguas románicas que ilustraban que su uso podía conducir a inexactitudes importantes. Las principales objeciones que se han planteado contra la formulación de Swadesh son siguientes:

La constante de retención no es universal, varía según el tiempo, la lengua y el significado de la palabra incluida en la lista.
El modelo del árbol genealógico (Stammbaummodel) no es del todo claro. Las lenguas a menudo se influyen posteriormente a su separación, mientras que la asunción glotocronológica original es que este contacto posterior no se da o es poco significativo (en ambos casos eso parece no ser cierto).
Las cambios de sonido podrían provocar que no sea posible reconocer dos cognados (por ejemplo, fr. chef e ing. head) o que se cometa el error de asumir como cognados palabras que verdaderamente no están emparentadas (por ejemplo, ing. day y esp. día).
En algunas lenguas hay múltiples sinónimos para una de las palabras del significado básico. Para solucionar este problema, se ha sugerido utilizar el equivalente coloquial más común, la palabra más frecuente o escoger una al azar.
Un par de palabras pueden ser cognados parciales, como esp. sol y fr. soleil. En estos casos se propone utilizar estos ítemes como cognados o asignar fracciones en lugar de números enteros.
En algunas lenguas, el vocabulario básico contiene préstamos lingüísticos. En estos casos, la palabra no se toma en cuenta.
En algunas lenguas faltan una o más palabras del vocabulario básico. En estos casos, el número de palabras de la lista se reduce según corresponda.

Glotocronología modificada

La glotocronología clásica propuesta por Morris Swadesh fue severamente criticada en los años 1960 y 1970, al punto que fue desechada por muchos lingüistas. Algunas de las críticas fueron abordadas ya en esos años y se propusieron modificaciones que salvaban algunas de las críticas total o parcialmente. La reconsideración de las críticas hizo surgir una visión intermedia entre el rechazo completo al valor de la glotocronología y el entusiasmo con que fue recibida inicialmente. Los proponentes de la glotocronología modificada sostienen que con importantes modificaciones la idea de usar el recuento del número de cognados resulta útil par estudiar la diversificación de las familias lingüísticas y estimar tiempos de separación.

Van der Merwe (1966) estudió el efecto de la inhomogeneidad en las tasas de reemplazo, dividiendo la lista de vocabulario en varios grupos y cada grupo con su propia tasa. Esa modificación tiene el efecto de que a largo plazo la tasa de reemplazo media disminuye, ya que al principio las palabras con mayor tasa de cambio desaparecen y pasado un tiempo la proporción de palabras con tasas de reemplazo más lenta aumentan en proporción. Dyen, James y Cole (1967) estudiaron el efecto de permitir que cada significado tenga su propia tasa de cambio. Si se divide la lista de vocabulario básico en dos grupos con N₁ y N₂ palabras entonces la tasa de cambio efectiva $\lambda _{t}\,$ satisface:

$(N_{1}+N_{2})e^{-\lambda _{t}t}=N_{1}e^{-\lambda _{1}t}+N_{2}e^{-\lambda _{2}t}$

Por lo que la tasa efectiva dependiente del tiempo se puede escribir como:

$\lambda _{t}=-{\frac {1}{t}}\ln \left(n_{1}e^{-\lambda _{1}t}+n_{2}e^{-\lambda _{2}t}\right)\approx \left(n_{1}\lambda _{1}+n_{2}\lambda _{2}\right)-{\frac {n_{1}n_{2}}{2}}(\lambda _{1}-\lambda _{2})^{2}t+{\frac {n_{1}n_{2}}{6}}(n_{1}-n_{2})(\lambda _{1}-\lambda _{2})^{3}t^{2}+\dots$

Donde:

n_{1}={\frac {N_{1}}{N_{1}+N_{2}}},\ n_{2}={\frac {N_{2}}{N_{1}+N_{2}}}

, indican la proporción de palabras en el grupo 1 y de palabras en el grupo 2.

\lambda _{1},\lambda _{2}\,

son las tasas de cambio para palabras de cada grupo.

Puede verse que $\lambda _{t}\,$ para tiempos de separación pequeños $t\approx 0$ se comporta como el promedio de la tasa de variación de ambos grupos.

Finalmente Kruskal, Dyen y Black estudiaron simultáneamente la estimación de divergencia con el tiempo además de la tasa de reemplazo. Sankoff (1973) sugirió introducir un parámetro de préstamo y permitió la ocurrencia de sinónimos. La combinación de varias de esas mejoras se considera en Sankoff.^[3] A partir de un trabajo de Sankoff sobre la divergencia genética de poblaciones en un contexto biológico, Embleton (1981) deriva una versión simplificada en el contexto lingüístico. Esta autora mostró mediante un cierto número de simulaciones que usar este modelo proporciona buenos resultados. Colateralmente, las mejoras en la metodología estadística en un campo diferente, el estudio de los cambios en el ADN a lo largo del tiempo, ha generado trabajos que usan esos resultados en el contexto lingüístico y han renovado el interés en la glotocronología. Todos esos métodos son más robustos que los empleados anteriormente y permiten calibrar puntos en el árbol filogenético a partir de acontecimientos históricos fechables, interpolando de manera continua las tasas de cambio entre ellos. El resultado es que la asunción de una tasa de cambio constante ya no es necesaria.^[4]

Método de Stárostin

Otro intento de introducir modificaciones en la glotocronología tradicional fue llevado a cabo por el lingüista ruso Serguéi Stárostin, que propuso que las siguiente modificaciones:

Eliminar los préstamos léxicos, ya que estos son un factor disruptivo que altera los resultados, por lo que Stárostin se concentra en los cambios debidos al "reemplazo" nativo por palabras de la misma lengua. Los errores cometidos por no ajustar este factor son la principal razón por la cual las estimaciones de Swadesh eran de 14 reemplazos por milenio en la lista de 100 términos (lo cual da una tasa de 0,14), mientras que la tasa real es mucho más lenta (del orden de 0,05 o 0,06 por milenio). Si se introduce esta corrección se elimina el criticismo de Bergsland y Vogt (puesto que a través del análisis de los datos del riksmal se muestra que la lista básica incluye entre 15–16 préstamos de otras lenguas germánicas (principalmente del danés).
la tasa de cambio no es realmente constante, sino que varía con el tiempo. Esto puede deberse al menos a dos factores diferentes:
- La posibilidad de que un lexema X sea reemplazado por un lexema Y aumenta con el tiempo que X se usa en lengua, este efecto puede verse como un "envejecimiento de las palabras", que empíricamente está relacionado con el hecho de que existe una "erosión" gradual del significado primario debida al peso adquirido por significados secundarios desarrollados a partir del primero (ver cambio semántico).
- Las palabras de la lista de vocabulario tienen diferentes tasas de cambio individuales (por ejemplo, la palabra para 'yo' generalmente es más resistente al cambio que la palabra para 'amarillo'). Como se discutió antes, las palabras menos estables con mayor tasa de cambio desaparecen antes, pero, a medida que el tiempo pasa, la proporción de palabras retenidas más resistentes al cambio aumenta en relación con las menos resistentes. La fórmula propuesta por Stárostin, que tiene en cuenta la dependencia de la estabilidad individual, tiene la forma:

$T_{s}={\sqrt {\frac {\ln(p_{c})}{-L_{c}}}}$

Que reemplaza a la fórmula del Swadesh

$T_{s}={\frac {\ln(p_{c})}{\ln(p_{0})}}$

Antigüedad de algunas familias

Se han hecho algunos cálculos estimativos de la antigüedad de algunas familias de lenguas. Entre las familias con antigüedades o profundidades temporales inferiores a 5000 años (50 siglos) aparecen la práctica totalidad de las familias bien establecidas para las que se han podido reconstruir adecuadamente (RA) los aspectos cruciales de la protolengua, además de algunas otras familias donde el parentesco entre las lenguas resulta poco controvertido:^[5]^[6]

Lenguas indoeuropeas (RA, Eurasia, 70 siglos)
Lenguas sino-tibetanas (RA, Extremo Oriente, 60 siglos)
Lenguas caucásicas meridionales (RA, Eurasia, 40 siglos)
Lenguas dravídicas (RA, Subcontinente indio, 40 siglos)
Lenguas austronesias (RA, Sudeste asiático, Oceanía y Taiwán, 35 siglos)
Lenguas tai-kadai (RA, Sudeste asiático, 30 siglos)
Lenguas hmong-mien (RA, Sudeste asiático, 40 siglos)
Lenguas yeniseas (RA, Siberia, 30 siglos)
Lenguas chucoto-camchatcas (RA, Siberia, 40 siglos)
Lenguas esquimo-aleutianas (RA, Siberia, 30 siglos)
Lenguas na-dené (RA, Norteamérica, 35 siglos)
Lenguas álgicas (RA, Norteamérica, 30 siglos)
Lenguas iroquesas (RA, Norteamérica, 35 siglos)
Lenguas salish (RA, Norteamérica, 45 siglos)
Lenguas caddoanas (RA, Norteamérica, 33 siglos)
Lenguas utoaztecas (RA, Norteamérica, 48 siglos)
Lenguas zapotecanas (RA, Mesoamérica, 25 siglos)
Lenguas mayas (RA, Mesoamérica, 41 siglos)
Lenguas mixe-zoque (RA, Mesoamérica, 36 siglos)
Lenguas misumalpa (RA, Centroamérica, 43 siglos)
Lenguas caribes (RA, Sudamérica, 37 siglos)
Lenguas tupí (RA, Sudamérica, 55 siglos)
Lenguas barbacoanas (RA, Sudamérica, 33 siglos)

Para algunas macrofamilias (MF) y familias más controvertidas en que la reconstrucción ha encontrado más dificultades (DR),^[7] se tienen profundidades temporales superiores a 50 siglos:

Lenguas altaicas (MF, Eurasia, 77 siglos)
Lenguas urálicas (DR-b, Eurasia, 60 siglos)
Lenguas afroasiáticas (DR-c, Norte de África y Oriente Medio, 113 siglos)
Lenguas Níger-Congo (DR-a, África, 100 siglos)
Lenguas nilo-saharianas (DR-c, África, 150 siglos)
Lenguas joisanas (MF, África austral, 111 siglos)
Lenguas trans-neoguineanas, (MF, Nueva Guinea, 100 siglos)
Lenguas aborígenes de Australia, (MF, Australia, 95 siglos)
Lenguas otomangueanas, (DR-b?, Mesoamérica, 55-60 siglos)
Lenguas hokanas, (MF, Mesoamérica, 88 siglos)

Véase también

Referencias

↑ Ki-Zerbo, et al, 1982, pp. 257-258.
↑ Téngase en cuenta que dicho porcentaje sólo puede ser un valor esperado, dada la naturaleza aleatoria del proceso de substitución léxica, existe una pequeña probabilidad de que en un caso concreto el porcentaje real difiera ligeramente de dicho valor esperado.
↑ Sankoff, Fully Parameterised Lexicostatistics, 1972.
↑ «Gray & Atkinson 2003». Archivado desde el original el 13 de abril de 2012. Consultado el 19 de febrero de 2012.
↑ Søren Wichmann, 2008, Annexes.
↑ Swadesh, Morris (1963). «Nuevo Ensayo de Glotocronología Yutonahua.» Anales del INAH 15:263-302.
↑ Existen diversos tipos de "dificultades en la reconstrucción": (DR-a) No se dispone todavía de una reconstrucción adecuada, (DR-b) la lista de términos reconstruidos apenas supera los 100 términos, (DR-c) Existen reconstrucciones por parte de diferentes autores con discrepancias notables.

Bibliografía

Ki-Zerbo, et al, J. (1982). Unesco, ed. Historia general de África. [Vol.] I, Metodología y prehistoria africana. Madrid, España: Tecnos. ISBN 9789233017078. OCLC 644355452.
Arndt, Walter W. (1959). «The performance of glottochronology in Germanic.» Language, 35, 180-192.
Bergsland, Knut; & Vogt, Hans. (1962). «On the validity of glottochronology.» Current Anthropology, 3, 115-153.
Blažek, Václav. FROM AUGUST SCHLEICHER TO SERGEI STAROSTIN. On the development of the tree-diagram models of the Indo-European languages.
Blažek, Václav. On the internal classification of Indo-European languages: survey. ISSN 1801-5336
Brainerd, Barron (1970). «A Stochastic Process related to Language Change.» Journal of Applied Probability 7, 69-78.
Callaghan, Catherine A. (1991). «Utian and the Swadesh list.» En J. E. Redden (Ed.), Papers for the American Indian language conference, held at the University of California, Santa Cruz, July and August, 1991 (pp. 218-237). Occasional papers on linguistics (No. 16). Carbondale: Department of Linguistics, Southern Illinois University.
Campbell, Lyle. (1998). Historical Linguistics; An Introduction [Chapter 6.5]. Edinburgh: Edinburgh University Press. ISBN 0-7486-0775-7.
Chretien, Douglas (1962). «The Mathematical Models of Glottochronology.» Language 38, 11-37.
Dyen, Isidore (1965). «A Lexicostatistical classification of the Austronesian languages.» International Journal of American Linguistics, Memoir 19.
Dyen, Isidore, ed. (1973). Lexicostatistics in genetic linguistics: Proceedings of the Yale conference, April 3–4, 1971. La Haye: Mouton.
Embleton, Sheila M. (1986). Statistics in Historical Linguistics [Quantitative linguistics, vol. 30]. Bochum: Brockmeyer. ISBN 3-88339-537-4. – Estado de la cuestión hasta la fecha de publicación.
Gray, R.D. & Atkinson, Q.D. (2003): «Language-tree divergence times support the Anatolian theory of Indo-European origin.» Nature 426-435-439.
Gudschinsky, Sarah. (1956). «The ABC's of lexicostatistics (glottochronology).» Word, 12, 175-210.
Haarmann, Harald. (1990). «Basic vocabulary and language contacts; the disillusion of glottochronology.» Indogermanische Forschungen 95:7ff.
Hoijer, Harry. (1956). «Lexicostatistics: A critique.» Language, 32, 49-60.
Holm, Hans J. (2007). The new Arboretum of Indo-European 'Trees'; Can new algorithms reveal the Phylogeny and even Prehistory of IE?. Journal of Quantitative Linguistics 14-2:167-214
Lees, Robert. (1953). «The basis of glottochronology.» Language, 29 (2), 113-127.
Novotná, Petra; Blažek, Václav. Glottochronology and its application to the Balto-Slavic languages. BALTISTICA, XLII (2), 2007, p. 197
Sankoff, David (1970). «On the Rate of Replacement of Word-Meaning Relationships.» Language 46.564-569.
Starostin, Sergei. Methodology Of Long-Range Comparison. 2002. pdf
Swadesh, Morris. (1955). «Towards greater accuracy in lexicostatistic dating.» International Journal of American Linguistics, 21, 121-137.
Swadesh, Morris (1972). «What is glottochronology?» En M. Swadesh, The origin and diversification of languages (pp. 271-284). London: Routledge & Kegan Paul.
Wichmann, Søren (2008): "Neolithic Linguistics", 2008.

Datos: Q942552

[FOOTNOTEKi-Zerbo,_et_al1982257-258-1] Ki-Zerbo, et al, 1982, pp. 257-258.

[2] Téngase en cuenta que dicho porcentaje sólo puede ser un valor esperado, dada la naturaleza aleatoria del proceso de substitución léxica, existe una pequeña probabilidad de que en un caso concreto el porcentaje real difiera ligeramente de dicho valor esperado.

[3] Sankoff, Fully Parameterised Lexicostatistics, 1972.

[4] «Gray & Atkinson 2003». Archivado desde el original el 13 de abril de 2012. Consultado el 19 de febrero de 2012.

[5] Søren Wichmann, 2008, Annexes.

[6] Swadesh, Morris (1963). «Nuevo Ensayo de Glotocronología Yutonahua.» Anales del INAH 15:263-302.

[7] Existen diversos tipos de "dificultades en la reconstrucción": (DR-a) No se dispone todavía de una reconstrucción adecuada, (DR-b) la lista de términos reconstruidos apenas supera los 100 términos, (DR-c) Existen reconstrucciones por parte de diferentes autores con discrepancias notables.

[1]

[2]

[3]

[4]

[5]

[6]

[7]