Corpus lingüístic

Un corpus lingüístic és un conjunt, normalment molt ampli, d'exemples reals d'ús d'una llengua o d'una varietat lingüística. Aquests exemples que conté un corpus sovint són textos, però poden ser també mostres orals (normalment transcrites) o fins i tot signades. En funció del format d'aquest conjunt d'exemples, existeixen corpus escrits, orals i de llengües de signes. Els corpus textuals són un dels principals recursos per a l'obtenció de dades empíriques útils per a la disciplina de la lingüística. Val a dir que, paral·lelament al desenvolupament de les tecnologies de la informació, els corpus electrònics han esdevingut una eina fonamental per a l'obtenció d'aquestes dades, atesa la quantitat d'informació que es pot processar amb un programari adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 milions de mots.

Els corpus de referència contenen un gran volum de dades lingüístiques que permeten obtenir dades representatives per analitzar qualsevol aspecte d'una llengua.

En català, destaca el CTILC (Corpus Textual Informatitzat de la Llengua Catalana) desenvolupat per l'Institut d'Estudis Catalans. Es tracta d'un corpus diacrònic (les mostres són textos escrits entre 1833 i 1988) a partir del qual s'està desenvolupant el Diccionari Descriptiu de la Llengua Catalana.

Es diu lingüística de corpus a la subdisciplina de la lingüística que estudia la llengua a través d'aquestes mostres. Aquest tipus d'aproximació xoca amb l'enfocament generativista chomskià que tendeix a estudiar la llengua partint de la premissa que els humans tenim un coneixement innat de la llengua, la gramàtica universal, i que el repertori d'aquests coneixements és infinit. Chomsky proposa prendre com a mostra un parlant ideal amb competència lingüística en la llengua objecte d'estudi.

Aquesta subdisciplina, donat el volum de dades que utilitza, normalment s'associa amb la lingüística computacional, segons aquesta última s'apropa a les aplicacions de Processament de llenguatge natural.

Aquesta disciplina es va iniciar el 1967 quan Henry Kucera i Nelson Francis van publicar el clàssic Computational Analysis of Present-Day American English, basant-se en el corpus Brown, una compilació d'anglès nord-americà d'aproximadament un milió de paraules, seleccionades d'una àmplia varietat de fonts.

Segons el Diccionari de la Llengua Catalana un "corpus lingüístic" és la col·lecció general d'escrits relatius o pertanyents a la lingüística, al llenguatge o a les llengües.

Eines informàtiques de processament de corpus lingüístics

El programa AntConc és una eina de programari lliure que funciona amb Windows i Linux. Disposa d'una interfície bastant intuïtiva que en facilita l'ús. Entre les seues funcions inclou:

- Llista de paraules: el programa mostra totes les paraules dels arxius de corpus carregats ordenades segons el criteri que triem (freqüència, alfabètic, alfabètic invers).

- Concordances: podem visualitzar paraules en el context en què apareixen, és a dir, amb les paraules que l'envolten. Podem seleccionar ordenar alfabèticament els resultats per la dreta o per l'esquerra.

- Concordances gràfiques: és una ampliació de la funció anterior. Ens mostra en un gràfic horitzontal els segments de cada arxiu on apareix la paraula que hem buscat.

- Clústers i n-grames: ens permet buscar agrupaments de paraules en els corpus. Podem determinar quin és l'agrupament d'un nombre X de paraules més freqüent o quin és l'agrupament més comú amb una paraula X.

- Col·locacions: ens permet conéixer quina és la freqüència d'aparició de determinades paraules amb altres.

- Keyword list: ens permet conéixer la representativitat de les paraules d'un corpus respecte d'un altre.

Aplicacions del corpus lingüístic

La utilització del corpus lingüístic des d'un punt de vista de processament informàtic, ens permet crear diferents productes lingüístics, com ara l'elaboració de diccionaris i de gramàtiques. El projecte per a la llengua anglesa de COBUILDés un bon exemple d'aplicació d'un corpus lingüístic.

Corpus lingüístic

Eines informàtiques de processament de corpus lingüístics

Aplicacions del corpus lingüístic

Vegeu també