[go: up one dir, main page]

Corpus lingüístic: diferència entre les revisions

Contingut suprimit Contingut afegit
Cap resum de modificació
m Format
 
(25 revisions intermèdies per 13 usuaris que no es mostren)
Línia 1:
Un '''corpus lingüístic''' és un conjunt, normalment molt ampli, d'exemples reals d'ús d'una llengua o d'una varietat lingüística. Aquests exemples que conté un corpus sovint són textos, però poden ser també mostres orals (normalment transcrites) o fins i tot signades.<ref name=GEC>{{GEC|0094227|corpus}}</ref> En funció del format d'aquest conjunt d'exemples, existeixen corpus escrits, orals i de llengües de signes. Segons el ''Diccionari de la Llengua Catalana'' un corpus lingüístic és el «conjunt o recull d'enunciats o de texts a partir del qual el lingüista estableix l'anàlisi i la descripció d'una llengua».<ref>{{GDLC|00036269|corpus.2}}</ref>
Els corpus textuals són un dels principals recursos per a l'obtenció de dades empíriques útils per a la disciplina de la lingüística. Val a dir que, paral·lelament al desenvolupament de les tecnologies de la informació, els corpus electrònics han esdevingut una eina fonamental per a l'obtenció d'aquestes dades, atesa la quantitat d'informació que es pot processar amb un programari adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 milions de mots.
 
Els corpus textuals són un dels principals recursos per a l'obtenció de dades empíriques útils per a l'estudi d'una llengua. Val a dir que, paral·lelament al desenvolupament de les tecnologies de la informació, els corpus electrònics han esdevingut una eina fonamental per a l'obtenció d'aquestes dades, atesa la quantitat d'informació que es pot processar amb un programari adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 milions d'ocurrències de mots. Els corpus de referència contenen un gran volum de dades lingüístiques que permeten obtenir dades representatives per analitzar qualsevol aspecte d'una llengua.
 
En català, destaca el CTILC (''[[Corpus Textual Informatitzat de la Llengua Catalana]]'' (CTILC) desenvolupat per l'[[Institut d'Estudis Catalans]], amb més de 52 milions de mots i consultable en línia des del 2005. Es tracta d'un corpus diacrònic (les mostres són textos escrits entre 1833 i 1988) a partir del qual s'està desenvolupant el ''[[Diccionari Descriptiu de la Llengua Catalana]]''.<ref name=GEC/>'' Per a l'anglès ''Cobuild'' n'és un altre exemple.<ref>[[Joaquim Rafel i Fontanals]], Joan Soler i Bou, ''El processament del corpus I: la lingüística empírica.'' Universitat Oberta de Catalunya, Barcelona, 2010</ref>
 
Es diu ''lingüística de corpus'' a laLa subdisciplina de la [[lingüística]] que estudia la llengua a través d'aquestes mostres es diu «lingüística de corpus». Aquest tipus d'aproximació xoca amb l'enfocament generativista [[Noam Chomsky|chomskià]] que tendeix a estudiar la llengua partinten partir de la premissa que els humans tenimtenen un coneixement innat de la llengua, la [[gramàtica universal]], i que el repertori d'aquests coneixements és infinit. Chomsky proposa prendre com a mostra un parlant ideal amb [[Competència comunicativa|competència lingüística]] en la llengua objecte d'estudi.
 
Aquesta subdisciplina, donat el volum de dades que utilitza, normalment s'associa amb la [[lingüística computacional]], segons aquesta última s'apropa a les aplicacions de [[Processament de llenguatge natural]].
 
Aquesta disciplina es va iniciar el 1967 quan [[Henry Kucera]] i [[Nelson Francis]] van publicar el clàssic ''Computational Analysis of Present-Day American English'', basant-se en el corpus Brown, una compilació d'anglès nord-americà d'aproximadament un milió d'ocurrències de paraules, seleccionades d'una àmplia varietat de fonts.
 
== Aplicacions del corpus lingüístic ==
Segons el Diccionari de la Llengua Catalana un "corpus lingüístic" és la col·lecció general d'escrits relatius o pertanyents a la lingüística, al llenguatge o a les llengües.
La utilització del corpus lingüístic des d'un punt de vista de processament informàtic, permet crear diferents productes lingüístics, com ara l'elaboració de gramàtiques o de diccionaris de tots tipus: explicatius, etimològics o històrics.
== Eines informàtiques de processament de corpus lingüístics ==
El programa AntConc és una eina de [[programari lliure]] que funciona amb [[Windows]] i [[Linux]]. Disposa d'una interfície bastant intuïtiva que en facilita l'ús. Entre les seues funcions inclou:
 
- '''Llista de paraules''': el programa mostra totes les paraules dels arxius de corpus carregats ordenades segons el criteri que triem (freqüència, alfabètic, alfabètic invers).
 
- '''Concordances''': podem visualitzar paraules en el context en què apareixen, és a dir, amb les paraules que l'envolten. Podem seleccionar ordenar alfabèticament els resultats per la dreta o per l'esquerra.
 
- '''Concordances gràfiques''': és una ampliació de la funció anterior. Ens mostra en un gràfic horitzontal els segments de cada arxiu on apareix la paraula que hem buscat.
 
- '''Clústers i n-grames''': ens permet buscar agrupaments de paraules en els corpus. Podem determinar quin és l'agrupament d'un nombre X de paraules més freqüent o quin és l'agrupament més comú amb una paraula X.
 
- '''Col·locacions''': ens permet conéixer quina és la freqüència d'aparició de determinades paraules amb altres.
 
- '''Keyword list''': ens permet conéixer la representativitat de les paraules d'un corpus respecte d'un altre.
 
Però no sols serveix per a l'elaboració de diccionaris o gramàtiques, sinó que també té gran utilitat a l'hora de fer estudis dialectològics. Altres usos de corpus lingüístic es relacionen amb les anàlisis de textos o d'estils, elaboració d'edicions crítiques o datació de la freqüència d'aparició de certs mots dins d'un corpus concret.<ref>{{ref-llibre|cognom=Martí Antonin|nom=María Antonia|cognom2=Alonso Martín|nom2=Juan Alberto|títol=Les tecnologies del llenguatge|url=http://books.google.cat/books?id=5ONxUXG6VV8C|consulta=8 desembre 2010|data=2001|editorial=Editorial UOC|isbn=9788484292661}}</ref>
 
== Referències ==
{{Referències}}
 
== Vegeu també ==
* [[Enginyeria lingüística]]
* [[Memòria de traducció]]
* [[Traducció assistida]]
* [[Traducció automàtica]]
* [[Corpus Textual Informatitzat de la Llengua Catalana]]
* [[CucWeb]]
 
== Enllaços externs ==
* ''[[Corpus Textual Informatitzat de la Llengua Catalana]]'' de l'Institut d'Estudis Catalans, consultable en línia: [http://ctilc.iec.cat/ ctilc.iec.cat]
* [http://diccionario.reverso.net/ingles-cobuild/ Cobuild], corpus anglès
 
{{ORDENA:Corpus Linguistic}}
[[Categoria:Lingüística]]
[[Categoria:Traducció automàtica]]
 
[[ar:ذخيرة النصوص]]
[[cs:Jazykový korpus]]
[[da:Tekstkorpus]]
[[de:Textkorpus]]
[[el:Σώμα κειμένων]]
[[en:Text corpus]]
[[eo:Korpuso]]
[[es:Corpus lingüístico]]
[[eu:Testu corpus]]
[[fi:Korpus]]
[[fr:Corpus]]
[[gl:Corpus lingüístico]]
[[hi:पाठसंग्रह]]
[[it:Corpus]]
[[ja:コーパス]]
[[ms:Korpus]]
[[nl:Corpus (taalkunde)]]
[[pl:Korpus (językoznawstwo)]]
[[pt:Corpus linguístico]]
[[sk:Korpus (jazykoveda)]]
[[sl:Besedilni korpus]]
[[th:คลังข้อความ]]
[[zh:语料库]]
[[zh-yue:語料庫]]