[go: up one dir, main page]

Ir al contenido

Diferencia entre revisiones de «Stemming»

De Wikipedia, la enciclopedia libre
Contenido eliminado Contenido añadido
JAnDbot (discusión · contribs.)
m r2.5.2) (robot Añadido: cs:Stemming, hy:Հիմնավորում Modificado: fr:Racinisation
Sin resumen de edición
 
(No se muestran 19 ediciones intermedias de 16 usuarios)
Línea 1: Línea 1:
'''Stemming''' es un método para reducir una [[palabra]] a su raíz o (en inglés) a un ''stem'' o tema. Hay algunos [[algoritmo]]s de stemming que ayudan en sistemas de [[recuperación de información]]. Stemming aumenta el ''recall'' que es una medida sobre el número de documentos que se pueden encontrar con una consulta. Por ejemplo una consulta sobre "bibliotec<u>as</u>" también encuentra documentos en los que solo aparezca "bibliotec<u>ario</u>" porque el stem de las dos palabras es el mismo ("bibliotec").
'''Stemming''' es un método para reducir una [[palabra]] a su raíz o (en inglés) a un ''stem''. Hay algunos [[algoritmo]]s de stemming que ayudan en sistemas de [[recuperación de información]]. Stemming aumenta el ''recall'' que es una medida sobre el número de documentos que se pueden encontrar con una consulta. Por ejemplo una consulta sobre "bibliotecas" también encuentra documentos en los que solo aparezca "bibliotecario" porque el stem de las dos palabras es el mismo ("bibliotec").


== Algoritmos ==
== Algoritmos ==
Línea 5: Línea 5:


== Software ==
== Software ==
[http://snowball.tartarus.org/ Snowball] es un pequeño [[lenguaje de programación]] para el manejo de strings que permite implementar fácilmente algoritmos de stemming. Se puede generar código en [[ANSI C]] y [[Lenguaje de programación Java|Java]]. Las páginas de Snowball contienen stemmers para 12 idiomas (incluido el [[idioma español|castellano]] , [[idioma catalán|catalán]] y [[idioma vasco|euskera]]). Todas las explicaciones, sin embargo, son dadas en inglés.
[http://snowballstem.org/ Snowball] es un pequeño [[lenguaje de programación]] para el manejo de strings que permite implementar fácilmente algoritmos de stemming. Se puede generar código en [[ANSI C]] y [[Lenguaje de programación Java|Java]]. Las páginas de Snowball contienen stemmers para 12 idiomas (incluido el [[idioma español|castellano]], [[idioma catalán|catalán]] y el [[idioma vasco|euskera]]). Todas las explicaciones, sin embargo, son dadas en inglés.


== Stemming en buscadores comerciales ==
== Stemming en buscadores comerciales ==
Desde hace poco tiempo [[Google]] utiliza stemming al igual que [[MSN search]] (donde tiene que activarse explícitamente). En general, los buscadores comerciales no dan muchas explicaciones sobre los algoritmos utilizados.
Buscadores como [[Google]] han hecho uso en su desarrollo de stemming. Aunque, en general, los buscadores comerciales no dan muchas explicaciones sobre los algoritmos utilizados.


== Enlaces externos ==
== Enlaces externos ==
* [http://www.comp.lancs.ac.uk/computing/research/stemming/general/ Página de introducción (en Inglés)]
* [http://www.tartarus.org/~martin/PorterStemmer/ Porter stemmer]
* [http://www.tartarus.org/~martin/PorterStemmer/ Porter stemmer]
* [http://evaluacion-ri.uc3m.es/ Evaluación de la recuperación de documentos]
* [https://web.archive.org/web/20070523134829/http://evaluacion-ri.uc3m.es/ Evaluación de la recuperación de documentos]
* [http://reina.usal.es/ Grupo de investigación en Recuperación de la Información Automatizada (REINA) de la] [[Universidad de Salamanca]]
* [http://reina.usal.es/ Grupo de investigación en Recuperación de la Información Automatizada (REINA) de la] [[Universidad de Salamanca]]
* [http://www.snowball.tartarus.org/ Página de Snowball, donde ya está programado un stemmer para Castellano]
* [http://www.snowball.tartarus.org/ Página de Snowball, donde ya está programado un stemmer para Castellano]
* [http://searchpedia.compuglobalhipermega.net Buscador de Wikipedia con soporte de stemming.]
* [https://web.archive.org/web/20100509043315/http://searchpedia.compuglobalhipermega.net/ Buscador de Wikipedia con soporte de stemming.]


{{Control de autoridades}}
[[Categoría:Lingüística computacional]]
[[Categoría:Lingüística computacional]]

[[ar:تشذيب]]
[[cs:Stemming]]
[[de:Stemming]]
[[en:Stemming]]
[[eu:Erro-bilaketa]]
[[fr:Racinisation]]
[[hy:Հիմնավորում]]
[[id:Stemmer]]
[[it:Stemming]]
[[ru:Стемминг]]
[[sv:Stemmer]]

Revisión actual - 15:47 1 jul 2021

Stemming es un método para reducir una palabra a su raíz o (en inglés) a un stem. Hay algunos algoritmos de stemming que ayudan en sistemas de recuperación de información. Stemming aumenta el recall que es una medida sobre el número de documentos que se pueden encontrar con una consulta. Por ejemplo una consulta sobre "bibliotecas" también encuentra documentos en los que solo aparezca "bibliotecario" porque el stem de las dos palabras es el mismo ("bibliotec").

Algoritmos

[editar]

El algoritmo más común para stemming es el algoritmo de Porter. Existen además métodos basados en análisis lexicográfico y otros algoritmos similares (KSTEM, stemming con cuerpo, métodos lingüísticos...).

Software

[editar]

Snowball es un pequeño lenguaje de programación para el manejo de strings que permite implementar fácilmente algoritmos de stemming. Se puede generar código en ANSI C y Java. Las páginas de Snowball contienen stemmers para 12 idiomas (incluido el castellano, catalán y el euskera). Todas las explicaciones, sin embargo, son dadas en inglés.

Stemming en buscadores comerciales

[editar]

Buscadores como Google han hecho uso en su desarrollo de stemming. Aunque, en general, los buscadores comerciales no dan muchas explicaciones sobre los algoritmos utilizados.

Enlaces externos

[editar]