N-grama
Itxura
N-grama bat sekuentzia baten barne dagoen eta n elementuk osatutako azpi-sekuentzia da. N-gramak lengoaia naturalen prozesamendu estatistikoan eta sekuentzia genetikoen analisian erabili ohi dira. Elementuok mota ezberdinetakoak izan daitezke: letrak edo hitzak, esate baterako.
1 neurriko n-gramei unigrama deritze; 2 neurrikoei bigrama; 3 neurrikoei trigrama; eta 4tik gorakoei n-grama edo (n-1) ordenako Markoven eredu deitzen zaie, n hori zenbakiagatik ordeztu daitekeelarik (4-grama, 5-grama,...).
Bibliografia
[aldatu | aldatu iturburu kodea]- Christopher D. Manning, Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press: 1999. ISBN 0-262-13360-1.
- Ted Dunning, Statistical Identification of Language. Computing Research Laboratory Memorandum (1994) MCCS-94-273.
- Owen White, Ted Dunning, Granger Sutton, Mark Adams, J.Craig Venter, and Chris Fields. A quality control algorithm for dna sequencing projects. Nucleic Acids Research, 21(16):3829--3838, 1993.
- Frederick J. Damerau, Markov Models and Linguistic Theory. Mouton. The Hague, 1971.
Kanpo estekak
[aldatu | aldatu iturburu kodea]- (Ingelesez) Hitzen n-grama sortzailea.
- (Ingelesez) N-grama sortzailea.
- (Ingelesez) N-gramatan oinarrituta, ausazko testuak sortzeko sistema
Artikulu hau hizkuntzalaritzari buruzko zirriborroa da. Wikipedia lagun dezakezu edukia osatuz. |