Textklassifikation
Die Textklassifikation ist ein sehr wichtiges Kriterium im Bereich der Informationsextraktion.
Bei unterschiedlich strukturierten Texten werden verschiedene Verfahren angewendet, die sich voneinander durch Merkmale wie Komplexität, Restriktionen oder den Ablauf der Extraktion unterscheiden. So gibt es z. B.: ein sprachbasiertes Verfahren (Perl) oder ein Wrapper-Induction-basiertes Verfahren. Daher ist es notwendig, die analysierten Texte zu klassifizieren.
Die Texte werden nach ihrer Strukturiertheit aufgeteilt:
- Natürliche und unstrukturierte Plain-Texte,
- Strukturierte Informationen,
- Semi-strukturierte Texte.
Natürliche und unstrukturierte Plain-Texte
Die natürlichen und unstrukturierten Plain-Texte werden mit Systemen bearbeitet, die eine morphologische und syntaktische Analyse ermöglichen. Dabei ist die Vorgehensweise sehr aufwendig und manchmal auch überflüssig, weil die gesuchten Informationen anhand einfacher Muster gefunden werden können.
Strukturierte Informationen
Bei den strukturierten Informationen handelt es sich vor allem um Tabellen und relationale Datenbanken. Hierbei wird keine linguistische Analyse benötigt. Um die gesuchten Informationen zu finden, reicht es aus, nur die Struktur zu erkennen.
Semi-strukturierte Texte
Die HTML-Dokumente werden als semi-strukturierte Texte bezeichnet und stellen eine große Herausforderung für die Informationsextraktion Systeme dar. Sie weisen eine uneinheitliche Struktur auf, teilweise sind durch die HTML-Tags markiert, teilweise sind das natürliche Texte. Um die Informationen zu extrahieren, müssen die Informationsextraktion Systeme die HTML-Struktur und die Textmuster erkennen. Dabei sind die HTML-Tags ein wichtiger Hinweis auf die Struktur.