[go: up one dir, main page]

An Entity of Type: disease, from Named Graph: http://dbpedia.org, within Data Space: dbpedia.org

Document classification or document categorization is a problem in library science, information science and computer science. The task is to assign a document to one or more classes or categories. This may be done "manually" (or "intellectually") or algorithmically. The intellectual classification of documents has mostly been the province of library science, while the algorithmic classification of documents is mainly in information science and computer science. The problems are overlapping, however, and there is therefore interdisciplinary research on document classification.

Property Value
dbo:abstract
  • La classificació de documents o categorització de documents és un objecte d'estudi dins la biblioteconomia, la ciència de la informació i les ciències de la computació. El fet de classificar comprèn la distribució dels objectes de qualsevol gènere de classes. Quan classifiques documents es realitza una anàlisi del seu contingut i forma, situant la documentació en grups gràcies a un sistema de classificació amb aquests fins. (ca)
  • Document classification or document categorization is a problem in library science, information science and computer science. The task is to assign a document to one or more classes or categories. This may be done "manually" (or "intellectually") or algorithmically. The intellectual classification of documents has mostly been the province of library science, while the algorithmic classification of documents is mainly in information science and computer science. The problems are overlapping, however, and there is therefore interdisciplinary research on document classification. The documents to be classified may be texts, images, music, etc. Each kind of document possesses its special classification problems. When not otherwise specified, text classification is implied. Documents may be classified according to their subjects or according to other attributes (such as document type, author, printing year etc.). In the rest of this article only subject classification is considered. There are two main philosophies of subject classification of documents: the content-based approach and the request-based approach. (en)
  • Dokumentuen sailkapena informazioaren zientziaren arloa da, informazioa eskuratzeko teknikekin lotu ohi dena. baten edukietan oinarrituz, berau kategoria bat edo gehiagotan sailkatzean datza. 1960ko hamarkadan lehen urratsak izan zituen ikerketa ildo honen lehen hurbilketak oinarritzen ziren, eta ondorioz, pertsona baten beharra zegoen sailkapenaren azken urratsa eskuz egiteko. 1990eko hamarkadaz geroztik, ordea, ikasketa automatikoan oinarritutako teknikak nagusitu dira, prozesu osoa automatizatuz. Ikasketa automatikoan oinarritutako dokumentuen sailkapenerako bi prozesu mota ezberdindu daitezke: * oinarritutako dokumentuen sailkapena: sailkapen prozesua burutu aurretik, aurrez sailkatutako dokumentu sorta bat eskuragarri dago, eta berau erabiltzen da sistema entrenatzeko. * oinarritutako dokumentuen sailkapena: ez dago aurrez sailkatutako dokumentu sortarik eskuragarri, eta sailkapena itsu-itsuan burutzen da. Honako hau ez da sailkapen atazatzat hartzen askotan, eta edo clustering bezala ere ezagutu ohi da. Hala eta guztiz ere, azken urteotan gero eta gehiagotan erabiltzen den aukera da oinarritutako dokumentuen sailkapena. Aukera hau oso baliagarria da aurrez sailkatutako dokumentu sorta oso txikia denean sorta osoarekiko, esate baterako, Webaren kasuan. Aurrez sailkatutako dokumentuak ikasteko erabiltzeaz gain, sailkatu gabe dauden dokumentuak ere baliatu egiten dira kasu honetan sailkatzailearen ikasketa prozesurako. Sailkatutako dokumentuekin ikasi, eta sailkatu gabekoekin findu egiten da. Dokumentuen sailkapenerako tresna bat garatzerako orduan, hiru dira gainditu beharreko erronkak: * Dokumentuen indexazioa, eta ondorioz, hauen adierazpenerako formatua. * Sailkatzailea sortzea. * Emaitzen ebaluazioa. Sailkapenak lengoaia dokumental hierarkikoak dira, harreman hierarkikoa dagoelako bertako indizeen artean. Eta bere antolamendua orokorretik zehatzera doa, indizeen esanahiaren arabera. Oro har, sailkapenetan agertzen diren indizeek aurre koordinazioa dute, hau da, elementu semantikoak lotzen doaz indizeak gero eta zehatzagoak bihurtuz (adibidez, seriea, umorezko seriea). (eu)
  • Se define como la tarea de asignar valores booleanos a cada par pertenecientes a , donde es el dominio de los documentos y es una colección de categorías predefinidas. T (verdadero) indica archivar un documento bajo , mientras F (falso) indica no archivar bajo . Entre las aplicaciones que encuentra la clasificación de documentos se tienen los filtros de correo electrónico (spam / no spam) Las medidas de evaluación utilizadas en la clasificación de documentos son principalmente precisión, cobertura y F-1.​ (es)
  • La classification et catégorisation de documents est l'activité du traitement automatique des langues naturelles qui consiste à classer de façon automatique des ressources documentaires, généralement en provenance d'un corpus. Cette classification peut prendre une infinité de formes. On citera ainsi la classification par genre, par thème, ou encore par opinion. La tâche de classification est réalisée avec des algorithmes spécifiques, mis en œuvre par des systèmes de traitement de l'information. C'est une tâche d'automatisation d'un processus de classement, qui fait le plus souvent appel à des méthodes numériques (c'est-à-dire des algorithmes de recherche d'information ou de classification de type mathématique). L'activité de classification de documents est essentielle dans de nombreux domaines économiques : elle permet d'organiser des corpus documentaires, de les trier, et d'aider à les exploiter dans des secteurs tels que l'administration, l'aéronautique, la recherche sur internet, les sciences. (fr)
  • Dalam ilmu perpustakaan, ilmu informasi dan ilmu komputer, klasifikasi dokumen atau kategorisasi dokumen ialah persoalan kepada menetapkan suatu dokumen ke satu atau lebih atau kategori. Dapat dicapai secara manual (intelektual) atau secara algoritma. Klasifikasi intelektual akan dokumen sebagian besar telah menjadi bidang ilmu perpustakaan, sementara klasifikasi secara algoritma akan dokumen ialah utama dalam ilmu informasi dan ilmu komputer. Dokumen yang mendapat klasifikasi bisa berupa teks, gambar, musik, dll. Setiap macam dokumen memiliki persoalan klasifikasi khusus. Kala tidak ditentukan, klasifikasi teks terlibat. Dokumen dapat dikategorikan berdasarkan dengan atau atribut lain (seperti jenis dokumen, pengarang, tahun cetakan, dll). Terdapat dua filosofi utama dari subjek klasifikasi dokumen: pendekatan klasifikasi berbasis konten dan pendekatan klasifikasi berbasis permintaan. (in)
  • 文書分類(ぶんしょぶんるい、英: Document classification/categorization)は、情報科学における問題である。電子文書をその内容に基づいて、1つ以上に分類する。文書分類には、外部から(例えば人間が)正しい分類に関する情報を与える教師あり文書分類と、外部の情報を参照せずに分類する教師なし文書分類がある。 (ja)
  • La classificazione del testo (in inglese text categorization o text classification, abbreviata come TC) è, nell'intelligenza artificiale, un'attività che si occupa di classificare testi digitali espressi in una lingua naturale assegnando in maniera automatica collezioni di documenti a una o più classi appartenenti a un "insieme di classi" predefinito. Per realizzare ciò si utilizzano solitamente degli approcci di apprendimento automatico di tipo supervisionato, dove è necessario addestrare il sistema tramite auto-apprendimento per esempi (anche chiamate istanze) da cui generare un modello generale per la classificazione automatica. Esistono tuttavia altri approcci, come quello non supervisionato o semi-supervisionato, ma solitamente con risultati peggiori. (it)
  • Класифікація документів — це одне з завдань інформаційного пошуку, яке полягає у зарахуванні документа до однієї з кількох категорій на підставі його змісту. Класифікація може здійснюватися власноруч або автоматично, за допомогою створеного набору правил чи із застосуванням методів машинного навчання. Документи, що класифікуються, можуть бути текстовими, це можуть бути зображення та музика і так далі. Кожен вид документа має свої особливості класифікації. Зазвичай під класифікацією документів мається на увазі класифікація тексту, якщо не вказано інше. Слід відрізняти класифікацію текстів від кластеризації. В останньому випадку тексти також об'єднуються за деякими критеріями, але заздалегідь задані категорії відсутні. (uk)
  • 文档分类是图书馆学, 信息学和计算机科学中的一个问题。其任务是将一个文档分配到一个或者多个类别中。它可以是通过人工分类完成的,也可以是通过计算机算法实现的。多数通过人工的文档分类问题一直属于图书馆学的领域,而通过算法实现的文档分类问题则多属于信息学和计算机科学的领域。这些问题之间是有相同的部分的,所以有一些对文档分类的跨学科研究。 需要被分类的文档有可能是纯文本,图片,音乐等等。每一种文档都有其独特分类问题。根据特殊的文档做研究,文档分类可以细分成文本分类,图片分类等等。 可以根据来进行文档分类,也可以根据它的属性(例如文档的类型,作者,出版的时间等)进行分类。下文只包含主题分类的问题。主要由两种方法来做根据主题的文档分类:基于内容的方法以及基于请求的方法。 (zh)
  • Классификация документов — одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа. Является одной из задач документной лингвистики. Классификация может осуществляться полностью вручную, либо автоматически с помощью созданного вручную набора правил, либо автоматически с применением методов машинного обучения. Следует отличать классификацию текстов от кластеризации, в последнем случае тексты также группируются по некоторым критериям, но заранее заданные категории отсутствуют. (ru)
dbo:wikiPageExternalLink
dbo:wikiPageID
  • 1331441 (xsd:integer)
dbo:wikiPageLength
  • 13139 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID
  • 1118573007 (xsd:integer)
dbo:wikiPageWikiLink
dbp:date
  • 2020-10-05 (xsd:date)
dbp:url
dbp:wikiPageUsesTemplate
dcterms:subject
gold:hypernym
rdf:type
rdfs:comment
  • La classificació de documents o categorització de documents és un objecte d'estudi dins la biblioteconomia, la ciència de la informació i les ciències de la computació. El fet de classificar comprèn la distribució dels objectes de qualsevol gènere de classes. Quan classifiques documents es realitza una anàlisi del seu contingut i forma, situant la documentació en grups gràcies a un sistema de classificació amb aquests fins. (ca)
  • Se define como la tarea de asignar valores booleanos a cada par pertenecientes a , donde es el dominio de los documentos y es una colección de categorías predefinidas. T (verdadero) indica archivar un documento bajo , mientras F (falso) indica no archivar bajo . Entre las aplicaciones que encuentra la clasificación de documentos se tienen los filtros de correo electrónico (spam / no spam) Las medidas de evaluación utilizadas en la clasificación de documentos son principalmente precisión, cobertura y F-1.​ (es)
  • 文書分類(ぶんしょぶんるい、英: Document classification/categorization)は、情報科学における問題である。電子文書をその内容に基づいて、1つ以上に分類する。文書分類には、外部から(例えば人間が)正しい分類に関する情報を与える教師あり文書分類と、外部の情報を参照せずに分類する教師なし文書分類がある。 (ja)
  • 文档分类是图书馆学, 信息学和计算机科学中的一个问题。其任务是将一个文档分配到一个或者多个类别中。它可以是通过人工分类完成的,也可以是通过计算机算法实现的。多数通过人工的文档分类问题一直属于图书馆学的领域,而通过算法实现的文档分类问题则多属于信息学和计算机科学的领域。这些问题之间是有相同的部分的,所以有一些对文档分类的跨学科研究。 需要被分类的文档有可能是纯文本,图片,音乐等等。每一种文档都有其独特分类问题。根据特殊的文档做研究,文档分类可以细分成文本分类,图片分类等等。 可以根据来进行文档分类,也可以根据它的属性(例如文档的类型,作者,出版的时间等)进行分类。下文只包含主题分类的问题。主要由两种方法来做根据主题的文档分类:基于内容的方法以及基于请求的方法。 (zh)
  • Классификация документов — одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа. Является одной из задач документной лингвистики. Классификация может осуществляться полностью вручную, либо автоматически с помощью созданного вручную набора правил, либо автоматически с применением методов машинного обучения. Следует отличать классификацию текстов от кластеризации, в последнем случае тексты также группируются по некоторым критериям, но заранее заданные категории отсутствуют. (ru)
  • Document classification or document categorization is a problem in library science, information science and computer science. The task is to assign a document to one or more classes or categories. This may be done "manually" (or "intellectually") or algorithmically. The intellectual classification of documents has mostly been the province of library science, while the algorithmic classification of documents is mainly in information science and computer science. The problems are overlapping, however, and there is therefore interdisciplinary research on document classification. (en)
  • Dokumentuen sailkapena informazioaren zientziaren arloa da, informazioa eskuratzeko teknikekin lotu ohi dena. baten edukietan oinarrituz, berau kategoria bat edo gehiagotan sailkatzean datza. 1960ko hamarkadan lehen urratsak izan zituen ikerketa ildo honen lehen hurbilketak oinarritzen ziren, eta ondorioz, pertsona baten beharra zegoen sailkapenaren azken urratsa eskuz egiteko. 1990eko hamarkadaz geroztik, ordea, ikasketa automatikoan oinarritutako teknikak nagusitu dira, prozesu osoa automatizatuz. (eu)
  • Dalam ilmu perpustakaan, ilmu informasi dan ilmu komputer, klasifikasi dokumen atau kategorisasi dokumen ialah persoalan kepada menetapkan suatu dokumen ke satu atau lebih atau kategori. Dapat dicapai secara manual (intelektual) atau secara algoritma. Klasifikasi intelektual akan dokumen sebagian besar telah menjadi bidang ilmu perpustakaan, sementara klasifikasi secara algoritma akan dokumen ialah utama dalam ilmu informasi dan ilmu komputer. (in)
  • La classification et catégorisation de documents est l'activité du traitement automatique des langues naturelles qui consiste à classer de façon automatique des ressources documentaires, généralement en provenance d'un corpus. L'activité de classification de documents est essentielle dans de nombreux domaines économiques : elle permet d'organiser des corpus documentaires, de les trier, et d'aider à les exploiter dans des secteurs tels que l'administration, l'aéronautique, la recherche sur internet, les sciences. (fr)
  • La classificazione del testo (in inglese text categorization o text classification, abbreviata come TC) è, nell'intelligenza artificiale, un'attività che si occupa di classificare testi digitali espressi in una lingua naturale assegnando in maniera automatica collezioni di documenti a una o più classi appartenenti a un "insieme di classi" predefinito. (it)
  • Класифікація документів — це одне з завдань інформаційного пошуку, яке полягає у зарахуванні документа до однієї з кількох категорій на підставі його змісту. Класифікація може здійснюватися власноруч або автоматично, за допомогою створеного набору правил чи із застосуванням методів машинного навчання. Документи, що класифікуються, можуть бути текстовими, це можуть бути зображення та музика і так далі. Кожен вид документа має свої особливості класифікації. Зазвичай під класифікацією документів мається на увазі класифікація тексту, якщо не вказано інше. (uk)
rdfs:label
  • Classificació de documents (ca)
  • Clasificación de documentos (es)
  • Dokumentuen sailkapena (eu)
  • Document classification (en)
  • Klasifikasi dokumen (in)
  • Text categorization (it)
  • Classification et catégorisation de documents (fr)
  • 文書分類 (ja)
  • Tekstclassificatie (nl)
  • Классификация документов (ru)
  • Класифікація документів (uk)
  • 文档分类 (zh)
owl:sameAs
prov:wasDerivedFrom
foaf:isPrimaryTopicOf
is dbo:knownFor of
is dbo:wikiPageRedirects of
is dbo:wikiPageWikiLink of
is rdfs:seeAlso of
is foaf:primaryTopic of
Powered by OpenLink Virtuoso    This material is Open Knowledge     W3C Semantic Web Technology     This material is Open Knowledge    Valid XHTML + RDFa
This content was extracted from Wikipedia and is licensed under the Creative Commons Attribution-ShareAlike 3.0 Unported License