[go: up one dir, main page]

Naar inhoud springen

Faceted Application of Subject Terminology

Uit Wikipedia, de vrije encyclopedie

Faceted Application of Subject Terminology (FAST) is een automatisch gegenereerde thesaurus gebaseerd op de Library of Congress Subject Headings (LCSH).

In het www-tijdperk, meer bepaald in 1998, begon het Online Computer Library Center (OCLC) aan de zoektocht naar een informatietaal om te helpen bij de automatische constructie van Dublin Core metadata. Men nam de woordenschat van Library of Congress Subject Headings over, maar niet de syntaxis (die was te uitgebreid en bestaat uit 4 volumes in gedrukte vorm). De syntaxis van Library of Congress Subject Headings is precoördinatief, wat wil zeggen dat ieder onderwerpselement zo veel mogelijk uitgedrukt wordt in één samengestelde term. Bij FAST koos men voor postcoördinatie, wat neerkomt op afzonderlijke enkelvoudige of samengestelde termen, met de mogelijkheid om in de zoekfase losse termen te combineren. De meeste mensen gaan dus postcoördinatief te werk als ze iets zoeken in Google. Ze tikken een paar woorden in en vinden wat ze zoeken. Dit is veel makkelijker dan precoördinatie, want dan wordt meestal een veel bredere domeinkennis verondersteld. Het is bijvoorbeeld makkelijker om geschiedenis, Hongarije, spoorwegen in een zoekmachine te tikken dan Hongaarse spoorweggeschiedenis want voor dat laatste moet je al wat meer vooraf denken. Men koos voor postcoördinatie omdat de simpliciteit meer in lijn was met de basisvooronderstellingen en karakteristieken van automatische zoeksoftware. Een andere reden was het feit dat Dublin Core ook door niet catalografen gebruikt wordt. In theorie kan je uit de Library of Congress Subject Headings ontelbare geldige trefwoorden construeren. Zo zijn er bijvoorbeeld 175 muziekinstrumenten in opgenomen. Daarmee kan je bijna 1 miljoen combinaties voor trio's maken. Voor nonetten loopt dat op tot 1018 combinaties. De meeste van die combinaties worden nooit gevormd of bestaan theoretisch niet. Vandaar dat het ook niet nodig is alle mogelijke trefwoorden te maken voor alle mogelijke combinaties. Men gebruikte enkel de trefwoorden die in OCLC's WorldCat zijn opgenomen. FAST gebruikt onderverdelingen en behoudt de hiërarchische structuur van LCSH. Het grote verschil is dat in een FAST-trefwoord, onderverdelingen moeten behoren tot hetzelfde facet als het hoofdtrefwoord. FAST bestaat uit 8 verschillende facetten: onderwerp, geografie, persoonsnaam, bedrijfsnaam, vorm (type en genre), chronologie (tijd en periode), titel en meeting name. Onderwerptrefwoorden kunnen dus onderverdeeld worden door andere onderwerptrefwoorden. Dat betekent dat een bepaald hoofdtrefwoord niet onderverdeeld kan worden door onderverdelingen van een ander facet. FAST-trefwoorden worden dus gemaakt door het facetteren van bestaande LCSH-trefwoorden en trefwoorden getrokken uit MARC-records in WorldCat.

Voorbeeld: het LCSH-trefwoord architecture modern $y 20th century $z united states $v bibliography wordt dan volgend FAST-trefwoord

Topical
architecture modern
Geographic
united states
Chronological
1900-1999
Form
bibliography

Het creëren van de records

[bewerken | brontekst bewerken]

Het eigenlijke werk ging dus als volgt. Er werd een bestand gecreëerd met alle unieke LCSH onderwerps- en geografische trefwoorden getrokken uit OCLC’s World Cat. Dit bestand bestond uit 6.912.980 unieke onderwerpstrefwoorden en 1.471.023 geografische trefwoorden getrokken uit de ongeveer 50 miljoen trefwoorden in MARC-records. Deze trefwoorden werden dan gefacetteerd om de initiële versie van de FAST onderwerp, geografie, chronologie en vorm facetten te maken. Bijkomende vormtrefwoorden werden geïdentificeerd in LCSH ‘authority records’. Een aantal algoritmen om de trefwoorden automatisch te valideren werden ontwikkeld. Deze initiële set trefwoorden onderging uitgebreide validatie om het aantal foute ingangen te minimaliseren. De aldus bekomen ingangen werden dan officieel FAST-trefwoorden. De finale stap in het ontwikkelen van FAST was het creëren van een ‘authority record’ voor elk vastgelegd trefwoord. Wegens zijn wijdverspreide gebruik werd MARC 21 4 gekozen als formaat voor DE ‘authority data’. Toch bleven de chronologische trefwoorden een probleem (enkel chronologische onderverdelingen waren mogelijk). Er werd een voorstel ingediend bij MARBI (machine readable bibliographic information), het interdivisioneel comité van de American Library Association dat toeziet op standaarden voor machineleesbare bibliografische informatie. Dat voorstel werd met kleine wijzigingen aanvaard in juni 2002. Het gevolg was dat bijkomende velden werden toegevoegd aan het MARC 21-formaat om te voorzien in de unieke eisen van FAST. De initiële versie van de FAST authority file zal ongeveer 2 miljoen records bevatten

  1. Margrijn, H. e.a., Woordsystemen: theorie en praktijk van thesauri en trefwoordsystemen. –Den Haag: NBLC, 1997
  2. Peeters Chris ; Automatische thesaurusconstructie : een uitdaging, Bibliotheek - & Archiefgids, 75 (1999) 3 pp.118-124
  3. FAST (Faceted Application of Subject Terminology) : a simplified vocabulary based on the Library of Congress Subject Headings (LCSH). Edward T. O’Neill and Lois Mai Chan, IFLA JOURNAL 29 (2003) 4 pp. 336-342
[bewerken | brontekst bewerken]