[go: up one dir, main page]

Hoe OpenTaal taal verzamelt

Als uitgangspunten hebben we onze woordenlijst, met veel gebruikte maar ook minder gebruikte woorden. Van die woorden proberen we voorbeeldzinnen te vinden. Dat doen we door de woorden waar we nog niet genoeg voorbeelden (100) van hebben, aan te bieden aan een zoekmachine met het programma Harvester.

De gevonden stukjes tekst worden bekeken of het woord er ook echt zo in staat als het gezocht wordt; zoekmachines zijn daar namelijk bewust nogal losjes in, terwijl wij het exact willen hebben.

De gevonden internetadressen van de documenten waar het woord te vinden zou moeten zijn, worden dan geoogst met een ander hulpmiddel: distributedHarvester. Dat haalt het document op, haalt alinea's er uit. De nieuwe alinea's worden opgeslagen en daarna geanalyseerd of ze nuttig zijn als voorbeeld.

Ook worden nog onbekende woorden geïdentificeerd. Deze worden aan de letters en de volgorde ervan bekeken of de kans groot is dat ze Nederlands zijn. Als dat zo is, is dat weer een woord dat gezocht kan gaan worden.

Op deze manier verkrijgen we een gigantische lijst van woorden die zinvol Nederlands zouden kunnen zijn.

Om tot een goede te publiceren woordenlijst te komen, moeten die woorden natuurlijk beoordeeld worden. Deels kan dat geautomatiseerd, want beoordelen heeft het meeste zin als het woord al geautomatiseerd zinvol is bevonden, maar het heeft weer minder zin als het woord toch al door de spellingcontrole wordt ondersteund.

Dan blijft nog de controle met mensenhersenen over, waarbij de woorden ook in basiswoorden en afgeleiden moeten worden ingedeeld.

Het beoordelen doet OpenTaal eerst zelf, op basis van consensus en een eindredactie; daarna is er voor het woord officieel in de woordenlijst kan, nog de keuring door de Taalunie en INL.

Met dit alles kan iedereen helpen. Op de luie manier door de oogsthulpmiddelen te laten werken op de eigen computer, maar ook actief door daadwerkelijk bij te dragen aan het beoordelen en classificeren van woorden.

OpenTaal is een kleine groep vrijwilligers. Hoe meer mensen helpen, des te beter de ondersteuning van onze taal.

Taal is van ons allemaal. En dus niet te koop.

 

Mailinglist

Je kunt je abonneren op de mailinglists van OpenTaal, waarmee je op de hoogte blijft van ontwikkelingen, kunt discussiëren over diverse onderwerpen, en waarmee de projectactiviteiten kunnen worden gecoördineerd. Hiervoor maakt OpenTaal gebruik van de infrastructuur van sf.own-it.nl, een project dat Nederlandse opensourceprojecten ondersteunt. Op dit moment is er alleen een algemene discussielijst. Wanneer het nodig is, kunnen voor specifieke onderwerpen aparte mailinglists worden opgezet.

Hoe werkt het?

Wanneer je een e-mail stuurt aan een mailinglist (bijvoorbeeld Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.) wordt deze doorgestuurd aan alle abonnees ervan. Daarvoor moet je zelf ook op de lijst zijn geabonneerd. Via de beheerpagina kun je je abonneren, afmelden en persoonlijke instellingen veranderen.

Archief en zoeken

In het archief van de mailinglist zijn de in het verleden uitgewisselde berichten (vanaf december 2005) terug te vinden. Dit archief van de mailinglist is evenals deze projectpagina doorzoekbaar via de zoekfunctie.

Klussenpot

Op deze website kan je verschillende onderwerpen vinden waar de stichting OpenTaal zich mee bezig houdt. Natuurlijk is er veel meer te doen. Bekijk onze klussenpot op Own-IT voor een volledig overzicht

Forums

Naar voorkeur kan ook gecommuniceerd worden via forums. Er kan daarbij ook worden ingesteld dat je per e-mail op de hoogte blijft van de discussie.

Hoe OpenTaal taal verzamelt
>
> Als uitgangspunten hebben we onze woordenlijst, met veel gebruikte maar
> ook minder gebruikte woorden.
> Van die woorden proberen we voorbeeldzinnen te vinden. Dat doen we door de
> woorden waar we nog niet genoeg voorbeelden (100) van hebben, aan te
> bieden aan een zoekmachine met her programma Harvester.
> De gevonden stukjes tekst worden bekeken of het woord er ook echt zo in
> staat als het gezocht wordt; zoekmachines zijn daar namelijk bewust nogal
> losjes in, terwijl wij het exact willen hebben.
> De gevonden internetadressen van de documenten waar het woord te vinden
> zou moeten zijn, worden dan geoogst met een ander hulpmiddel:
> distributedharvester.
> Dat haalt het document op, haalt paragrafen er uit.
> De nieuwe paragrafen worden opgeslagen en daarna geanalyseerd of het
> nuttig is als voorbeeld.
> Ook worden nog onbekende woorden geïdentificeerd. Deze worden aan de
> letters en de volgorde ervan bekeken of de kans groot is dat ze Nederlands
> zijn.
> Als dat zo is, is dat weer een woord dat gezocht kan gaan worden.
>
> Op deze manier verkrijgen we een gigantische lijst van woorden die zinvol
> Nederlands zouden kunnen zijn.
> Om tot een goede te publiceren woordenlijst te komen, moeten die woorden
> natuurlijk beoordeeld worden.
> Deels kan dat geautomatiseerd, want beoordelen heeft het meeste zin als
> het woord al geautomatiseerd zinvol is bevonden, maar het heeft weer
> minder zin als het woord toch al door de spellingcontrole wordt
> ondersteund.
> Dan blijft nog de controle met mensenhersenen over. Waarbij de woorden ook
> in basiswoorden en afgeleiden moeten worden ingedeeld.
> Het beoordelen doet OpenTaal eerst zelf, op basis van consensus en een
> eindredactie; daarna is er voor het woord officieel in de woordenlijst
> kan, nog de keuring door de Taalunie en INL.
>
> Met dit alles kan iedereen helpen. Op de luie manier door de
> oogsthulpmiddelen te laten werken op de eigen computer, maar ook actief
> door daadwerkelijk bij te dragen aan het beoordelen en classificeren van
> woorden.
>
> OpenTaal is een kleine groep vrijwilligers. Hoe meer mensen helpen, des te
> beter de ondersteuning van onze taal.
>
> Taal is van ons allemaal. En dus niet te koop.
>