Meertalige ontsluiting van de Collectie Fryslân
Hoe zijn jullie tot het besluit gekomen de Collectie Fryslan meertalig te ontsluiten?
“Omdat onze Aquabrowser tot op heden slechts reageert op de taal waarin het trefwoord is geplaatst. Dat betekent dat als ik bijvoorbeeld het trefwoord ’tsjerke’ (Fries voor kerk, red.) ingeef hij mij alleen de Friese titels toont. Alle Nederlandstalige titels die aan het trefwoord kerk gelinkt zijn blijven daardoor onzichtbaar.”
Douwes zijn uitgangspunt is de gebruiker zo breed mogelijk te informeren. Het totale spectrum van wat in de Aquabrowser aanwezig is zou, ongeacht de taal waarin de zoekopdracht ingegeven is, aangeboden moeten worden. Tot op heden valt dit buiten het blikveld van de gebruiker, wat erop neerkomt dat bepaalde deelgebieden niet of onvoldoende onder de aandacht gebracht worden. “En daarom zijn we bij Tresoar en de Bibliotheekservice Fryslan tot de conclusie gekomen dat we een tweetalige trefwoordenthesaurus zouden moeten hebben”, aldus Douwes. “We zijn daar al een tijdje mee bezig, maar nu is het in het landelijke traject van innovatiegelden gehonoreerd. Eén van de reden voor toekenning van innovatiegeld door het Ministerie van OCW was de inzetbaarheid van de methodiek voor andere talen en maatschappelijke toepassingen.”
Is de vertaalmodule gebaseerd op bestaande technologie of wordt het door jullie of derden ontwikkeld?
“We laten de module ontwikkelen door GridLine. Dit bedrijf is gespecialiseerd in taal- en zoekoplossingen. Daarbij zullen ongetwijfeld bestaande technieken worden gebruikt. De wijze waarop wij het toepassen is echter uniek. Tijdens een indexeringsproces worden alle trefwoorden op de juiste wijze toegekend aan een titel. Bij dat proces worden Nederlandstalige trefwoorden aangevuld met Friestalige trefwoorden en omgekeerd Friestalige trefwoorden aangevuld met Nederlandstalige trefwoorden. Op die manier krijg je een geïntegreerde oplossing die altijd up-to-date is, omdat de indexering van de Aquabrowser veelal ’s nachts plaatsvindt. We focussen ons bij dat proces op de trefwoorden en niet op alle woorden van een document. Het volume is daardoor te overzien. We hebben daarnaast contextafhankelijk woorden aan de module toegevoegd. Met andere woorden: wanneer termen niet duidelijk zijn, of in een context geplaatst moeten worden, dan vragen we een extra titelbeschrijving op uit de Aquabrowser. Die gaat naar de vertaalmodule en op basis van de opbouw van de tekst bepaalt deze de juiste betekenis van het woord. Hierna geven we de passende Nederlands- of Friestalige uitdrukking eraan.”
Hoe wordt de database in eerste instantie gevoed?
“We gebruiken digitale woordenboeken. Woorden die hierin niet voorkomen worden in een aparte lijst opgenomen. Deze wordt door de Fryske Akademy bekeken. Zij werken nu samen met de leverancier om een goede thesaurus neer te zetten. Sommige vertalingen zijn zo uniek dat het noodzakelijk is dat de deskundigen van de Fryske Akademy dit bekijken.”
Vertel?
“Van de week hadden we het voorbeeld ‘Haagse gemeentebelangen’. Dat werd vertaald als ‘liguster gemeentebelangen’. Op de één of andere manier stonden beide termen vlak bij elkaar. Dit is natuurlijk een ruwe vertaling, waarbij de context niet beschikbaar was. Zo zijn er veel meer voorbeelden te bedenken die qua betekenis dicht bij elkaar liggen, maar binnen een bepaalde context heel wat anders betekenen. Wij vinden die contextafhankelijkheid daarom heel erg belangrijk.”

