Fra bog til base: om nye edb-programmer, parsing og strukturbeskrivelse ved Ømålsordbogen

Hovmark, H. (Foredragsholder)

Institut for Nordiske Studier og Sprogvidenskab

Aktivitet: Tale eller præsentation - typer › Foredrag og mundtlige bidrag

Beskrivelse

Fra bog til base: om nye edb-programmer, parsing og strukturbeskrivelse ved Ømålsordbogen

Ømålsordbogen (ØMO) er en dansk dialektordbog der beskriver dialekterne på Sjælland, Fyn, Lolland-Falster m.m. ca. 1750-1945, på basis af en seddelsamling (ca. 3,5 mio.) og et korpus af udskrevne lydoptagelser (ca. 1,3 mio. ord). ØMO begyndte at udkomme som trykt bog i 1992 efter mange års indsamling og forberedende redaktionsarbejde, og siden er der blevet udgivet et bind hvert andet år. I 2013 udkom bind 11 (kurv-lindorm), og værket er dermed ca. halvvejs.

ØMO har netop taget fat på en omstillingsproces (finansieret af Carlsbergfondet) der på mange måder ligner Norsk Ordboks og andre tilsvarende ordbøgers: Et databasebaseret redigeringsprogram er indkøbt (iLEX), og der laves en strukturbeskrivelse for fremtidige bind baseret på en parsing af det seneste bind. På længere sigt skal de ældre bind også parses. Derudover er der udviklet et nyt korpusredigeringsværktøj i samarbejde med Det Danske Sprog- og Litteraturselskab. Og endelig er der udarbejdet en ny font (Unicode, PUA) til lydskriften Dania.

Vi vil i foredraget give en aktuel status for denne omstillingsproces, som udgangspunkt for diskussion og erfaringsudveksling. Vi vil især fokusere på spørgsmål og problemer i forbindelse med håndteringen af data og overgangen til database: I hvor høj grad vil man komme til at udnytte ordbogsprogrammets muligheder for struktureret korrektur o.l. (forkortelser, faste inventarer)? Hvor detaljeret en opmærkning skal der være i den kommende struktur? I hvor høj grad kan eller skal man tage hensyn til forældede eller løse strukturer i eksisterende bind? Hvordan strukturopmærker man bedst og billigst ældre data: via indtastning, parsing eller i etaper? Hvad stiller man op med elementer som er underspecificerede (fx uden markør) og derfor tvetydige for både parser og bruger? Hvad gør man med forskellige former for nedarvningsstrukturer som vil være svære at håndtere i en brug og visning som ikke baserer sig på en trykt bogs lineære fremstilling, men på opslag i en base, fx betydningsbeskrivelser som intrans., som adv., ds (=det samme), som er afhængige af definitioner tidligere og/eller længere oppe i hierarkiet?

Foredraget afholdt sammen med ph.d.-stipendiat Liisa Theilgaard, Nordisk Forskningsinstitut, Københavns Universitet.

Periode	14 maj 2014
Begivenhedstitel	Forskargruppe for leksikografi ved ILN, Universitetet i Oslo
Begivenhedstype	Seminar
Placering	Oslo, NorgeVis på kort

Emneord

leksikografi
sprogteknologi
dialektologi
parsing
korpus
kulturhistorie
database
digital humaniora

Dokumenter og Links

http://www.hf.uio.no/iln/forskning/grupper/leksikografi/arrangementer/2014/Omaalsordbogen.html