Mörkuð íslensk málheild

Tungutækni og málheildir

Tungutækni (eða máltækni) er ekki ný fræðigrein en tók vaxtarkipp í upphafi 9. áratugar 20. aldar og fleygir fram eftir því sem tölvur verða öflugri og notendavænni. Haustið 1998 skipaði menntamálaráðherra starfshóp til að gera könnun á því hvernig mætti efla tungutækni hér á landi og í lokaskýrslu (pdf) hópsins segir m.a.:

Öll hagnýting tungutækni við meðferð ritaðs máls er mjög háð tilvist tvenns konar gagnasafna sem byggja þarf upp á skipulegan hátt fyrir hvert tungumál. Annars vegar þarf að koma upp textaheild (corpus) málsins, og hins vegar orðasafni (lexicon) þess.

Gerð íslenskrar málheildar (eða textaheildar) var því forgangsverkefni að mati starfshópsins. Slík söfn eru til á nokkrum tungumálum. Þar má nefna British National Corpus (BNC) í Bretlandi, Korpus 2000 í Danmörku og American National Corpus (ANC) í Bandaríkjunum.

Í framhaldi af starfi vinnuhópsins var veitt opinbert fé til verkefna á sviði tungutækni undir merkjum tungutækniverkefnis menntamálaráðuneytisins, þ.á m. til gerðar málheildar, og frá árinu 2004 hefur verið unnið að því að koma upp Markaðri íslenskri málheild á vegum Orðabókar Háskólans og síðar Stofnunar Árna Magnússonar í íslenskum fræðum. Málheildin verður til afnota fyrir einstaklinga, fyrirtæki og stofnanir sem vinna að margvíslegum tungutækniverkefnum, en auk þess mun hún nýtast þeim sem vinna að rannsóknum á íslensku nútímamáli og höfundum orðabóka og annarra handbóka um íslenskt mál og málnotkun.

Forsendur

Til þess að unnt sé að koma upp markaðri íslenskri málheild er nauðsynlegt að ráða yfir aðferðum til þess að marka textana vélrænt, þ.e.a.s. greina orðmyndir sem þar koma fyrir eftir orðflokkum og beygingu og færa greininguna inn í málheildina. Handvirk greining texta er mjög seinvirk og það er nánast óvinnandi verk að greina gagnasafn með mörgum milljónum orða á þann hátt. Af þessum sökum var ekki hafist handa við gerð málheildarinnar fyrr en búið var að þróa málfræðilegan markara fyrir íslenska texta. Við gerð málheildarinnar eru einnig nýttar niðurstöður og efniviður úr öðrum tungutækniverkefnum sem unnið hefur verið að á undanförnum árum, þ.á m. Beygingarlýsingu íslensks nútímamáls.

Efniviður

Málheildin á að endurspegla íslenskt samtímamál. Stefnt er að því að í henni verði um 25 milljón orð úr um 900 textum, útgefnum á árunum 2000-2007. Textavalið miðar að því að málheildin gefi sem raunsannasta mynd af málinu og sýni sem best fjölbreytni í málnotkun, t.d. eftir uppruna textanna og viðfangsefni. Hámarksstærð hvers texta verður 40.000 orð og verk verða aldrei tekin upp í heilu lagi. Ef texti er styttri en 40.000 orð er 20% hans sleppt. 

Stærstur hluti textanna verður útgefið efni úr bókum og blöðum. Einnig verður aflað efnis af heimasíðum stofnana og fyrirtækja, af bloggsíðum einstaklinga og úr tölvupósti. Auk þess er gert ráð fyrir nokkru óútgefnu efni, þ.á m. textum sem ætlaðir eru til upplestrar eins og stólræður presta og útvarpspistlar. Loks verður í málheildinni svolítið af textum sem eru beinar umritanir eftir töluðu máli, t.d. eðlilegum samtölum. Þess efnis er aflað í samvinnu við rannsóknarverkefnið Tilbrigði í setningagerð.

Efnisöflun og notkun

Textarnir eru fengnir frá útgefendum, fyrirtækjum, stofnunum og einstaklingum í rafrænu formi. Rík áherslu er lögð á gott samstarf við rétthafa og útgefendur og aflað er formlegs samþykkis frá rétthöfum allra texta í málheildinni eftir að þeim hefur verið kynnt verkið. Verkefnið er ekki unnið í ábataskyni og ekki verður greitt fyrir afnot af textum. Hver einstakur texti verður aðeins lítið brot af allri málheildinni en þörf er á textum af margvíslegri gerð og um ólík efni til þess að málheildin endurspegli sem best hvernig málið er notað af ólíkum málnotendum og við mismunandi aðstæður.

Í nánari kynningu á verkefninu (pdf, 25k) má lesa um hvernig aðgengi að málheildinni verður háttað. Þeir sem fá alla málheildina til notkunar í tölvukerfi sínu undirrita notkunarleyfi (pdf, 25k) þar sem notkunin er skilgreind nákvæmlega. Allir rétthafar texta undirrita samþykkisyfirlýsingu þar sem þeir samþykkja að texti þeirra sé notaður sem hluti af málheildinni (dæmi um samþykkisyfirlýsingu (pdf, 11k)).

Mörkun textanna

Lesmálsorð í málheildinni verða greind á vélrænan hátt og stefnt er að um 90% nákvæmni í greiningu. Mörkun um einnar milljónar orða verður leiðrétt handvirkt. Hverju lesmálsorði mun fylgja nefnimynd orðsins (lemma) ásamt greiningarstreng sem sýnir málfræðilegar upplýsingar um orðflokk og beygingarmynd.

Textar úr útgefnum verkum verða merktir með titli rits, nafni höfundar, útgáfuári, textategund, aldri og kyni höfundar, markhópi o.fl. Engar persónugreinanlegar upplýsingar verða skráðar með óútgefnum, persónulegum textum heldur einungis flokkunarupplýsingar um eðli og aldur textans, aldur og kyn höfundar o.þ.h.

Textarnir verða geymdir í rafrænu formi með sérstöku sniði sem TEI-samtökin (TEI: Text Encoding Initiative) hafa skilgreint fyrir málheildir. Notuð verður XML-útgáfa af þessu sniði.

Dæmi um skráningu textabrots er tekið úr skáldsögunni Mín káta angist eftir Guðmund Andra Thorsson. Fremst er haus þar sem eru upplýsingar um textann (sjá einnig dæmið sem skjámynd):
 

Brot úr haus fyrir skáldsöguna Mín káta angist eftir Guðmund Andra Thorsson
<title>Mín káta angist.</title>
<author born="1957" sex="m">Guðmundur Andri Thorsson</author>
<imprint>
<publisher>Uglan, íslenski kiljuklúbburinn</publisher>
<pubPlace>Reykjavík</pubPlace>
<date value="1990">1990</date>
</imprint>

Síðan koma orðin í textanum ásamt nefnimynd þeirra og marki (sjá líka skjámynd af dæminu).
 

Dæmi um textabrot í MÍM sem búið er að marka og færa á XML-snið (úr skáldsögunni Mín káta angist eftir Guðmund Andra Thorsson)
<w type="ao" lemma="um">um</w>
<w type="nveo" lemma="leið">leið</w>
<w type="c" lemma="og">og</w>
<w type="fp1en" lemma="ég">ég</w>
<w type="sfg1eþ" lemma="láta">lét</w>
<w type="nkeog" lemma="miði">miðann</w>
<w type="sng" lemma="detta">detta</w>
<c type="punktur">.</c>
</s>

(Ekki er víst að endanlega mynd þess sniðs sem notað verður fyrir málheildina birtist í dæminu.)