Mörkuð íslensk málheild
(MÍM)

Verkefnisstjóri:      Sigrún Helgadóttir

 

Hvað er mörkuð málheild?

Með markaðri málheild (e. tagged corpus) er átt við safn fjölbreyttra texta sem eru geymdir í stöðluðu sniði í rafrænu formi. Til þess að textarnir verði sem gagnlegastir við málrannsóknir eru þeir greindir á margvíslegan hátt. Hverri orðmynd fylgir þá greiningarstrengur, mark (e. tag), sem sýnir orðflokk og oft líka málfræðileg atriði eins og fall, tölu og kyn fallorða og persónu, tölu og tíð sagna. Auk þess fylgir nefnimynd (e. lemma) með hverri orðmynd, t.d. nefnifall í eintölu fyrir fallorð og nafnháttur sagna. Hverjum texta í mál­heildinni fylgja jafnframt bókfræðilegar upplýsingar um verkið sem textinn er úr.

Íslensk málheild

Árið 2004 var hafist handa við að búa til markaða málheild fyrir íslenskt samtímamál á Orðabók Háskólans og því er nú haldið áfram undir merkjum Stofnunar Árna Magnússonar í íslenskum fræðum. Verkið er kostað af tungutækniverkefni menntamálaráðuneytisins og meginmarkmið þess er að bæta forsendur fyrir þróun íslenskrar mál- eða tungutækni. Stefnt er að því að í málheildinni verði í fyrstu um 25.000.000 orð úr um það bil 900 textum af ýmsu tagi.

Notendur

Notendur málheildarinnar verða einstaklingar, fyrirtæki og stofnanir sem vinna að margvíslegum máltækniverkefnum, rannsóknum á íslensku nútímamáli og orðabókargerð.

Úr málheildinni má lesa ýmiss konar gagnlegan fróðleik. Þar má nefna upplýsingar um tíðni orðflokka, orða og beygingarmynda, orðasambönd, setningargerð, merkingu o.fl. Slík gögn nýtast m.a. við orðabókargerð, gerð leiðréttingarforrita, þýðingarforrita, búnaðar fyrir talgreiningu og talgervingu og gerð hjálparforrita fyrir blinda, heyrnarskerta, hreyfihamlaða og þá sem glíma við skriftar- og lestarörðugleika.


Meira um verkefnið

Kynning á verkefninu (pdf, 25k)
Short English project description (doc, 47k)
Sýnishorn af samþykkisyfirlýsingu frá rétthafa texta (pdf, 11k)
Sýnishorn af samþykkisyfirlýsingu frá rétthafa texta (doc, 23k)
Sýnishorn af notkunarleyfi (pdf, 25k)
Samþykkisyfirlýsing (til afritunar)

Starfsfólk
Sigrún Helgadóttir (verkefnisstjóri)
Eyrún Valsdóttir (til desember 2008)
Auður Rögnvaldsdóttir
Hjördís Stefánsdóttir (frá júní 2008)

Verkefnisstjórn
Ásta Svavarsdóttir
Eiríkur Rögnvaldsson
Kristín Bjarnadóttir

Samstarfsaðilar