Ágústa Þorbergsdóttir og Einar Freyr Sigurðsson fá fjárstyrki til verkefna á sviði tungu og tækni

Nýlega ákvað stjórn markáætlunar í tungu og tækni að styrkja sex verkefni sem snúa að tungu og tækni. Tveimur verkefnanna er stjórnað af starfsfólki Stofnunar Árna Magnússonar í íslenskum fræðum.

Verkefni Ágústu Þorbergsdóttur málfræðings snýr að orðaforða fjármálalífsins og hvernig má samræma hann á sem skilvirkastan hátt.

Það gengur út á að þróa kerfi sem dregur íðorð úr íslenskum textum á sviði fjármála. Í kjölfarið er hugmyndin að setja upp veflæga verkfærakistu til að vinna með. Vefurinn mun bjóða upp á að gögnum sé deilt, þau keyrð út á mismunandi sniðum eða að út úr kerfinu séu sendar tillögur til ritstjóra Íðorðabankans. Sjálfvirkar keyrslur verða settar upp til að finna íðorð í nýjum textum, t.d. úr fjölmiðlum. Niðurstöður verða opnar og aðgengilegar öllum notendum vefsins.
Þessi vinna mun bæta mikið starfsaðstæður þeirra sem vinna með orðaforða tengdan fjármálum, enda hefur þróun á þessu sviði þjóðlífsins verið hröð og mikil þörf hefur skapast fyrir ný orð sem verða fljótt töm í notkun þeim sem vinna innan fjármálaheimsins.

 
Einar Freyr Sigurðsson, rannsóknarlektor, fékk ásamt Antoni Karli Ingasyni, Kristínu Bjarnadóttur, Kristjáni Rúnarssyni og Steinþóri Steingrímssyni styrk til að vinna verkefni sem nefnist Universal Dependencies-málheild fyrir íslensku.

Verkefnið gengur út á að búa til nýja málheild innan Universal Dependencies-kerfisins (UD; sjá http://universaldependencies.org) sem inniheldur rúmlega 100 trjábanka úr meira en 70 tungumálum. Enn er þó engin slík málheild til fyrir íslensku. 

Við gerð nýju málheildarinnar verður tveimur meginaðferðum beitt. Í fyrsta lagi verður Sögulegi íslenski trjábankinn (http://linguist.is/icelandic_treebank), sem er setningafræðilega þáttuð málheild og inniheldur eina milljón orða, notaður til að búa til UD-málheild. Máltæknitól verður hannað sem varpar þáttuðum texta úr sögulega trjábankanum yfir í UD-kerfið. Í öðru lagi verða tekin 100.000 orð úr Risamálheildinni (http://malheildir.arnastofnun.is/) og þau þáttuð fyrir UD-málheildina. Þannig mun UD-málheildin innihalda um 1,1 milljón orða og nýtast við margvíslegar rannsóknir.

Nánar má kynna sér úthlutunina hér.

Sett inn 26.02.2019
Til baka
Deila þessari frétt: Senda frétt Facebook