Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Gagnrýnda kynslóðin og glötuðu kennararnir Álfhildur Leifsdóttir Skoðun Krónunum kastað fyrir aurinn Margrét Ágústa Sigurðardóttir Skoðun Síðustu vígi vísdómsins Sigurður Ingvarsson Skoðun Þunginn af áherslu heilbrigðisyfirvalda á líkamsþyngd Berglind Soffía Blöndal,Vilborg Kolbrún Vilmundardóttir Skoðun Er gott að búa í Kópavogi? Sigurður Kári Harðarson Skoðun Halldór 28.02.2026 Halldór „Leigupennar“ eða einfaldlega fólk sem vill ræða málið? Daði Freyr Ólafsson Skoðun Beljan og Bertolli Árni Stefán Árnason Skoðun Hrós er ekki bara fyrir byrjendur Ingrid Kuhlman Skoðun Prince Polo, var táknmynd spillingar kommúnismans í Evrópu Júlíus Valsson Skoðun Skoðun Skoðun Samfélag ótta eða hugrekkis Sigurður Árni Reynisson skrifar Skoðun Síðustu vígi vísdómsins Sigurður Ingvarsson skrifar Skoðun „Leigupennar“ eða einfaldlega fólk sem vill ræða málið? Daði Freyr Ólafsson skrifar Skoðun Beljan og Bertolli Árni Stefán Árnason skrifar Skoðun Er gott að búa í Kópavogi? Sigurður Kári Harðarson skrifar Skoðun Þunginn af áherslu heilbrigðisyfirvalda á líkamsþyngd Berglind Soffía Blöndal,Vilborg Kolbrún Vilmundardóttir skrifar Skoðun Gagnrýnda kynslóðin og glötuðu kennararnir Álfhildur Leifsdóttir skrifar Skoðun Hrós er ekki bara fyrir byrjendur Ingrid Kuhlman skrifar Skoðun Krónunum kastað fyrir aurinn Margrét Ágústa Sigurðardóttir skrifar Skoðun Alþjóðleg lög eða ráðleggingar? Marko Medic skrifar Skoðun Kveikt í trúverðugleika Samfylkingarinnar – slökkviliðið er sem betur fer á leiðinni Andri Steinn Hilmarsson skrifar Skoðun Skolfið á beinunum? Hjörtur J. Guðmundsson skrifar Skoðun Þegar stuðningur skiptir raunverulega máli Einar Sveinbjörn Guðmundsson skrifar Skoðun Ekki enn einn skandal, heldur upphaf breytinga Unnar Þór Sæmundsson skrifar Skoðun Hin eilífa kosningabarátta innan KSÍ Sævar Þór Sveinsson skrifar Skoðun Sannleikur um slökkvistöð í Kópavogi Jónas Már Torfason skrifar Skoðun Söguskýringar Samfylkingarinnar Stefanía K. Ásbjörnsdóttir skrifar Skoðun Nú er tíminn! Ása Valgerður Sigurðardóttir skrifar Skoðun Að standa af sér storminn Gerður Björk Sveinsdóttir skrifar Skoðun Skaðabótalög – breytingar til hagsbóta fyrir neytendur? Tinna Björk Gunnarsdóttir skrifar Skoðun Fullveldið og 27. greinin Aðalsteinn Júlíus Magnússon skrifar Skoðun Prince Polo, var táknmynd spillingar kommúnismans í Evrópu Júlíus Valsson skrifar Skoðun Byggjum framtíð á ís – fyrir börnin okkar og samfélagið allt Anna Maria Hedman skrifar Skoðun Hvað er planið? Hildur Jónsdóttir skrifar Skoðun Ofbeldi er ekki starfslýsing Kolbrún Halldórsdóttir skrifar Skoðun Gerum okkar besta Ólafur Helgi Jóhannsson skrifar Skoðun Sterkir innviðir skapa sterkt samfélag Arna Rut Gunnarsdóttir skrifar Skoðun Hvað þarf marga borgarfulltrúa til að skipta um ljósaperu? Páll Edwald skrifar Skoðun Að vera upp á aðra kominn: Hugleiðingar öryrkja Unnur Hrefna Jóhannsdóttir skrifar Skoðun Þjóðin hræðist ekki leigupennana Sverrir Páll Einarsson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Þunginn af áherslu heilbrigðisyfirvalda á líkamsþyngd Berglind Soffía Blöndal,Vilborg Kolbrún Vilmundardóttir Skoðun
Skoðun Þunginn af áherslu heilbrigðisyfirvalda á líkamsþyngd Berglind Soffía Blöndal,Vilborg Kolbrún Vilmundardóttir skrifar
Skoðun Kveikt í trúverðugleika Samfylkingarinnar – slökkviliðið er sem betur fer á leiðinni Andri Steinn Hilmarsson skrifar
Þunginn af áherslu heilbrigðisyfirvalda á líkamsþyngd Berglind Soffía Blöndal,Vilborg Kolbrún Vilmundardóttir Skoðun