Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Kæru landar – af hverju eigum við að segja nei í ágúst? Þorvaldur Ingi Jónsson Skoðun Tröllin eru að koma Björg Eva Erlendsdóttir Skoðun Um brottfararstöð og vistun barna Grímur Grímsson,Víðir Reynisson,Sandra Sigurðardóttir,Kolbrún Áslaugar Baldursdóttir,Guðmundur Ari Sigurjónsson Skoðun Hvað á að gera við afa? Stefanía Fanney Björgvinsdóttir Skoðun Hugleiðingar um heimili fyrir færniskert fólk á ýmsum aldri Sigrún Huld Þorgrímsdóttir Skoðun Verðbólga eða atvinnuleysi, hvort viltu frekar? Elliði Vignisson Skoðun Hvers vegna styðja Íslendingar dánaraðstoð og hvað veldur andstöðu? Ingrid Kuhlman Skoðun Vandræðagangur ráðuneytis við kerfisbreytingar setur þingnefnd í vanda Leifur Þorkelsson Skoðun Nýtt kvótakerfi í sjókvíaeldi — á kostnað landeigenda og veiðiréttarhafa Jóhann Helgi Stefánsson Skoðun Heilbrigðiseftirlit á heima í nærumhverfinu Kolbrún Georgsdóttir Skoðun Skoðun Skoðun Ísland vísar veginn í beinni nýtingu jarðhita Nótt Thorberg skrifar Skoðun Gjafakvótakerfið sem ráðherra Viðreisnar vill ekki kannast við Jón Kaldal skrifar Skoðun Hvað á að gera við afa? Stefanía Fanney Björgvinsdóttir skrifar Skoðun Vandræðagangur ráðuneytis við kerfisbreytingar setur þingnefnd í vanda Leifur Þorkelsson skrifar Skoðun Hugleiðingar um heimili fyrir færniskert fólk á ýmsum aldri Sigrún Huld Þorgrímsdóttir skrifar Skoðun Verðbólga eða atvinnuleysi, hvort viltu frekar? Elliði Vignisson skrifar Skoðun Um brottfararstöð og vistun barna Grímur Grímsson,Víðir Reynisson,Sandra Sigurðardóttir,Kolbrún Áslaugar Baldursdóttir,Guðmundur Ari Sigurjónsson skrifar Skoðun Kæru landar – af hverju eigum við að segja nei í ágúst? Þorvaldur Ingi Jónsson skrifar Skoðun Stöðugleiki eða sveigjanleiki Sigurjón Njarðarson skrifar Skoðun Lágt atvinnuleysi? Lítum á tölurnar Halldór Jörgen Olesen skrifar Skoðun Nýtt kvótakerfi í sjókvíaeldi — á kostnað landeigenda og veiðiréttarhafa Jóhann Helgi Stefánsson skrifar Skoðun Heilbrigðiseftirlit á heima í nærumhverfinu Kolbrún Georgsdóttir skrifar Skoðun Hvers vegna styðja Íslendingar dánaraðstoð og hvað veldur andstöðu? Ingrid Kuhlman skrifar Skoðun Ábyrgð í útlendingamálum – breytingar og árangur Þorbjörg Sigríður Gunnlaugsdóttir skrifar Skoðun Tröllin eru að koma Björg Eva Erlendsdóttir skrifar Skoðun Ofbeldisstofnanir ríkisins ráðast á Ljósmyndara Kristján Logason skrifar Skoðun Kerfisgreining á íslensku fullveldi: Hvar liggja hagsmunir almennings í skugga íslenska nýlénsskipulagsins? Sigurður Sigurðsson skrifar Skoðun Fulltrúar ESB á RÚV Jón Bjarnason skrifar Skoðun Óalandi og óferjandi Gunnar Salvarsson skrifar Skoðun Uppbygging nýrra hverfa skapar störf fyrir allt að 250 starfsgreinar Kristján Daníel Sigurbergsson skrifar Skoðun Manngerð mengun í Varmá kallar á aukið eftirlit með jarðborunum fremur en að dregið sé úr því Davíð A Stefánsson skrifar Skoðun Brjóstsviði á sumrin – þegar meltingin fer í sumarfrí Elísabet Reynisdóttir skrifar Skoðun Eiginleikar góðs leiðtoga Hólmfríður Jennýjar Árnadóttir skrifar Skoðun Var samninganefndin að vinna eftir umboði Alþingis? Erna Bjarnadóttir skrifar Skoðun Hræsni siðferðisriddara Sigurjón Þórðarson skrifar Skoðun „Við erum svo eitruð að við gætum ekki flokkast sem matvara“ Anna María Björnsdóttir skrifar Skoðun Er drónaskapur dónaskapur? Björn Steinbekk skrifar Skoðun Greining Kolbrúnar Bergþórsdóttur á geðástandi andstæðinga ESB Gunnar Ármannsson skrifar Skoðun Þegar allt virðist vera í lagi í vinnunni Ragnhildur Bjarkadóttir skrifar Skoðun Um mögulega 20 km styttingu Hringvegar á Norðurlandi vestra Jónas B. Guðmundsson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Um brottfararstöð og vistun barna Grímur Grímsson,Víðir Reynisson,Sandra Sigurðardóttir,Kolbrún Áslaugar Baldursdóttir,Guðmundur Ari Sigurjónsson Skoðun
Nýtt kvótakerfi í sjókvíaeldi — á kostnað landeigenda og veiðiréttarhafa Jóhann Helgi Stefánsson Skoðun
Skoðun Vandræðagangur ráðuneytis við kerfisbreytingar setur þingnefnd í vanda Leifur Þorkelsson skrifar
Skoðun Hugleiðingar um heimili fyrir færniskert fólk á ýmsum aldri Sigrún Huld Þorgrímsdóttir skrifar
Skoðun Um brottfararstöð og vistun barna Grímur Grímsson,Víðir Reynisson,Sandra Sigurðardóttir,Kolbrún Áslaugar Baldursdóttir,Guðmundur Ari Sigurjónsson skrifar
Skoðun Nýtt kvótakerfi í sjókvíaeldi — á kostnað landeigenda og veiðiréttarhafa Jóhann Helgi Stefánsson skrifar
Skoðun Kerfisgreining á íslensku fullveldi: Hvar liggja hagsmunir almennings í skugga íslenska nýlénsskipulagsins? Sigurður Sigurðsson skrifar
Skoðun Uppbygging nýrra hverfa skapar störf fyrir allt að 250 starfsgreinar Kristján Daníel Sigurbergsson skrifar
Skoðun Manngerð mengun í Varmá kallar á aukið eftirlit með jarðborunum fremur en að dregið sé úr því Davíð A Stefánsson skrifar
Um brottfararstöð og vistun barna Grímur Grímsson,Víðir Reynisson,Sandra Sigurðardóttir,Kolbrún Áslaugar Baldursdóttir,Guðmundur Ari Sigurjónsson Skoðun
Nýtt kvótakerfi í sjókvíaeldi — á kostnað landeigenda og veiðiréttarhafa Jóhann Helgi Stefánsson Skoðun