Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Ónýtt dekk undir rándýrum bíl Kristján Ra. Kristjánsson Skoðun Mamma fékk fjórar milljónir fyrir að eignast þig í apríl Guðfinna Kristín Björnsdóttir Skoðun Kemur málinu ekki við Inga Sæland Skoðun Kæru samborgarar, ég er ástæðan fyrir mögulegum skertum lífsgæðum ykkar Andri Valgeirsson Skoðun Fimm áherslur sem hafa bætt lífsgæði Kópavogsbúa Ásdís Kristjánsdóttir,Orri Hlöðversson Skoðun Móttökudeildir: Brú til þátttöku – ekki aðskilnaður Friðþjófur Helgi Karlsson Skoðun Góð samviska er gulli betri Árni Sigurðsson Skoðun Réttindi allra að tala íslensku Hrafn Splidt Skoðun Opin eða lokuð landamæri? Pétur Björgvin Sveinsson Skoðun Rangfærslur sveitarfélaga um réttindi fatlaðs fólks Alma Ýr Ingólfsdóttir Skoðun Skoðun Skoðun Erum ekki mætt í biðsal elliáranna Ragnheiður K. Guðmundsdóttir skrifar Skoðun Að vera eða ekki vera aumingi Helgi Guðnason skrifar Skoðun Kæru samborgarar, ég er ástæðan fyrir mögulegum skertum lífsgæðum ykkar Andri Valgeirsson skrifar Skoðun Setjum velferð barna og ungmenna í forgang og sameinumst um bætta lýðheilsu María Heimisdóttir,Dóra Guðrún Guðmundsdóttir skrifar Skoðun Rangfærslur sveitarfélaga um réttindi fatlaðs fólks Alma Ýr Ingólfsdóttir skrifar Skoðun Sameinumst í að enda stafrænt ofbeldi gegn fötluðum konum Anna Lára Steindal skrifar Skoðun Áskoranir í iðnnámi Íslendinga! Böðvar Ingi Guðbjartsson skrifar Skoðun Opin eða lokuð landamæri? Pétur Björgvin Sveinsson skrifar Skoðun Góð samviska er gulli betri Árni Sigurðsson skrifar Skoðun Móttökudeildir: Brú til þátttöku – ekki aðskilnaður Friðþjófur Helgi Karlsson skrifar Skoðun Fimm áherslur sem hafa bætt lífsgæði Kópavogsbúa Ásdís Kristjánsdóttir,Orri Hlöðversson skrifar Skoðun Réttindi allra að tala íslensku Hrafn Splidt skrifar Skoðun Tryggjum öryggi eldri borgara Sigurður Ágúst Sigurðsson skrifar Skoðun Bætt stjórnsýsla fyrir framhaldsskólana Guðmundur Ingi Kristinsson skrifar Skoðun Ónýtt dekk undir rándýrum bíl Kristján Ra. Kristjánsson skrifar Skoðun Kemur málinu ekki við Inga Sæland skrifar Skoðun Mótum framtíðina með sterku skólakerfi Magnús Þór Jónsson skrifar Skoðun Jákvæð áhrif millilandaflugs til Akureyrar eru miklu meiri en þú heldur Lára Halldóra Eiríksdóttir skrifar Skoðun Fögnum degi sjúkraliða og störfum þeirra alla daga Alma D. Möller skrifar Skoðun Þegar stórútgerðin gleypir allt – er kominn tími á norskar lausnir? Kjartan Sveinsson skrifar Skoðun Óstaðsettir í hús Guðmunda G. Guðmundsdóttir skrifar Skoðun Flokkur fólksins hefur bætt hag aldraðra og öryrkja Sigurður Helgi Pálmason skrifar Skoðun Láttu ekki svindla á þér við jólainnkaupin Inga María Backman skrifar Skoðun Duga aðgerðir ríkistjórnarinnar til að rífa fjölda eldri borgara úr fátæktargildrunni? Björn Snæbjörnsson skrifar Skoðun Túlkun gagna er ábyrgð Joanna Marcinkowska skrifar Skoðun Lífsstílshljómkviðan: öndun í köldum potti Gunnar Salvarsson skrifar Skoðun Brunavarir, vatnsúðakerfi – Upphaf, innleiðing og mistökin Snæbjörn R Rafnsson skrifar Skoðun Sameinumst í að enda stafrænt ofbeldi gegn fötluðum konum Anna Lára Steindal skrifar Skoðun Er munur á trú og trúarbrögðum? Árni Gunnarsson skrifar Skoðun Hvaða einkennir góðan stjórnmálamann? Berglind Guðmundsdóttir skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Skoðun Kæru samborgarar, ég er ástæðan fyrir mögulegum skertum lífsgæðum ykkar Andri Valgeirsson skrifar
Skoðun Setjum velferð barna og ungmenna í forgang og sameinumst um bætta lýðheilsu María Heimisdóttir,Dóra Guðrún Guðmundsdóttir skrifar
Skoðun Fimm áherslur sem hafa bætt lífsgæði Kópavogsbúa Ásdís Kristjánsdóttir,Orri Hlöðversson skrifar
Skoðun Jákvæð áhrif millilandaflugs til Akureyrar eru miklu meiri en þú heldur Lára Halldóra Eiríksdóttir skrifar
Skoðun Þegar stórútgerðin gleypir allt – er kominn tími á norskar lausnir? Kjartan Sveinsson skrifar
Skoðun Duga aðgerðir ríkistjórnarinnar til að rífa fjölda eldri borgara úr fátæktargildrunni? Björn Snæbjörnsson skrifar