Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Halldór 18.04.2026 Halldór Ilmefni í umhverfi barna Harpa Fönn SIgurjónsdóttir Skoðun Menntamálin eru í alvarlegum vanda Ragnar Þór Pétursson Skoðun Fullveldi eða ESB: Hver greiðir heimilisreikninginn? Sigurður Árni Reynisson Skoðun Snorri Másson Heller Mills Sjöfn Asare Hauksdóttir Skoðun Ríkisstjórnin má ekki bíða lengur Stefán Vagn Stefánsson Skoðun Í stuttu máli: Villandi tal um aðlögunarviðræður Dagur B. Eggertsson Skoðun Kostnaður, kvíði og aðskilnaður Sigdór Yngvi Kristinsson Skoðun Horfum lengra Auður Hrefna Guðmundsdóttir Skoðun Þegar yfirmaður er skrímslið í okkar lífi Ómar Skapti Gíslason Skoðun Skoðun Skoðun Börn með málþroskaraskanir geta ekki beðið endalaust Hildur Jónsdóttir skrifar Skoðun Regnbogagrýlan Sigtryggur Ellertsson skrifar Skoðun Tímasetning efnahagsaðgerða er lykilatriði Þórarinn Ingi Pétursson skrifar Skoðun Snorri Másson Heller Mills Sjöfn Asare Hauksdóttir skrifar Skoðun Menntamálin eru í alvarlegum vanda Ragnar Þór Pétursson skrifar Skoðun Ríkisstjórnin má ekki bíða lengur Stefán Vagn Stefánsson skrifar Skoðun Fullveldi eða ESB: Hver greiðir heimilisreikninginn? Sigurður Árni Reynisson skrifar Skoðun Horfum lengra Auður Hrefna Guðmundsdóttir skrifar Skoðun Ilmefni í umhverfi barna Harpa Fönn SIgurjónsdóttir skrifar Skoðun Í stuttu máli: Villandi tal um aðlögunarviðræður Dagur B. Eggertsson skrifar Skoðun Vald í velvild Guðný Sara Birgisdóttir skrifar Skoðun „Hugmyndafræði“ regnbogans Snæbjörn Guðmundsson skrifar Skoðun Álag vegna keppnisferða að buga suma foreldra Kolbrún Áslaugar Baldursdóttir skrifar Skoðun Kostnaður, kvíði og aðskilnaður Sigdór Yngvi Kristinsson skrifar Skoðun Staðfestur kerfisbrestur! Hver ber ábyrgð? Jón Þór Guðjónsson skrifar Skoðun Aðlögun Íslands að ESB: Þrír ólíkir farvegir Elvar Örn Arason skrifar Skoðun Sanngjörn þjónusta fyrir alla Kópavogsbúa - líka í efri byggðum Örn Arnarson skrifar Skoðun Sjúklingar með langvinna sjúkdóma bera fastan kostnað sem heilbrigðir blessunarlega sleppa við Gestur Andrés Grjetarsson skrifar Skoðun Á leiksviði lífsins Hörður Torfason skrifar Skoðun Ekki nóg að ráða – við þurfum að rækta Ingunn Björk Vilhjálmsdóttir skrifar Skoðun Áratugalöng barátta við sandfok í Þorlákshöfn Páll Marvin Jónsson,Garðar Þorfinnsson,Hreinn Óskarsson,Eva Lind Guðmundsdóttir,Davíð Halldórsson skrifar Skoðun Húsnæði er hluti af grunninnviðum samfélagsins, ekki bara markaðsvara Mikael Snær Gíslason skrifar Skoðun Samgöngur til Vestmannaeyja á kostnað annarra landshluta Hildur Sólveig Sigurðardóttir,Viktoría Líf Valdimars Ingibergsdóttir skrifar Skoðun „Mér finnst, ég ræð!“ – en þannig byggjum við ekki upp skólastarf Lis Ruth Klörudóttir skrifar Skoðun Þegar yfirmaður er skrímslið í okkar lífi Ómar Skapti Gíslason skrifar Skoðun Verða Íslendingar kvaddir í evrópskan her? Steinar Logi Hafsteinsson skrifar Skoðun Þögnin fyrir storminn: Þegar blekkingin brestur og snjóhengjan fellur Sigurður Sigurðsson skrifar Skoðun Mér er ekki sama Þorkell Daníel Eiríksson skrifar Skoðun Vaxtarmörk eða valdsmörk sveitarstjórna Orri Björnsson skrifar Skoðun Lýðheilsa og leiðin til Siglufjarðar Pétur Heimisson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Skoðun Sjúklingar með langvinna sjúkdóma bera fastan kostnað sem heilbrigðir blessunarlega sleppa við Gestur Andrés Grjetarsson skrifar
Skoðun Áratugalöng barátta við sandfok í Þorlákshöfn Páll Marvin Jónsson,Garðar Þorfinnsson,Hreinn Óskarsson,Eva Lind Guðmundsdóttir,Davíð Halldórsson skrifar
Skoðun Húsnæði er hluti af grunninnviðum samfélagsins, ekki bara markaðsvara Mikael Snær Gíslason skrifar
Skoðun Samgöngur til Vestmannaeyja á kostnað annarra landshluta Hildur Sólveig Sigurðardóttir,Viktoría Líf Valdimars Ingibergsdóttir skrifar
Skoðun „Mér finnst, ég ræð!“ – en þannig byggjum við ekki upp skólastarf Lis Ruth Klörudóttir skrifar
Skoðun Þögnin fyrir storminn: Þegar blekkingin brestur og snjóhengjan fellur Sigurður Sigurðsson skrifar