Tiedotteet

Takaisin Miten aineiston avulla voidaan kehittää koneoppimismallia?

Miten aineiston avulla voidaan kehittää koneoppimismallia?

Julkaisuajankohta 2.6.2023 14.11

Suuret kielimallit ja niihin perustuvat sovellukset, etenkin ChatGPT, ovat saaneet osakseen runsaasti huomiota. Jättimäisten koneoppimismallien kehittäminen ja kouluttaminen vaatii valtavasti dataa, aikaa ja rahaa, sekä tietysti syvällistä koneoppimistekniikoihin liittyvää osaamista. Dalai-hankkeessa koneoppimista kehitetään paljon pienemmässä mittakaavassa, mutta yhdistäviäkin piirteitä löytyy.

Uusia koneoppimisratkaisuja ei yleensä kehitetä tyhjästä, vaan hyödynnetään jo olemassa olevia sovelluksia ja koodia, jota tarpeen mukaan muokataan kulloiseenkin tarkoitukseen sopivaksi. Usein neuroverkkoihin perustuvien mallien koulutuksessa käytetään hyväksi informaatiota, jota sisältyy jo olemassa oleviin suuriin malleihin – edellyttäen tietysti, että ne ovat avoimesti saatavilla.

Dalai-hankkeessa koneoppimista käytetään informaation etsimiseen sekä kuva- että tekstimuotoisesta aineistosta. Kuvista pyritään löytämään tiettyjä piirteitä (sisältö/ei sisältöä) ja virheitä (post-it-laput, taittuneet kulmat), kun taas tekstistä etsitään esimerkiksi henkilönnimiä, organisaatioita ja muita niin sanottuja nimientiteettejä.

Koneoppimisen kehittäjän arkisen työn näkökulmasta peruselementit ovat pitkälti samanlaiset riippumatta käytetystä datasta tai tekniikoista. Aluksi tutkitaan aineistoa ja etsitään siitä kulloistenkin tavoitteiden kannalta olennaisia piirteitä. Näiden pohjalta syntyy ideoita tehtävään mahdollisesti soveltuvista teknisistä ratkaisuista. Samalla selvitellään olemassa olevia tekniikoita ja sovelluksia saman tai samankaltaisen ongelman ratkaisemiseksi: jos tällaisia löydetään, alkaa niiden testaaminen ja muokkaaminen tehtävän asettamiin vaatimuksiin sopiviksi.

Kun data ja koneoppimismallin raakileversio on valmiina, ryhdytään testaamaan sen suorituskykyä. Vertaamalla mallin ennustuksia testiaineistoon, jonka sisältö tunnetaan, saadaan selville kuinka paljon ja millaisissa tilanteissa malli tekee virheitä. Tämä auttaa mallin tai koulutusaineiston muokkaamisessa niin, että tuloksia voidaan parantaa. Usein kyseessä on hidas ja kärsivällisyyttä vaativa prosessi, jossa onnistumisesta ei ole koskaan täyttä varmuutta: jostain löytyy yleensä aina aineistoa, joka poikkeaa koulutuksessa käytetystä ja onnistuu paljastamaan merkittäviä puutteita jo valmiiksi luullusta mallista. Toisaalta juuri monipuoliset haasteet ja niiden lomassa saavutetut oivallukset ja onnistumiset tekevät koneoppimisen parissa työskentelystä erityisen kiinnostavaa.

Kirjoittaja: Mikko Lipsanen, Koneoppimisen pääsuunnittelija, Kansallisarkisto, Dalai – Digitaalisten aineistojen laadun ja käytettävyyden parantaminen tekoälyavusteisesti -hanke