Tekoäly apuna digitoitujen asiakirja-aineistojen laadun kehittämisessä
Kansallisarkisto haluaa olla edelläkävijä asiakirjojen digitoimisessa sekä niiden käytettävyyden edistämisessä. Tätä tavoitetta tukee Kansallisarkiston johtama DALAI-hanke.
Kansallisarkisto haluaa olla edelläkävijä asiakirjojen digitoimisessa sekä niiden käytettävyyden edistämisessä. Tätä tavoitetta tukee Kansallisarkiston johtama, EAKR-rahoitteinen Digitaalisten aineistojen laadun ja käytettävyyden parantaminen tekoälyavusteisesti (DALAI) hanke, joka tulee päätökseen tänä syksynä.
Hankkeessa on kehitetty tekoälyn avulla kulttuuriperintöaineistojen digitoinnin automatisointia ja aineistojen automaattista kuvailua. Lisäksi hankkeessa on edistetty sen aikana kehitettyjen menetelmien käyttöönottoa.
Hankkeessa projektipäällikkönä toimivan Maija Mäkikallin mukaan on tärkeää edistää ymmärrystä tekoälyn tuomista mahdollisuuksista asiakirjallisen kulttuuriperintömme suhteen. Miten koneoppimista voisi hyödyntää digitoitujen arkistoaineistojen laadun, käytettävyyden ja käyttöasteen kehittämisessä?
DALAI-hanke käynnistettiin vuonna 2021 ja Kansallisarkiston partnereina siinä toimivat Suomen Elinkeinoelämän Keskusarkisto ELKA, Kaakkois-Suomen ammattikorkeakoulu Oy (Xamk) ja Disec Oy.
Tekoäly laajentaa aineistosta saatavaa tietoa
Arkistoala ei välttämättä tule ensimmäisenä mieleen mietittäessä mihin kaikkeen tekoälyä voi käyttää. Arkistoidut ja digitalisoidut aineistot sisältävät kuitenkin laajasti tietoa, jota pääsee parhaiten hyödyntämään kehittämällä tekoälyavusteisia työkaluja niiden analysointiin.
Nämä työkalut esimerkiksi generoivat aineistoista metatietoja, jolloin tiedon etsiminen digitoiduista aineistoista helpottuu. Näin ollen aineisto on käyttäjälle saavutettavampaa.
Tarkoituksena on, että monenlaiset toimijat pystyvät hyödyntämään hankkeessa kehitettyjä, avoimesti saataville tulevia työkaluja ja myös kehittämään niitä eteenpäin omiin tarpeisiinsa soveltaen.
Hankkeen erityisenä kohderyhmänä ovatkin muistiorganisaatiot kuten arkistot, museot ja kirjastot, jotka digitoivat ja tarjoavat digitaalisia aineistoja asiakkailleen, sekä yritykset, jotka kehittävät digitointiin ja digitaalisten aineistojen käsittelyyn liittyviä palveluita.
Hankkeessa kehitetyt työkalut
DALAI-hankkeessa kehitetyt työkalut voidaan jakaa kahteen ryhmään. Ensimmäinen keskittyy tiettyihin elementteihin, joita kuvista löytyy, kuten tyhjät asiakirjat ja taittuneet kulmat. Tätä varten on työstetty komponentteja, jotka automatisoivat skannattujen dokumenttien laadun validointia.
Liikkeelle lähdettiin tyypillisistä virheistä, joiden pohjalta kehitettiin kahteen virhetyyppiin automaatio. Nämä ovat taittunut kulma ja post-it lappu. Ideana on, että aineistot, joissa nämä virheet havaitaan menevät uudelleen skannattavaksi.
Lisäksi tyhjien tunnistus-komponenttia on jatkokehitetty. Siinä tyhjät paperit tunnistetaan aineistosta, jolloin päästään turhista tyhjistä sivuista eroon. Automaatio säästää manuaalista työtä ja hyödyntää toimijoita, joilla on iso määrä aineistoa.
Toiset työkalut keskittyvät sisällöntunnistuksen kehittämiseen. Sitä varten on kehitetty kirjoituksen tyyppitunnistin, joka tunnistaa onko teksti kirjoitettu käsin vai koneella.
Koneella kirjoitetusta tekstistä pystyy nimientiteettien tunnistuksen avulla löytämään esimerkiksi henkilöiden ja organisaatioiden nimiä sekä y-tunnuksia. Aineistoa voi asiasanoittaa ja teemoitella, ja löytää mm. päivämääriä.
Työkalussa on kuitenkin tiettyjä rajoitteita. Tekstintunnistus ei osaa tulkita käsinkirjoitettua tekstiä, joten se toimii vain konekirjoitetulle tekstille. Lisäksi nimientiteettien tunnistustyökalun koulutuksessa käytetty opetusaineisto on pääosin peräisin 1960-luvun jälkeiseltä ajalta, joten vanhempaa kieltä sisältävän aineiston osalta tunnistustarkkuus voi olla heikompi.
Arkkiivi
Hankkeen kehittämä Arkkiivi-käyttöliittymä tarjoaa helppokäyttöisen kokeilualustan digitoidun dokumenttiaineiston automaattiselle analysoinnille. Tämä tapahtuu Arkkiiviin integroitujen, hankkeessa kehitettyjen tekoälykomponenttien avulla, jotka tunnistavat digitoidusta aineistosta skannausvirheitä ja sisältöjä.
Koneoppimisen pääsuunnittelijana toimivan Mikko Lipsasen mukaan koneoppimista käytetään informaation etsimiseen sekä kuva- että tekstimuotoisesta aineistosta. Kuvista pyritään löytämään tiettyjä piirteitä (sisältö/ei sisältöä) ja virheitä (post-it-laput, taittuneet kulmat), kun taas tekstistä etsitään esimerkiksi henkilönnimiä, organisaatioita ja muita niin sanottuja nimientiteettejä.
Arkkiivi-käyttöliittymä löytyy osoitteesta www.arkkiivi.fi. Komponenttien koodit ja koulutetut mallit on puolestaan julkaistu GitHubissa ja ne ovat vapaasti käytettävissä ja muokattavissa.
Lipsasen mukaan tähän mennessä saadun palautteen perusteella vaikuttaisi siltä, että vastaavanlaisille työkaluille olisi tarvetta ja kysyntää myös Suomen ulkopuolella. Arkkiivi ja muut Dalai-hankkeen tuotokset voivat osaltaan tarjota esimerkkejä ja komponentteja, joita muut alan toimijat voivat hyödyntää.
Arkkiivi-käyttöliittymää voivat kokeilumielessä hyödyntää myös toimijat, joilla on digitoitua asiakirja-aineistoa, josta he haluavat saada tietoa suodattamalla sitä tiettyjen elementtien osalta.
Pohjoismainen yhteistyö
Kansallisarkisto tekee säännöllisesti yhteistyötä muiden pohjoismaiden kansallisarkistojen kanssa erilaisissa tekoälyn kehityshankkeissa. Suomessa ruotsinkielisiä aineistoja löytyy runsaasti historiamme takia, jonka ansiosta myös tekoälyn kouluttaminen yhteisellä datalla onnistuu.
Ideoita, koodeja ja aineistoja pyritään jakamaan avoimesti, sillä tiedon panttaamista halutaan välttää, kun tarkoitus on kehittää ja oppia yhdessä. Lipsasen mukaan tämä on myös vastavoima isoille kielimalleille, jotka usein päätyvät jonkun yrityksen omaksi.
Arkkiivista on saatavilla englannin- ja ruotsinkieliset versiot, ja se tukee osin myös näillä kielillä tuotetun aineiston analysointia. Aina aineiston kielellä ei ole merkitystä, esimerkiksi revenneitä sivuja tai post-it lappuja etsittäessä. Toisaalta tekstisisällön analyysiä tehtäessä kielellä on väliä.
Arkkiivissa nimientiteettien tunnistusta on mahdollista tehdä suomen lisäksi myös englanninkieliselle tekstisisällölle, ja aineistoa kuvailevien asiasanojen tuottaminen onnistuu niin suomen-, ruotsin- kuin englanninkielisestäkin tekstistä.
Tutustu Arkiivi.fi-sivustoon ja kokeile komponentteja täältä.
Tutustu myös
-
15.11.2024 8:00
Hanke: Digitoimme kaikki Kansallisarkiston kokoelmiin kuuluvat talvisodan aineistot
Talvisodan 90-vuotispäivään mennessä talvisodan aineistot on käytettävissä digitaalisesti ja niihin on tehty sisällöntunnistus.
-
14.11.2024 15:46
Kokeile uutta ilmaista tekstintunnistustyökalua
Voit tehdä tekstintunnistuksen mihin tahansa asiakirjaan 1600-luvulta 1900-luvun puoliväliin!
-
13.11.2024 8:39
Helsingin tutkijahuoneiden hakuaikaa jatkettu – hae 17.11. mennessä!
Tutkijahuoneita myönnetään kalenterivuodeksi 2025 projekteihin, joissa Kansallisarkiston aineistoille on jatkuva tarve.