ArchXAI-hankkeessa kehitetään 1800-1900-lukujen venäjää osaavaa käsialamallia tekoälyn avulla

Julkaisuajankohta 19.11.2025 16.28
Tyyppi:Tiedote

EU-rahoitteisessa ArchXAI-hankkeessa Suomen, Viron ja Latvian kansallisarkistot sekä Kaakkois-Suomen ammattikorkeakoulu kehittävät tekoälyyn perustuvaa käsialamallia, joka oppii lukemaan venäjänkielistä vanhaa käsialaa.

"Mitähän tuossa lukee?" tuskailee venäjän kieltä ja kyrillistä kirjaimistoa osaamaton tutkija monien Kansallisarkiston arkistomateriaalien äärellä. Esimerkiksi ortodoksisten seurakuntien kirkonkirjat ennen 1900-lukua on kirjoitettu venäjäksi, samoin kuin merkittävä osa ylimpien viranomaisten asiakirjoista Suomen suuriruhtinaskunnan ajalta (1809−1917). Kieltä osaamattomalle sukututkijalle tai tieteellisen tutkimuksen tekijälle näiden lähteiden käyttö voi olla vaikeaa tai mahdotonta. 

Tähän haasteeseen vastataan EU:n Interreg Central Baltic –ohjelman rahoittamassa ArchXAI-hankkeessa (2025−2028). ArchXAI (AI enhanced cross-border archives) on Suomen, Viron ja Latvian kansallisarkistojen sekä Kaakkois-Suomen ammattikorkeakoulun hanke, jossa arkistojen käyttöä ja tiedon saatavuutta parannetaan tekoälyä (AI) hyödyntämällä. Yksi hankkeessa kehitettävistä ratkaisuista on venäjän kieltä ja kyrillistä kirjaimistoa lukeva käsialantunnistusmalli. Käy tutustumassa hankesivuun.

Käsialantunnistus perustuu tekoälyä hyödyntävän koneoppimisteknologian käyttöön. Koneoppimismallia koulutetaan ihmisten tekemän opetusaineiston avulla tunnistamaan tekstiä. Valmiin mallin avulla voidaan tunnistaa käsin kirjoitettu teksti digitaalisista kuvista. Tekstitunnistettuun aineistoon voi tehdä esimerkiksi sanahakuja, mikä helpottaa huomattavasti aineiston käyttämistä. Kansallisarkistossa on jo kehitetty suomea ja ruotsia osaava käsialamalli, jonka avulla on tekstitunnistettu muun muassa 1600−1900-lukujen tuomiokirja-aineistoa arkiston asiakkaiden käyttöön. 

Miten käsialamallin kehitys käytännössä tapahtuu?

Käsialamallin kehittämisen ensimmäinen vaihe on opetusaineiston teko, mikä tarkoittaa käytännössä tekstin puhtaaksikirjoittamista sana sanalta ja merkki merkiltä. ArchXAI-hankkeeseen osallistuvien arkistojen venäjän kielen taitoiset asiantuntijat ovat puhtaaksikirjoittaneet tähän mennessä yli 1700 sivua erilaista venäjän kielistä arkistoaineistoa pääosin 1800−1900-luvuilta. Työkaluna opetusaineiston tekemisessä on Transkribus-sovellus. Opetusaineistoa tehdään erilaisista käsialoista ja erityyppisistä materiaaleista, jotta käsialamalli oppii tunnistamaan niitä laajasti. 

Venäjän kielen käsialamallin ensimmäisen version kouluttaminen aloitettiin lokakuussa. Käsialamallin kouluttamista varten opetusaineistot ladataan xml-tiedostoina, joiden avulla digitaalisista kuvista irrotetaan teksti riveittäin ja jokaiseen riviin liitetään vastaavat transkriptiot. Näiden rivikuvien pohjalta aloitetaan käsialamallin koulutus. Käsialamallin kouluttaminen vaatii paljon laskentatehoa, joten nopeimmin koulutus onnistuu käyttämällä supertietokonetta. Hankkeen puitteissa pääsemme hyödyntämään sekä Kaakkois-Suomen ammattikorkeakoulun Memory Labin että CSC - Tieteen tietotekniikan keskus Oy:n supertietokoneita. 

Kun ensimmäinen versio käsialamallista on koulutettu, testataan mallin toimivuutta. Testiaineistoksi valitaan mahdollisuuksien mukaan sellaista materiaalia, jota ei ole käytetty mallin koulutuksessa, jotta nähdään, miten malli pystyy lukemaan sille täysin uusia aineistoja. Testikierroksella nähdään myös, miltä osin mallia on vielä kehitettävä eli millaista opetusaineistoa on tehtävä lisää mallin seuraavaa versiota varten. Käsialamallin kouluttaminen onkin jatkuvaa kehitystyötä. Mallin toimivuutta voidaan arvioida laskemalla sen CER (Character Error Rate) eli merkkivirheprosentti, joka kertoo, kuinka monta merkkiä sadasta malli tulkitsee keskimäärin väärin. Mitä alhaisempi merkkivirheprosentti, sitä parempi tekstintunnistuksen tulos. 

ArchXAI-hankkeessa pääsemme tekemään yhteistyötä kolmen maan kansallisarkistojen kesken ja jakamaan osaamista mallin koulutuksen sekä opetusaineistojen suhteen. Käsialamalli kehitetään sellaiseksi, että se oppii lukemaan kaikkien kansallisarkistojen venäjän kielistä arkistoaineistoa. Suuri osa aineistoista eri arkistoissa on keskenään samankaltaisia, sillä Suomi, Viro ja Latvia jakavat yhteisen historian Venäjän keisarikunnan alla. Suomen Kansallisarkiston aineistoista mallin avulla aiotaan lukea ainakin ylempänä mainittuja ortodoksisia kirkonkirjoja sekä Kenraalikuvernöörin kanslian akteja. Käsialamalli ei käännä venäjän kieltä esimerkiksi suomeksi, mutta koneella tehty transkriptio tekee tekstin lukemisesta sekä erilaisten käännöstyökalujen käytöstä huomattavasti helpompaa. Koneluetut aineistot ja mallin lähdekoodit tarjotaan kunkin arkiston asiakkaiden vapaaseen käyttöön hankkeen edetessä.

Lisätietoja

Sanna Joska

Tutkija, käytön palvelut ja innovaatiot
​​​​​​​[email protected]