Kansallisarkisto kehitti yhteishankkeessa venäjän kielen käsialamallin – koulutusaineistona huikeat 138 miljoona riviä tekstiä
ArchXAI-yhteishankkeessa on kehitetty edistyksellinen venäjän kielen käsialamalli, jonka avulla voidaan muuntaa käsin kirjoitettuja asiakirjoja koneluettavaan muotoon.
ArchXAI-yhteishankkeessa on kehitetty edistyksellinen venäjän kielen käsialamalli, jonka avulla voidaan muuntaa käsin kirjoitettuja asiakirjoja koneluettavaan muotoon.
ArchXAI-hankkeessa on kehitetty jopa 96 prosentin tarkkuuteen yltävä kyrillisen kielen käsialamalli, jonka avulla käyttäjä voi tunnistaa yksittäisten kuvien sisältämää käsin kirjoitettua tekstiä.
Mallin kehitys perustuu laajaan kansainväliseen yhteistyöhön. ArchXAI-hanke on yhteistyöprojekti, johon osallistuvat Kaakkois-Suomen ammattikorkeakoulu, Viron kansallisarkisto, Suomen kansallisarkisto ja Latvian kansallisarkisto. Asiantuntijat ovat kirjoittaneet puhtaaksi yli 70 000 riviä venäjänkielistä arkistoaineistoa 1800-luvun lopulta ja 1900-luvun alusta. Opetusaineistona on hyödynnetty muun muassa ortodoksisia kirkonkirjoja sekä Suomen suuriruhtinaskunnan hallinnollisia dokumentteja.
Lisäksi mallia on esikoulutettu erittäin laajalla 138 miljoonan synteettisesti tuotetun venäjänkielisen tekstirivin aineistolla. Lopullinen malli on jatkokoulutettu hankkeessa tuotetulla autenttisella aineistolla, mikä mahdollistaa sujuvan käsinkirjoitetun tekstin lukemisen säilyttäen samalla vahvan kielimallin.
Testitulokset osoittavat mallin saavuttavan jopa 96 prosentin tarkkuuden. Mallin koulutuksessa on hyödynnetty CSC – Tieteen tietotekniikan keskus ylläpitämää LUMI-supertietokone -ympäristöä.
Malli tukee historiallisten aineistojen saavutettavuutta
Kehitettyä mallia tullaan hyödyntämään laajasti arkistoaineistojen tekstintunnistuksessa. Tavoitteena on tuoda historialliset dokumentit entistä helpommin tutkijoiden ja suuren yleisön saataville arkistojen verkkopalveluissa huomioiden mahdolliset käyttörajoitukset.
Mallia kehitetään edelleen hankkeen aikana lisäämällä siihen uutta opetusaineistoa, mikä parantaa tunnistustarkkuutta entisestään.
Demo jo kokeiltavissa
Mallia voi testata jo nyt demopalvelun kautta, jossa käyttäjä voi tunnistaa yksittäisten kuvien sisältämää käsinkirjoitettua tekstiä. Demo tuottaa venäjänkielisen tekstiversion, jonka voi halutessaan kääntää suomeksi esimerkiksi tekoälypohjaisten käännöstyökalujen avulla.
Malli ja demo ovat saatavilla Kansallisarkiston Hugging Face -sivustolla.
Laajennuksia myös muihin kieliin
Historiallisten aineistojen automaattinen tekstintunnistus kehittyy nopeasti myös muilla kielillä. Viron kansallisarkisto on julkaissut oman vironkielisiin aineistoihin soveltuvan mallinsa ArchXAI-hankkeen puitteissa. ArchXAI-hanke toteutetaan 2 338 265 euron tuella Euroopan unionin Central Baltic-ohjelman kautta.
Lisätietoja
Ilkka Jokipii
Yksikönpäällikkö
[email protected]
Sanna Joska
Tutkija
[email protected]
John Mäkelä
Pääsuunnittelija
john.mäkelä@kansallisarkisto.fi
Tutustu myös
-
10.6.2026 16:30
Digitaalisen toimittamisen kesätauko
Digitaalisen toimittamisen palvelu on suljettuna 1.-31.7.2026
-
10.6.2026 14:56
Opetustoimen yleispäätös viivästyy
Kansallisarkiston yleispäätöksen Opetustoimen asiakirjojen ja tietoaineistojen pysyvä säilytys (KA/15609/28.92.01/2025) päätösvalmistelu viivästyy. Pohjana päätökselle on julkisen hallinnon tiedonhallintalautakunnan 20.5.2025 julkaisema suositus tietoaineistojen säilytysajasta ja toimista säilytysajan päätyttyä.
-
1.6.2026 15:25
Kansallisarkisto luopuu Hämeenlinnan toimipaikasta 1.6.2027 lukien – palvelut jatkuvat nykyisellään marraskuun loppuun
Kansallisarkisto on saattanut loppuun YT-neuvottelut, jotka koskivat suunnitelmia Hämeenlinnan toimipaikasta luopumiseksi ja sen kokonaisvaikutuksista henkilöstöön. Muutoksella ei tavoiteltu henkilöstövähennyksiä, eivätkä YT-neuvottelut johtaneet irtisanomisiin.