Kansallisarkisto kehitti yhteishankkeessa venäjän kielen käsialamallin – koulutusaineistona huikeat 138 miljoona riviä tekstiä
ArchXAI-yhteishankkeessa on kehitetty edistyksellinen venäjän kielen käsialamalli, jonka avulla voidaan muuntaa käsin kirjoitettuja asiakirjoja koneluettavaan muotoon.
ArchXAI-yhteishankkeessa on kehitetty edistyksellinen venäjän kielen käsialamalli, jonka avulla voidaan muuntaa käsin kirjoitettuja asiakirjoja koneluettavaan muotoon.
ArchXAI-hankkeessa on kehitetty jopa 96 prosentin tarkkuuteen yltävä kyrillisen kielen käsialamalli, jonka avulla käyttäjä voi tunnistaa yksittäisten kuvien sisältämää käsin kirjoitettua tekstiä.
Mallin kehitys perustuu laajaan kansainväliseen yhteistyöhön. ArchXAI-hanke on yhteistyöprojekti, johon osallistuvat Kaakkois-Suomen ammattikorkeakoulu, Viron kansallisarkisto, Suomen kansallisarkisto ja Latvian kansallisarkisto. Asiantuntijat ovat kirjoittaneet puhtaaksi yli 70 000 riviä venäjänkielistä arkistoaineistoa 1800-luvun lopulta ja 1900-luvun alusta. Opetusaineistona on hyödynnetty muun muassa ortodoksisia kirkonkirjoja sekä Suomen suuriruhtinaskunnan hallinnollisia dokumentteja.
Lisäksi mallia on esikoulutettu erittäin laajalla 138 miljoonan synteettisesti tuotetun venäjänkielisen tekstirivin aineistolla. Lopullinen malli on jatkokoulutettu hankkeessa tuotetulla autenttisella aineistolla, mikä mahdollistaa sujuvan käsinkirjoitetun tekstin lukemisen säilyttäen samalla vahvan kielimallin.
Testitulokset osoittavat mallin saavuttavan jopa 96 prosentin tarkkuuden. Mallin koulutuksessa on hyödynnetty CSC – Tieteen tietotekniikan keskus ylläpitämää LUMI-supertietokone -ympäristöä.
Malli tukee historiallisten aineistojen saavutettavuutta
Kehitettyä mallia tullaan hyödyntämään laajasti arkistoaineistojen tekstintunnistuksessa. Tavoitteena on tuoda historialliset dokumentit entistä helpommin tutkijoiden ja suuren yleisön saataville arkistojen verkkopalveluissa huomioiden mahdolliset käyttörajoitukset.
Mallia kehitetään edelleen hankkeen aikana lisäämällä siihen uutta opetusaineistoa, mikä parantaa tunnistustarkkuutta entisestään.
Demo jo kokeiltavissa
Mallia voi testata jo nyt demopalvelun kautta, jossa käyttäjä voi tunnistaa yksittäisten kuvien sisältämää käsinkirjoitettua tekstiä. Demo tuottaa venäjänkielisen tekstiversion, jonka voi halutessaan kääntää suomeksi esimerkiksi tekoälypohjaisten käännöstyökalujen avulla.
Malli ja demo ovat saatavilla Kansallisarkiston Hugging Face -sivustolla.
Laajennuksia myös muihin kieliin
Historiallisten aineistojen automaattinen tekstintunnistus kehittyy nopeasti myös muilla kielillä. Viron kansallisarkisto on julkaissut oman vironkielisiin aineistoihin soveltuvan mallinsa ArchXAI-hankkeen puitteissa. ArchXAI-hanke toteutetaan 2 338 265 euron tuella Euroopan unionin Central Baltic-ohjelman kautta.
Lisätietoja
Ilkka Jokipii
Yksikönpäällikkö
[email protected]
Sanna Joska
Tutkija
[email protected]
John Mäkelä
Pääsuunnittelija
john.mäkelä@kansallisarkisto.fi
Tutustu myös
-
21.5.2026 8:18
Uusi arkistointilaki on hyväksytty
Eduskunta on 20.5.2026 hyväksynyt uuden arkistointilain. Arkistointilaissa säädetään viranomaisten asiakirjojen ja tietoaineistojen arkistoinnista sekä Kansallisarkistoon vastaanotettavista yksityisistä arkistoaineistoista.
-
20.5.2026 9:20
Digitaalinen toimittaminen vaatii tarkkuutta ja aineistojen tuntemusta
Digitaalinen toimittaminen herättää toisinaan kysymyksiä siitä, mitä alkuperäiselle aineistolle tapahtuu digitoinnin jälkeen. Kansallisarkistossa aineistoja ei hävitetä digitaalisen toimittamisen yhteydessä, vaan ne säilyvät tallessa ja tarvittaessa käytettävissä myös analogisessa muodossa. Työ edellyttää tarkkuutta, sillä jokaiselle aineistolle valitaan sen kuntoon sopiva käsittelytapa.
-
12.5.2026 13:47
Ilmoittaudu viranomaisinfoon 28.5.2026
Ohjelmassa tietoa mm. uuden arkistointilain toimeenpanosta.