Kansallisarkisto kehitti yhteishankkeessa venäjän kielen käsialamallin – koulutusaineistona huikeat 138 miljoona riviä tekstiä
ArchXAI-yhteishankkeessa on kehitetty edistyksellinen venäjän kielen käsialamalli, jonka avulla voidaan muuntaa käsin kirjoitettuja asiakirjoja koneluettavaan muotoon.
ArchXAI-yhteishankkeessa on kehitetty edistyksellinen venäjän kielen käsialamalli, jonka avulla voidaan muuntaa käsin kirjoitettuja asiakirjoja koneluettavaan muotoon.
ArchXAI-hankkeessa on kehitetty jopa 96 prosentin tarkkuuteen yltävä kyrillisen kielen käsialamalli, jonka avulla käyttäjä voi tunnistaa yksittäisten kuvien sisältämää käsin kirjoitettua tekstiä.
Mallin kehitys perustuu laajaan kansainväliseen yhteistyöhön. ArchXAI-hanke on yhteistyöprojekti, johon osallistuvat Kaakkois-Suomen ammattikorkeakoulu, Viron kansallisarkisto, Suomen kansallisarkisto ja Latvian kansallisarkisto. Asiantuntijat ovat kirjoittaneet puhtaaksi yli 70 000 riviä venäjänkielistä arkistoaineistoa 1800-luvun lopulta ja 1900-luvun alusta. Opetusaineistona on hyödynnetty muun muassa ortodoksisia kirkonkirjoja sekä Suomen suuriruhtinaskunnan hallinnollisia dokumentteja.
Lisäksi mallia on esikoulutettu erittäin laajalla 138 miljoonan synteettisesti tuotetun venäjänkielisen tekstirivin aineistolla. Lopullinen malli on jatkokoulutettu hankkeessa tuotetulla autenttisella aineistolla, mikä mahdollistaa sujuvan käsinkirjoitetun tekstin lukemisen säilyttäen samalla vahvan kielimallin.
Testitulokset osoittavat mallin saavuttavan jopa 96 prosentin tarkkuuden. Mallin koulutuksessa on hyödynnetty CSC – Tieteen tietotekniikan keskus ylläpitämää LUMI-supertietokone -ympäristöä.
Malli tukee historiallisten aineistojen saavutettavuutta
Kehitettyä mallia tullaan hyödyntämään laajasti arkistoaineistojen tekstintunnistuksessa. Tavoitteena on tuoda historialliset dokumentit entistä helpommin tutkijoiden ja suuren yleisön saataville arkistojen verkkopalveluissa huomioiden mahdolliset käyttörajoitukset.
Mallia kehitetään edelleen hankkeen aikana lisäämällä siihen uutta opetusaineistoa, mikä parantaa tunnistustarkkuutta entisestään.
Demo jo kokeiltavissa
Mallia voi testata jo nyt demopalvelun kautta, jossa käyttäjä voi tunnistaa yksittäisten kuvien sisältämää käsinkirjoitettua tekstiä. Demo tuottaa venäjänkielisen tekstiversion, jonka voi halutessaan kääntää suomeksi esimerkiksi tekoälypohjaisten käännöstyökalujen avulla.
Malli ja demo ovat saatavilla Kansallisarkiston Hugging Face -sivustolla.
Laajennuksia myös muihin kieliin
Historiallisten aineistojen automaattinen tekstintunnistus kehittyy nopeasti myös muilla kielillä. Viron kansallisarkisto on julkaissut oman vironkielisiin aineistoihin soveltuvan mallinsa ArchXAI-hankkeen puitteissa. ArchXAI-hanke toteutetaan 2 338 265 euron tuella Euroopan unionin Central Baltic-ohjelman kautta.
Lisätietoja
Ilkka Jokipii
Yksikönpäällikkö
[email protected]
Sanna Joska
Tutkija
[email protected]
John Mäkelä
Pääsuunnittelija
john.mäkelä@kansallisarkisto.fi
Tutustu myös
-
29.4.2026 15:22
Laajennettu asiakaskoneasiointi
Digitaalisen toimittamisen piirissä oleviin toimipaikkoihin on mahdollista ilmoittautua asiakaskoneasiakkaaksi. Ilmoittautuminen mahdollistaa paikan päällä omatoimisesti käytettävien resurssien laajennetun käytön.
-
29.4.2026 8:43
Kansallisarkisto lausui digikompassin päivityksen selontekoluonnoksesta
Lausunnossaan Kansallisarkisto kiinnitti huomiota erityisesti julkishallinnon tietovarantoihin ja niiden rooliin tekoälykehityksen aineistopohjana.
-
22.4.2026 10:13
Asiakaspalvelu Kansallisarkiston Jyväskylän toimipaikassa päättyy 1.10.2026 – elo-syyskuun aukioloajat linjattu, kaukolainapalvelu päättyy toukokuun lopussa
Asiakaspalvelu Jyväskylän toimipaikassa päättyy 1.10.2026.