Kansallisarkisto kehitti yhteishankkeessa venäjän kielen käsialamallin – koulutusaineistona huikeat 138 miljoona riviä tekstiä
ArchXAI-yhteishankkeessa on kehitetty edistyksellinen venäjän kielen käsialamalli, jonka avulla voidaan muuntaa käsin kirjoitettuja asiakirjoja koneluettavaan muotoon.
ArchXAI-yhteishankkeessa on kehitetty edistyksellinen venäjän kielen käsialamalli, jonka avulla voidaan muuntaa käsin kirjoitettuja asiakirjoja koneluettavaan muotoon.
ArchXAI-hankkeessa on kehitetty jopa 96 prosentin tarkkuuteen yltävä kyrillisen kielen käsialamalli, jonka avulla käyttäjä voi tunnistaa yksittäisten kuvien sisältämää käsin kirjoitettua tekstiä.
Mallin kehitys perustuu laajaan kansainväliseen yhteistyöhön. ArchXAI-hanke on yhteistyöprojekti, johon osallistuvat Kaakkois-Suomen ammattikorkeakoulu, Viron kansallisarkisto, Suomen kansallisarkisto ja Latvian kansallisarkisto. Asiantuntijat ovat kirjoittaneet puhtaaksi yli 70 000 riviä venäjänkielistä arkistoaineistoa 1800-luvun lopulta ja 1900-luvun alusta. Opetusaineistona on hyödynnetty muun muassa ortodoksisia kirkonkirjoja sekä Suomen suuriruhtinaskunnan hallinnollisia dokumentteja.
Lisäksi mallia on esikoulutettu erittäin laajalla 138 miljoonan synteettisesti tuotetun venäjänkielisen tekstirivin aineistolla. Lopullinen malli on jatkokoulutettu hankkeessa tuotetulla autenttisella aineistolla, mikä mahdollistaa sujuvan käsinkirjoitetun tekstin lukemisen säilyttäen samalla vahvan kielimallin.
Testitulokset osoittavat mallin saavuttavan jopa 96 prosentin tarkkuuden. Mallin koulutuksessa on hyödynnetty CSC – Tieteen tietotekniikan keskus ylläpitämää LUMI-supertietokone -ympäristöä.
Malli tukee historiallisten aineistojen saavutettavuutta
Kehitettyä mallia tullaan hyödyntämään laajasti arkistoaineistojen tekstintunnistuksessa. Tavoitteena on tuoda historialliset dokumentit entistä helpommin tutkijoiden ja suuren yleisön saataville arkistojen verkkopalveluissa huomioiden mahdolliset käyttörajoitukset.
Mallia kehitetään edelleen hankkeen aikana lisäämällä siihen uutta opetusaineistoa, mikä parantaa tunnistustarkkuutta entisestään.
Demo jo kokeiltavissa
Mallia voi testata jo nyt demopalvelun kautta, jossa käyttäjä voi tunnistaa yksittäisten kuvien sisältämää käsinkirjoitettua tekstiä. Demo tuottaa venäjänkielisen tekstiversion, jonka voi halutessaan kääntää suomeksi esimerkiksi tekoälypohjaisten käännöstyökalujen avulla.
Malli ja demo ovat saatavilla Kansallisarkiston Hugging Face -sivustolla.
Laajennuksia myös muihin kieliin
Historiallisten aineistojen automaattinen tekstintunnistus kehittyy nopeasti myös muilla kielillä. Viron kansallisarkisto on julkaissut oman vironkielisiin aineistoihin soveltuvan mallinsa ArchXAI-hankkeen puitteissa. ArchXAI-hanke toteutetaan 2 338 265 euron tuella Euroopan unionin Central Baltic-ohjelman kautta.
Lisätietoja
Ilkka Jokipii
Yksikönpäällikkö
[email protected]
Sanna Joska
Tutkija
[email protected]
John Mäkelä
Pääsuunnittelija
john.mäkelä@kansallisarkisto.fi
Se även
-
7.5.2026 15:16
Anmäl dig till Sommarskolan i digital information!
Projektet En säkrare framtid genom informationsförsörjningsberedskap arrangerar fredagen 28.8.2026 evenemanget Sommarskola för digital information 2026 med rubriken ”Digital information i fara” i Helsingfors.
-
7.5.2026 13:53
Riksarkivet skyddar information – beredskapskompetensen fördjupas genom ett EU-delfinansierat projekt
Riksarkivets uppgift är att säkerställa tillgängligheten till handlingar och informationsmaterial. För att stödja denna viktiga uppgift deltar vi i projektet En säkrare framtid genom informationsförsörjningsberedskap.
-
29.4.2026 15:22
Utökad kunddatorservice
Det är möjligt att anmäla sig som kunddatorkund på de verksamhetsställen som omfattas av digital leverans. Anmälan möjliggör utökad användning av de resurser som används på ort och ställe på egen hand.