Kansallisarkisto kehitti yhteishankkeessa venäjän kielen käsialamallin – koulutusaineistona huikeat 138 miljoona riviä tekstiä
ArchXAI-yhteishankkeessa on kehitetty edistyksellinen venäjän kielen käsialamalli, jonka avulla voidaan muuntaa käsin kirjoitettuja asiakirjoja koneluettavaan muotoon.
ArchXAI-yhteishankkeessa on kehitetty edistyksellinen venäjän kielen käsialamalli, jonka avulla voidaan muuntaa käsin kirjoitettuja asiakirjoja koneluettavaan muotoon.
ArchXAI-hankkeessa on kehitetty jopa 96 prosentin tarkkuuteen yltävä kyrillisen kielen käsialamalli, jonka avulla käyttäjä voi tunnistaa yksittäisten kuvien sisältämää käsin kirjoitettua tekstiä.
Mallin kehitys perustuu laajaan kansainväliseen yhteistyöhön. ArchXAI-hanke on yhteistyöprojekti, johon osallistuvat Kaakkois-Suomen ammattikorkeakoulu, Viron kansallisarkisto, Suomen kansallisarkisto ja Latvian kansallisarkisto. Asiantuntijat ovat kirjoittaneet puhtaaksi yli 70 000 riviä venäjänkielistä arkistoaineistoa 1800-luvun lopulta ja 1900-luvun alusta. Opetusaineistona on hyödynnetty muun muassa ortodoksisia kirkonkirjoja sekä Suomen suuriruhtinaskunnan hallinnollisia dokumentteja.
Lisäksi mallia on esikoulutettu erittäin laajalla 138 miljoonan synteettisesti tuotetun venäjänkielisen tekstirivin aineistolla. Lopullinen malli on jatkokoulutettu hankkeessa tuotetulla autenttisella aineistolla, mikä mahdollistaa sujuvan käsinkirjoitetun tekstin lukemisen säilyttäen samalla vahvan kielimallin.
Testitulokset osoittavat mallin saavuttavan jopa 96 prosentin tarkkuuden. Mallin koulutuksessa on hyödynnetty CSC – Tieteen tietotekniikan keskus ylläpitämää LUMI-supertietokone -ympäristöä.
Malli tukee historiallisten aineistojen saavutettavuutta
Kehitettyä mallia tullaan hyödyntämään laajasti arkistoaineistojen tekstintunnistuksessa. Tavoitteena on tuoda historialliset dokumentit entistä helpommin tutkijoiden ja suuren yleisön saataville arkistojen verkkopalveluissa huomioiden mahdolliset käyttörajoitukset.
Mallia kehitetään edelleen hankkeen aikana lisäämällä siihen uutta opetusaineistoa, mikä parantaa tunnistustarkkuutta entisestään.
Demo jo kokeiltavissa
Mallia voi testata jo nyt demopalvelun kautta, jossa käyttäjä voi tunnistaa yksittäisten kuvien sisältämää käsinkirjoitettua tekstiä. Demo tuottaa venäjänkielisen tekstiversion, jonka voi halutessaan kääntää suomeksi esimerkiksi tekoälypohjaisten käännöstyökalujen avulla.
Malli ja demo ovat saatavilla Kansallisarkiston Hugging Face -sivustolla.
Laajennuksia myös muihin kieliin
Historiallisten aineistojen automaattinen tekstintunnistus kehittyy nopeasti myös muilla kielillä. Viron kansallisarkisto on julkaissut oman vironkielisiin aineistoihin soveltuvan mallinsa ArchXAI-hankkeen puitteissa. ArchXAI-hanke toteutetaan 2 338 265 euron tuella Euroopan unionin Central Baltic-ohjelman kautta.
Lisätietoja
Ilkka Jokipii
Yksikönpäällikkö
[email protected]
Sanna Joska
Tutkija
[email protected]
John Mäkelä
Pääsuunnittelija
john.mäkelä@kansallisarkisto.fi
Se även
-
10.6.2026 16:30
Sommaruppehåll på verksamhetsställen med digital leverans
Tjänsten för digitala leveranser har stängt 1–31.7.2026.
-
10.6.2026 14:56
Undervisningsväsendets allmänna beslut fördröjs
Beredningen av Riksarkivets allmänna beslut Varaktig förvaring av undervisningsväsendets handlingar och informationsmaterial (KA/15609/28.92.01/2025) fördröjs. Grunden för beslutet är en rekommendation om förvaringstiden för informationsmaterial och om åtgärder efter förvaringstidens utgång från den offentliga förvaltningens informationshanteringsnämnd som publicerades 20.5.2025.
-
1.6.2026 15:25
Riksarkivet avstår från verksamhetsstället i Tavastehus från och med 1.6.2027 – tjänsterna fortsätter som nu fram till slutet av november
Riksarkivet har avslutat de samarbetsförhandlingar som rörde planerna på att avstå från verksamhetsstället i Tavastehus och de totala effekterna av detta för personalen. Syftet med ändringen var inte att minska antalet personal, och samarbetsförhandlingarna ledde inte till uppsägningar.