Riksarkivet tog fram en handskriftsmodell för ryska språket i ett gemensamt projekt – hela 138 miljoner rader text som träningsmaterial
Ett gemensamt ArchXAI-projekt har tagit fram en avancerad handskriftsmodell för ryska språket. Med modellen är det möjligt att omvandla handskrivna handlingar till maskinläsbart format.
Ett gemensamt ArchXAI-projekt har tagit fram en avancerad handskriftsmodell för ryska språket. Med modellen är det möjligt att omvandla handskrivna handlingar till maskinläsbart format.
ArchXAI har tagit fram en handskriftsmodell för kyrilliska språket. Modellen kan uppnå en noggrannhet på upp till 96 procent och med hjälp av den kan användaren känna igen handskriven text på enskilda bilder.
Modellutvecklingen bygger på ett omfattande internationellt samarbete. ArchXAI är ett samarbetsprojekt där yrkeshögskolan i sydöstra Finland, riksarkivet i Estland, Riksarkivet i Finland och riksarkivet i Lettland deltar. Experterna har renskrivit mer än 70 000 rader ryskspråkigt arkivmaterial från slutet av 1800-talet och början av 1900-talet. Som träningsmaterial användes bland annat ortodoxa kyrkoböcker och administrativa handlingar från storfurstendömet Finland.
Dessutom har modellen förtränats med en mycket omfattande datamängd på 138 miljoner syntetiskt framställda rader med rysk text. Den slutliga modellen har vidaretränats med ett autentiskt material som tagits fram i projektet. Detta möjliggör en smidig läsning av handskriven text samtidigt som en stark språkmodell bibehålls.
Testresultaten visar att modellen når upp till 96 procents noggrannhet. Vid modellträningen användes Lumi-superdatormiljön, som administreras av CSC – IT-centret för vetenskap.
Modellen stöder tillgången till historiska datamängder
Den framtagna modellen kommer att användas i stor utsträckning vid textigenkänning av arkivmaterial. Målet är att göra historiska handlingar ännu lättare tillgängliga för forskare och den breda allmänheten i arkivens webbtjänster med hänsyn till eventuella användningsbegränsningar.
Modellen vidareutvecklas under projektets gång genom att nytt träningsmaterial läggs till i den, vilket ytterligare förbättrar igenkänningsnoggrannheten.
Demonstration finns redan tillgänglig för testning
Modellen kan redan nu testas via en demonstrationstjänst. Där kan användaren känna igen handskriven text på enskilda bilder. Demonstrationen genererar en ryskspråkig textversion som man vid behov kan översätta till finska, till exempel med AI-baserade översättningsverktyg.
Modellen och demonstrationen finns tillgängliga på Riksarkivets webbplats Hugging Face.
Utvidgningar även till andra språk
Automatisk textigenkänning av historiska datamängder utvecklas snabbt även på andra språk. Inom ramen för ArchXAI-projektet har riksarkivet i Estland lanserat sin modell som är anpassad för estniskt material.
Mer information:
Ilkka Jokipii
Sanna Joska
John Mäkelä
john.mäkelä@kansallisarkisto.fi
Tutustu myös
-
12.5.2026 13:47
Ilmoittaudu viranomaisinfoon 28.5.2026
Ohjelmassa tietoa mm. uuden arkistointilain toimeenpanosta.
-
11.5.2026 9:55
Digitaalisen toimittamisen kuulumisia Hämeenlinnasta, Turusta ja Vaasasta
Digitaalinen toimittaminen pyörii jo rutiinilla Hämeenlinnassa ja on lähtenyt hyvin käyntiin sekä Turussa että Vaasassa. Digitaalisen toimittamisen tilastoinneista saamme pientä näkökulmaa siihen, miten palvelu on otettu vastaan asiakkaidemme keskuudessa, mitkä aineistot kiinnostavat ja missä päin Suomea.
-
7.5.2026 15:16
Ilmoittaudu Digitaalisen tiedon kesäkouluun!
Tiedon huoltovarmuudella turvatumpi tulevaisuus -hanke osallistuu perjantaina 28.8.2026 Helsingissä tutkimuskeskus Digitalian järjestämään Digitaalisen tiedon kesäkoulu 2026 -tapahtumaan otsikolla ”Digitaalinen tieto vaarassa”.