Riksarkivet tog fram en handskriftsmodell för ryska språket i ett gemensamt projekt – hela 138 miljoner rader text som träningsmaterial
Ett gemensamt ArchXAI-projekt har tagit fram en avancerad handskriftsmodell för ryska språket. Med modellen är det möjligt att omvandla handskrivna handlingar till maskinläsbart format.
Ett gemensamt ArchXAI-projekt har tagit fram en avancerad handskriftsmodell för ryska språket. Med modellen är det möjligt att omvandla handskrivna handlingar till maskinläsbart format.
ArchXAI har tagit fram en handskriftsmodell för kyrilliska språket. Modellen kan uppnå en noggrannhet på upp till 96 procent och med hjälp av den kan användaren känna igen handskriven text på enskilda bilder.
Modellutvecklingen bygger på ett omfattande internationellt samarbete. ArchXAI är ett samarbetsprojekt där yrkeshögskolan i sydöstra Finland, riksarkivet i Estland, Riksarkivet i Finland och riksarkivet i Lettland deltar. Experterna har renskrivit mer än 70 000 rader ryskspråkigt arkivmaterial från slutet av 1800-talet och början av 1900-talet. Som träningsmaterial användes bland annat ortodoxa kyrkoböcker och administrativa handlingar från storfurstendömet Finland.
Dessutom har modellen förtränats med en mycket omfattande datamängd på 138 miljoner syntetiskt framställda rader med rysk text. Den slutliga modellen har vidaretränats med ett autentiskt material som tagits fram i projektet. Detta möjliggör en smidig läsning av handskriven text samtidigt som en stark språkmodell bibehålls.
Testresultaten visar att modellen når upp till 96 procents noggrannhet. Vid modellträningen användes Lumi-superdatormiljön, som administreras av CSC – IT-centret för vetenskap.
Modellen stöder tillgången till historiska datamängder
Den framtagna modellen kommer att användas i stor utsträckning vid textigenkänning av arkivmaterial. Målet är att göra historiska handlingar ännu lättare tillgängliga för forskare och den breda allmänheten i arkivens webbtjänster med hänsyn till eventuella användningsbegränsningar.
Modellen vidareutvecklas under projektets gång genom att nytt träningsmaterial läggs till i den, vilket ytterligare förbättrar igenkänningsnoggrannheten.
Demonstration finns redan tillgänglig för testning
Modellen kan redan nu testas via en demonstrationstjänst. Där kan användaren känna igen handskriven text på enskilda bilder. Demonstrationen genererar en ryskspråkig textversion som man vid behov kan översätta till finska, till exempel med AI-baserade översättningsverktyg.
Modellen och demonstrationen finns tillgängliga på Riksarkivets webbplats Hugging Face.
Utvidgningar även till andra språk
Automatisk textigenkänning av historiska datamängder utvecklas snabbt även på andra språk. Inom ramen för ArchXAI-projektet har riksarkivet i Estland lanserat sin modell som är anpassad för estniskt material.
Mer information:
Ilkka Jokipii
Sanna Joska
John Mäkelä
john.mäkelä@kansallisarkisto.fi
Se även
-
10.6.2026 16:30
Sommaruppehåll på verksamhetsställen med digital leverans
Tjänsten för digitala leveranser har stängt 1–31.7.2026.
-
10.6.2026 14:56
Undervisningsväsendets allmänna beslut fördröjs
Beredningen av Riksarkivets allmänna beslut Varaktig förvaring av undervisningsväsendets handlingar och informationsmaterial (KA/15609/28.92.01/2025) fördröjs. Grunden för beslutet är en rekommendation om förvaringstiden för informationsmaterial och om åtgärder efter förvaringstidens utgång från den offentliga förvaltningens informationshanteringsnämnd som publicerades 20.5.2025.
-
1.6.2026 15:25
Riksarkivet avstår från verksamhetsstället i Tavastehus från och med 1.6.2027 – tjänsterna fortsätter som nu fram till slutet av november
Riksarkivet har avslutat de samarbetsförhandlingar som rörde planerna på att avstå från verksamhetsstället i Tavastehus och de totala effekterna av detta för personalen. Syftet med ändringen var inte att minska antalet personal, och samarbetsförhandlingarna ledde inte till uppsägningar.