Riksarkivet tog fram en handskriftsmodell för ryska språket i ett gemensamt projekt – hela 138 miljoner rader text som träningsmaterial
Ett gemensamt ArchXAI-projekt har tagit fram en avancerad handskriftsmodell för ryska språket. Med modellen är det möjligt att omvandla handskrivna handlingar till maskinläsbart format.
Ett gemensamt ArchXAI-projekt har tagit fram en avancerad handskriftsmodell för ryska språket. Med modellen är det möjligt att omvandla handskrivna handlingar till maskinläsbart format.
ArchXAI har tagit fram en handskriftsmodell för kyrilliska språket. Modellen kan uppnå en noggrannhet på upp till 96 procent och med hjälp av den kan användaren känna igen handskriven text på enskilda bilder.
Modellutvecklingen bygger på ett omfattande internationellt samarbete. ArchXAI är ett samarbetsprojekt där yrkeshögskolan i sydöstra Finland, riksarkivet i Estland, Riksarkivet i Finland och riksarkivet i Lettland deltar. Experterna har renskrivit mer än 70 000 rader ryskspråkigt arkivmaterial från slutet av 1800-talet och början av 1900-talet. Som träningsmaterial användes bland annat ortodoxa kyrkoböcker och administrativa handlingar från storfurstendömet Finland.
Dessutom har modellen förtränats med en mycket omfattande datamängd på 138 miljoner syntetiskt framställda rader med rysk text. Den slutliga modellen har vidaretränats med ett autentiskt material som tagits fram i projektet. Detta möjliggör en smidig läsning av handskriven text samtidigt som en stark språkmodell bibehålls.
Testresultaten visar att modellen når upp till 96 procents noggrannhet. Vid modellträningen användes Lumi-superdatormiljön, som administreras av CSC – IT-centret för vetenskap.
Modellen stöder tillgången till historiska datamängder
Den framtagna modellen kommer att användas i stor utsträckning vid textigenkänning av arkivmaterial. Målet är att göra historiska handlingar ännu lättare tillgängliga för forskare och den breda allmänheten i arkivens webbtjänster med hänsyn till eventuella användningsbegränsningar.
Modellen vidareutvecklas under projektets gång genom att nytt träningsmaterial läggs till i den, vilket ytterligare förbättrar igenkänningsnoggrannheten.
Demonstration finns redan tillgänglig för testning
Modellen kan redan nu testas via en demonstrationstjänst. Där kan användaren känna igen handskriven text på enskilda bilder. Demonstrationen genererar en ryskspråkig textversion som man vid behov kan översätta till finska, till exempel med AI-baserade översättningsverktyg.
Modellen och demonstrationen finns tillgängliga på Riksarkivets webbplats Hugging Face.
Utvidgningar även till andra språk
Automatisk textigenkänning av historiska datamängder utvecklas snabbt även på andra språk. Inom ramen för ArchXAI-projektet har riksarkivet i Estland lanserat sin modell som är anpassad för estniskt material.
Mer information:
Ilkka Jokipii
Sanna Joska
John Mäkelä
john.mäkelä@kansallisarkisto.fi
Se även
-
27.5.2026 11:25
Öppettider för Riksarkivets forskarsalstjänster sommaren 2026
Forskarsalstjänsterna och forskarsalarnas servicetelefon är stängda i juli, med undantag för verksamhetsstället i Helsingfors.
-
21.5.2026 8:18
Den nya arkiveringslagen har antagits
Riksdagen har 20.5.2026 antagit den nya arkiveringslagen. Arkiveringslagen innehåller bestämmelser om arkivering av myndigheternas handlingar och informationsmaterial samt privat arkivmaterial som tas emot av Riksarkivet.
-
20.5.2026 9:20
Digital leverans kräver noggrannhet och kännedom om materialet
Digital leverans väcker ibland frågor om vad som sker med originalmaterialet efter digitaliseringen. Vid Riksarkivet förstörs materialet inte vid digital leverans, utan det bevaras och finns vid behov tillgängligt även i analog form. Arbetet kräver noggrannhet eftersom varje material behandlas enligt dess skick.