Riksarkivet tog fram en handskriftsmodell för ryska språket i ett gemensamt projekt – hela 138 miljoner rader text som träningsmaterial
Ett gemensamt ArchXAI-projekt har tagit fram en avancerad handskriftsmodell för ryska språket. Med modellen är det möjligt att omvandla handskrivna handlingar till maskinläsbart format.
Ett gemensamt ArchXAI-projekt har tagit fram en avancerad handskriftsmodell för ryska språket. Med modellen är det möjligt att omvandla handskrivna handlingar till maskinläsbart format.
ArchXAI har tagit fram en handskriftsmodell för kyrilliska språket. Modellen kan uppnå en noggrannhet på upp till 96 procent och med hjälp av den kan användaren känna igen handskriven text på enskilda bilder.
Modellutvecklingen bygger på ett omfattande internationellt samarbete. ArchXAI är ett samarbetsprojekt där yrkeshögskolan i sydöstra Finland, riksarkivet i Estland, Riksarkivet i Finland och riksarkivet i Lettland deltar. Experterna har renskrivit mer än 70 000 rader ryskspråkigt arkivmaterial från slutet av 1800-talet och början av 1900-talet. Som träningsmaterial användes bland annat ortodoxa kyrkoböcker och administrativa handlingar från storfurstendömet Finland.
Dessutom har modellen förtränats med en mycket omfattande datamängd på 138 miljoner syntetiskt framställda rader med rysk text. Den slutliga modellen har vidaretränats med ett autentiskt material som tagits fram i projektet. Detta möjliggör en smidig läsning av handskriven text samtidigt som en stark språkmodell bibehålls.
Testresultaten visar att modellen når upp till 96 procents noggrannhet. Vid modellträningen användes Lumi-superdatormiljön, som administreras av CSC – IT-centret för vetenskap.
Modellen stöder tillgången till historiska datamängder
Den framtagna modellen kommer att användas i stor utsträckning vid textigenkänning av arkivmaterial. Målet är att göra historiska handlingar ännu lättare tillgängliga för forskare och den breda allmänheten i arkivens webbtjänster med hänsyn till eventuella användningsbegränsningar.
Modellen vidareutvecklas under projektets gång genom att nytt träningsmaterial läggs till i den, vilket ytterligare förbättrar igenkänningsnoggrannheten.
Demonstration finns redan tillgänglig för testning
Modellen kan redan nu testas via en demonstrationstjänst. Där kan användaren känna igen handskriven text på enskilda bilder. Demonstrationen genererar en ryskspråkig textversion som man vid behov kan översätta till finska, till exempel med AI-baserade översättningsverktyg.
Modellen och demonstrationen finns tillgängliga på Riksarkivets webbplats Hugging Face.
Utvidgningar även till andra språk
Automatisk textigenkänning av historiska datamängder utvecklas snabbt även på andra språk. Inom ramen för ArchXAI-projektet har riksarkivet i Estland lanserat sin modell som är anpassad för estniskt material.
Mer information:
Ilkka Jokipii
Sanna Joska
John Mäkelä
john.mäkelä@kansallisarkisto.fi
Se även
-
7.5.2026 15:16
Anmäl dig till Sommarskolan i digital information!
Projektet En säkrare framtid genom informationsförsörjningsberedskap arrangerar fredagen 28.8.2026 evenemanget Sommarskola för digital information 2026 med rubriken ”Digital information i fara” i Helsingfors.
-
7.5.2026 13:53
Riksarkivet skyddar information – beredskapskompetensen fördjupas genom ett EU-delfinansierat projekt
Riksarkivets uppgift är att säkerställa tillgängligheten till handlingar och informationsmaterial. För att stödja denna viktiga uppgift deltar vi i projektet En säkrare framtid genom informationsförsörjningsberedskap.
-
29.4.2026 15:22
Utökad kunddatorservice
Det är möjligt att anmäla sig som kunddatorkund på de verksamhetsställen som omfattas av digital leverans. Anmälan möjliggör utökad användning av de resurser som används på ort och ställe på egen hand.