Riksarkivet tog fram en handskriftsmodell för ryska språket i ett gemensamt projekt – hela 138 miljoner rader text som träningsmaterial

Utgivningsdatum 4.5.2026 13.10 | Publicerad på svenska 7.5.2026 kl. 12.07
Typ:Pressmeddelande
Kuvassa on vanhaa käsialatekstiä, josta on korostettu kirjoitusoiso. Tämän korostetun osan tekoäly tunnistaa ja muuttaa konetekstiksi. Kuvan laidassa on Euroopan unionin logo.

Ett gemensamt ArchXAI-projekt har tagit fram en avancerad handskriftsmodell för ryska språket. Med modellen är det möjligt att omvandla handskrivna handlingar till maskinläsbart format.

Ett gemensamt ArchXAI-projekt har tagit fram en avancerad handskriftsmodell för ryska språket. Med modellen är det möjligt att omvandla handskrivna handlingar till maskinläsbart format.


ArchXAI har tagit fram en handskriftsmodell för kyrilliska språket. Modellen kan uppnå en noggrannhet på upp till 96 procent och med hjälp av den kan användaren känna igen handskriven text på enskilda bilder. 


Modellutvecklingen bygger på ett omfattande internationellt samarbete. ArchXAI är ett samarbetsprojekt där yrkeshögskolan i sydöstra Finland, riksarkivet i Estland, Riksarkivet i Finland och riksarkivet i Lettland deltar. Experterna har renskrivit mer än 70 000 rader ryskspråkigt arkivmaterial från slutet av 1800-talet och början av 1900-talet. Som träningsmaterial användes bland annat ortodoxa kyrkoböcker och administrativa handlingar från storfurstendömet Finland.


Dessutom har modellen förtränats med en mycket omfattande datamängd på 138 miljoner syntetiskt framställda rader med rysk text. Den slutliga modellen har vidaretränats med ett autentiskt material som tagits fram i projektet. Detta möjliggör en smidig läsning av handskriven text samtidigt som en stark språkmodell bibehålls.


Testresultaten visar att modellen når upp till 96 procents noggrannhet. Vid modellträningen användes Lumi-superdatormiljön, som administreras av CSC – IT-centret för vetenskap.


Modellen stöder tillgången till historiska datamängder


Den framtagna modellen kommer att användas i stor utsträckning vid textigenkänning av arkivmaterial. Målet är att göra historiska handlingar ännu lättare tillgängliga för forskare och den breda allmänheten i arkivens webbtjänster med hänsyn till eventuella användningsbegränsningar.


Modellen vidareutvecklas under projektets gång genom att nytt träningsmaterial läggs till i den, vilket ytterligare förbättrar igenkänningsnoggrannheten.


Demonstration finns redan tillgänglig för testning


Modellen kan redan nu testas via en demonstrationstjänst. Där kan användaren känna igen handskriven text på enskilda bilder. Demonstrationen genererar en ryskspråkig textversion som man vid behov kan översätta till finska, till exempel med AI-baserade översättningsverktyg.


Modellen och demonstrationen finns tillgängliga på Riksarkivets webbplats Hugging Face.


Utvidgningar även till andra språk


Automatisk textigenkänning av historiska datamängder utvecklas snabbt även på andra språk. Inom ramen för ArchXAI-projektet har riksarkivet i Estland lanserat sin modell som är anpassad för estniskt material.

Mer information:

Ilkka Jokipii

[email protected]

 

Sanna Joska

[email protected]

 

John Mäkelä

john.mäkelä@kansallisarkisto.fi

Digitalt material Innovaatiot Pressmeddelande Projekt Tutkimus