AI som hjälpmedel för förbättring av kvaliteten på digitaliserade material
Riksarkivet vill vara en föregångare när det gäller att digitalisera handlingar och främja deras användbarhet.
Detta mål stöds av ett projekt för förbättring av kvaliteten och användbarheten av digitalt material med artificiell intelligens (DALAI) som kommer att slutföras i höst. Projektet leds av Riksarkivet och finansieras av Europeiska regionala utvecklingsfonden.
I projektet har artificiell intelligens använts för att utveckla automatiseringen av digitaliseringen av kulturarvsmaterial och automatisk beskrivning av material. Dessutom har projektet främjat införandet av metoder som tagits fram under projektets gång.
Enligt Maija Mäkikalli, som är projektchef i projektet, är det viktigt att främja förståelsen om de möjligheter som artificiell intelligens ger när det gäller vårt dokumentära kulturarv. Hur kan maskininlärning användas för att utveckla kvaliteten, användbarheten och användningsgranden för digitaliserat arkivmaterial?
Projektet DALAI startades 2021 och Centralarkivet för Finlands näringsliv ELKA, Kaakkois-Suomen ammattikorkeakoulu Oy (Xamk) och Disec Oy är Riksarkivets partner i projektet.
Artificiell intelligens ger tillgång till mer information i material
Arkivbranschen är kanske inte den första man tänker på när man funderar på vad allt artificiell intelligens kan användas till. Arkiverade och digitaliserade material innehåller dock mycket uppgifter som bäst kan användas genom att ta fram AI-assisterade verktyg för deras analys.
Dessa verktyg skapar till exempel metadata utifrån material, vilket underlättar sökandet av information i digitaliserade material. Det gör materialet mer tillgängligt för användare.
Syftet är att göra det möjligt för olika aktörer att kunna använda de verktyg som utarbetats inom ramen för projektet och blir fritt tillgängliga, och även kunna vidareutveckla dem genom att anpassa dem till sina egna behov.
Den särskilda målgruppen för projektet utgörs av minnesorganisationer, såsom arkiv, museer och bibliotek som digitaliserar och erbjuder sina kunder digitala material, samt företag som utvecklar tjänster för digitalisering och behandling av digitalt material.
Verktyg som tagits fram inom projektet
De verktyg som tagits fram inom projektet DALAI kan delas in i två grupper. Den första fokuserar på vissa element som finns i bilderna, till exempel tomma handlingar och vikta sidhörn. För detta ändamål har man utformat komponenter som automatiserar valideringen av kvaliteten på de skannade dokumenten.
Utgångspunkten var vanliga fel, på basis av vilka en automation utarbetades för två typer av fel. Dessa är vikta sidhörn och post-it-lappar. Tanken är att material där dessa fel upptäcks ska skannas igen.
Dessutom har komponenten för igenkänning av tomma sidor utvecklats ytterligare. Där identifieras tomma papper i material, vilket gör att man kan göra sig av med onödiga tomma sidor.
Automationen sparar manuellt arbete och gynnar aktörer med en stor mängd material.
Andra verktyg fokuserar på att utveckla innehållsidentifieringen. För detta ändamål har man utarbetat en identifierare av skrivtyp som identifierar om en text är skriven för hand eller med maskin.
Med hjälp av identifiering av namnentiteter är det möjligt att i en maskinskriven text hitta till exempel namn på personer och organisationer samt FO-nummer. Det är möjligt att skapa ämnesord och teman för material och hitta bland annat datum.
Verktyget har dock vissa begränsningar. Textigenkänningen kan inte tolka handskriven text och fungerar därför endast för maskinskriven text. Dessutom är det undervisningsmaterial som använts vid utbildningen av verktyget för identifiering av namnentiteter i huvudsak från tiden efter 1960-talet, vilket innebär att identifieringsnoggrannheten kan vara sämre för material som innehåller äldre språk.
Arkkiivi
Gränssnittet Arkkiivi som utarbetades i projektet erbjuder en lättanvänd försöksplattform för automatisk analys av digitaliserat dokumentmaterial. Detta görs med hjälp av AI-komponenter som utarbetats inom projektet. Komponenterna är integrerade i Arkkiivi och kan identifiera skanningsfel och innehåll i digitaliserat material.
Enligt Mikko Lipsanen, chefsplanerare för maskininlärning, används maskininlärning för att söka information i både bild- och textmaterial. I bilder försöker man hitta vissa drag (innehåll/inget innehåll) och fel (post-it-lappar, vikta sidhörn), medan man i texter söker efter till exempel personnamn, organisationer och andra så kallade namnentiteteter.
Användargränssnittet Arkkiivi finns på www.arkkiivi.fi. Komponenternas koder och utbildade modeller har i sin tur publicerats i GitHub och är fritt tillgängliga och redigerbara.
På basis av respons som fåtts hittills ser det enligt Lipsanen ut som om det skulle finnas ett behov och efterfrågan för liknande verktyg även utanför Finland.
Arkkiivi och de övriga resultaten av projektet Dalai kan för sin del bidra med exempel och komponenter som andra aktörer inom branschen kan utnyttja.
Det är även möjligt för aktörer som har digitaliserat dokumentmaterial att utnyttja Arkkiivi på försök, om de vill ha information ur materialet genom att filtrera vissa element i det.
Nordiskt samarbete
Riksarkivet samarbetar regelbundet med andra nordiska riksarkiv i olika projekt för utveckling av artificiell intelligens. I Finland finns det gott om svenskspråkigt material på grund av vår historia, vilket också gör det möjligt att utbilda artificiell intelligens med gemensamma data.
Målet är att dela idéer, koder och material på ett öppet sätt, eftersom man vill undvika att panta på information när syftet är att utveckla och lära tillsammans. Enligt Lipsanen är detta också en motkraft för stora språkmodeller som ofta hamnar i ett företags ägo.
Det finns en engelskspråkig och en svenskspråkig version av Arkkiivi, och användargränssnittet stöder även delvis analys av material som utarbetats på dessa språk. Materialets språk spelar inte alltid någon roll, till exempel när man söker rivna sidor eller post-it-lappar. Å andra sidan spelar språket en roll när man analyserar textinnehåll.
I Arkkiivi är det möjligt att identifiera namnentiteter inte bara för finskspråkigt utan även för engelskspråkigt textinnehåll, och det är möjligt att ta fram ämnesord som beskriver materialet för såväl finsk-, svensk- som engelskspråkiga texter.
Se även
-
2.10.2024 11:36
Sjöktjänst för domböcker är tillfälligt otillgänglig
Transkribus-plattformen kommer att uppdateras.
-
1.10.2024 14:30
Vi levererar alla beställningar till forskarsalen i Tavastehus digitalt från och med den 22 oktober
Forskarsalen i Hämeenlinna är stängt 22.10.2024–31.3.2025.
-
30.9.2024 10:02
Nytt nummer för skötsel av forskarsalsärenden börjar gälla den 8.10.
På svenska betjänar vi från tisdag till fredag kl. 12–14.