Kohti historiallista väestörekisteriä: teknologia avaa uusia tutkimusmahdollisuuksia

Julkaisuajankohta 15.4.2026 15.24

Kansallisarkisto työskentelee ratkaisujen parissa, jotka mahdollistavat historiallisten aineistojen vaivattoman linkittämisen digitaaliseksi rekisteriaineistoksi. 

Suomalaiset rekisteriaineistot ovat merkittävä kansainvälinen terveys-, talous-, yhteiskuntatieteiden ja esimerkiksi epidemiologian tutkimuksen kilpailuvaltti. Kansallisarkisto työskentelee ratkaisujen parissa, jotka mahdollistavat historiallisten aineistojen vaivattoman linkittämisen digitaaliseksi rekisteriaineistoksi. 

Piikki kansallisen tutkimusinfrastruktuurin lihassa 

Suomalaisen tieteen ylivertainen kilpailuvaltti on koko väestön kattavat rekisteriaineistot. Henkilöihin liittyvän rekisteritietojen keräämistä ja käyttämistä on Suomessa helpottanut erityisesti vuonna 1964 käyttöönotettu henkilötunnus. Erilaiset terveydentilaan liittyneet rekisterit ovat kehittyneet 1950-luvulta alkaen ja olivat jo varhaisvaiheissaan ajalleen teknisesti edistyneitä (Gissler & Haukka 2004). 

Henkilötunnuksen käyttöönotto ei ole mikään nollahetki yksilöiden tunnistamiselle ja seuraamiselle. Suomessa yksilöiden seuraaminen henkilötunnusta edeltäneeseen aikaan vaatii kuitenkin työtä: yksilöiden linkittäminen vuosien ja aineistokokonaisuuksien välillä, etenkin vanhimpien aineistojen osalta, on vaatinut omistautunutta, ammattitaitoista käsityöläisyyttä. 

Yksilöaineistojen vastapainoina kohoavat pitkät aggregaattisarjamme. Taulustolaitos tuotti vuodesta 1749 alkaen koottua tietoa Suomen alueen väestöstä ja elinkeinorakenteesta. Tilastollisilla malleilla seurakunta- ja muita väestöaineistoja yhdistelemällä on pystytty tuottamaan vuotuinen väkiluku Suomelle kansainvälisestikin vertailtuna kauas taaksepäin – aina vuoteen 1647 asti (Voutilainen, Helske & Högmander 2020). 

Alueet eivät kuitenkaan ole väestötieteellisiä toimijoita. Seurakunnat eivät biologisesti lisäänny eikä kihlakunta kuole lavantautiin. Päätökset avioliitosta tai lisääntymisestä tehdään yksilötasolla. Aluetasolle aggregoitu data tarjoaa suuntaa antavaa tietoa, mutta yksilöiden elämän ymmärtäminen aluedatalla vaatii aina uskonloikkaa. 

Suomessa yksilötason väestölaskennat alkoivat valikoiduista kaupungeista vasta 1880-luvulla ja ensimmäinen kokoväestölaskenta tehtiin niinkin myöhään kuin 1950. Esimerkiksi Norjassa ensimmäinen nimitasolla kerätty väestölaskenta toteutettiin jo vuonna 1801. Jälkikäteisesti suomalaisesta aineistosta (kuten kirkonkirjoista ja verolähteistä) voitaisiin rakentaa yksilötason ja yhteiskunnan kattava tietokanta, mutta tällaisten aineistojen rakentaminen on vaatinut niin paljon resursseja, että se on toistaiseksi jäänyt tekemättä. 

Viimeaikainen teknologinen kehitys raottaa ovea aiemmin kustannuksiltaan kohtuuttomalle: kattavan historiallisen henkilörekisterin rakentaminen Suomen väestöstä on muuttumassa todellisuudeksi. Tekstintunnistusmenetelmät, automaattinen tiedonpoiminta ja koneoppimispohjaiset linkitystekniikat avaavat pääsyn aineistoihin, joiden manuaalinen läpikäynti olisi aiemmin vaatinut vuosikymmeniä. Mahdollisuudet ovat valtavat: Suomessa on läpi historian tapahtunut poikkeuksellisia demografisia, taloudellisia, yhteiskunnallisia ja poliittisia murroksia sekä mittavia ja laajavaikutteisia kriisejä, joiden vaikutuksia ei ole tähän asti voitu tutkia yksilötasolla kuin paikallisesti tai pienissä otoksissa. 

Teknologia, al dente? 

Yksilötasolla rakentuneiden väestöaineistojen mittakaava on jo yksittäisenä vuotena kunnioitusta herättävä. Olisihan esimerkiksi vuoden 1860 suomalaiset kattavassa aineistossa lähes 1,75 miljoonaa riviä ja mitattavista määreistä riippuen kymmeniä jopa satoja sarakkeita. Aineistokokonaisuus nousisi luokituksineen ja johdannaismuuttujineen helposti satoihin miljooniin havaintoihin ja siten yksittäisen tutkijan tai tutkijaryhmän työpanoksen ulottumattomiin. 

Vastaavaan – jopa suurempiin – haasteisiin on maailmalla toisinaan kyllä tartuttu. Yhdysvaltojen vuoden 1881 sekä Kanadan ja Iso-Britannian vuoden 1880 väestölaskentojen dataksi muuttaminen vaati 20 000 vapaaehtoista käymään läpi 80 miljoonaa asiakirjaa vuosien 1982 ja 1999 välisenä aikana. Tähän käytettiin kaikkiaan noin 11 miljoonaa henkilötyöpäivää eli yli 40 000 henkilötyövuotta (Roberts et al. 2003, Ruggles et al. 2018). 

Jos tämä ei tunnu riittävän hengästyttävältä, harmaita hiuksia saa helposti lisää, kun tajuaa, että tällainenkin työmäärä on vasta rajallisesti hyödyllinen: yhden vuoden poikkileikkausaineistot ovat kiinnostavia ja välttämättömiä kokonaisuuksien osia, mutta käytännössä moderni mikrotutkimus tarvitsee seuranta-aineistoa väestöstä. Tämä tekee resurssitarpeesta entistäkin mielettömämmän. 

Koneoppimisen ja tekoälymenetelmien kehittyminen on muuttanut kenttää radikaalisti viime vuosina. Mahdoton on hiljalleen siirtynyt mahdollisuuksien piiriin, eikä esimerkkejä tarvitse enää etsiä kaukaa: suomalaista aineistoa käyttävistä tai niihin liittyvistä julkaisuista Blomqvist et al. (2023) tarkastelevat Ruotsin puolen vuoden 1571 hopeaveroluetteloita, miltei 12 000 sivua ja niiden sisältämiä yli 50 000 verotettua tilaa; Vesalainen et al. (2025) analysoivat noin 200 000 muuttokirjasivua 468 seurakunnasta, jotka sisältävät noin 6.2 miljoonaa muuttokirjausta; Ribeiro et al. (2026) keskittyy vuoden 1955 Tukholman väestörekisteriin, joka pitää sisällään tiedot noin 750 000 ihmisestä. 

Kun tavoitteena on konelukea ja muuttaa dataksi tämän mittakaavan aineistoja, automatisoidun tunnistamisen oikeellisuus nousee merkitykselliseksi. Yhdenkin prosentin merkkivirhe tuottaa satojen tuhansien yksilöiden ja kymmenien muuttujien aineistoissa helposti tuhansia virhetietoja, vaikkakin sitten yksittäisten merkkien tasolla. Tämä pätee tietenkin myös ihmisen tuottamaan aineistoon. Yleisenä nyrkkisääntönä voidaan pitää, että manuaalisesti kirjatun aineiston merkkitason virheellisyys on noin 1 % - yksi virhelyönti sataa merkkiä kohden (Humphries et al. 2025). Virhelyöntien määrän kasvu nopeuden kasvaessa on tietenkin jo Uuno Turhapurolta opittu toinen nyrkkisääntö. 

Kansallisarkiston demovaiheessa olevan, vapaita tekstikenttiä lukeva, yli 700 000 1600–1900-lukujen käsialanäytteellä koulutetun Li et al. (2023) esittelemään TrOCR-arkkitehtuuriin perustuvan mallin merkkitason tarkkuus on nykyään noin 97 % (Jokipii et al. 2025). Vastaavan tason tarkkuus on nykyään HTR-malleille tyypillistä. 

Taulukkorakenteiden joutuisa tunnistaminen on sen sijaan pitkään ollut haaste. Tämä on aiheuttanut pullonkaulan historiallisten väestöaineistojen konelukuun. Taulukkomuotoisten aineistojen käsittelyssä hyödynnetään usein vaiheistettua prosessia, joka alkaa asettelun luokittelusta, etenee solujen tunnistamisen kautta ja päättyy varsinaiseen tekstintunnistukseen (Dahl et al., 2023). Perinteiset tekstintunnistusmallit vaativat usein laadukkaita kuvia ja toimivat heikosti esimerkiksi suttuisessa, läpikuultavassa tai epätarkasti digitoidussa aineistossa. 

Blomqvist et al. (2023) käyttämällä menetelmällä saatiin merkkitason oikeellisuudeksi 4,8–15,6 % alkuperäisestä kirjurista riippuen, kun taas Vesalainen et al. (2025) käyttämällä menetelmällä noin 19 %. Tällainen tarkkuus vaatii merkittävää jatkokäsittelyä, vaikka LLM-pohjainen jälkiprosessointi voi tulevaisuudessa helpottaa työtä alias-korpusten avulla. Keskeiseksi kysymykseksi nousee, missä määrin alias-korpuksia voidaan rakentaa automaattisesti ja missä määrin ne vaativat asiantuntijapohjaista kuratointia. 

Koneellisesti muodostetun aineiston laatuvaatimukset riippuvat käyttötarkoituksesta ja jatkokäytön menetelmistä: tekstintunnistuksen tarkkuuden loputon hiominen ei välttämättä ole aina tarpeen. Kenttäkohtaiset tunnistusvirheet olisi mahdollista myös mallintaa suoraan: bayesiläisissä tilastollisissa asetelmissa muuttujakohtainen virhe voidaan estimoida mallintamisen keinoin. 

Verrattuna kahteen aiempaan tutkimukseen, Ribeiro et al. (2026) -tutkimuksen päästä-päähän-prosessiputki historiallisille taulukoille on erityisen rohkaiseva vähäisen manuaalisen työn vaatimuksensa osalta ja on tulostensakin puolesta huomiota herättävä. Artikkelissa esitetty menetelmä menee askeleen pidemmälle kuin perinteiset lähestymistavat: se kääntää koko sivun suoraan strukturoiduksi dataksi. Artikkelissa saavutetaan 1.3–1.8 % merkkivirhe, joka vähentää huomattavasti jatkokäsittelyn tarvetta verrattuna aiempiin menetelmävaihtoehtoihin. Toki sanottakoon, että artikkelissa keskitytään 1950-luvun suurelta osin vakiomuotoiseen ja säännönmukaiseen, ei esiteolliseen aineistoon. 

Teknologia ei ole vielä kypsää, lukkiutunutta, eikä yleistä ratkaisua ole vielä olemassa, vaikka erilaisia LLM-ratkaisuita eräät pitävät ennakkosuosikkeina (Humphries et al. 2025). Tämän hetken teknologia ei tuota valmista aineistoa tuosta vaan: viimeaikaiset tutkimukset osoittavat, että jotkut ongelmat ovat tällä hetkellä rakenteellisia. Kirjurikohtainen vaihtelu, nimivarianttien suuri määrä ja aineistossa harvoin esiintyvät kentät vaativat lisäannotointia, historiallista kontekstitietämystä sekä esimerkiksi synteettisiä koulutusaineistoja. Tietty epätarkkuustaso on sisäänrakennettua monessa aineistossa, eikä nykyisillä malleilla häviä taikaiskusta. 

Paljon muutakin kuin tilastollista tutkimusta 

Historiallisia henkilötietoja ovat usein saatavilla muissakin kuin rakenteisessa taulukkomuodossa. Erilaiset aineistokokonaisuudet sisältävät runsaasti yksilötason tietoa, mutta hajanaisesti, epäyhtenäisin tavoin muodostettuna ja vaihtelevalla tarkkuudella kirjattuna. 

Verhagen et al. (2025) korostavat, että tekstimuotoinen kuvaus voi olla sekä yksinkertaisempi että informaatiorikkaampi kuin taulukko. Modernit kielimallit mahdollistavat analyysin suoraan tekstistä, jolloin tietoa ei tarvitse muokata tutkimusmenetelmän ehdoilla. 

Tämä niin sanottu book of life -lähestyminen on hyvin nupullaan, mutta tarjoaa keinon esittää lähtökohtaisesti tilastolliseen tutkimukseen kerättyä rekisteriaineistoa kvalitatiiviselle tutkimukselle käyttökelpoisessa muodossa. 

Historialliset rekisteriaineistot osana Kansallisarkiston tulevaisuutta 

Monien 1900-luvun keskeisten aineistojen kuten väestölaskentojen, maatalouslaskentojen ja (painettujen) henkikirjojen koneluenta on verraten suoraviivaista toteuttaa perinteisen taulukontunnistamisen ja kohdentamisen sekä näiden päälle rakennetun HTR/OCR-prosessin keinoin. Suurien aineistojen digitointikustannukset ja aineistokohtaisten annotointiresurssien vähyys hidastaa tällä hetkellä täyden hyödyn nopeaa irti saamista olemassa olevasta teknologiasta. 

Kansallisarkiston digitaaliset palvelut ja tietoaineistot muodostavat merkittävän ja korkealaatuisen tutkimusinfrastruktuurin ja Kansallisarkistolla on tutkijayhteistyössä valmisteilla useita hankkeita, joiden tarkoituksena on tuottaa suuria väestöaineistoja saataville analyysikelpoisessa tietokantamuodossa. 

Historiallisten rekisteriaineistojen tuottamisessa on moninaisesti koko kansainvälinen tutkimuskenttä mukana: sovellettavat menetelmät perustuvat avoimeen lähdekoodiin ja myös Kansallisarkisto jakaa avoimesti osaamistaan aihepiiristä kiinnostuneille. 

Miikka Voutilainen, Kansallisarkiston tutkimuspäällikkö

Viitattu kirjallisuus 

Blomqvist, C., Enflo, K., Jakobsson, A., & Åström, K. (2023). Reading the ransom: Methodological advancements in extracting the Swedish wealth tax of 1571. Explorations in Economic History, 87. 

Dahl, C. M., Johansen, T. S., Sørensen, E. N., Westermann, C. E., & Wittrock, S. F. (2021). Applications of machine learning in document digitisation. arXiv preprint arXiv:2102.03239. 

Gissler, M., Haukka, J. (2004). Finnish health and social welfare registers in epidemiological research. Norsk Epidemiologi, 14(1), 113–120. 

Humphries, M., Leddy, L. C., Downton, Q., Legace, M., McConnell, J., Murray, I., & Spence, E. (2025). Unlocking the archives: Using large language models to transcribe handwritten historical documents. Historical Methods: A Journal of Quantitative and Interdisciplinary History, 58(3), 175–193. 

Jokipii, I., Joska, S., Leinonen, L., & Marttila, R. (2025). Historiantutkija – tekoäly vie sinunkin työsi… aivan uudelle tasolle! Historiallinen Aikakauskirja, 123(4), 481-490. 

Li, M., Lv, T., Chen, J., Cui, L., Lu, Y., Florencio, D., ... & Wei, F. (2023, June). TrOCR: Transformer-based optical character recognition with pre-trained models. Proceedings of the AAAI conference on artificial intelligence, Vol. 37(11), 13094-13102. 

Ribeiro, L.C., Andersson, J., Skoglund, W., Molinder, J., & Önnerfors, M. (2026). Automated historical census digitization using image augmentation and transformer-based methods. European Historical Economics Society (EHES), WP nro. 0298. 

Roberts, E., Ruggles, S., Dillon, L. Y., Gardarsdottir, Ó., Oldervoll, J., Thorvaldsen, G., ja Woollard, M. (2003). The North Atlantic Population Project: An overview. Historical Methods: A Journal of Quantitative and Interdisciplinary History, 36(2):80–88. 

Ruggles, S., Fitch, C. A., & Roberts, E. (2018). Historical census record linkage. Annual Review of Sociology, 44(1), 19-37. 

Verhagen, M. D., Stroebl, B., Liu, T., Liu, L. T., & Salganik, M. J. (2025). The Book of Life approach: Enabling richness and scale for life course research. arXiv preprint arXiv:2507.03027. 

Vesalainen, A., Kanerva, J., Nitsch, A., Korsu, K., Larkiola, I., Ruotsalainen, L., & Ginter, F. (2025). Creating a Historical Migration Dataset from Finnish Church Records, 1800-1920. Journal of Open Humanities Data, 11: 48, 1–20. 

Voutilainen, M., Helske, J., & Högmander, H. (2020). A Bayesian reconstruction of a historical population in Finland, 1647–1850. Demography, 57(3), 1171–1192. 

Artikkeli