Kirkonkirjatekstit olivat kova pala tekoälysovellukselle
14.05.2018Tekoälysovellukset uusine koneoppimisen menetelmineen lupaavat mullistuksia myös vanhojen käsialojen automaattiseen tekstintunnistukseen.
Sanomalehtiartikkeleita ja konekirjoitustekstiä on tunnistettu automaattisesti jo vuosia, mutta käsinkirjoitettujen dokumenttien tunnistamisessa on edelleen omat haasteensa ja erityispiirteensä. Se ilmeni myös Karjala-tietokantahankkeen toteuttamassa pienimuotoisessa kokeilussa, joka toteutettiin yhteistyössä Kansallisarkiston kanssa.
Karjala-tietokantahanke lähti viime vuonna mukaan kansainväliseen READ-hankkeeseen, jonka tarkoituksena on kehittää koneymmärrettävän datan tunnistusteknologiaa ja tarjota siten uusia menetelmiä käsinkirjoitetun tekstin automaattiseen tunnistukseen.
Vuoden 2016 alussa käynnistyneessä hankkeessa mukana oleva Innsbruckin yliopiston digitoinnin ja digitaalisen pitkäaikaissäilytyksen osasto ylläpitää virtuaalista tutkimusalustaa, jonka pohjana toimii Transkribus-tekstintunnistussovellus. Sovelluksen ideana on se, että käyttäjät voivat ladata siihen omia digitaalisia aineistojaan ja tuottaa aineistoistaan puhtaaksikirjoitukset joko omaan tutkimuskäyttöön tai kaikkien ko. sovellusta käyttävien saataville.
Testiprojekti alkuun
Karjala-tietokantahankkeen osallistuminen READ-hankkeeseen varmistui toukokuussa 2017, kun Kaakkois-Suomen ammattikorkeakoulun Digitalia-tutkimuskeskuksen ja Karjala-tietokantahankkeen edustajat kävivät tutustumiskäynnillä Kansallisarkistossa Helsingissä ja saivat mukaansa selkeät ohjeet Transkribus-testiprojektin valmistelusta. Pian kesäkuun alussa aloitettiinkin kirkonkirja-aineiston tekstintunnistamisen testiprojekti osana READ-hanketta.
Karjala-tietokantahankkeen testiaineistoksi valikoitui luovutetun alueen Pyhäjärven seurakunnan lastenkirja vuosilta 1840-1871. Valinnassa otettiin huomioon se, ettei kyseistä kirkonkirjaa ole jo tallennettu Karjala-tietokantaan ja toisaalta se, että kirkonkirjan käsiala on kohtalaisen selkeää. Lisäksi edellytyksenä testiaineiston valinnalle oli se, että aineisto löytyy Kansallisarkiston (KA) ylläpitämästä digitaaliarkistosta, jotta se voidaan ladata sujuvasti Transkribukseen READ-hankkeen yhteistyökumppanin eli KA:n toimesta.
Vaikeaselkoinen aineisto
Tekstintunnistusta varten Transkribukseen oli tuotettava ensin testiaineistosta noin 50 puhtaaksikirjoitettua sivua, jotta automatisoitua HTR (Handwritten Text Recognition) -työkalua voitiin käyttää. Kun tarvittava sivumäärä oli puhtaaksikirjoitettu, välitettiin siitä tieto READ-hankkeen EU-tiimille, joka suoritti tunnistustestin. Tuloksena oli CER 48 %, mikä tarkoitti, että tekstiin sisältyvien merkkien virheprosentti oli 48. Transkribus-tiimin näkemys oli, että tarvittaisiin ainakin kaksinkertainen määrä puhtaaksikirjoitettuja sivuja, jotta HTR-tunnistus antaisi lupaavamman tuloksen.
Tekstin puhtaaksikirjoittamista jatkettiin edelleen ja sadan sivun jälkeen odotukset tulosten paranemisesta olivat toiveikkaat. Suurta parannusta automaattisen tekstin tunnistuksen osalta ei kuitenkaan saavutettu, sillä tulokseksi tuli CER 44 %. Mitä tästä oli pääteltävissä?
Transkribus-tiimin tekninen projektipäällikkö Günter Hackl tiivisti tulokset seuraavasti: Karjala-tietokannan tallennusaineistoon liittyvän dokumentin automaattinen tekstintunnistus on vaikeaa, koska 1) testiaineisto sisältää paljon numeroita ja nimiä; 2) tekstipohjassa on paljon pystysuoria sarakeviivoja; 3) tekstin joukossa on pieniä irrallisia merkkejä, kuten y; 4) samalla rivillä olevan kirjoituksen sanavälit ovat pitkiä.
Karjala-tietokantahankkeessa oli tarkoitus hyödyntää automaattista tekstintunnistusta siten, että vaikeat ja epäselvät dokumentit olisi ennen tallennustyötä puhtaaksikirjoitettu Transkribuksella. Saatujen tulosten perusteella automaattinen tekstintunnistus ei kuitenkaan toimi 1840-luvulta peräisin olevan lastenkirja-aineiston kohdalla tarpeeksi luotettavasti.
Karjala-tietokannan Transkribus-testi ei kuitenkaan mennyt hukkaan, sillä testiaineistona käytetty kirkonkirja-aineisto liitettiin lopulta osaksi Transkribus eLearning -kokonaisuutta. Jatkossa monet muutkin Transkribuksen käyttäjät pääsevät oppimaan ja ihmettelemään vanhojen kirkonkirjojen koukeroista kirjoitusta ja risteilevää viivoitusta. Kirkonkirjatekstien yliviivauksilla on monta eri merkitystä, jotka eivät vielä aukene koneellekaan monta kertaa kertaamatta. Ehkä joskus?