Honkela1_pieni_tokaProfessori Timo Honkela Kansalliskirjaston Digitointi- ja konservointikeskuksessa Mikkelin Pursialassa. Kuva: Manu Eloaho/Darcmedia

Digiprofessori: Puhuminen yli kielirajojen on toteutumassa

Viiden viimeisen vuoden aikana on tapahtunut läpimurto siinä, kuinka tietokoneet pystyvät tulkitsemaan puhetta, kirjoitettua kieltä ja kielen merkityksiä. Kehityksen ansiosta ihmiskunnan pitkäaikainen haave puhua yli kielirajojen on toteumassa, sanoo digitaalisten aineistojen tutkimuksen professori Timo Honkela.

Aika, jolloin tietokoneiden kyvylle tuottaa puhetta naurettiin lukuisten virheiden vuoksi, alkaa alla ohi. Näin väittää digitaalisten aineistojen tutkimuksen professori Timo Honkela, ja näyttää esimerkin.

– ”I would like to buy this house in this city for one million euros”, Honkela sanoo kännykälleen Mikkelissä, Kansalliskirjaston Digitointi- ja konservointikeskuksessa sijaitsevassa työhuoneessaan.

Ja toden totta, miellyttävän kuuloisella ruotsalaisella aksentilla puhelin toistaa.

– ”Jag skulle vilja köpa detta hus i denna stad för en miljon euro.”

Ja sama onnistuu myös muun muassa italiaksi, puolaksi, kiinaksi tai thai-kielellä.

– Sen sijaan suomen kieli on hyvin vaativa kieli, vaikein EU-kieli. Mutta kehitys menee tässäkin eteenpäin.

Koneiden kyky oppia kieltä on pitkäaikaisen tutkimuksen tulos

Koneiden kykyä oppia kieltä on tutkittu jo 50 vuoden ajan. Läpimurto tutkimuksessa on saavutettu aivan viime vuosina, kun puheen tunnistus ja ääntämys on saatu mukaan sovelluksiin.

– Harva meistä vielä hyödyntää palveluita, mutta seuraavien kymmenen vuoden aikana uudenlaiset palvelut ja mahdollisuudet tulevat muuttamaan maailmaa rajusti, Honkela ennustaa.

Vaikka konekääntäminen ei olekaan Honkelan tutkimuksen keskeinen kohde, se antaa hyvän kuvan siitä, millaisia mahdollisuuksia kieliteknologia ja koneoppiminen ovat tarjoamassa, myös tutkimukseen.

– Ajatellaan vaikkapa kaikkien EU-maiden lainsäädäntöä, jota on jokaisessa maassa monta hyllymetriä omalla kielellään. Eri kielillä kirjoitettua lainsäädäntöä on mahdotonta tarkastella kokonaisuutena pelkästään ihmisvoimin, mutta tekniikan avulla voisimme saada paljon mielenkiintoisia tuloksia.

Kysymykseen miksi tämä kaikki sitten on niin tärkeää, professori vastaa.

– Tutkimus on lähtenyt liikkeelle ihmiskunnan pitkäaikaisesta haaveesta puhua yli kielirajojen. Tätä pohjaa vasten kyse on sovelluksista ja palveluista, joita ihmiset todennäköisesti haluavat käyttää.

Mamkilla keskeinen asema kehityksen aallonharjalla

Honkela työskentelee sekä Helsingissä humanistisen tiedekunnan nykykielten laitoksella että Mikkelin Pursialassa sijaitsevassa Kansalliskirjaston Digitointi- ja konservointikeskuksessa. Lisäksi hän tekee yhteistyötä Mikkelin ammattikorkeakoulun, Mikkelin yliopistokeskuksen ja Helsingin yliopiston tietojenkäsittelytieteen laitoksen kanssa.

Vaikka hän on ehtinyt vaikuttaa digiprofessorina vasta tämän vuoden alusta, niin yhteistyökuvioita Mamkin kanssa on kehitteillä runsaasti.

Tekstien louhinnalla vahvempaa demokratiaa

Tekniikka nimeltä tekstien louhinta on yksi Timo Honkelan omista tutkimuksen kohteista, ja sopii myös digitaalisuutta ja sähköistä arkistointoa kehittävälle Mamkille kuin nenä päähän. Tekniikka mahdollistaa valtavien dokumenttimäärien analysoinnin automaattisesti.

– Louhinnalla dokumenttimassoista saadaan poimittua esimerkiksi aihealueita, ihmisiä, paikkoja ja tapahtumia automaattisesti. Lisäksi menetelmällä voidaan kartoittaa jopa tekstien tunnetiloja, eli sitä, missä tunnetilassa tekstit on tuotettu.

Suurille yrityksille tekniikka mahdollistaa jo tänä päivänä miljoonien asiakaspalautteiden käsittelyn. Yhteistyössä Mamkin kanssa tekstien louhintaa on alustavasti pohdittu sovellettavaksi esimerkiksi kotimaan lainsäädännön tutkimiseen. Parhaillaan yhteistyönä on meneillään myös esimerkiksi tutkimus, jossa menetelmän avulla käsitellään Mikkelin kaupungin varhaiskasvatuksen palveluille, eli esimerkiksi päivähoitoon, tulevaa palautetta.

– Kun palautteen analysointi helpottuu tietojärjestelmien avulla, niin satojen palautteiden sijaan on mahdollista käsitellä useita tuhansia palautteita. Pyytämällä runsaasti palautetta palveluita voidaan puolestaan kehittää entistä enemmän tarpeita vastaavaksi. Tämä vahvistaa demokratiaa.

Projekti sopii myös Mikkelin kaupungin Lupaus-ohjelmaan, jossa kaupunki pyrkii tarjoamaan palveluita entistä enemmän digitaalisina.

Digitaalisten aineistojen professori Timo Honkela. Kuva: Manu Eloaho/Darcmedia.

Tekstien louhinta auttaa näkemään metsän puilta, professori Honkela kuvaa menetelmää. Kuva: Manu Eloaho/Darcmedia.

Lähtökohtana ihmisarvo ja valintojen rikkaus

Haastattelun alussa professori toi esille maailman muuttuvan rajusti seuraavan kymmenen vuoden aikana. Millaiset muutokset meitä odottavat?

– Aikoinaan koneistumisen ensimmäinen aalto vapautti ihmiset raskasta ruumiillisesta työstä, jättäen samalla aikaa esimerkiksi harrastamiselle. Seuraavassa aallossa, kun koneet pystyvät toimimaan automaattisesti ilman ihmistä, meille jää vielä enemmän mahdollisuuksia valita, saada ja tuottaa, Timo Honkela sanoo.

Yksinkertainen paketti kokonaisuus ei kuitenkaan ole, vaan vaatii onnistuakseen viisaita poliittisia päätöksiä. Tämä siitä syystä, että väistämättä tarve monille nykyisille ammateille, kuten vaikkapa kääntäjille tai liikennevälineiden kuljettajille vähenee, monista muista ammateista puhumattakaan.

– Ihmisten tarpeet ja inhimillinen näkökulma pitää ottaa aina huomioon. Asiaa ammatikseen tehneelle ihmiselle ei saa antaa viestiä, että häntä ei enää tarvita, vaan työn sisällön pitää muuttua kehityksen myötä. Ihmisarvon pitää olla kaiken lähtökohtana.

 

Digitaalisten aineistojen professuuri

Professuuri rahoitetaan osittain Euroopan aluekehitysrahaston (Vipuvoimaa EU:lta) DIGRA-projektilla. Muut rahoittajat ovat Etelä-Savon maakuntaliitto, Helsingin yliopisto, Kansalliskirjasto, Mikkelin yliopistokeskus ja Mikkelin ammattikorkeakoulu.

Kirjoittanut Suvi Sikstus

Kirjoittaja on tutkimuksen, kehittämisen ja innovaatioiden viestintäsuunnittelija Mikkelin ammattikorkeakoulussa.

Avainsanat: