Ylen Lahjoita puhetta -kampanjassa on tarkoitus kerätä 10 000 tuntia puhuttua suomen kieltä talteen. Tallenteiden avulla on tarkoitus saada älylaitteet ja robotit oikeasti ymmärtämään suomea.
Puhuvat älylaitteet yleistyvät koko ajan, mutta niillä on vielä melkoisia hankaluuksia suomen kielen kanssa. Jos ne jotain suomenkielisiä käskyjä ymmärtävätkin, täytyy puhe tuottaa niille hitaasti ja huolellisesti artikuloiden. Murteet ovat niille vielä täysin vieras maaperä. Nyt tähän halutaan muutos.
Suomessa päätettiin kerätä suomalaisten puhetta tekoälyä varten itse, kun eivät sitä muutkaan puolestamme tee. Kampanjaan tarvitaan nyt jokaisen panosta, jotta rikkaan kielen eri murteet saadaan talteen. Näin tulevaisuuden tekoäly voisi ymmärtää monenlaista tapaa puhua suomea.
Itä-Suomen yliopiston suomen kielen professori Marjatta Palander muistuttaa, että hankkeeseen tarvitaan nyt erityisesti itäsuomalaisten puhetta, koska heitä on Suomen väestöstä pienempi osa kuin länsimurteiden puhujia.
– Itäsuomalaisten murteiden tunnistamisessa koneellisesti on myös varmasti vähän enemmän hommaa kuin monissa länsimurteissa.
Englannin kielen professori Mikko Laitinen lisää, että murteiden lisäksi olisi tärkeää saada talteen myös niiden puhujien suomea, jotka eivät puhu suomen kieltä äidinkielenään.
Tulevaisuudessa älylaitteiden tarjoamien palvelujen on oltava niin luotettavaa, että asiakas uskaltaa puhua koneelle ja tulee myös oikein ymmärretyksi.
Suurinta sitten Kalevalan
Ylen mukaan Lahjoita puhetta -hanke vastaa suuruusluokaltaan Kalevalan tai kansanrunouskokoelman aineistojen keruuta.
Hankkeessa kerätään tuntimääräisesti laajin yksittäistä tutkimusaihetta varten kerättävä puheaineisto. Kalevalaan kerättiin aineistoa kulkemalla kylistä toiseen jalan, uusi aineisto kerätään digitaalisesti verkossa. Toteutuessaan 10 000 tunnin puhepankki on kuin kirjasto, kun tähän asti tekoälyn kehittäjillä on ollut käytettävissään korkeintaan muutamia yksittäisiä kirjoja, kerrotaan Ylen sivuilla.
Puheaineistoja on toki kerätty Kalevalan jälkeen paljon tieteellisiä tutkimuksia varten, mutta niitä ei ole voitu soveltaa kaupalliseen käyttöön tulevan puheentunnistuksen kehittämiseen.
Itä-Suomen yliopisto kuuluu FIN-CLARIN-tutkimuskonsortioon, joka on mukana Lahjoita puhetta -kampanjassa.
– On tärkeää, että meillä on kansallisesti myös tämänkaltaisia ihmistieteiden tutkimusinfrastruktuureja, jotka mahdollistavat tutkimuksen tekemisen, uusien innovaatioiden syntymisen ja yhteistyön perustutkimuksen ja elinkeinoelämän välillä. Tämäkin hanke on sen verran laaja, että se vaatii useiden toimijoiden yhteistyötä, summaa Mikko Laitinen.
Hänen mukaansa puheenlahjoituskampanja on hyvä osoitus digitaalisten ihmistieteiden noususta, jossa aito poikkitieteellinen yhteistyö laskennallisten alojen ja humanististen alojen välillä hyödyttää molempia.
Puheen lahjoittaminen tehdään puhelimella anonyymisti, ilmaiseksi ja tietosuojatusti. Puhetta voi ensin harjoitella, ja tauot, mutinat ja änkytyskin ovat tervetulleita. Ne ovat kieltä aidoimmillaan.
Ohjeet ja lahjoitus