Hyppää pääsisältöön

Tarkenna hakuasi

Opiskelijat työskentelevät tietokoneella.

FM Anssi Kanerviston väitös 21.2.2022: Syväoppimista voidaan kehittää videopeleillä

Tietojenkäsittelytieteen alaan kuuluva väitöstutkimus tarkastetaan luonnontieteiden ja metsätieteiden tiedekunnassa verkossa.

FM Anssi Kanervisto edistää ja tutkii väitöstyössään itsenäisesti toimivia tietokoneohjelmia, joita kutsutaan "agenteiksi". Nämä ovat yksi tekoälytutkimuksen (AI) alue.

—Agentteja voidaan käyttää tehtävien automatisointiin. Ne voivat esimerkiksi ohjata sähköverkkoa vähentääkseen sähkön hukkaa tai nopeuttaa dokumenttien käsittelyä havaitsemalla automaattisesti virheet tai epäselvät tiedot,  Kanervisto kertoo.

Syväoppiminen ja neuroverkot ovat Kanerviston tutkimuksessa pääosassa, mutta se missä klassinen syväoppimismenetelmä esimerkiksi tunnistaa kuvasta kissan, agentit tekevät useita päätöksiä sarjassa. Esimerkiksi niin, että ” kävele ensin kymmenen metriä eteenpäin ja käänny sitten vasemmalle”. 

— Perinteinen agenttien ohjelmointi voi kuitenkin olla vaikeaa, koska meidän on kirjoitettava säännöt siitä, kuinka agentin tulee toimia eri tilanteissa, hän sanoo.

Väitöstutkimuksessa keskityttiin sen sijaan tekijöiden kouluttamiseen joko osoittamalla, kuinka agentin tulisi toimia ("imitaatio-oppiminen") tai antamalla agentin oppia yrityksen ja erehdyksen avulla, mitkä toimet ovat hyviä tai huonoja ("vahvistusoppiminen").

—Syvien neuroverkkojen tai syväoppimisen avulla voimme kouluttaa yhä älykkäämpiä agentteja ja soveltaa niitä monimutkaisempiin toimialueisiin, kuten strategiapeleihin, jotka aiemmin olivat tietokoneagenttien ulottumattomissa.

Työssä käytettiin videopelejä vertailukohtana, jonka avulla voidaan mitata kuinka hyvin agentit oppivat erilaisia ​​tehtäviä ja valitsevat muutokset, jotka parantavat agentin koulutusprosessia. Videopelit tarjoavat laajan valikoiman haasteita, jotka ovat helposti saatavilla, mutta joita agentit eivät välttämättä ratkaise. Videopelien agentteja parantamalla voimme soveltaa parannuksia käytännönläheisiin tehtäviin, mutta myös parannuksia itse videopelien tekoälyihin.

Agenttikoulutusmenetelmiä arvioidaan yleensä yhdessä tai kahdessa ympäristössä, ja suurin osa olemassa olevista tutkimuksista käyttää samoja vertailuarvoja. Vaikka tämä johtaa vertailukelpoisiin tuloksiin eri tutkimuksissa, se voi johtaa oivalluksiin, jotka toimivat vain näissä ympäristöissä. Kanerviston väitöstutkimus keskittyi useiden uusien ympäristöjen käyttämiseen vertailukohtana, jota videopelit tarjoavat.

— Tällä koeasetelmalla osoitimme kuinka yksinkertainen imitaatio-oppimismenetelmä, käyttäytymiskloonaus (joka jäljittelee sitä, mitä ihminen tekee), voi olla tehokas opetusmenetelmä.

—Tämän tehokkuuden saavuttamiseksi on kuitenkin viritettävä opetusalgoritmi ympäristökohtaisesti, ja havaitsimme, että käyttäytymiskloonaus ei toimi valmiina ratkaisuna useissa peleissä. Käytännössä osoitimme myös, että imitaatio-oppimista voidaan käyttää tukemaan ihmisen ja tietokoneen käyttöä, erityisesti tukemalla ihmispelaajan hiiren ohjausta videopelissä.

Itseoppivilla agenteilla (vahvistusoppiminen) havaittiin, että on parempi minimoida niiden vaihtoehtojen määrä, joista agentit voivat valita toimiessaan, sen sijaan, että antaisivat monia erilaisia ​​vaihtoehtoja. Vaikka enemmän vaihtoehtoja johti parempaan suorituskykyyn joissakin peleissä, harjoittelu epäonnistui suurimmassa osassa peleistä, koska agentin piti viettää liian paljon aikaa vaihtoehtojen kokeilemiseen.

— Videopeliin koulutettu agentti voidaan siirtää todelliseen robottiin, jossa on täysin erilainen toimintatila, ja se siirron jälkeen se vaatii vain vähän lisää koulutusta. Tätä menetelmää voidaan käyttää tulevaisuudessa nopeuttamaan agenttien koulutusta monimutkaisissa skenaarioissa käyttämällä uudelleen jo koulutettuja agentteja, eikä kouluttamalla agentteja tyhjästä ilman tietämystä.

FM Anssi Kanerviston tietojenkäsittelytieteen  alaan kuuluva väitöskirja Advances in deep learning for playing video games tarkastetaan luonnontieteiden ja metsätieteiden tiedekunnassa 21.1.2022 klo 12. Vastaväittäjänä toimii Georgios Yannakakis, University of Malta, ja kustoksena yliopistotutkija Ville Hautamäki,  Itä-Suomen yliopisto. Tilaisuuden kieli on englanti ja sitä voi seurata verkossa.

Lisätietoja:

Anssi Kanervisto, anssk@uef.fi

Tilaisuus verkossa

Väitöskirja verkossa

Avainsanat