Sosiaalisen median aineistojen käyttöä tutkimusaineistona haittaa usein erityyppisten bottitilien läsnäolo datavirroissa. Bottitili tarkoittaa keinotekoista tiliä, jonka yksittäisen viestin lähettäjänä ei välttämättä ole oikeaa henkilöä, vaan viesti on luotu automaattisesti. Itä-Suomen yliopiston ja ruotsalaisen Linné-yliopiston digitaalisten ihmistieteiden yhteishankkeessa kehitetty, ohjattuun koneoppimiseen perustuva ohjelmisto esiteltiin maaliskuussa Digital Humanities in the Nordic Countries (DHN2019) -konferenssissa Kööpenhaminassa. Ohjelmisto tunnistaa automaattisesti luodut Twitter-viestit ja on riippumaton viestissä käytetystä kielestä.
– Sosiaalisessa mediassa olevaa teksti- ja datamassaa tutkitaan tällä hetkellä useasta eri näkökulmasta. Somen sisältämä data kiinnostaa muun muassa kielen tutkijoita sekä yhteiskuntatietelijöitä. Somessa esiintyvää dataa haittaa kuitenkin monenlainen häly, kuten bottitilit ja trollit, jotka vääristävät tutkimuksen tekemistä, kertoo englannin kielen professori Mikko Laitinen.
Bottien ja trollien jäljittämiseen nyt luotu ohjelmisto on kevyt, joten se pystyy luokittelemaan suuren määrän dataa nopeasti ja melko tehokkaasti.
– Näin tutkimusaineiston laatu paranee, ja me saamme tarkemman kuvan todellisuudesta.
Botteja Laitinen pitää melko harmittomina, mutta trollit puolestaan levittävät valeuutisia ja keksittyjä tarinoita. Siksi somen seuranta vaatii yhä parempia sovelluksia.
– Aihe on monimutkainen ja vaatii poikkitieteellisiä ratkaisuja. Tässäkin tapauksessa teknisistä ratkaisuista huolehti tohtori Jonas Lundberg Linné-yliopistosta. Tulevaisuudessa tarvitaan yhä enemmän yhteistyötä kielentutkijoiden ja esimerkiksi koneoppimisen ammattilaisten kanssa. Työ vaatii myös pitkäjänteisyyttä ja isoja panostuksia tutkimusinfrastruktuureihin, jotka mahdollistavat useiden alojen asiantuntijoiden kohtaamisen.
Laitisen mukaan jo nyt on olemassa hyviä esimerkkejä siitä, miten digitaalisuutta hyödyntävä tutkimus kootaan isojen yksiköiden alle, ja tutkijat tuodaan yhteen tutkimaan tämän ajan isoja kysymyksiä ja tarjoamaan niihin ratkaisumalleja.
Laitinen korostaa myös, miten tärkeää olisi, että kaikki somedata olisi tutkijoiden käytettävissä.
– Tällä hetkellä data on amerikkalaisten teknologiajättien omaisuutta ja rahanteon lähde. Jotta tieto saataisiin tutkijayhteisön käyttöön, vaadittaisiin asiassa kansallista ja kansainvälistä yhteistyötä sekä varsinkin EU:n panosta.
Laitinen arvioi, että suomenkielisestä tutkimusaineistosta botteja oli reilu 11 prosenttia, englanninkielisessä aineistossa niitä oli yli 20 prosenttia.
Linkki konferenssijulkaisuun: http://ceur-ws.org/Vol-2364/28_paper.pdf
Lisätietoja:
Professori Mikko Laitinen, mikko.laitinen(at)uef.fi, p. 050 441 2389