Tutkimusaineistojen hallinnassa on suositeltavaa noudattaa FAIR -periaatteita (Findable, Accessible, Interoperable, and Re-usable) eli aineiston tulisi olla löydettävissä, saavutettavissa, yhteentoimivaa ja uudelleen käytettävää.
Tutkimuksen rahoittajat ja kustantajat edellyttävät yhä useammin tutkimuksen tausta-aineistojen avaamista silloin kun se on eettiset ja juridiset rajoitteet huomioiden mahdollista. Itä-Suomen yliopiston datalinjauksen mukaisesti julkisella rahoituksella tehtyyn tutkimukseen liittyvä tutkimusaineisto on lähtökohtaisesti avointa. Tutkimusaineisto voidaan avata tallentamalla se kansalliseen tai kansainväliseen datarepositorioon tai -arkistoon. Mikäli tutkimusaineistoa ei voida avata muiden jatkokäyttöön, aineistosta avataan kuvaileva tieto eli metadata.
Tutkimusaineistojen avaaminen:
- parantaa tutkimustulosten laajamittaista hyödynnettävyyttä ja jatkokäyttöä
- edistää tutkimusta ja mahdollistaa uusien havaintojen ja ilmiöiden löytämistä
- edistää tutkimusyhteistyötä
- tarjoaa tutkijoille tasavertaiset mahdollisuudet tutkimusdatan käyttöön.
Tutkijalle aineiston avaaminen on tieteellinen meriitti, sillä tutkimustyön tieteelliseen ja yhteiskunnalliseen vaikuttavuuteen luetaan ansiot tutkimus- ja tietoaineistojen tuottamisessa ja jakamisessa. Tutkimusaineistojen avaaminen kannattaa siis lisätä ansioluetteloon. Avaaminen meritoi tutkijaa viittauksina avattuun tutkimusaineistoon sekä tutkimusaineistosta tuotettuihin julkaisuihin. Myös käyttämättä jääneiden aineistojen julkaisua suositellaan. Jotta tutkimusaineisto olisi löydettävissä ja hyödynnettävissä, aineistoon täytyy liittyä riittävän tarkkoja kuvailutietoja eli metadataa.
UEF-eRepository (eRepo) kokoaa automaattisesti yhteen tietoja Itä-Suomen yliopiston tutkijoiden tuottamasta tutkimusdatasta useista eri palvelusta, kuten Etsin, Zenodo ja EUDAT ja Dryad. Itä-Suomen yliopiston tutkijoiden tuottamat tutkimusaineistot suositellaan kuvailemaan kansalliseen Etsin-palveluun Qvain-työkalun avulla. Palveluun voi tallentaa metatietoja myös aineistoista, joita ei voida suoraan avata jatkokäyttöön. Aineiston julkiset kuvailutiedot lisäävät tietoa olemassa olevista aineistoista ja voivat poikia esimerkiksi yhteistyömahdollisuuksia, vaikka itse aineistoa ei voida avata. Tutkimusdatan avaamiseen soveltuvia palveluja on esitelty alla.
Tutkimusaineistoa avattaessa aineiston tulee olla sellaisessa muodossa, jonka ulkopuolinen pystyy ymmärtämään ja hyödyntämään. Huolella laadittu aineistonhallintasuunnitelma ohjaa jo aineistonkeruuvaiheessa ja helpottaa tutkimusaineiston avaamista. Avattava aineisto on pidettävä yksinkertaisena, selkeänä kokonaisuutena. Tutkimusaineisto kannattaa julkaista sellaisessa datarepositoriossa tai -arkistossa, josta aineiston mahdolliset hyödyntäjät löytävät sen helposti.
Aineiston avaamisen askelmerkit:
- Suunnittele aineiston avaaminen jo tutkimuksen alussa. Kuvaa aineiston avaaminen aineistonhallintasuunnitelmassa, jolloin osaat huomioida avaamisen edellytykset jo aineistoa muodostaessasi. Määrittele, missä vaiheessa tutkimusprojektia aineisto avataan.
- Selvitä, onko aineistojen avaamiselle eettisiä, laillisia tai sopimusoikeudellisia rajoituksia. Joissakin tapauksissa aineistoa voidaan avata rajatusti jatkokäyttöön, esimerkiksi niin että aineistoa annetaan tutkimuskäyttöön lupahakemuksen kautta. Mikäli et voi avata aineistoa, tuota siitä kuvaileva tieto eli metadata avoimesti.
- Valmistele aineisto avaamista ja jatkokäyttöä varten, esimerkiksi anonymisoi aineisto tarvittaessa.
- Aineistolle suositellaan avointa tiedostoformaattia, jonka käyttämiseen ei tarvita mitään kaupallista ohjelmaa, ja joka toimii mahdollisimman monilla käyttöjärjestelmillä (lisätietoja).
- Valitse aineistollesi sopiva ja luotettava datarepositorio tai –arkisto, minne tallennat aineiston avoimesti käytettäväksi (kansallinen tai kansainvälinen, tieteenalakohtainen tai yleinen data repositorio, lisätietoja seuraavassa osiossa). Varmista, että valitsemasi datarepositorio/-arkisto antaa aineistoille pysyvät tunnisteet (esim. URN, DOI).
- Kuvaile ja dokumentoi aineisto niin, että se voidaan löytää ja sitä voidaan käyttää uudelleen. Muista merkitä kuvailevaan tietoon Itä-Suomen yliopisto taustaorganisaationa. Suosittelemme muotoa "Itä-Suomen yliopisto" tai ”University of Eastern Finland".
- Määrittele aineiston käyttöoikeudet lisensoimalla tutkimusaineistosi. Ohjeita Creative Commons -lisenssien käyttöön löytyy seuraavasta osiosta.
- Mainosta avaamaasi aineistoa julkaisujen yhteydessä tai sosiaalisessa mediassa. Lisää tiedot ansio-/julkaisuluetteloosi sekä kotisivuillesi. Voit myös kirjoittaa aineistostasi julkaisun data lehteen.
Aineistojen avaamisessa suositellaan lisenssejä, joiden avulla tutkija voi itse määritellä tutkimusaineistonsa käyttöoikeuksia: mitä, miten ja kenelle aineistoja luovutetaan. Lisensointi kertoo tutkimustuotoksen käyttäjälle millä ehdoin hänellä on lupa uudelleen käyttää tuotosta. Käyttöehtoja määritellessä on tärkeää huomioida rahoittajien ja tutkimusorganisaation ohjeistukset ja vaatimukset lain ja tutkimusetiikan lisäksi.
Aineiston käyttöehdoista määrää tutkimusaineiston tekijä tai se, kenelle tekijä on siirtänyt oikeudet. Tästä poikkeuksena ovat tilanteet, joissa lainsäädäntö (tietosuoja, laki viranomaisen toiminnan julkisuudesta) tai liikesalaisuus rajoittaa datan käyttöä ja julkaisemista. Lisäksi tekijänoikeuslaki ja hyvä tieteellinen käytäntö edellyttävät, että tekijä mainitaan hyvän tavan mukaisesti.
Tutkimusdatan ja sen metadatan voi lisensoida esimerkiksi Creative Commons -lisenssin avulla. Creative Commons on suunniteltu suoraan tekijöille ja käyttöoikeuksien antaminen on tehty varsin helpoksi. CC-lisenssin käyttö on ilmaista, eikä siihen tarvita erillistä lupaa tai rekisteröitymistä. Creative Commonsin sivustolla on CC-lisenssivalitsin, joka ohjaa sopivan lisenssin valintaa. Lisenssin voi merkitä tekstinä, kuvakkeena, ääneen luettuna tai koneluettavassa muodossa. Avoimelle tutkimusdatalle suositellaan CC0-lisenssiä (tekijä luopuu kaikista oikeuksista) tai CC BY 4.0 -lisenssiä (tekijä on aina mainittava) ja metatiedoille CC0-lisenssiä. Vaikka CC0-lisenssi ei edellytä tekijän mainitsemista, tekijän ilmaiseminen kuuluu hyvään tieteelliseen käytäntöön. CC-lisenssi ei välttämättä sovellu kaikkiin tutkimustuotoksiin. Tietokoneohjelmille ja lähdekoodeille suositellaan usein esimerkiksi MIT-lisenssiä tai GPL-lisenssiä.
Lisätietoa
Tutkimusdatan tallentamiseen on käytettävissä useita kansallisia ja kansainvälisiä datarepositorioita ja -arkistoja. Tutkija voi valita omalle tutkimusdatalle ja tieteenalalle sopivan palvelun, minne tallentaa tutkimusdatan avoimesti saataville. Tutkimusdatalle kannattaa valita tallennuspaikka, joka on säilytyksen suhteen luotettava ja stabiili sekä avoimen saatavuuden mahdollistava.
Tutkimusdataa voi avata myös julkaisemalla sen esimerkiksi dataan erikoistuneessa lehdessä. Data journals eli datalehdet ovat uusi julkaisemisen muoto, joka keskittyy julkaisemaan tutkimusdataa ja tietoja siitä. Tällöinkin data tallennetaan repositorioon (lehden suosittelemaan tai tutkijan valitsemaan) ja data-artikkelissa kuvaillaan yksityiskohtaisemmin esimerkiksi mitä data on, miten se on kerätty ja miten sitä voidaan uudelleenkäyttää.
Repositorion valintaan vaikuttavia seikkoja:
• repositorio antaa datalle kansainvälisesti tunnustetun pysyvän tunnisteen (esim. DOI, URN)
• tieteenalakohtaisuus (esim. osaaminen tieteenalalle tyypillisten dataformaattien osalta, data on oman alan tutkijoiden löydettävissä)
• luotettavuus (esim. tietoturva, datan sijainti, kansainvälisesti tunnustetut sertifikaatit kuten CoreTrustSeal)
• ylläpitävä taustaorganisaatio (onko toiminta turvattu jatkossakin, erityisesti kaupallisten toimijoiden ehtoihin on syytä kiinnittää huomiota)
• pitkäaikaissäilytyksen tarve (kaikki datareposiotoriot eivät sovellu pitkäaikaissäilytykseen)
• datan hoivaaminen eli kuratointi (datarepositorio huolehtii sisällön ylläpitoon ja päivityksiin liittyvistä toimenpiteistä, joilla turvataan aineistojen eheys ja käytettävyys).
Jos omalla tieteenalallasi ei ole suosituksia sopivista ja luotettavista datarepositoista, voit hyödyntää ns. yleisiä repositorioita. Tällaisia ovat esimerkiksi Zenodo tai Dryad. Esittelemme lyhyesti tässä alakohtaisia sekä yleisiä repositorioita ja hakemistopalveluita.
Kansallisia datarepositorioita ja -arkistoja
Fairdata.fi: IDA
• tutkimusdatan säilytyspalvelu erityisesti tutkimuksen aikana (palvelua käyttävän projektin on oltava aktiivinen), mutta on käytettävissä myös datan julkaisemiseen
• suomalaiset korkeakoulut ja valtion tutkimuslaitokset (hankkeissa voi olla mukana näiden ulkopuolisia tutkijoita)
• DOI-tunniste, jos IDAssa säilytettävä aineisto kuvaillaan Qvain-työkalulla
• maksuton käyttäjille
• data Suomessa
• palvelun toimittaa CSC ja järjestää opetus- ja kulttuuriministeriö
Fairdata.fi: Fairdata PAS-palvelu
• tutkimusdatan säilytyspalvelu pitkäaikaissäilytykseen
• hyödyntämisestä kiinnostunut tutkija ottaa yhteyttä oman organisaation datatukeen kts. Datatuen verkkosivu Pitkäaikaissäilytys (PAS)
• palvelua voivat hyödyntää suomalaiset korkeakoulut ja valtion tutkimuslaitokset
• palvelun toimittaa CSC ja järjestää opetus- ja kulttuuriministeriö
Kielipankki
• teksti- ja puheaineistot
• kuratoitu, sertifioitu (CoreTrustSeal)
• URN-tunniste
• maksuton peruskäyttö
• data Suomessa
• palvelusta vastaa kansallinen FIN-CLARIN-konsortio (taustalla suomalaiset yliopistot ja tutkimusorganisaatiot)
Tietoarkisto ja Aila-palveluportaali
• erityisesti yhteiskuntatieteellinen tutkimusaineisto, myös humanististen alojen, kasvatustieteiden ja terveystieteiden tutkimusaineistot
• data anonymisoitava
• kuratoitu, sertifioitu (CoreTrustSeal)
• DOI/URN-tunniste
• maksuton
• data Suomessa
• toimii Tampereen yliopiston yhteydessä ja on CESSDAn (Consortium of European Social Science Data Archives) suomalainen palveluntuottaja
Kansainvälisiä datarepositorioita ja -arkistoja
EUDAT
• palveluita datan jakamiseen, tutkimuksenaikaiseen säilyttämiseen ja arkistointiin, (mm. B2SHARE, B2DROP, B2SAFE)
• yleisrepositorio (ei sovellu sensitiiviselle datalle)
• ei kuratoitu
• DOI-tunniste
• maksuton (säilytystilaraja)
• data Euroopassa
• ylläpitäjä EUDAT CDI (eurooppalainen tutkimusorganisaatioiden verkosto), päärahoittaja mm. Euroopan komissio
The European Bioinformatics Institute (EMBL-EBI)
• molekyylidataan liittyviä resursseja ja bioinformatiikka palveluita
• useita datarepositorioita ja valintatyökalu helpottamaan datan tallennuspaikan valintaa
• organisaation taustalla useita Euroopan maita, Suomi mukaan lukien
Dryad
• yleisrepositorio (ei sovellu sensitiiviselle datalle)
• kuratoitu
• DOI-tunniste
• data julkaistaan vain CC0 -lisenssillä
• pieni datan julkaisumaksu, kuratoinnin ja säilyttämisen kuluen kattamiseksi
• data Yhdysvalloissa
• hallinnoiva taho Yhdysvaltoihin rekisteröity yleishyödyllinen yhteisö
GBIF, the Global Biodiversity Information Facility
• eri maidenrahoittama kansainvälinen verkosto ja data infrastruktuuri
• biodiversiteetti dataa kaikista maapallon elämänmuodoista (ei-digitaalisten resurssien metadataa, tarkistuslistadataa, esiintymistietoja, näytteenottotapahtumien dataa)
• DOI-tunniste
• maksuton
• julkaisee vain organisaatioilta tulevaa data. UEF tutkijoiden, jotka haluavat julkaista data GBIF-palvelussa tulee ottaa yhteyttä ensin datasupport@uef.fi.
Pangaea
• ympäristö- ja biotieteiden aineistoille tieteenalakohtainen: Earth & Environmental Science
• kuratoitu, sertifioitu (CoreTrustSeal, World Data System, WMO Information System)
• DOI-tunniste
• maksuton
• saksalaisten tutkimuslaitosten ylläpitämä
Zenodo
• yleisrepositorio
• ei kuratoitu
• DOI-tunniste
• maksuton
• data Euroopassa
• ylläpitäjä CERN, päärahoittaja mm. Euroopan komissio (OpenAIRE)
Hakemistopalveluita
CESSDA
• eurooppalaisten yhteiskuntatieteellisten tietoarkistojen muodostama tutkimusinfrastruktuuri
Data repositories
• lista avoimen datan repositorioita ja tietokantoja tieteenalakohtaisesti
• on osa Open Access Directory (OAD) -wikiä
OpenAIRE
• eurooppalainen avoimen tieteen infrastruktuuri
OpenDOAR
• datarepositorioiden hakemistopalvelu
• listaa maksuttomia ja avoimia tutkimusdatarepositoriota
• yhteishanke, jossa mukana University of Nottingham ja Lund University; hallinnoiva taho Jisc (Joint Information Systems Committee, UK)
re3data.org
• datarepositorioiden hakemistopalvelu
• erilaisia suodattamismahdollisuuksia
• rahoittaja Deutsche Forschungsgemeinschaft (DFG, German Research Foundation)
Olemassa olevien tutkimusaineistojen jatkokäyttö on taloudellista ja säästää rajallisia resursseja. Tutkijan kannattaa hyödyntää tutkimuksessaan jo olemassa olevia tutkimusaineistoja, koska
- tutkimuksen tekeminen nopeutuu
- valmiit aineistot voivat toimia oman aineiston vertailuaineistona tai oman aineiston voi yhdistää olemassa oleviin aineistoihin
- tutkimusresursseja säästyy, kun kaikkea ei tarvitse tehdä itse.
Toisten tuottamien materiaalien käytössä on huomioitava niiden käyttöehdot. Käyttöehdot määritetään tavallisesti lisenssillä. Aineistot voivat olla täysin vapaasti hyödynnettäviä tai niiden käyttöön voi olla määritetty käyttörajoitteita.
Tutkimusaineistoja voit etsiä hakupalvelujen, datarepositorioiden tai -arkistojen ja portaalien kautta. Haussa kannattaa hyödyntää yleisiä asiasanoja (eri tieteenalojen asiasanoja Finto-palvelusta), joilla aineistoa on mahdollisesti kuvailtu. Tutkimusdatapalveluja on listattu edellisessä osiossa.
Erilaiset julkiset toimijat avaavat tuottamiaan aineistoja avoimesti käyttöön:
- Avoindata.fi / julkisen hallinnon avoimia tietoaineistoja
- Ilmatieteen laitos – Avoin data / Ilmatieteen laitoksen avoin data ja lähdekoodi
- Väylävirasto – Avoin data / avointa dataa liikenteestä ja liikenneverkoista
- Maanmittauslaitos - Avoimien aineistojen tiedostopalvelu / karttojen laatimisen itsepalvelu
- THL – Avoin data / Terveyden ja hyvinvoinnin laitoksen avointa dataa
- Tilastokeskus – Avoin data ja rajapinnat / avoimia aineistoja ja niiden rajapintoja
- Traficom – Avoin data / Liikenne- ja viestintäviraston avointa dataa
- Verohallinto – Avoin data / Verohallinnon tarjoamaa avointa dataa
- Euroopan unionin avoimen datan portaali
Dataan viittaaminen
Tutkimusdataan on viitattava aivan kuten muihinkin tutkimuksessa käytettyihin lähteisiin. Kansallisen dataviittaussuosituksen mukaan viittauksen tulee sisältää seuraavat tiedot: tekijä, aineiston nimi, tekijän taustaorganisaatio, julkaisun ajankohta, pysyvä tunniste. Hyödyllisiä lisätietoja viittauksessa ovat: versiotiedot, aineistotyyppi, lisenssi, ORCID, tieto mahdollisesta embargo ajasta.
Datarepositorioissa ja –arkistoissa on usein ohjeita dataviittaukseen. Myös kustantajilla voi olla oma ohjeistus julkaisussa käytettävään viittaustapaan.
- Kansallinen dataan viittaamisen tiekartta Tracing data: Data citation roadmap for Finland / FCRD
- Tietoarkiston ohje aineistoon viittaamisesta
- How to Cite Datasets and Link to Publications / DCC