Tutkijan tulee säilyttää tutkimusaineistot sekä siirtää ja jakaa niitä turvallisesti koko tutkimuksen elinkaaren ajan oman organisaation ohjeita noudattaen (Tiedostojen tallennus ja jakaminen UEFissa, UEF intra, vaatii kirjautumisen UEF-tunnuksilla). Tallennus- ja säilytysratkaisuihin vaikuttavat
- aineiston sisältämän tiedon suojaustaso
- aineiston koko
- mahdollinen tarve käyttää aineistoa yhdessä eri organisaatioiden välisessä yhteistyössä.
Itä-Suomen yliopiston Digipalvelut (DiPa) tuottaa suuren osan tutkijoiden käyttämistä IT-palveluista ja palvelinresursseista. Tutkijoilla on käytettävissään myös CSC - Tieteen tietotekniikan keskuksen tarjoamia monipuolisia palveluja tutkimusdatan käsittelyyn, tallentamiseen ja avaamiseen (ks. alla Muita palveluita).
Tutkimusdatan suojaustasot ja niiden edellyttämät toimenpiteet
Tutkimusdatan sisältö vaikuttaa siihen, millaista suojausta datalle tarvitaan. Esimerkiksi julkisia tietoja voidaan käsitellä, tallentaa ja jakaa yliopiston ulkopuolellekin tavallisesti ilman erityisiä toimenpiteitä. Koska kyse on julkisista tiedoista, ne eivät voi lähtökohtaisesti päätyä ns. vääriin käsiin. Tällöin kuluttajapilvipalvelutkin (esim. GoogleDrive, Dropbox, iCloud) ovat mahdollisia, vaikka niitä ei yleisesti ottaen suositellakaan työkäyttöön. Muita kuin julkisia tietoja ei ole syytä tallentaa tai jakaa kuluttuajapilvipalveluissa.
Ns. perussuojaustason aineistoa ovat esimerkiksi anonymisoidut tutkimusaineistot, tutkimussuunnitelmat tai henkilötietoa sisältävät aineistot, joissa ei ole erityisiä henkilötietoja. Tällaista aineistoa voi tallentaa ja jakaa monissa yliopiston tarjoamissa ratkaisuissa tietyin rajoituksin. Erityiset henkilötiedot tai muutoin luottamukselliset tai salassa pidettävät tiedot edellyttävät erityistä suojausta, jolloin niitä koskee korkean suojaustason vaatimukset.
Tarkat ohjeet UEFissa noudatettavista suojaustasoista ja tallennusratkaisuista löytyvät Itä-Suomen yliopiston tietoaineistojen käsittelyohjeista (UEF intra, vaatii kirjautumisen UEF-tunnuksilla).
Tiedostojen jakaminen
UEFin sisällä tiedostojen jakaminen on lähtökohtaisesti vaivatonta. Tietosuojasta on toki huolehdittava siten, että jaettavaan tietoon pääsevät käsiksi vain ne henkilöt, joilla on siihen oikeus (esim. levytilojen, kansioiden tai tiedostojen käyttöoikeudet).
Palveluita tutkimusaineistojen jakamiseen on runsaasti. Ne voivat olla vaikkapa tutkimusalalle perinteisiä tai riippua yhteistyökumppanista. Tässä yhteydessä mainitsemme ennen kaikkea UEFin tukemat yleiset palvelut.
Funet FileSender
Yliopiston ulkopuolisille yhteistyökumppaneille voi lähettää suuriakin tiedostoja Funet FileSender-tiedonjakopalvelun avulla. UEF-käyttäjät pääsevät Funet FileSender -palveluun Haka-kirjautumisen kautta eli UEFin tunnuksella. Myös UEFin tai muun Haka-kirjautumisen ulkopuolinen käyttäjä pääsee palveluun niin että hän vastaanottaa nk. Upload voucher -kutsun UEF-käyttäjältä.
Palvelu on verkkoselainpohjainen, ja sen avulla voi lähettää jopa yli sadan gigatavun suuruisia tiedostoja. Funet FileSender ei sellaisenaan sovellu sensitiivisen tiedon lähettämiseen, mutta palvelua käytettäessä lähetettävä tutkimusdatatiedosto voidaan salata. Salausta varten tiedoston vastaanottaja saa lähettäjältä salasanan, joka ei tallennu palvelimelle vaan se lähetetään aina erikseen vastaanottajalle (esimerkiksi tekstiviestinä puhelimeen).
Muita palveluita
IDA-säilytysratkaisu mahdollistaa myös tutkimusdatan jakamisen ja säilyttämisen eri yhteistyökumppaneiden kanssa. IDA on osa CSC:n Fairdata-palvelukokonaisuutta ja suomalaisten korkeakoulujen tai valtion tutkimuslaitosten tutkijat ja muut tutkimuksen parissa työskentelevät voivat käyttä sitä pääsääntöisesti maksuttomasti. IDAn käyttö aloitetaan ottamalla yhteyttä kotiorganisaation IDA-yhteyshenkilöön. UEFilla tämän voi tehdä ottamalla yhteyttä tutkimuksen IT-palveluihin (servicedesk@uef.fi).
Yleiseurooppalainen EUDAT-palvelukokonaisuus mahdollistaa tutkimusdatan jakamisen ja tallentamisen. Esimerkiksi EUDAT B2DROP mahdollistaa aktiivisen tutkimusdatan synkronoinnin työpöytien välillä ja jakamaan kyseistä dataa muiden kanssa. EUDAT B2SHAREBasic on tutkimusdatan tallentamisen, julkaisemisen ja jakamisen ratkaisu, joka tarjoaa myös pysyvän tunnisteen (DOI tai Handle). EUDAT-kokonaisuus sisältää paljon muitakin palveluita ja toiminnallisuuksia esimerkiksi olemassa olevan tutkimusdatan etsimiseen tai tutkimusdatan pidempiaikaiseen säilyttämiseen. EUDAT on lukuisten korkeakoulujen ja tutkimuslaitosten yhteisesti ylläpitämä palvelukokonaisuus.
Tutkimusaineiston laadulla viitataan hieman eri yhteyksissä. Tutkimusaineistonhallinnassa laadulla tarkoitetaan ns. teknisiä tai ulkoisia tekijöitä, jolloin ei puututa siihen, miten hyvin aineisto sisällöllisesti soveltuu tutkimuskysymyksen käsittelyyn. Jälkimmäinen kuuluu pikemminkin tutkimuksen metodi- ja teoriakeskusteluun.
Eheys on toinen termi, jota käytetään aineiston laadun rinnalla. Eheydellä viitataan yleisesti ottaen siihen, että aineisto on luotettavaa ja sellaisessa muodossa, mihin se on suunniteltu. Se ei ole esimerkiksi muuttunut vahingossa ja on siten myös tutkimuskontekstissaan käyttökelpoinen.
Tutkimusaineiston laadun ja eheyden varmistaminen alkaa jo suunnitteluvaiheessa. On tärkeä pohtia, mitä sellaista voi aineiston käsittelyssä tapahtua, mikä heikentäisi tutkimusaineiston soveltuvuuden tai perusteltavuuden tutkimuskysymyksen kannalta tai pahimmassa tapauksessa mitätöisi tutkimushankkeen.
Aineistotyypit ja aineiston käsittelyn menetelmät vaikuttavat luonnollisesti siihen, millaisia laadunvarmistuksen keinoja on huomioitava esimerkiksi aineistonkeruussa tai muuttamisessa toiseen muotoon. Tällaisia voivat olla vaikkapa mittauslaitteiden kalibrointi, haastatteluaineistojen litteroinnin tarkastus tai datan tarkistussummat, jotka paljastavat arvojen poikkeavuuksia.
Tutkimusaineiston laatuun liittyviä riskejä voidaan torjua esimerkiksi varmuuskopioinnilla, versionhallinnalla sekä kuvailulla ja dokumentoinnilla (ks. tämän sivun kohdat Varmuuskopiointi ja versionhallinta ja Dokumentointi, kuvailu ja metadata).
Varmuuskopiointi ja versionhallinta ovat tärkeä osa tutkimuksenaikaista riskinhallintaa ja tutkimusdatan laadunhallinnan suunnitelmallista toteuttamista. Toimenpiteillä turvataan tiedostojen säilyminen ja tuetaan datan ymmärrettävyyttä. Toimenpiteet kannattaa suunnitella etukäteen ja huolehtia siitä, että myös kaikki tutkimusryhmän jäsenet tietävät toimenpiteet ja vastuut. Tällaiset tiedot on hyvä sisällyttää tutkimushankkeen yhteisiin ohjeisiin ja sellaiseen paikkaan, josta ne löytyvät helposti.
Varmuuskopiointi
Varmuuskopioinnista huolehtiminen suojelee tutkimusdataa vahingossa tehtäviltä muutoksilta tai tuhoamiselta, laitteiden tai ohjelmistojen vioista aiheutuvilta vahingoilta tai ulkopuolisten tekijöiden tuottamilta tuhoilta (esim. hakkereiden toiminta, tietokonevirukset, tulipalot, vesivahingot).
Varmuuskopioinnissa on hyvä huomioida mm.
- rutiininomaisuus ja säännöllisyys
- hajauttaminen siten, että kaikki varmuuskopiot eivät ole samassa (fyysisessä) paikassa
- tallennusvälineen sopivuus ja vaihto säännöllisin väliajoin
- tiedostomuodot, jotka toimivat tutkimuksen aikana ja jälkeen niin pitkään kuin on tarpeen.
Tiedostojen ja datan säilytyspaikka vaikuttaa varmuuskopioinnin toteuttamiseen. Vaikka yliopiston tarjoamissa säilytyspaikoissa on useimmiten varmuuskopiointi turvattu automaattisesti, kannattaa muistaa varmuuskopioinnin hajauttaminen (eli alkuperäinen data ja sen varmuuskopio(t) ovat eri paikoissa). Jos tutkimusdataa säilytetään esimerkiksi oman tietokoneen kovalevyllä, varmuuskopiointi on toteuttava itse. UEFin sisäisillä UEF intra-sivuilla on ohje yliopiston tarjoamien säilytysratkaisujen varmuuskopioinnin toteuttamiseen (vaatii kirjautumisen UEF-tunnuksilla).
Versionhallinta ja tiedostojen nimeäminen
Versionhallinnalla pidetään kirjaa tutkimusdataan tehdyistä muutoksista. Versionhallinnan toteuttamistapa riippuu datatyypistä. Esimerkiksi ohjelmistojen versionhallinnassa hyödynnetään versionhallintajärjestelmiä, kun taas vaikkapa tekstitiedostoista koostuvassa tutkimusdatassa versionhallinnassa tiedostojen nimeäminen on keskeinen versionhallinnan väline.
Versionhallinta on erityisen tärkeää silloin, kun useampi henkilö työskentelee saman tutkimusdatan kanssa. Versionhallintajärjestelmät mahdollistavat tyypillisesti samanaikaisen työskentelyn. Yksi esimerkki versionhallintajärjestelmästä on Git, jota hyödynnetään esimerkiksi Microsoftin omistamalla GitHub-alustalla.
Tiedostojen järjestäminen ja nimeäminen on hyvä suunnitella siten, että se tukee dataan tulevien muutosten seuraamista. Tällaisia keinoja ovat esimerkiksi tutkimusdatan jakaminen tiedostokansioihin ja tiedostojen systemaattinen nimeäminen kansioiden sisällä. Tiedoston nimessä on hyvä olla päiväys, joka merkitään aina samalla tavalla (esim. vvvv-kk-pv: 2022-07-22). Päivämäärän avulla vältetään epämääräiset "viimeisin versio" -maininnat tiedostojen nimissä. Kansiorakenne ja tiedostojen nimeämisen kuvaus on syytä sisällyttää erilliseen tekstitiedostoon esim. *.txt-tiedostomuodossa.
Tiedostomuotoja eli tiedostoformaatteja on lukuisia määriä eri tarkoituksiin. Tiedostomuodot myös uudistuvat jatkuvasti, jotkut häviävät käytöstä ja uusia tulee tilalle. Mitä pidemmän aikaa työskentelee saman tutkimusdatan kanssa, sitä tärkeämpää on pitää huolta siitä, että tiedostot ovat käyttökelpoisia ja luettavassa muodossa. Tiedostomuotoihin on kiinnitettävä huomioita erityisesti pitkäaikaissäilyttämisen ja arkistoinnin kohdalla.
Yleisenä ohjeena suositellaan, että tiedostosta kannattaa tehdä ainakin yksi sellainen kopio, jonka tiedostomuoto on yleisesti käytössä. Opetus- ja kulttuuriministeriön Avoimen tieteen ja digitaalisen kulttuuriperinnön kokonaisuudessa pidetään yllä laajaa ohjeistusta säilytys- ja siirtokelpoisista tiedostomuodoista, johon kannattaa tutustua etenkin suunniteltaessa tutkimusdatan pitkäaikaissäilytystä.
Erilaisia tiedostomuotoja
Tiedostomuoto ilmaisee tiedoston rakenteen ja usein sen, miten informaatio tallennetaan digitaaliseen muotoon (esim. PDF - Portable Document Format tai TIFF - Tagged Image File Format). Tämä helpottaa tiedostojen yhteentoimivuutta. Osa tiedostomuodoista on sidoksissa kaupallisiin ohjelmistoihin (esim. Microsoft Office), osa on avoimesti kenen tahansa käytettävissä ilman kaupallisia sidoksia (esim. OpenDocument).
Etenkin tutkimusdatan avaamisessa ja/tai tutkimuksenjälkeisessä säilyttämisessä suositellaan käytettäväksi avoimia tiedostomuotoja, jolloin tiedostojen lukeminen onnistuu eri ohjelmistoilla ilman maksullisia ohjelmistolisenssejä.
Tiedostomuoto käy ilmi tiedoston nimen lopussa olevasta pisteellä erotetusta tiedostopäätteestä. Tavallisia tekstitiedostomuotoja ovat esimerkiksi
- Microsoftin Word-ohjelmasta tuttu, tekstin muotoilut sisältävä DOC/DOCX (*.doc, *.docx)
- muotoilemattomana tekstinä tallennettava TXT (*.txt)
- avoin tiedostomuoto, OpenDocument Text, ODT (*.odt)
- muuttujat pilkuin erotteleva, Comma Separated Values, CSV (*.csv).
Tilastoaineistoissa hyödynnetään usein
- SPSS-ohjelmistoa (*.sav)
- taulukkolaskentaohjelmistoja (esim. Excel, *.xlx, *.xlsx).
Kuvatiedostoissa käytetään esimerkiksi
- JPEG-formaattia (*.jpg, *.jpeg), joka ei vie paljon tilaa
- TIFF-formaattia (*.tiff, *.tif), joka sisältää enemmän informaatiota kuin JPEG.
Ääntä tai ääntä ja kuvaa tallentavat formaatit ovat melko riippuvaisia järjestelmistä ja siten myös muuttuvat jatkuvasti. Kun tällaisia tiedostoja halutaan pitää käyttökelpoisina pidemmän aikaan, ne muunnetaan usein esimerkiksi
- WAV-formaattiin (*.wav, *.wave)
- MPEG-formaattiin (*.mpg).
Muuttaminen toiseen muotoon: konvertointi ja digitointi
Kun tiedostoja siirretään tiedostomuodosta toiseen, puhutaan konvertoinnista. Konvertointi saattaa olla tarpeen, jos käytetään jotain muuta kuin alunperin hyödynnettyä ohjelmistoa vaikkapa siksi, että laitteisto ei tue alkuperäistä tietodostomuotoa. Konvertoitaessa tiedostoja tietoa saattaa kadota tai se voi vääristyä. Konvertointi tuleekin tehdä aina suunnitellusti ja tiedon häviämistä minimoiden. Monissa ohjelmistoissa on tiedostoa tallennettaessa mahdollisuus valita save as -tallennus tai export-toiminto. Konversioon on tarjolla myös erillisiä ohjelmistoja.
Paperimuotoista tutkimusaineistoa voidaan muuttaa digitaaliseen muotoon skannaamalla. Tällöinkin on syytä kiinnittää huomiota laatuun eli esimerkiksi resoluutioon, värisävyihin tai tummuusasteeseen, jotta kaikki tarpeellinen informaatio siirtyy ja on luettavissa tai tarkasteltavissa mahdollisimman hyvin. Samalla on kuitenkin muistettava, että mitä korkealaatuisempi lopputulos, sitä suurempi tiedosto on kyseessä. Se vaikuttaa tiedoston vaatimiin tallennus- ja käyttövaatimuksiin.
Skannaus perustuu aineiston kuvaamiseen, mutta tekstiä sisältävästä aineistosta voidaan tuottaa myös tekstitiedosto tekstintunnistusohjelmien avulla (OCR eli Optical Character Recognatization). PDF (Portable Document Format) on laajasti käytössä oleva tiedostomuoto, joka säilyttää skannatun aineiston asettelut hyvin. Arkistoinnissa suositellaan PDF/A-tiedostomuotoa.
Analogiset ääntä tai kuvaa ja ääntä sisältävät tallenteet voidaan muuntaa digitaaliseen muotoon erillisillä tai suoraan tietokoneeseen yhdistettävillä laitteilla.
Jotta tutkimusdata löytyy, on ymmärrettävää ja käyttökelpoista sekä tutkijalle itselleen että muillekin, sitä pitää rikastaa lisätiedolla. Tässä yhteydessä puhutaan metadatasta, kuvailusta ja dokumentoinnista, joita on hyvä suunnitella ja toteuttaa heti tutkimuksen alusta alkaen koko tutkimuksen ajan. Tällöin tutkimusdatan julkaiseminen ja arkistoiminen on mahdollisimman vaivatonta tutkimuksen loppupuolella. Jälkikäteen metadataa on vaikea, ellei jopa mahdotonta tehdä. On myös hyvä muistaa, että vaikka itse tutkimusaineistoja ei jostain syystä voida avata, metatietojen julkaisemista suositellaan aina kuin mahdollista tutkimuksen näkyvyyden lisäämiseksi.
Termeille metadata, kuvailu ja dokumentointi ei ole tiukkoja määrittelyjä käytännön toimenpidetasolle, mikä saattaa aiheuttaa hämmennystä. Dokumentoinnilla voidaan viitata yleisesti tutkimusdatan monipuoliseen kuvailemiseen ja metatiedolla eri tietotyyppeihin, joita tarvitaan tutkimusdatan ymmärtämiseksi ja käyttämiseksi. Tieteen termipankin mukaan metatieto eli metadata on tiivistettyä tietoa esimerkiksi tutkimusdatan sisällöstä, teknisistä ominaisuuksista, kontekstista, rakenteesta, alkuperästä ja käyttöehdoista. Metatiedoista käyvät siten ilmi esimerkiksi tekijä, omistaja, muuttujat, termit ja tiedostomuoto ja -koko.
Metadatastandardi tai -skeema viittaa yhdenmukaiseen ja koneluettavaan metadataan. Metadatastandardit edistävät tutkimusdatan löydettävyyttä ja käytettävyyttä monin tavoin. Yksinkertaisimmillaan metadatastandardin käyttäminen on tiettyä metadatastandardin mukaista rakennetta noudattavan lomakkeen täyttämistä. Tällöin halutut metadatatiedot tulevat kaikilta täyttäjiltä aina samankaltaisina. Metadata vertautuu tätä kautta julkaisuista tuttuun formaattiin, jossa kerrotaan esimerkiksi nimi, tekijä, omistajuus jne. Standardin käyttö ei siten aina ole tietoista. Tutkija voi käyttää metadatastandardeja vaikkapa silloin, kun syöttää tutkimusdatansa tietoja datarepositorioon tai kuvailee datansa Qvain-työkalulla, joka esitellään alla.
Standardeja on lukuisia. Osa on n. geneerisiä metadatastandardeja, kuten hyvin yleisesti käytetty Dublin Core (DC), osa taas tieteenalakohtaisia. Tutkija ohjataankin usein hyödyntämään oman alansa standardeja, joita löytyy esimerkiksi Digital Curation Centren tai Research Data Alliance -yhteisön ylläpitämistä luetteloista.
Tutkimusdatan kuvailussa suositellaan myös käytettäväksi sanastoja (vocabulary, glossary), tesauruksia (thesaurus) ja ontologioita (ontology), jotka ovat Finton mukaan strukturoituja ja koneluettavia käsitteistöjä. Näitä hyödynnetään tyypillisesti samoin kuin metadatastandardeja eli käytettävä palvelu voi ohjata tutkijaa valitsemaan tietyn käsitteistön termejä. Koska sanastot ja ontologiat rakentuvat yhteisesti sovittuihin merkityksiin ja termien välisiin suhteisiin, ne tukevat tutkimusdatan metadatan laatua. Tutkija voi kuvailla dataansa myös täysin vapaavalintaisin termein ja sanoin, mikä mahdollistaa tutkijan näkökulmasta mahdollisimman sopivan ja monipuolisen datan kuvailun mutta ei sellaisenaan välttämättä edistä datan löydettävyyttä.
Monipuolinen, huolellisesti suunniteltu ja toteutettu sekä mahdollisuuksien mukaan standardoitu kuvailutieto on yksi keskeisimmistä FAIR-periaatteiden toteuttamisen keinoista, jotta data on
- löydettävissä (Findable)
- saavutettavissa (Accessible)
- yhteentoimivaa muun datan kanssa (Interoperable)
- uudelleenkäytettävää (Re-usable).
FAIR-periaatteista voit lukea lisää UEF Datatuen sivuston osiosta FAIR-periaatteet ja aineistonhallinta.
Qvain on tutkimusdatan kuvailuun tarkoitettu verkkoselainpohjainen työkalu ja osa CSC:n Fairdata-palvelukokonaisuutta. Qvaimen käyttö edellyttää CSC-tunnuksen luomista (ohje löytyy täältä). Sen jälkeen kirjautuminen Qvaimeen onnistuu esim. UEFin tunnuksen avulla (HAKA-tunnus).
Qvaimen etusivulta voi lisätä uuden aineiston tai muokata jo olemassaolevaa aineistoa. Qvaimen käyttöopas johdattaa askel askeleelta tarpeellisten metatietojen kertomiseen.
Kuvailutietojen julkaisemisen jälkeen tutkimusdata löytyy Fairdatan Etsin-palvelusta, josta tiedot haravoituvat myös muihin palveluihin, kuten vaikkapa UEF eRepoon ja kansalliseen Tiede ja tutkimus -palveluun.