Aluksi artikkelissa määritellään, mitä on työajalla tapahtuva osaamisen kehittäminen ja oppiminen sekä kuvataan osaamisen kehittämisen eri muotoja. Esillä ovat osaamisen kehittämisen tavoitteet ja edellytykset, esimerkiksi kehittämistä tukeva kulttuuri, työnantajan ja työntekijän myötävaikutus, aika ja taloudelliset edellytykset. Artikkeli tuo tutkimustietoa osaamisen kehittämisestä ja siihen kytkeytyvistä vaikutusmahdollisuuksista ja siinä arvioidaan osaamisen kehittämistä koskevaa lainsäädäntöä. Artikkeliin kuuluu ehdotuksia, joilla kasvattaa työnantajan roolia osaamisen kehittämisessä erityisesti lainsäädännön kautta.
Euroopan unionin tasolta esillä ovat jatkuvaa oppimista koskevat perusoikeuskirja, sosiaalisten oikeuksien pilarin 1 kohta sekä neuvoston kaksi suositusta: suositus pienistä osaamiskokonaisuuksista ja suositus henkilökohtaisista oppimistileistä. Tarkastelun piirissä on seuraava lainsäädäntö: työsopimuslaki, työaikalaki, valtion virkamieslaki, kunnan ja hyvinvointialueen viranhaltijalaki sekä evankelisluterilaisen kirkon viranhaltijalaki. Yhteistoiminnan osalta esillä ovat yhteistoimintalaki, laki yhteistoiminnasta valtion virastoissa ja laitoksissa ja kunnan ja hyvinvointialueen yhteistoimintalaki. Lisäksi tarkastelen tasapuolisen kohtelun velvoitetta ja tasa-arvolain ja yhdenvertaisuuslain sääntelyä. Esillä on myös opintovapaalaki. Artikkelissa tarkastelen ja arvioin Ruotsin lainsäädäntöä, joka koskee työajalla tapahtuvaa osaamisen kehittämistä ja tätä koskevia sopimusratkaisuja. Esillä on myös Tanskassa käytössä oleva valtion henkilöstön osaamisen kehittämisen järjestelmä, jonka pääperiaatteet esittelen lyhyesti.
Työajalla tapahtuva osaamisen kehittäminen on laaja ja moninainen kokonaisuus. Se sulkee sisäänsä organisaation kulttuurin, rakenteet ja arvot. Keskeisiä ovat toisaalta työnantajan, toisaalta yksilön tarpeet ja päämäärät. Työnantajan näkökulmasta osaaminen on keskeinen menestystekijä. Yksilön näkökulmasta osaaminen on olennainen työllistyvyyttä ylläpitävä tekijä, ja keskeisiä edellytyksiä osaamisen kehittämiselle ovat aika ja raha. Osaamisen kehittäminen edellyttää sitä tukevia lainsäädäntöratkaisuja ja lakien aktiivista soveltamista. Hyvä yhteistoiminta ja hyvä työturvallisuus tukevat osaamisen kehittämistä. Nämä näkökulmat ovat esillä artikkelissa.
Artikkelin kirjoittaja on Helena Lamponen, OTT, työoikeuden dosentti (HY, TY), LL.M., VT.
Helena Lamponen on erikoistunut työoikeuteen ja on tehnyt pitkän uran Akavan Erityisaloissa lakimiehenä 1989–2010 sekä johtajana ja tiimin vetäjänä 2014–2024. Hän toimi Suomen ensimmäisenä yhteistoiminta-asiamiehenä vuosina 2010–2014. Lamponen toimii nykyisin yrittäjänä.
Keskustelu aikuisten työssä ja työn vuoksi tapahtuvasta oppimisesta on virinnyt Suomessa viime vuosina erityisesti 2019 aloitetun parlamentaarisen jatkuvan oppimisen reformin siivittämänä. Taustalla on ymmärrys työelämän laajasta muutoksesta, joka haastaa kaikkien työikäisten osaamista luoden sille uudenlaisia vaatimuksia ja siten jatkuvan oppimisen tarpeita. Huomio jatkuvan oppimisen tukemisessa on 2020-luvulla siirtymässä erityisesti aliedustettujen ryhmien, kuten vähäisen pohjakoulutuksen omaavien, oppimisen turvaamiseen ja koulutustasoa nostavan oppimisen edistämiseen. Samaan aikaan on tärkeää edelleen huomioida myös korkeakoulutettujen ja asiantuntijatyössä toimivien osaamisen turvaaminen: oppimisen tarve on muuttuvassa maailmassa päättymätön.
Tässä artikkelissa paneudutaan osaamisen ja asiantuntijuuden käsitteisiin sekä asiantuntijuuden kehittymisen ja osaamisen vanhenemisen teemoihin. Artikkelissa päähuomio kohdistetaan asiantuntijatyön erityisyyteen oppimisen kontekstina sekä kolmeen keskeiseen perusteluun, joiden vuoksi asiantuntijoiden osaamisen kehittäminen edellyttää tukea ja panostuksia. Lopuksi koostetaan tietoa siitä, millä tavalla ja mistä lähtökohdista aikuispedagogiikkaa kannattaa koulutuksessa, työssä ja näiden rajapinnoilla rakentaa, jotta kestävä, innovaatioita ja hyvinvointia tuottava oppiminen on mahdollista.
Artikkelin kirjoittaja Soila Lemmetty on kasvatustieteen tohtori, dosentti ja yliopistotutkija Itä-Suomen yliopiston kasvatustieteiden ja psykologian osastolla. Hän johtaa jatkuva oppiminen työelämässä (JATKOT) -tutkimusryhmää.
Jo lähes puolet työllisistä suomalaisista toimii asiantuntijatehtävissä. Asiantuntijatyössä korostuvat erityisesti työn psyykkinen vaativuus sekä työmäärään, ajankäyttöön, työn sirpaloitumiseen ja työn rajattomuuteen liittyvät kuormitustekijät. Toisaalta asiantuntijoiden työssä on useita työkykyä suojelevia piirteitä kuten vähäinen fyysinen kuormittavuus, vahva työn itsenäisyys ja työn imu sekä merkityksellisyyden kokemus.
Työkyvyttömyyttä mitataan usein sairauspoissaolojen ja työkyvyttömyyseläkkeiden kautta. Asiantuntijatyötä tekevillä, erityisesti ylemmillä toimihenkilöillä, on kaikkiaan pienempi työkyvyttömyyden riski kuin suorittavaa työtä tekevillä, sillä heillä on muita vähemmän tuki- ja liikuntaelinten sairauksien aiheuttamaa työkyvyttömyyttä. Toisaalta mielenterveyden häiriöihin perustuva työkyvyttömyys on toimihenkilöillä yleisempää kuin työntekijäasemassa olevilla, ja asiantuntijoiden mielenterveysperusteinen työkyvyttömyys on viime vuosina ollut kasvussa. Vaikka asiantuntijoilla painottuvat työn psykososiaaliset kuormitustekijät, asiantuntijoiden työkyvyttömyyden riskitekijät ovat kaikkiaan samankaltaisia kuin muillakin ryhmillä.
Työkyvyttömyysriskeihin ovat yhteydessä monenlaiset yksilöihin, työpaikkoihin ja yhteiskuntaan liittyvät tekijät, joista vahvimmin näyttöä on yksilötason tekijöiden yhteyksistä työkykyyn. Yksilötekijöistä nousevat erityisesti ikä ja elintavat, työpaikkaan liittyvistä tekijöistä erityisesti psyykkisiin työoloihin kuten työn vaatimuksiin ja työn voimavaroihin liittyvät tekijät. Työkyvyttömyysriskeihin voidaan vaikuttaa yhteiskunnan, yksilöiden ja työpaikkojen keinoin. Työkyvyn heikkenemisen ensimmäisiin merkkeihin on puututtava varhain, jotta voidaan ehkäistä pitkäkestoista ja pysyvää työkyvyttömyyttä.
Artikkelin kirjoittajan esittely
Artikkelin kirjoittaja Jenni Blomgren on valtiotieteiden tohtori ja sosiaalipolitiikan dosentti. Hän työskentelee tutkimusprofessorina Kelan tutkimusyksikössä ja on tehnyt pitkään tutkimustyötä työkykyyn, sairauspoissaoloihin, kuntoutukseen ja työkyvyttömyyseläkkeiseen sekä terveyspalveluihin liittyvistä teemoista.
Arvioinnin kohteena ovat työturvallisuuslain (738/2002) psykososiaalista kuormitusta koskevat velvoitteet mukaan luettuna esihenkilöiden perehdyttäminen ja näiden tarkentamisen tarve. Esillä on tässä yhteydessä myös työn eri muodot.
Artikkelissa tarkastellaan työnantajan työturvallisuusvastuun siirtoa ja siihen sisältyvien velvollisuuksien määrittelyä lainsäädännössä ja näitä koskevia muutostarpeita. Siinä arvioidaan, mikä vaikutus esihenkilön työturvallisuus- ja rikosoikeudelliseen vastuuseen ja vastuiden selkiytymiseen olisi, jos psykososiaalisesta kuormituksesta säädettäisiin nykyistä tarkemmin työturvallisuuslaissa ja erillisessä asetuksessa sääntelyvaatimuksineen. Artikkelin piirissä on psykososiaalisen kuormituksen yhteydessä työturvallisuuslain ja rikoslain (39/1889) seuraamusjärjestelmä ja tämän arvioinnin ja muuttamisen tarpeet. Artikkelissa tarkastellaan psykososiaalisen kuormituksen yhteydessä Ruotsin lainsäädännöllisiä ratkaisuja.
Kirjoittajan esittely
Artikkelin on kirjoittanut on Helena Lamponen, OTT, työoikeuden dosentti (HY, TY), LL.M., VT.
Helena Lamponen on erikoistunut työoikeuteen ja on tehnyt pitkän uran Akavan Erityisaloissa lakimiehenä 1989–2010 sekä johtajana ja tiimin vetäjänä 2014–2024. Hän toimi Suomen ensimmäisenä yhteistoiminta-asiamiehenä vuosina 2010–2014. Lamponen toimii nykyisin yrittäjänä.
Keinot työkyvyttömyyden vähentämiseksi vaihtelevat sen mukaan, mistä työkyvyttömyyden vaiheesta puhutaan: onko kyse sairauspoissaolon alkamisesta, sairauspoissaolon pitkittymisestä vai pysyvästä työkyvyttömyydestä.
Työpaikoilla esihenkilöiden merkitys on keskeinen. Työpaikalla tulee olla varhaisen tuen malli ja selkeät käytänteet, jotka tukevat työntekijän paluuta työhön. Näiden laatimisessa työterveyshuollon osaaminen on arvokas tuki työpaikalle. Tämän lisäksi luottamuksen ilmapiiri on tärkeä.
Sairauspoissaolon riskiin vaikuttavat monet tekijät, joista lääketiede selittää vain osan. Jos sairauspoissaoloja halutaan vähentää, työntekijän lisäksi myös työn pitää joustaa nykyistä enemmän. Työssä vaadittavasta koulutuksesta ja siitä maksettavasta palkasta riippumatta meillä jokaisella on tarve tulla kuulluksi ja kohdelluksi yksilönä.
Artikkelin kirjoittaja: Kari-Pekka Martimo
Kari-Pekka Martimo on dosentti, työterveyshuollon ja työlääketieteen erikoislääkäri. Hän toimii osastonjohtajana, työkykyriskien ennakointi ja tutkimus -osastolla työeläkeyhtiö Ilmarisessa. Hänellä on laaja ja monipuolinen kokemus työkykyriskien ennakoinnista, hallinnasta ja tutkimuksesta.
Kokonaistuottavuuden kautta nähdään, miten hyvinvointi, oppiminen ja tuottavuus muodostavat työyhteisössä kokonaisuuden, jota ohjataan strategisella johtamisella. Artikkeli luo katsauksen Suomen sijoittumiseen kansainvälisessä vertailussa. Johtopäätöksissä ehdotetaan keinoja tuottavuuden kasvun vahvistamiseen: esimerkiksi ICT- ja TKI-panostusten lisääminen, osaamisen vahvistaminen ja kokeneempien työntekijöiden pitäminen mukana työelämässä.
Kirjoittaja: Sinimaaria Ranki, johtava asiantuntija, Työterveyslaitos
Sinimaaria Ranki toimii johtavana asiantuntijana Työterveyslaitoksella. Hän on kansantaloustieteilijä. Viime vuosina hän on keskittynyt kokoamaan laaja-alaisesti tutkimustietoa päätöksenteon tueksi tuottavuuden, työssä oppimisen ja työhyvinvoinnin kokonaisuudesta työelämän tulevaisuudennäkymiin peilaten.
Työikäisen väestön keski-ikä nousee Suomessa jatkuvasti, ja etenkin yli 55-vuotiaiden osuus työikäisistä on kasvanut. Samaan aikaan huolta herättävät syntyvyyden voimakas väheneminen ja pienenevien nuorten ikäluokkien lisääntyvät mielenterveyden haasteet (Blomgren, 2024; Tilastokeskus, 2023). Keskimääräinen työuran keston odote 15-vuotiaalle oli vuonna 2023 jo lähes 40 vuotta (Eläketurvakeskus, 2024). Tämä asettaa heikkenevän huoltosuhteen ohella paineita säilyttää työkyky mahdollisimman pitkään pienenevässä työssä käyvien ryhmässä.
Työkykyyn voidaan vaikuttaa myönteisesti työelämässä, mikä vaikuttaa edelleen työurien pituuteen. Esimerkiksi hyvät työolosuhteet ja terveet elintavat vaikuttavat työkykyyn. Työn lisäksi työkykyyn vaikuttavat myös yksilölliset ja muuhun elämään liittyvät tekijät. Työkyky on tärkeä ihmisen työhön osallistumista määrittävä tekijä muuttuvassa työelämässä. Työntekijöiden itsensäkin kannattaa tavoitella hyvää työkykyä työuransa aikana, sillä työhön osallistuminen lisää terveyttä ja hyvinvointia ja edelleen eläkeiän elämänlaatua (Brady ym., 2020; Ilmarinen, 2009). Työkyky ennustaa myös työhön liittyviä asenteita, työn imua, työssä suoriutumista ja hyvinvointia.
Työkyky on yksilöpainotteinen käsite
Työkyvyllä tarkoitetaan usein työntekijän fyysistä, psyykkistä ja sosiaalista toimintakykyä sekä terveyttä, joihin nojaten työntekijä kykenee suorittamaan työtehtävänsä (Cadiz ym., 2019). Vaikka terveys muodostaa työkyvyn kivijalan, työkyvyn kannalta olennaista on myös, että työntekijällä on työn suorittamiseen tarvittavat tiedot ja taidot eli osaaminen, motivaatio tehdä työtä sekä työolosuhteet, jotka tukevat hänen työssä suoriutumistaan ja hyvinvointiaan. Tämän yksilölähtöisen määritelmän mukaan työkyvyssä on siten keskeistä tasapaino työntekijän terveyden ja toimintakyvyn, osaamisen, motivaation ja työolojen sekä työn ja työelämän vaatimusten välillä työhön osallistumisen mahdollistamiseksi (ks. kuvio 1 Työkykytalo).
Kuvio 1. Työkykytalo, Työterveyslaitos.
Työkykyä ajatellaan usein yksilöstä lähtien sen puuttumisen tai heikentymisen kautta eli työkyvyttömyyden käsitteen kautta. Työkyvyttömyydellä viitataan puolestaan terveyden tai toimintakyvyn heikkenemiseen. Sairausvakuutusjärjestelmän määritelmän mukaan työkyvyttömyyden kriteerinä on aina sairaus, vika tai vamma, mikä on ymmärrettävästi vaikuttanut työkyvyn käsitteen merkitykseen. Kansallisia rekisterejä hyödyntävässä tutkimuksessa sairauden ja työkyvyttömyyden ilmeneminen sairauspoissaoloina tai työkyvyttömyyseläkkeinä sekä näiden ennustaminen on vakiintunut tapa tarkastella työkykyä.
Väestötasolla työkykyä on usein arvioitu Työkykyindeksin (Tuomi ym., 1997) yhdellä kysymyksellä nykyisestä työkyvystä suhteessa omaan elinikäiseen parhaimpaan työkykyyn. Tämä kysymys sisältää ikänäkökulman ja vastaajan oman näkemyksen siitä, mitä työkyky tarkoittaa (Cadiz ym., 2019). Tutkimuksista tiedetään, että yleisesti ottaen itse arvioitu työkyky laskee iän myötä (Brady ym., 2020; Cadiz ym., 2019).
Työelämän muuttuessa lähes kaikki työtehtävät vaativat nykyisin tietojen ja taitojen jatkuvaa päivittämistä, mikä korostaa erityisesti osaamisen ja motivaation merkitystä työkyvyn keskeisinä osa-alueina. Osaamisesta ja motivaatiosta puhutaan kuitenkin harvoin työkyvyn osana. Esimerkiksi työssä oppiminen näyttää olevan yhteydessä työssä jatkamiseen (systemaattinen katsaus Shiri ym., 2023).
Työkyvyn käsite on joissain määritelmissä laajentunut kattamaan työhön osallistumista laajemmin määrittävät olosuhteet (Ilmarinen ym. 2006; Lederer, 2014). Tällöin ajatellaan, että työkykyyn vaikuttavat myös ympäristön ja yhteiskunnan erityispiirteet sekä lähiyhteisöt ja omat elämäntapahtumat. Esimerkiksi McGonagle ja kollegat (2021) osoittivat tutkimuksessaan, että yksityiselämän ongelmat ja taloudelliset huolet vaikuttivat merkittävästi heikentyneen työkyvyn kokemukseen.
Työntekijän ikääntyminen ei välttämättä merkitse työkyvyn heikkenemistä
Työkyky voi vaihdella työuran aikana ja siihen voivat vaikuttaa monet tekijät kuten sairastuminen, ikääntyminen, työelämän muutokset esimerkiksi osaamisvaatimuksissa ja henkilökohtaiset elämäntilanteet.
Työntekijän ikääntymisen ajatellaan usein vaikuttavan kielteisesti hänen työkykyynsä. Taustalla on näkemys, että ikääntymisen myötä työntekijän fyysinen ja kognitiivinen toimintakyky heikkenevät ja monet työkykyä heikentävät sairaudet yleistyvät, mikä altistaa työntekijän suuremmalle kuormittuneisuudelle työssä ja johtaa edelleen heikompaan työkykyyn. Kuten edellä todettiin, näkemys voi kummuta myös siitä, että tutkimuskirjallisuudessa työkykyä tarkastellaan yleisimmin yksilön henkilökohtaisena kokemuksena siitä, millainen hänen työkykynsä on tutkimushetkellä verrattuna siihen, mitä hänen työkykynsä on ollut parhaimmillaan (Cadiz ym., 2019). On luonnollista, että tällöin useimmat työntekijät raportoivat heikkenemistä tapahtuneen ikääntymisen myötä (Van den Berg ym., 2009), erityisesti jos työ on ollut fyysisesti kuormittavaa.
Viimeisin väestötutkimus Terve Suomi osoittaa esimerkiksi, että yli 55-vuotiaiden työntekijöiden arviot omasta koetusta työkyvystään olivat heikompia kuin nuoremmilla työntekijöillä. Lisäksi itsensä täysin tai osittain työkyvyttömäksi kokevien osuus kasvoi 55 ikävuoden jälkeen (Koponen ym., 2023). Huomionarvoista on kuitenkin, että kaksi kolmasosaa 55–64-vuotiaista arvioi itsensä täysin työkykyisiksi (Koponen ym., 2023). Lisäksi iällä ei ollut juurikaan merkitystä, kun vastaajia pyydettiin arvioimaan sitä, uskooko hän terveytensä puolesta pystyvänsä työskentelemään vanhuuseläkkeelle asti (Väänänen ym., 2024). Toisin sanoen työkyky ei välttämättä aina heikkene iän myötä. Kuitenkin yksilölliset erot työkyvyn kokemuksessa voivat olla suuria.
Yli 50-vuotiaat voivat työssään jo nuorempia ikäryhmiä paremmin
Viimeaikaiset suomalaiset tutkimukset osoittavat yli 50-vuotiaiden työntekijöiden voivan työssään paremmin kuin nuoremmat ikäryhmät. Esimerkiksi Työn Suomi -väestötutkimus (Väänänen ym., 2024) ja Työterveyslaitoksen Miten Suomi voi? -tutkimukset osoittavat, että työssä uupumisoireilua esiintyy yli 50-vuotiaiden ikäryhmässä vähemmän kuin alle 34-vuotiaiden ikäryhmässä. Näissä tutkimuksissa työn imua usein kokevien osuus oli vanhemmassa ikäryhmässä suurempi kuin nuorimmassa ikäryhmässä. Väestötutkimuksessa (Väänänen ym., 2024) yksi todennäköisimmin työuupumuksesta kärsivistä ryhmistä oli alle 35-vuotiaat naiset (14 prosenttia, koko väestössä 9 prosenttia). Lisäksi osoitettiin, että alle 35-vuotiaat palautuivat työstä vanhempia ikäryhmiä heikommin.
Sairauspoissaoloissa on puolestaan nähtävissä ikäryhmien välisten erojen kapeneminen. Työterveyslaitoksen viimeisimmässä Kunta10-tutkimuksessa ilmenee yli 50-vuotiaiden sairauspoissaoloissa aleneva trendi, ja nuoremmassa, alle 30-vuotiaiden ikäryhmässä, trendi on päinvastainen (ks. kuvio 2). Ikäryhmittäin vertailtuna alle 30-vuotiailla työntekijöillä oli vuonna 2023 kaikkein eniten sairauspoissaoloja. Samanlainen kehityssuunta sairauspoissaoloissa on ollut nähtävissä myös Kelan ja Kevan tilastoissa.
Kun tarkastellaan työkyvyttömyyseläkkeelle johtaneita syitä, havaitaan niissä myös selkeä yhteys ikään: yli 55-vuotiailla yleisin syy olivat tuki- ja liikuntaelinsairaudet ja alle 55-vuotiailla puolestaan mielenterveyden häiriöt (Eläketurvakeskus, 2024; Työeläkeyhtiö Ilmarinen, 2024).
Ikääntyminen tuo usein tullessaan myös parempia voimavaroja työssä
Voimavaroja kuluttavan näkökulman vastapainona ikääntymisen voidaan nähdä kerryttävän työntekijän henkilökohtaisia ja työhön liittyviä voimavaroja, kuten osaamista, vaikutusmahdollisuuksia työssä, stressinsäätelykeinoja ja elämänhallintaa ja siten edistävän työkykyä. Voimavarojen merkitys työkyvyn tukijana on kahtalainen: ne suojaavat kuormittavissa tilanteissa työntekijän hyvinvointia ja toisaalta auttavat hankkimaan työssä uusia voimavaroja.
Työn Suomi -väestötutkimus (Väänänen ym., 2024) ja Työterveyslaitoksen Miten Suomi voi? -tutkimus vuodelta 2023 osoittivat esimerkiksi, että mitä vanhemmasta työntekijästä oli kysymys, sitä enemmän hänellä on työssään kokemuksensa mukaan hyvinvointia tukeavia voimavaroja, kuten itsenäisyys ja pystyvyys ja sitä vähemmän hyvinvointia kuormittavia tekijöitä, kuten työn ja muun elämän konfliktit tai tunnetyön kuormitus).
Ikääntyminen muokkaa tavoitteita ja motivaatiota työssä
Ikääntyminen vaikuttaa siihen, millaisia tavoitteita, työn piirteitä tai resursseja työntekijä työssään arvostaa ja mikä häntä työssä motivoi (SOC-teoria: Baltes & Baltes, 1990; Baltes ym., 1999). Siten ajatus, että työntekijän motivaatio työhönsä heikentyisi hänen ikääntyessään, ei pidä paikkaansa. Pikemminkin voidaan todeta, että motivaation kohteet ja sitä ylläpitävät tekijät voivat muuttua. Kansainväliset tutkimukset (mm. meta-analyysi Kooij ym., 2011) osoittavat, että siinä missä nuorempien motivaatio työssä suuntautuu yleensä voimakkaammin uuden oppimiseen, ammattitaidon kehittämiseen ja uralla etenemiseen, vanhempia työntekijöitä motivoi erityisesti mahdollisuus hyödyntää työssä kokemustaan ja osaamistaan, työn itsenäisyys ja mahdollisuus saavuttaa työssä tärkeinä pidettyjä tavoitteita sekä organisaation että yhteiskunnan tasolla. Tämä asettaa puolestaan vaatimuksia ikäjohtamiselle sekä työtehtävien ja työnkuvien muokkaukselle.
Samaan tapaan eri-ikäiset työpaikalla saattavat hyötyä erilaisista työkyvyn tuen keinoista. Esimerkiksi kunta-alalla toteutettu kvasikokeellinen tutkimus psykososiaalisten tekijöiden vaikutuksesta pitkiin sairauspoissaoloihin osoitti, että yli 50-vuotiailla työntekijöillä työn vaatimusten pieneneminen vähensi sairauspoissaoloja 13 prosenttia ja työn hallinnan vahvistui 12 prosenttia. Nuoremmilla työntekijöillä (alle 50-vuotiailla) puolestaan työn palkitsevuuden lisääntyminen vähensi tulevia sairauspoissaoloja 17 prosenttia (Shiri ym., 2023a).
Työssä suoriutuminen ei heikkene ikääntymisen myötä
Ikääntymisen ja työssä suoriutumisen yhteys näyttää vaihtelevan sen mukaan, millaisesta työssä suoriutumisesta ja työtehtävästä kulloinkin on kyse. Useassa tutkimuksessa on kuitenkin havaittu, että yli 50-vuotiaiden työssä suoriutumisen ja työmotivaation kannalta tärkeää on erityisesti se, että työ tarjoaa edelleen uusia haasteita, kehittymismahdollisuuksia ja mahdollisuuksia käyttää omaa ydinosaamistaan (Karanika-Murray ym., 2024; Damman ym., 2013). Työssä kehittymismahdollisuuksien on puolestaan osoitettu olevan yhteydessä vahvempaan työhön sitoutumiseen ja työhön osallistumiseen (Shiri ym., 2023b).
Työn Suomi -tutkimuksen (Väänänen ym., 2024) tulokset tukivat havaintoja iän ja työssä suoriutumisen myönteisestä yhteydestä: yli 50-vuotiaista 77 prosenttia arvioi työsuorituksensa hyväksi, kun vastaava luku 20–34-vuotiaiden joukossa oli 66 prosenttia.
Työpaikat työkyvyn edistämisen areenoina
Työpaikoilla voidaan tehdä paljon työkyvyn tukemiseksi ja työurien kestävyyden varmistamiseksi. Työpaikkoja koskeva lainsäädäntö velvoittaa työnantajia ja vastuuttaa työntekijöitä itseään huolehtimaan terveellisestä ja turvallisesta työympäristöstä.
Erityisesti psykososiaalisten työn piirteiden kohdalla työkykytalo-mallin tasapainoajatus työn vaatimusten ja voimavarojen ja työntekijän kykyjen ja voimavarojen yhteensovittamisesta sopii hyvin lähtökohdaksi käytännön toimien suunnittelemiselle työpaikoilla. Myös viimeaikaiset lainsäädäntömuutokset esimerkiksi työturvallisuuslaissa kohdistavat huomiota yksilöllisten tekijöiden huomioimiseen sopivaan työkuormitukseen pyrittäessä.
Työkyky- ja työurajohtaminen
Työkyvystä voidaan työpaikalla huolehtia esimerkiksi työkykyjohtamisen periaatteiden mukaisesti. Siihen liittyy järjestelmällinen tapa toimia: asettaa tavoitteita, tehdä suunnitelmia, toteuttaa toimenpiteitä, seurata niiden toteutumista ja johtaa tiedolla. Työterveyshuolto on työpaikan keskeinen kumppani erityisesti terveydellisten vaikutusten arvioinnissa ja työkyvyttömyyden ennaltaehkäisyssä. Työkykyjohtamisessa voidaan kuitenkin huomioida ennaltaehkäisyn kaikki vaiheet eli myös työn ja työympäristön kehittäminen niin, ettei työhön tai työssä suoriutumiseen liittyviä ongelmia pääse syntymään. Toisaalta on tärkeää tunnistaa mahdolliset riskit ja voimavaratekijät työssä sekä seurata ihmisten omaa työhyvinvointia, osaamista ja motivaatiota.
Työurajohtaminen lisää työkykyjohtamiseen työntekijän ja kestävän työuran näkökulman. Työurajohtamisen ydinajatuksena on työntekijän ja työpaikan tavoitteiden yhteensovittaminen ja eri-ikäisyyden, työurasiirtymien sekä yksilöllisyyden huomioiminen toiminnassa. Kun työpaikalla on tietoa työuran eri vaiheista ja eri-ikäisten johtamisesta, työkyvyn tuen toimenpiteitä voidaan myös tarvittaessa suunnata esimerkiksi ikäryhmän tai työuran vaiheen mukaan.
Työkyvyn edistämisen vaikuttavat toimenpiteet työpaikoilla
Työkykyyn vaikuttavista tukitoimista tai interventioista on vähemmän tietoa kuin tekijöistä, jotka ovat yhteydessä työkykyyn tai työkyvyttömyyteen tai ennustavat niiden kehitystä. Lisäksi suurin osa interventiotutkimuksista on kohdistunut yksilöön eikä työpaikkatasoon. Tuoreen tutkimusraportin (Ervasti ym., 2022) mukaan seuraavien toimenpiteiden vaikutuksista terveyteen ja työkykyyn oli vahvinta tutkimusnäyttöä: terveellisten elintapojen edistäminen, korvaavan työn malli tai työn muokkaus, osasairauspäiväraha, yksilölähtöinen stressinhallinta ja eräät yksilöpsykoterapian muodot. Katsauksen tehneiden tutkijoiden mukaan on näyttöä myös joidenkin työyhteisöön kohdistuvien toimien myönteisistä vaikutuksista. Yksi näistä oli psykososiaalisen työympäristön kehittäminen, jolla tarkoitetaan esimerkiksi työn johtamisen, organisoinnin ja yhteistyön sujuvoittamista ja joka on tutkimuksissa vaikuttanut myönteisempiin arvioihin esihenkilöiden toiminnasta, tiedonkulusta työyksikössä tai omasta hyvinvoinnista. Suora näyttö työkyky- ja terveysvaikutuksista on kuitenkin riittämätöntä. Katsauksesta tehdyn politiikkasuosituksen mukaan parhaaseen lopputulokseen päästään kuitenkin todennäköisemmin yhdistämällä erilaisia toimia (Ervasti ym., 2022a, 2022b).
Työurien pidentäminen ikääntyvässä yhteiskunnassa
Työurien pidentämisen tavoite ei ole uusi, sillä ikääntyvän väestön osuus on noussut Suomessa poikkeuksellisen voimakkaasti jo pitkään. Väestörakenteen kehityksen kääntäminen vaikuttaa haastavalta, joten työkykyisen työikäisen väestön turvaaminen on kansantaloudelle erittäin tärkeää. Työelämään vaikuttavat monet muutosvoimat kuten teknologinen kehitys ja digitalisaatio, lisääntyvä epävarmuus ja osaamisen kehittämisen vaatimukset. Lisäksi työelämään sosiaalisena ympäristönä vaikuttavat yleistyvä hybridityö, työn ja yksityiselämän yhteensovittamisen vaikeudet ja monimuotoistuvat työyhteisöt. Ne haastavat työpaikkoja olemaan ajan tasalla siinä, millaisia kuormitustekijöitä työelämässä pitäisi hallita ja toisaalta siinä, mitä voimavaroja on käytettävissä tai mitä pitäisi vahvistaa hyvinvoinnin takaamiseksi.
Tarvitsemme kestäviä työuria, jotka myös kestävät pitkään. Työelämän ja toimintaympäristön nopea muutos vaativat työkyvyn edistämistä monipuolisesti ja monia keinoja käyttäen. Työelämä on tärkeä ympäristö työkyvyn edistämisessä jatkossakin.
Laajan työkykymääritelmän ja työelämän tuottavuuden lisäämisen tavoitteiden valossa olisi tärkeää nähdä hyvä työkyky myös sen tuottavuuspotentiaalin kautta. Jos työkyvyttömyyden kustannuksia pystytään hallitsemaan paremmin eli poistamaan siitä aiheutuvia kuluja yhteiskunnalle, ollaan vasta puolimatkassa tuottavuuteen. On lisäksi tärkeä kysyä, miten saataisiin enemmän huomiota hyvän tai erinomaisen työkyvyn ja tuottavuuden luomaan lisäarvoon? Tätä voidaan nimittää yhteiskunnan tasolla esimerkiksi työpotentiaaliksi, mikä tarkoittaa sitä käytössä olevaa työpanosta ja sen tuottamaa arvoa, jota voisi olla käytettävissä, jos työkyky olisi hyvä ja olosuhteet olisivat suotuisia (Joensuu & Henriksson, 2023).
Työkyvyn tutkimukseen tarvittaisiin monipuolisempaa tutkimusinstrumenttia, joka tavoittaa työkyvystä myös muita kuin terveysulottuvuuksia ja toisaalta kuvaisi paremmin nimenomaan myönteistä työkykyä työkyvyttömyyden sijaan. Näin saataisiin lisää tietoa siitä, miten hyvää työkykyä voidaan edistää vaikuttavasti.
Lähteet
Baltes, P., & Baltes, M. (1990). Psychological Perspectives on Successful Aging: The Model of Selective Optimization with Compensation. Teoksessa P. Baltes, & M. Baltes (toim.), Successful Aging: Perspectives from the Behavioral Sciences (s. 1–34.). New York: Cambridge University Press.
Baltes, P., Staudinger, U., & Lindenberger, U. (1999). Lifespan psychology: theory and application to intellectual functioning. Annu Rev Psychology, 50, 471–507. doi: 10.1146/annurev.psych.50.1.471. PMID: 15012462.
Blomgren, J. (2024). Mielenterveysongelmat veivät jo yli 100 000 suomalaista pitkälle sairauspoissaololle vuonna 2023. Tietotarjotin. Kela.
Brady, G., Truxillo, D., Cadiz, D., Rineer, J., Caughlin, D., & Bodner, T. (2019). Opening the black box: Examining the nomological network of work ability and its role in organizational research. Journal of Applied Psychology, 105, 637–670.
Cadiz, D., Grant, B., Rineer, J., & Truxillo, D. (2018). A Review and Synthesis of the Work Ability Literature.
Damman, M., Henkens, K., & Kalmijn, M. (2013). Late-career work disengagement: the role of proximity to retirement and career experiences. Journals of Gerontology, Series B: Psychological Sciences and Social Sciences, 68, 455–463.
Ilmarinen, J., Gould, R., Järvikoski, A., & Järvisalo, J. (2006). Työkyvyn moninaisuus. Teoksessa R. Gould, J., Ilmarinen, J., Järvisalo, & S. Koskinen (toim.) Työkyvyn ulottuvuudet. Terveys 2000-tutkimuksen tuloksia, ss. 17–34.
Karanika-Murra, M., Van Veldhoven, M., Michaelides, G., Baguley, T., Gkiontsi, D., & Harrison, N. (2024). Curvilinear Relationships Between Age and Job Performance and the Role of Job Complexity. Work, Aging and Retirement, 10, 156–173.
Koponen, P., Koskinen, S., Sainio, P., Joensuu, M., & Puttonen, S. (2023). Työkyky. Teoksessa: Terve Suomi -työryhmä (2023). Terve Suomi -tutkimuksen 2022–2023 ilmiöraportit. [Verkkosivu]. Saatavilla: Työkyky. Viitattu 26.9.2024
Kooij ym. (2011). Age and work-related motives. Results of a meta-analysis. Journal of Organizational Behavior, 32, 192–225.
Lederer, V., Loisel, P., Rivard, M. & Champagne, F. (2014). Exploring the diversity of conceptualizations of work (dis)ability: A scoping review of published definitions. Journal of Occupational Rehabilitation, 24, 242–267.
McGonagle, A., Bardwell, T., Flinchum, J. & Kavanagh, K. (2022). Perceived work ability: A constant comparative analysis of worker’s perspectives. Occupational Health Science, https://doi.org/10.1007/s41542-022-00116-w
Shiri, R., Mattila-Holappa, P., Kauppi, M., Aalto, V., Oksanen, T. & Ervasti, J. (2023a). How does lowering psychosocial risks influence sickness absence? A prospective cohort study analyzed a s a quasi-experiment. European Journal of Public Health, 34, 1, 136–142.
Shiri, R., El-Metwally, A., Sallinen, M., Pöyry, M., Härmä, M. & Toppinen-Tanner, S. (2023b) The Role of Continuing Professional Training or Development in Maintaining Current Employment: A Systematic Review. Healthcare, 11(21), 2900; https://doi.org/10.3390/healthcare11212900
Tilastokeskus. (2023). Väestörakenne. Helsinki: Tilastokeskus. Saatavilla: Väestö ja yhteiskunta.
Tuomi, K., Ilmarinen, J, Jahkola, M ym. (1997) Työkykyindeksi. 2. korj. painos. Työterveyshuolto 19. Helsinki, Työterveyslaitos.
Van den Berg, T., Elders, L., Zwart, B., & Bufdorf, A. (2009). The effects of work-related and individual factors on the work ability index: A systematic review. Career Developmental International, 13, 85–94.
Väänänen, A., Toivanen, M., Selander, K., Joensuu, M., & Airaksinen, J. (2024). Työn Suomi – Työolot, työkyky ja työhyvinvointi Terve Suomi -tutkimuksessa. Helsinki: Työterveyslaitos.
Tämä on Akava Works -artikkeli 11/2024.
Kirjoittajat ovat johtaja Salla Toppinen-Tanner ja erikoistutkija Mervi Ruokolainen, jotka työskentevät Työterveyslaitoksella.
Tekoälyä on tutkittu yli 60 vuotta, ja monia tekoälysovelluksia on ollut jo kauan käytössä. Kasvojen-, äänen- ja tekstintunnistusohjelmat ovat vakiintuneita sovelluksia, jotka ainakin osittain perustuvat koneoppimismenetelmiin. Kuitenkin viime vuonna tekoäly nousi uudella tavalla pinnalle luovien eli generatiivisten mallien myötä. Erityisesti laajat kielimallit, kuten ChatGPT, Google Bard ja kuvamallit, esimerkiksi Midjourney ja Stable Diffusion, ovat siivittäneet keskustelua. Kyseiset sovellukset ovat olleet erittäin näyttäviä ja ne ovat herättäneet paljon pöhinää. Kuitenkin keskustelussa on tärkeää pitää mielessä, että näissä malleissa niin kuin kaikissa tekoälysovelluksissa, on omat rajoituksensa. Näitä malleja voi väärinkäyttää siinä missä muutakin uutta teknologiaa.
Mitä tekoäly on?
Jotta voisimme tarkastella koneoppimisen heikkoja puolia, olisi hyvä aluksi kerrata, miltä tyypillinen tekoälymalli näyttää. Tarkastellaan yksinkertaista, mutta usein käytettyä, tekoälymallia, jolla suodatetaan roskasähköpostia. Tämä malli sisältää joukon sanoja ja siinä jokaisella sanalla on paino eli jokin luku: positiivinen numero tarkoittaa, että sana esiintyy usein normaaleissa sähköposteissa, ja negatiivinen numero tarkoittaa, että sana esiintyy usein roskasähköposteissa. Tuntemattomat sanat saavat painoksi nollan. Luokitin arvioi sähköpostia tarkastelemalla viestin sanoja. Tämä tehdään laskemalla yhteen viestin sanojen painot. Jos summa on positiivinen, viesti arvioidaan normaaliksi. Jos summa on negatiivinen, viesti arvioidaan roskasähköpostiksi.
Kyseisen mallin työläin prosessi on sanojen painojen määrittely. Tämä voidaan tehdä käsin, mutta parempia tuloksia saadaan nopeammin, jos painot valitaan tietokoneen avulla. Tämä tehdään valitsemalla tarkoitukseen sopiva koulutusaineisto, sopiva optimointikriteeri ja sopiva algoritmi, joka optimoi valittua kriteeriä.
Tietokoneen osuus mallintamisesta on siis optimoida painot eli mallien muuttujat eli parametrit, ja mallintajan osuus on mallin, aineiston, optimointikriteerin ja -algoritmin valinta. Mallintajan eli ihmisen merkitys usein unohtuu, kun puhutaan tekoälysovelluksista, vaikka hänen päätöksillään on huomattava vaikutus sovelluksen suorituskykyyn. Mallintajia tarvitaan, koska ei ole olemassa yleistä tekoälymallia, eli sellaista mallia, joka soveltuisi jokaiseen ongelmaan. Esimerkiksi kielimalli ei sovellu kuvien luomiseen, vaan siihen tarvitaan oma malli.
Vaikka edellä mainittu esimerkki on yksinkertainen, kaikki tekoälysovellukset noudattavat samaa periaatetta. Ongelma muotoillaan optimointiongelmaksi määrittelemällä mallin ja sen parametrien lisäksi, miten mallin toimivuutta mitataan ja millä tavalla parametreja optimoidaan.
Jos ongelma on monimutkainen, kuten esimerkiksi tekstin mallinnus, mallin pitää olla joustava. Joustavissa malleissa on hyvin monta parametria: esimerkiksi ChatGPT 4.0:n malliparametrien yhteismäärän on arvioitu olevan 1,76 triljoonaa. Isojen mallien käytössä kuitenkin esiintyy aina useita ongelmia. Ensinnäkin mallien kouluttaminen, tallentaminen ja käyttö kuluttaa paljon resursseja. Toiseksi joustavat mallit ovat herkkiä ylioppimiselle, jossa opetusaineistossa esiintyvä kohina vaikuttaa voimakkaasti mallin päätöksentekoon. Kolmanneksi isoja malleja on käytännössä mahdotonta tutkia käsin. Ne ovat ikään kuin mustia laatikkoja, joiden tehokkuutta voi ainoastaan arvioida tilastollisella analyysilla, mutta joiden päätöskriteerien loogisuutta on mahdotonta analysoida. Tämä myös tarkoittaa sitä, että jos huomataan, että malli käyttäytyy väärällä tavalla, mallin korjaaminen ei onnistu kovin helposti.
Tekoälyn rajoitukset
Tarkastellaan seuraavaksi tekoälyn rajoituksia.
Koneoppimisen asiantuntijoiden keskuudessa liikkuu seuraava urbaani legenda: Yhdysvaltain armeija päätti rakentaa luokittimen, joka pystyisi erottelemaan Yhdysvaltain ja Neuvostoliiton tankit satelliittikuvista. Luokitin saatiin tehtyä ja se toimikin testiaineistolla erittäin hyvin. Mutta lisätestien jälkeen sen huomattiin olevan täysin kelvoton. Koulutusaineistossa kaikki Yhdysvaltain tankit oli valokuvattu päivällä ja Neuvostoliiton tankit oli valokuvattu yöllä. Luokitin olikin oppinut tunnistamaan päiväsajan eikä tankkeja kuvista.
Kuten urbaaneilla legendoilla on tapana olla, kyseistä tapausta ei todennäköisesti tapahtunut tai ainakaan siitä ei ole uskottavaa dokumentaatiota. Kuitenkin tällä koulutusaineistolla ja melkein millä tahansa mallilla näin kävisi. Koneoppimisalgoritmi nimittäin ei tiedä, haluaako käyttäjä mallintaa päiväsaikaa vai tankkeja. Kun päiväsaika on helpompi ongelma, algoritmi keskittyy ratkaisemaan sen. Mallintajan pitää siis ottaa tämä huomioon ja joko korjata koulutusaineisto tai muokata mallia.
Tiedeyhteisössä on paljon esimerkkejä siitä, että rakennettu malli on tehnyt jotain muuta kuin on alun perin haluttu. Koronapandemian takia ajankohtainen luokitteluongelma on taudin diagnosointi keuhkoröntgenkuvista. Tätä varten eräs suosittu aineisto koostuu toisaalta keuhkokuumetta ja toisaalta koronapotilaiden keuhkokuvista. Kuitenkin tässä koulutusaineistossa keuhkokuumepotilaat olivat lapsia ja koronapotilaat aikuisia, jolloin tällä aineistolla koulutettu luokitin saattoikin ennustaa potilaan iän taudin sijasta [21]. Tämän lisäksi Maguolo ja Nanni [16] näyttivät, että vaikka yleisesti käytetyistä röntgenkuva-aineistoista olisi sensuroitu olennainen tieto, eli itse keuhkokuvat, kuvista rakennettu koronaluokitin silti pääsee hyviin tuloksiin.
Pedreshi et al. [20] tutkivat luottoluokitusaineistoa ja näyttivät, että aineistossa esiintyvää syrjintää esiintyy myös aineiston päälle rakennetussa luokittimessa. Malli oli siis oppinut syrjimään aineiston pohjalta. Tämän lisäksi tutkijat näyttivät, että ei riitä, että poistaa aineistosta piirteet, joita voi käyttää syrjimiseen, kuten esimerkiksi iän tai sukupuolen: malli nimittäin pystyi päättelemään poistettujen piirteiden arvot muista piirteistä tietyllä tarkkuudella. Tällainen epäsuora syrjintä edeltää tekoälyä. Kuuluisa esimerkki tästä on yhdysvaltalaisen asuntolainayhdistyksen (HOLC) 1930-luvulla laatima asuinalueiden luokittelu: tietyt alueet olivat yhdistyksen mukaan verrattain riskittömiä asuntolainakohteita, ja jotkin alueet enemmän riskikkäitä. Tämä luokittelu johti siihen, että asuntolainan saaminen oli vaikeampaa joillain alueilla. Näillä alueilla asui pääsääntöisesti vähemmistöjen edustajia. Toisin sanoen käyttämällä pelkästään osoitetietoja pystyttiin syrjimään vähemmistöjä. Muun muassa tämän ilmiön takia tekoälytutkimuksessa on viime aikoina kehitetty järjestelmiä, jotka ottavat syrjinnän huomioon [1].
Laajoja kielimalleja on koulutettu valtavalla määrällä aineistoa tavoitteena matkia ihmisen tuottamaa tekstiä. Toisaalta näitä malleja on markkinoitu uudenlaisina hakukoneina, ja niitä käytetään etsimään tietoa. Nimenomaan tämä koulutuksen ja todellisen käytön ero voi olla ongelmallinen, koska kielimallit voivat tuottaa virheellistä tietoa.
Kielimallien virheet juontavat juurensa kahdesta lähteestä.
Ensinnäkin itse koulutusaineistossa voi olla vinoumia. Esimerkiksi, kielimallit ovat tuottaneet väärää terveystietoa, joka on perustunut rasistisiin käsityksiin [19]. Varhainen versio ChatGPT:sta on myös, pyydettäessä, tuonut esiin maita, joiden asukkaita voi kiduttaa [4]. Tämä tulos on erittäin ongelmallinen, erityisesti koska kielimalleilla voivat olla laajaa vaikutusta. Moni pitää vaikkapa Microsoftin tai Googlen hakupalvelun tarjoamaa vastausta paljon uskottavampana kuin yksittäisten käyttäjien viestejä sosiaalisessa mediassa. Lähdekritiikki on mahdotonta, jos alkuperäinen lähde ei ole tiedossa.
Toiseksi kielimallit saattavat johtaa harhaan antamalla täysin vääriä vastauksia. Esimerkiksi kielimallit eivät pärjää kovin hyvin matematiikkatehtävissä [7]. Mallit voivat myös tuottaa väärää tietoa. Yhdysvalloissa ainakin kahdessa tapauksessa lakimiehet ovat jääneet kiinni kielimallien käytöstä, osittain sen takia, että kielimallit olivat tuottaneet tekaistuja ennakkotapauksia [27].
Tekoälyn huijaaminen
Valtaosa koneoppimismenetelmistä olettaa, että aineiston lähde ei ole tietoinen luokittimesta eikä yritä huijata sitä. Luokittimia on kuitenkin usein mahdollista kiertää.
Tarkastellaan aluksi aikaisemmin esitettyä roskasähköpostiluokittelijaa. Helpoin tapa kiertää kyseinen luokittelija on käyttää vaihtoehtoisia kirjaimia, esimerkiksi Unicode-merkistöistä löytyy merkkejä, jotka näyttävät samanlaisilta, mutta joilla on eri koodi. Toinen suoraviivainen tapa on lähettää teksti kuvana. Tässä ei hyökätä varsinaisesti mallia vastaan, vaan esikäsittelyprosessia vastaan. On kuitenkin tärkeää pitää mielessä, että järjestelmä on yhtä heikko kuin sen heikoin lenkki.
Hienostuneempi hyökkäys käyttää mallin painoja hyväksi. Jos hyökkääjä tuntee sanojen painotukset, hän voi vältellä negatiivisia sanoja ja sirotella positiivisia sanoja viestin sekaan. Tällöin luokitin päättelee, että viesti ei olekaan roskapostia.
Samanlaisia hyökkäyksiä voidaan tehdä monimutkaisempia luokittimia vastaan. Hyökkäyksiä, jossa hyökätään kuvien luokittelua vastaan, on tutkittu erityisen paljon. Ne saattavat perustua siihen, että luokittimen suunnittelussa ei ole otettu kaikkia tilanteita huomioon. Esimerkiksi sotkemalla liikennemerkki saadaan luokitin luulemaan, että merkissä lukeekin jotain muuta. Ihminen kuitenkin huomaa heti, että kyltissä on jotain vikaa, koska ihminen tietää, miltä oikea liikennemerkki näyttää. Luokitin ei voi päätellä samalla tavalla, ellei sitä ole erikseen koulutettu siihen.
Monimutkaiset luokittimet, erityisesti kuvaluokittimet, toimivat eri tavalla kuin ihmiset. Nämä luokittimet päättelevät yksittäisistä pikseliarvoista, mitä kuvassa näkyy. Muuttamalla pikseliarvoja voidaan huijata luokitinta tavalla, joka ei olisi mahdollista, jos tulkinnan olisi tekemässä ihminen. Esimerkiksi Sharif et al. [23] saivat laittamalla erityiset lasit päähänsä luokittimen luulemaan, että kuvassa onkin tietty julkisuuden henkilö. Toisena absurdina esimerkkinä Athalye et al. [3] tulostivat 3D-tulostimella kilpikonnan, jonka Googlen kehittämä kuvaluokitin luokitteli kivääriksi.
On hyvää pitää mielessä, että näissä tapauksissa varsinaisen hyökkäyksen, esimerkiksi silmälasien suunnittelun, tekee varta vasten tähän tarkoitukseen suunniteltu algoritmi. Toisin kuin roskapostiesimerkissä hyökkäys ei onnistu ilman koneen apua. Tämän lisäksi nämä hyökkäykset ovat aina räätälöityjä tiettyä luokitinta vastaan. Sama kuvamanipulaatio ei siis toimi useaa luokitinta vastaan. Jotta hyökkääjä voi toteuttaa hyökkäyksen, hänellä pitää olla pääsy luokittimeen. Ihannetapauksessa hyökkääjä tietää mallin rakenteen ja muuttujat, esimerkiksi siinä tapauksessa, että malli on julkinen. Toisessa tapauksessa hyökkääjä ei tiedä mallin muuttujia, mutta hän pystyy käyttämään mallia esimerkiksi rajapinnan kautta, jolloin hän voi päätellä muuttujat kyselyiden avulla. Tässäkin tapauksessa hyökkäys onnistuu, mutta hyökkäysalgoritmi on monimutkaisempi ja kuluttaa enemmän resursseja.
Edellä mainituissa esimerkeissä hyökkäys tehtiin luokitteluvaiheessa. Jos hyökkääjällä on pääsy opetusaineistoon, muuttamalla sitä hän pystyy vaikuttamaan luokittimen päättelyyn. Tällainen aineiston myrkytys voi tulla erityisen ajankohtaiseksi, jos kielimalleja aletaan käyttää tietolähteinä, koska mallit on koulutettu julkisella aineistolla.
Varhainen esimerkki opetusaineiston manipuloinnista on hakukoneen tulosten manipuloiminen. Suosituin hakukone ennen Googlea oli Altavista, joka tuli käyttöön vuonna 1995 ja poistui käytöstä vuonna 2013. Sen hakukone perustui puhtaasti sivujen sisältöön: jos sivun HTML-koodista löytyi termejä, jotka vastasivat hakua, niin kyseinen sivu sijoitettiin korkealle. Tämä menetelmä johti nopeasti siihen, että sivustojen kehittäjät piilottivat HTML-koodiin paljon yleisiä, mutta sisällön kannalta epäolennaisia termejä, jotta hakukone näyttäisi sivun mahdollisimman usein. Tämä huononsi hakutuloksia huomattavasti, minkä vuoksi syntyi uusi markkinarako, jonka Google täytti. Google-hakukoneen toiminta perustui linkkeihin: tärkeille sivuille oli paljon linkkejä tärkeiltä sivuilta. Tämä paransi huomattavasti hakukoneen tuloksia ja oli yksi tärkeimmistä syistä siihen, että Google vei voiton selainten välisessä kilpailussa.
Vaikka Googlen tulosten manipulointi on huomattavasti vaikeampaa kuin Altavistan, se on kuitenkin mahdollista. Perusajatus tällaisissa hyökkäyksissä, joita on yleensä kutsuttu Google-pommeiksi, on luoda sivusto, johon on paljon linkkejä. Hyökkäysten motiivit ovat tavallisimmin olleet poliittisia tai taloudellisia. Tämän lisäksi manipulaatioita on tehty huumorimielessä tai kilpailun yhteydessä [8].
Mielenkiintoinen esimerkki aineiston myrkytyksestä on Nightshade-sovellus, jonka tarkoitus on vaikeuttaa kuvien luvatonta käyttöä luovien eli generatiivisten mallien koulutuksessa [13]. Sovellus toimii muokkaamalla kuvia siten, että kuva näyttää täysin samalta, mutta näillä kuvilla koulutettu luova eli generatiivinen malli toimii huonosti.
Onnistunut aineiston myrkytys edellyttää, että on tiedossa, miten malli toimii. Altavistan tapauksessa tiedettiin, että HTML-koodissa esiintyneet termit olivat tärkeitä, kun taas Googlen tapauksessa tiedettiin, että linkit olivat tärkeitä. Tällä hetkellä ei ole selvää miten kielimalleihin voi vaikuttaa. Tämän lisäksi, kielimalleja ei päivitetä uusimmalla aineistolla, toisin kuin hakukoneita. Joten manipulaatiomahdollisuudet ovat tällä hetkellä ainoastaan teoreettiset, mutta tilanne saattaa muuttua tulevaisuudessa.
Tekoälyn väärinkäyttö
Kun tekoälysovelluksia on tarkasteltu etiikan näkökulmasta, yleensä on tuotu esiin ongelmia yksityisyyden suojan kanssa, kuten konenäön käyttämistä kasvojentunnistuksessa joko valtion [10] tai yritysten toimesta [14]. Tekoälyä on myös käyty profilointiin: Cambridge Analytica käytti Facebookin kautta kerättyä aineistoa Donald Trumpin vuoden 2016 kampanjassa ja brexit-kampanjassa [6]. Yhdysvaltainen kappaketju Target käytti 2000-luvun alussa myyntiaineistoa ennustaakseen, oliko asiakas raskaana [9].
Luovat eli generatiiviset mallit ovat luoneet uusia väärinkäyttömahdollisuuksia. Perimmäinen ongelma on, että usein oletetaan ihmisen tuottaneen sisällön esimerkiksi tekstin, kuvan tai äänen ja että on suhteellisen helppoa ja mahdollista erottaa ihmisen tuottama sisältö koneen tuottamasta sisällöstä. Tämä oletus on murenemassa.
Kielimallia käyttäen on suhteellisen helppoa tuottaa uskottavaa tekstiä, jonka sisältö kuitenkin saattaa olla virheellistä. Tästä syystä suosittu kyselypalsta Stack Overflow on kieltänyt kielimallien käytön [24]. Kielto on luonteva myös, koska mallin tuottamat vastaukset eivät tuo alustalle mitään lisäarvoa. Palstalle kirjoittava kysyjä olisi voinut yhtä hyvin kysyä saman asian suoraan kielimallista, joten on aiheellista kysyä, miksi hän vaivautuisi käyttämään mitään muuta palvelua. On myös hyvä huomata, että kielimallit on koulutettu muun muassa tekstillä, joka on saatu tällaisilta kyselypalstoilta. Tästä syystä kielimallien kehittäjien intressissä on, että kielimallien vastauksia ei esiinny palstoilla, koska muuten voi syntyä noidankehä, jossa uusia kielimalleja koulutetaan vanhan kielimallin vastauksilla.
Kielimallien käyttö sisällön tuottamisessa on ollut myös ongelmallista. Scifi-lehti Clarkesworld joutui sulkemaan vuoden 2023 alussa uusien tarinoiden vastaanoton sen jälkeen, kun lehteen oli lähetetty satoja tekoälyllä tuotettuja novelleja [2]. Useat julkaisijat alkoivat tuottaa tekoälyllä tekstejä joko myöntäen sen avoimesti tai väittäen, että kirjoittaja oli ihminen [18].
Vuonna 2023 on julkaistu useita tiedeartikkeleita, joissa tekijäksi oli listattu kielimalli. Tästä seurasi se, että isot tiedelehtien julkaisijat päivittivät ohjeistustaan ja kielsivät kielimallien laittamisen tekijöiksi. Tämä kielto on luonteva, koska kirjoittaja on vastuussa tekstistään, mutta kielimalli ei voi kantaa vastuuta. Kielimallien dokumentoitu käyttö on kuitenkin edelleen sallittu.
Kielimallien käytöstä opetustilanteissa on tullut erittäin iso ongelma sekä yliopistotasolla [22] että alemmilla koulutusasteilla [25]. Kielimallien avulla on mahdollista tuottaa esseevastauksia ja väittää tekstiä omakseen. Tämä on plagiointia. Sen tunnistaminen on hyvin vaikeaa, ellei suorastaan mahdotonta. Kielimallit huonontavat esseetehtävien käytettävyyttä opiskelijoiden sisäistämiskyvyn testaamisessa ja arvioimisessa, ja sen vuoksi opettajat ovat joutuneet suunnittelemaan kurssitehtävät uudelleen tai muuttamaan arviointikriteerejä. Ongelmana on myös, että usein rajattu kielimallin käyttö, esimerkiksi apuna oikoluvussa tai ladonnassa, voi olla sallittua, mutta sisällön luomiseen se ei ole toivottua. Kielimallien käytön rajoitusten selittäminen opiskelijoille voi olla haastavaa. Tällä hetkellä näihin ongelmiin ei ole hyvää ratkaisua.
Ongelmia on myös ilmennyt kuvan ja äänen tuottamisessa. Tekoälyllä luodut kuvat voivat näyttää aidoilta, erityisesti jos kuvat on poistettu asiayhteydestään eli kontekstistaan [28]. Tekoälysovellusten tuottamia kuvia ja ääntä on valjastettu muun muassa romanssihuijauksiin [26] ja disinformaation levittämiseen [11]. Nämä uudet työkalut eivät varsinaisesti luo uusia väärinkäytöstapoja, vaan sen sijaan ne madaltavat olemassa olevien huijaus- tai väärinkäytöskampanjoiden kustannuksia.
Kuvissa ja äänissä on huomattavan paljon enemmän dataa kuin tekstissä. Tämän takia tekoälyllä luodun kuvan tai äänen erottaminen aidosta on helpompi tehtävä kuin tekoälyllä tuotetun tekstin erottaminen ihmisten kirjoittamasta. Tämän lisäksi kuva- tai äänitiedostoon voi lisätä digitaalisen vesileiman, mikä huomattavasti helpottaa tunnistamista. On kuitenkin tärkeää huomata, että tällainen vesileima on poistettavissa tai piilotettavissa, mutta toisaalta vesileiman käyttö nostaa kiinnijäämisen todennäköisyyttä ja sitä kautta huijauskampanjan kustannuksia.
Keskustelu tekijänoikeuksista tekoälysovelluksissa on ollut vilkasta. Mallit on usein koulutettu aineistolla, joka on suojattu tekijänoikeuksilla. Esimerkiksi kuvanluontisovellus Midjourney on muun muassa koulutettu Tove Janssonin teoksilla [15]. On epäselvää, onko tällainen aineiston käyttö laillista, ja tekijänoikeusasiasta on meneillään monia oikeudenkäyntejä [17, 12]. Vaikka käyttö todettaisiin lailliseksi, on hyvin todennäköistä, että suuri osa taiteilijoista ei hyväksy, että heidän teoksiaan käytetään koulutusaineistona sovelluksessa siten, että he eivät saa palkkiota. Lisäksi sovellus saattaa tehdä heidän työnsä tarpeettomaksi tulevaisuudessa. Toisaalta Yhdysvalloissa on tullut useita oikeuden päätöksiä, joiden mukaan tekoälyllä tuotettua materiaalia ei voida suojata tekijänoikeuslailla, koska itse teoksen tuottamiseen tarvittava ihmistyö on ollut liian vähäpätöistä [5].
Tekoälysovellukset ovat erittäin hyödyllisiä työkaluja, mutta niitä voi myös väärinkäyttää tai käyttää väärin. Sen takia on tärkeää, että ymmärrämme, miten nämä mallit toimivat, miten niitä voi käyttää ja millaisia seurauksia niiden käytöllä on.
[3] Anish Athalye, Logan Engstrom, Andrew Ilyas, and Kevin Kwok. Synthesizing robust adversarial examples. In International conference on machine learning, pages 284–293. PMLR, 2018.
[8] Isabel Drost and Tobias Scheffer. Thwarting the nigritude ultramarine: Learning to identify link spam. In European Conference on Machine Learning, pages 96–107. Springer, 2005. URL https://doi.org/10.1007/11564096_14.
[15] Anna-Maija Lippu. Tove Janssonin nimi on taidepiirejä huolestuttavalla listalla: näin kommentoi muumeja vimmatusti suojeleva yritys. Helsingin Sanomat, 2024. URL https://www.hs.fi/kulttuuri/art-2000010110672.html.
[16] Gianluca Maguolo and Loris Nanni. A critic evaluation of methods for covid-19 automatic detection from x-ray images. Information Fusion, 76:1–7, 2021. URL https://doi.org/10.1016/j.inffus.2021.04.008.
[19] Jesutofunmi A Omiye, Jenna C Lester, Simon Spichak, Veronica Rotemberg, and Roxana Daneshjou. Large language models propagate race-based medicine. NPJ Digital Medicine, 6(1): 195, 2023. URL https://doi.org/10.1038/s41746-023-00939-z.
[20] Dino Pedreshi, Salvatore Ruggieri, and Franco Turini. Discrimination-aware data mining. In Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and datamining, pages 560–568, 2008. URL https://doi.org/10.1145/1401890.1401959.
[21] Michael Roberts, Derek Driggs, Matthew Thorpe, Julian Gilbey, Michael Yeung, Stephan Ursprung, Angelica I Aviles-Rivero, Christian Etmann, Cathal McCague, Lucian Beer, et al. Common pitfalls and recommendations for using machine learning to detect and prognosticate for covid-19 using chest radiographs and ct scans. Nature Machine Intelligence, 3(3):199–217, 2021. URL https://doi.org/10.1038/s42256-021-00307-0.
[23] Mahmood Sharif, Sruti Bhagavatula, Lujo Bauer, and Michael K Reiter. A general framework for adversarial examples with objectives. ACM Transactions on Privacy and Security (TOPS), 22(3):1–30, 2019. URL https://doi.org/10.1145/3317611.
[25] Noora Takamäki. Lukio-opettaja keksi keinon, miten hän voi paljastaa Chat GPT:llä huijanneet oppilaat. YLE, 2023. URL https://yle.fi/a/74-20055878.
[26] Olli-Pekka Toivanen. Romanssihuijarit ovat jo valjastaneet tekoälyn käyttöönsä —videopuhelussa näkemääsi ihastusta ei ehkä ole olemassakaan. YLE, 2023. URL https://yle.fi/a/74-20060751.
Tekoälyn läpimurto julkisuudessa tapahtui kunnolla viimeistään vuonna 2023. Vuoden aikana OpenAI:n kehittämä, suuriin kielimalleihin (GPT) perustuva tekoälysovellus ChatGPT lunasti monet tekoälylle asetetut odotukset. Se pystyi tuottamaan tekstiä annettujen ohjeiden perusteella ja vastaamaan kysymyksiin uskottavammin kuin aiemmat tekoälyt. Perustana tälle on tekoälyn opetukseen käytetyt suuret tekstimassat. Samalla, kun tekoälyn käyttö lisääntyi, käynnistyivät spekulaatiot sen vaikutuksista ja tulevaisuudesta.
Tekoäly on nähty uhkana erityisesti luovilla aloilla. Uhkakuvana on, että tekoäly pystyy tuottamaan sille annettujen ohjeiden mukaisesti kaikenlaisia sisältöjä, jolloin tarve luovan työn tekijöille vähenee. Tässä keskustelussa sivurooliin on jäänyt se, että useimpien tekoälyjen opetuksessa käytetään luovilla aloilla luotuja teoksia. Näillä teoksilla on tekijä ja teoksiin kohdistuu tekijänoikeus. Voiko tekoäly siis käyttää esimerkiksi tätä kirjoitusta omaan oppimiseensa ja omien vastaustensa pohjana? Onko näillä tekoälyn luomilla aineistolla oma tekijäoikeus?
OpenAI on tämän hetken puhutuin tekoälyn kehittäjä, sillä se on julkaissut myös kuvia tuottavan DALL-E ohjelman, josta on nyt käytössä jo toinen kehitysversio. Vastaavia ovat Midjourney ja Stable Diffusion. Näiden läpimurtosovellusten vanavedessä on tullut suuri joukko muitakin suuriin kielimalleihin ja kuvapankkeihin perustuvia tekoälysovelluksia, jotka voivat tuottaa tekstiä ja kuvia käyttäjän esittämien toiveiden mukaisesti. Tällaisiin tekoälysovelluksiin liittyy useita kysymyksiä, joita esimerkiksi EU:n tekoälysäännös (AI Act) pyrkii tulevaisuudessa sääntelemään.
Tekijänoikeus tekoälyn koulutuksen haasteena
Tekoälyalalla on runsaasti keskustelua tekoälyjen kehittämisen etiikasta. Yksi keskeinen kysymys on tekoälyjen opettaminen materiaalilla, joka on muiden tekemää. Esimerkiksi ChatGPT:lle on annettu aineistona käytännössä kaikki internetissä oleva tieto aluksi vuoteen 2021 ja nyt joiltakin osin vuoteen 2023 saakka. Tämä aineisto on lähes kokonaan sellaista, jolla on tekijä ja johon kohdistuu tekijänoikeuden suoja. Olennainen kysymys onkin, että salliiko nykyinen tekijänoikeuden sääntely tekijänoikeuden alaisen aineiston käytön tällaisessa tarkoituksessa vai onko kyse tekijänoikeuden loukkauksesta (esim. Kousa 2013).
Tekijänoikeuslähtöisessä tekoälykeskustelussa ja -tutkimuksessa lähtökohta oli pitkään pohtia, voiko tekoälyn tuottama tai avustama teos saada tekijänoikeuden suojan ja voiko tekoäly olla tekijä. Tekijänoikeudessa peruslähtökohtana on, että teoksen tulee ylittää niin sanottu teoskynnys eli osoittaa, että se on riittävän itsenäinen ja omaperäinen. Teokseksi voidaan katsoa mikä tahansa luovan työn tulos. Suomessa tekijälle syntyy automaattisesti tekijänoikeus teokseen, joten tekijänoikeutta ei tarvitse rekisteröidä tai merkitä symboleilla. Tekijänoikeuksiin luetaan myös niin sanotut lähioikeudet, mutta niiden ottaminen tähän tarkasteluun sekoittaisi kokonaisuutta. (Harenko ym. 2016.)
Tekijänoikeus antaa tekijälle yksinoikeuden päättää teostensa käytöstä. Muilla ei ole oikeutta käyttää teosta ilman tekijän lupaa. Tähän on muutamia poikkeuksia, joihin palataan oikeassa asiayhteydessä. Tekijänoikeuteen kuuluvat taloudelliset oikeudet eli oikeus valmistaa teoksesta kappaleita ja oikeus saattaa teos yleisö saataville. Nämä oikeudet on mahdollista luovuttaa osittain tai kokonaan. Tekijänoikeuteen kuuluvat myös moraaliset oikeudet eli oikeus tulla tunnustetuksi teoksen tekijänä ja oikeus kieltää teoksen omaperäisyyttä tai taiteellista arvoa loukkaava muuntelu. Moraalisia oikeuksia ei ole mahdollista luovuttaa. (Harenko ym. 2016.)
Tekijänoikeus on tällä hetkellä voimassa tekijän koko elämän ajan ja 70 vuotta hänen kuolemansa jälkeen. Huomattava on, että tekijänoikeus ei koske ideaa, vaan muotoa. Vielä jokin aikaa sitten tekijänoikeuskeskustelussa oli osittaisena vitsinä, että tekijänoikeuden suoja-aikaa pidennetään aina kun Mikki Hiiren tekijänoikeus on vanhenemassa. Nyt alkuvuodesta 2024 ensimmäinen Mikki Hiiren muoto menetti suojansa, joten suoja-aikoihin on tuskin tulossa muutoksia.
Keskeistä tekijänoikeudessa on, että riippumatta kansallisesta lainsäädännöstä tekijänoikeus suojaa tekijän asemaa ja tekijänoikeuden haltijan oikeuksia kaikkia kohtaan. Tekijänoikeus on yksinoikeus päättää tietyn teoksen käytöstä, johon sisältyy oikeus saada korvausta teoksen käytöstä tekijän näin halutessa. Tekoälyn koulutuksessa käytetään todennäköisesti tekijänoikeudella suojattua materiaalia ilman tekijänoikeuden haltijan lupaa.
Tekijänoikeuden rajoitukset mahdollisuutena
Tekijänoikeuteen on olemassa erilaisia rajoituksia, jotka sallivat teoksen esittämisen ja kappaleiden valmistamisen eli kopioinnin tietyissä olosuhteissa. Pääosin nämä koskevat opetuskäyttöä, tutkimuskäyttöä ja lainaamista sallitulla tavalla. Sallitussa lainaamisessa eli sitaatissa on mainittava aina alkuperäinen teos ja tekijä. Tämän ohella Yhdysvalloissa on tekijänoikeudessa fair use -oppi, jonka mukaan tekijänoikeudella suojattua aineistoa voi käyttää tietyissä tilanteissa. Tämän opin mukainen käyttöala on paljon laajempi kuin eurooppalaiset erikseen mainittuihin ja rajattuihin tarkoituksiin soveltuvat tarkkarajaiset poikkeukset (Tapio 2013). Suurin osa tunnettujen tekoälysovellusten kehittäjistä on yhdysvaltalaisia, jolloin tapauksiin sovellettavan lainsäädännön valinta voi olla haasteellista ja aiheuttaa ongelmia.
Suomen tekijänoikeussäännöstö perustuu nykyään suurelta osin EU:n tekijänoikeussäännöksiin ja vastaa mannereurooppalaista tekijänoikeuskäsitystä. Tähän sääntelyn kuuluvat väliaikaiset teoskappaleet, joita saa tekijänoikeuslain 11 a § mukaan valmistaa tarkoitukseen, jolla ei ole itsenäistä taloudellista merkitystä ja joka on väliaikaista sekä välttämätön osa teknistä prosessia. Tämä soveltuu käytännössä välimuistiin tehtäviin teoskappaleisiin. Tekoälyn opetuskäyttö saattaisi liittyä tähän poikkeukseen, mutta itsenäisen taloudellisen merkityksen arviointi voi muodostua ongelmaksi. Toisaalta kaikissa tekoälymalleissa toiminta ei ole väliaikaista, vaan teos on tekoälyn käytössä pidempään ja tekoäly ottaa teoksesta osia omaan toimintaansa.
EU:n DSM-direktiivin (digitaalisten sisämarkkinoiden direktiivi) seurauksena Suomen tekijänoikeuslain 13 b §:ään (HE 43/2022 vp ja HE 313/2022 vp) on lisätty mahdollisuus valmistaa teoskappaleita tekstin- ja tiedonlouhintaa varten. Edellytyksenä on, että teokseen on laillinen pääsy eli se on tekijänoikeuden haltijan luvalla saatavilla. Tekijä voi kieltää nimenomaisesti tämän käyttötarkoituksen. Tekoälyä ei direktiivissä mainita, joten säännöksen soveltuvuus nimenomaan tekoälyn tapauksessa on avoinna.
Direktiivejä saatetaan voimaan jäsenvaltioissa kansallisesti, joten Euroopan tasolla voi olla eroja tiedonlouhinnan sääntelyssä. Toisaalta tässäkin tarkastelussa on kyse tekoälykohtaisuudesta eli ovatko kaikki tekoälyt ja niiden opetustoiminta direktiivissä ja laissa mainittua tiedonlouhintaa. Toisaalta verkossa on aineistoa ajalta ennen direktiiviä, jolloin tekijällä ei ole ollut tietoa tällaisesta toiminnasta ja mahdollisuutta kieltää sitä. Tällä hetkellä käytössä olevat tekoälyt on koulutettu aineistolla, jossa tekijöiden lupia ei ilmeisesti ole kysytty. Vastaavalla tavalla esimerkiksi Google on pitänyt pitkään omaa Google Books-palveluaan tarjolla, vaikka sen sisältämien kirjojen tekijänoikeus ei ole ollut selvitetty. Yhdysvalloissa alioikeustasolla käyttö on toistaiseksi mennyt fair use-kategoriaan. Tekoäly näin ollen on vain osa internetissä olevaa tekijänoikeudellisen aineiston harmaalla alueella liikkuvaa hyödyntämistä.
Tekoälyn koulutusaineiston sallittuun käyttöön voidaan käyttää myös lisenssimallia. Suomessa ja monissa muissa maissa sopimuslisenssijärjestelmän avulla on saatu paljon aineistoja lisensoidun käytön piiriin. Tekijänoikeusjärjestöt kuten Teosto, Kopiosto ja Sanasto edustavat suurta joukkoa tekijöitä, joiden puolesta he ovat luoneet lisensointisopimusmallin ja hoitavat lisensoinnin tekijän puolesta. Tekoälyn käyttöön on jo luotu tietokantoja, joiden sisältöä voi lisensoida tekoälyn opetukseen. Samoin OpenAI on tehnyt lisenssisopimuksia kuvapankkien kanssa.
Tekoäly tekijänä
Tekoäly tekijänä on oma kysymyksensä (Alen ym. 2018). Pääsääntöisesti tekijänoikeus suojaa luonnollisen tekijän eli ihmisen riittävän omaperäisiä teoksia. Ensimmäinen ongelma nykyisissä tekoälyissä koskee tekijän määrittelemistä. Onko tekijä tekoäly vai teoksen tekoälyltä ohjeistuksen avulla hankkinut henkilö? Toinen ongelma on omaperäisyyskynnys. Monenlaisia teoksia tehdään yhdistelemällä vaikutteita ja jopa muita teoksia, mutta tekoäly selkeästi käyttää muita teoksia pohjana, ja näin tulisi selvittää, onko tekoälyn mahdollista lisätä luomaansa teokseen sellaista uutta, joka ylittäisi teoskynnyksen. Eri teosten käyttö voi johtaa myös tilanteeseen, jossa tekijänoikeus kuuluu usealla tekijälle (Mattila 2022).
Ajatus tekoälystä yhteistyönä luodun teoksen tekijänä voi soveltua myös tilanteisiin, joissa tekoäly käyttää opetuksessaan käytettyä aineistoa uuden teoksen luomisessa tavalla, jossa aiempien teosten käyttö voidaan osoittaa ja tekijänoikeus näin jakaa. Pohdinta osoittaa sen, että tällä hetkellä ei ole varmuutta oikeudellisesta perusteesta, jolla tekoäly voi käyttää tekijänoikeudella suojattuja aineistoja. Toisaalta ei ole yksiselitteisiä säännöksiä, joilla käyttö voidaan kieltää. EU:n ja sitä kautta Suomen uusi tiedonlouhintasääntely mahdollistaa tässä säännöksessä tarkoitetun käytön kieltämisen, mutta vielä ei ole tulkintaa siitä, missä määrin tekoälyn kouluttaminen ja uusien teosten luominen vastaa tätä tekijänoikeuden poikkeusta. Samalla tavoin avoimena on kysymys tekoälyn luoman teoksen tekijänoikeudesta.
Joulukuussa 2023 muun muassa New York Times on haastanut OpenAI:n ja Microsoftin oikeuteen. Perustana on, että ChatGPT:n koulutuksessa on käytetty miljoonia New York Timesin artikkeleita. Ratkaisun saamisessa kestää aikansa ja se soveltuu suoraan vain yhdysvaltalaiseen tekijänoikeussääntelyyn. Samalla tavoin aiemmin syksyllä 2023 ryhmä taiteilijoita nosti kanteen kuvia hyödyntäviä tekoälysovelluksia vastaan. EU:n piirissä on suunnitteilla uusia säännöksiä, ja vasta uudistetun tekijänoikeussääntelyn tiedonlouhintaa koskevia säännöksiä ei ole vielä testattu oikeudessa. Huolimatta suhteellisen pitkästä historiasta ja teoreettisesta keskustelusta, on tekoälyn ja tekijänoikeuden välisessä suhteessa vielä paljon avoimia kysymyksiä. Tilanne ei ole ratkeamassa pitkään aikaan ja siihen saakka voidaan olettaa, että kaikki internetissä oleva aineisto on tekoälyn koulutuksen materiaalia. Mukaan lukien tämä kirjoitus.
Lähteet
Alen, Anette & Ballardini, Rosa & Pihlajarinne, Taina: Tekoälyn tuotokset ja omaperäisyysvaatimus – kohti koneorientoitunutta tekijänoikeutta?. Lakimies 7–8/2018, s. 975–995.
Hallituksen esitys eduskunnalle laeiksi tekijänoikeuslain ja sähköisen viestinnän palveluista annetun lain muuttamisesta HE 43/2022 vp.
Hallituksen esitys eduskunnalle laeiksi tekijänoikeuslain ja sähköisen viestinnän palveluista annetun lain muuttamisesta annetun hallituksen esityksen (HE 43/2022 vp) täydentämisestä. HE 313/2022 vp.
Harenko, Kristiina & Niiranen, Valtteri & Tarkela, Pekka: Tekijänoikeus. 2. uudistettu painos. Helsinki: Talentum Pro 2016 (3. painos julkaistaan keväällä 2024).
Mattila, Tuomas: Yhteistyö tekijänoikeudessa: tutkimus alkuperäisestä tekijänoikeuden haltijasta yhteistyöhön ja yhteisöllisyyteen perustuvissa luovissa prosesseissa. Suomalainen lakimiesyhdistys 2022.
Tapio, Veli-Markus: Fair Use ja kolmivaihetesti joustavamman tekijänoikeudellisen sääntelyn mahdollistajina. Lakimies 1/2013, s. 35–54.
Artikkelin on laatinut julkisoikeuden yliopistonlehtori ja viestintäoikeuden dosentti Riku Neuvonen.
Artikkeli on toinen osa Akava Worksin ”Näkökulmia tekoälyyn” -artikkelisarjassa.
Kuva: DALL-E -tekoälysovelluksen tuottama kuva artikkelin teemoista.
Tekoäly teknologiana on jo pidemmän aikaa ollut esillä yritysten visioissa, mutta osaksi jokapäiväistä keskustelua se on tullut toden teolla parin viime vuoden aikana. Algoritmit eivät enää ole piilossa, vaan voimme keskustella tekoälyn kanssa filosofiasta ja pyytää nähtäväksi tussilaveerauksen vaikkapa höyrykäyttöisellä kirpulla ratsastavasta apinasta. Ohjelmoijan työkalupakkiin on tullut tekoälyapuri, joka sanallisten ohjeiden perusteella tuottaa rutiinikoodia verkkokaupan pohjaksi ja voi säästää päiväkausia monimutkaisen algoritmin kirjoittamisesta.
Siirryimmekö yhdessä vuodessa tekoälyn kivikaudelta tieteisfiktioon? Tästä ei ole kyse vaan todellisuudessa on kyse pidemmän kehityksen luonnollisesta askeleesta. Tekoälyn toiminta perustuu koneoppimiseen, jossa joustava malli – syvä neuroverkko – on opetettu tietoaineistojen avulla vastaamaan annettuun syötteeseen halutulla tavalla. Alalla on käytetty melko samankaltaisia malleja ja oppimisen periaatteita jo vuosikymmeniä, mutta laskentatehon ja käytettävissä olevan datan kasvu yhdessä menetelmien jatkuvan kehityksen kanssa alkaa kantaa hedelmää. Melko tasainen kehitys näyttää meistä mullistavalta, koska tekoäly astuu nyt ensimmäistä kertaa selkeästi ihmisen osaamisen tontille: se osaa vihdoin käsitellä luonnollista kieltä ja kuvia.
Tekoälyn toimintaperiaatteista: koneoppiminen ja syvät neuroverkot
Tekoälyn alaan kuuluu laaja kirjo erilaisia menetelmiä, joista näkyvimmät perustuvat koneoppimiseen. Koneoppimisessa käytettävien mallien toimintaa säätelevät tuntemattomat parametrit eli muuttujat. Näitä parametreja muuttamalla mallin toiminta muuttuu. Oppimisella tarkoitetaan parametrien valitsemista siten, että malli saadaan toimimaan halutulla tavalla. Käytännössä malli opetetaan toistamaan opetusaineistossa olevia säännönmukaisuuksia.
Oppimisen periaatteet juontavat juurensa perinteisestä tilastotieteestä. Malli opitaan oleellisilta osin samalla tavalla, oli sitten kyseessä yksinkertaisen kasvukäyrän sovitus neuvolan pituusmittauksiin tai monimutkaisen tekoälymallin opettaminen. Vaikka jälkimmäisessä tapauksessa syötteenä voi iän sijaan olla valokuva ja tuloksena pituuden sijaan sanallinen kuvaus kuvan sisällöstä, molemmissa tapauksissa on kyse matemaattisesta funktiosta, joka muuttaa syötteen tulokseksi. Tarvittavat funktiot ovat paljon monimutkaisempi ja niiden sovittamiseen tarvitaan enemmän esimerkkejä, mutta periaate on sama ja alalla on vuosikymmenien kuluessa kehitetty toimivia algoritmeja erityisesti ohjattuihin ongelmiin, joissa opetusaineiston syötteille tiedetään halutut tulokset.
Itse mallit voivat olla hyvin monimuotoisia. Tunnetuin malliperhe ovat syvät neuroverkot, joissa tietoa käsitellään kerroksittain yksinkertaisilla laskutoimituksilla ja verkon rakennetta muuttamalla voidaan luoda malleja moniin tarkoituksiin. Kuvia käsittelevät mallit hyödyntävät suotimia, jotka analysoivat paikallisia kuva-alueita, ja taas kielten käsittelyssä malli on rakennettu käsittelemään sanojen tai niiden osien jonoja. Keskeisenä elementtinä nykyisissä kielimalleissa on huomiomekanismi (engl. attention), joka kohdentaa mallin kulloinkin tarkastelemaan tiettyä osaa aiemmasta syötteestä (Vaswani A. ym. 2017). Yksinkertaisten laskutoimitusten lisäksi nykyaikainen neuroverkko voi sisältää muitakin monimutkaisia osia, jopa erillisiä päättelyalgoritmeja. Niitä on hyödyllisintä ajatella mielikuvituksellisen monimutkaisina funktioina, joita kuitenkin osataan sovittaa annettuun dataan.
Hyvän mallin tärkein ominaisuus on sen yleistyvyys. On helppo opettaa malli tuottamaan oikea vastaus opetusaineistossa nähdyille tapauksille, mutta tämä ei riitä, vaan sen tulee tuottaa mielekkäitä vastauksia myös uusille syötteille. Perinteisten tilastollisten mallien osalta on opittu ajattelemaan, että havaintoja tulisi olla selkeästi enemmän kuin mallin parametreja. Muuten malli ylisovittuu opetusaineistoon ja voi toimia mielivaltaisen huonosti uusille näytteille. Vaikka mallien opettamiseen käytettävät aineistot ovat kasvaneet, mallien monimutkaisuus on monissa tilanteissa kasvanut vielä enemmän ja nykyisin parametreja voi olla jopa miljardeja. Voivatko tällaiset mallit toimia?
Kaikkia yleistyvyyteen liittyviä ongelmia ei missään tapauksessa ole saatu ratkaisua, ja monet alan avoimista ongelmista koskevat mallien luotettavuutta poikkeavissa tilanteissa. Siitä huolimatta voidaan yleisesti sanoa, että erittäin suuria malleja voidaan nykyisin sovittaa luotettavasti. On runsaasti sekä teoreettista (Belkin M. ym. 2019) että empiiristä todistusaineistoa siitä, että miljoonien tai miljardien parametrien mallit voivat toimia hyvin myös uusille syötteille. Vaikka keskusteleva tekoäly ei monissa tilanteissa tuotakaan sisällöllisesti oikeita vastauksia, se ei hätkähdä, vaikka käytettäisiin täysin kuvitteellisia sanoja. Jos vaikkapa kerron maanviljelijän eilen kyntäneen pellon ruosteisella pompellorilla, tekoäly osaa kuvailla pompellorin olevan vanha, mutta edelleen käyttökelpoinen kyntöaura. Tekoäly ei herää pohtimaan, miksi toinen osapuoli käytti kummallista sanaa ja saattaa jopa väittää sen olevan perinteinen murreilmaus, mutta yhtä kaikki se osasi toimia yllättävässä tilanteessa.
Tekoälyn historiasta eli onko kuvien tulkinta helppoa vai vaikeaa?
Tekoälyn historia on yhtä pitkä kuin tietokoneiden historia. Alan lähtölaukauksena pidetään vuonna 1956 järjestettyä Dartmouthin kesäseminaaria, neuroverkkojen perusperiaate kehitettiin jo 40-luvulla ja koneoppimisen käsite on 50-luvulta. Älyn automatisointi oppimiseen perustuvilla menetelmillä on ollut eräs tietojenkäsittelytieteen tavoitteista käytännössä niin kauan kuin ala on ollut olemassa. Viime vuosien murroksen ymmärtämiseksi on hyvä pohtia hieman sitä, mikä on tekoälylle tai tietokoneille ylipäätään helppoa ja mikä vaikeaa. Tämä on itseasiassa melko hankala kysymys, ja alan kehittyessä tiedeyhteisön vastaukset ovat tavallaan kiertäneet täyden ympyrän.
Aluksi uskottiin, että ihmiselle helpot tehtävät ovat helppoja myös tietokoneille. Lapsikin ymmärtää puhetta, mutta shakkia osaa pelata vain harjaantunut ammattilainen, joten oletettiin, että tietokoneetkin oppivat ymmärtämään puhetta helpommin. Eräs MIT:n professori perusti 1960-luvulla kesän mittaisen opiskelijaprojektin luodakseen ohjelman, joka tunnistaa kuvasta kappaleita luotettavasti. Kylmän sodan molemmat osapuolet pyrkivät tosissaan täysin automaattiseen konekäännökseen. Tänä päivänä on helppo naureskella näille visioille, mutta aikanaan tällaisten hankkeiden jatkuva epäonnistuminen loi varjon koko tekoälyn kentälle ja johti niin kutsuttuun tekoälyn talveen. Jos edes ”helppoja ongelmia” ei saada ratkaistua, koko alan rahoittaminen lienee turhaa. Vielä tämän vuosituhannen puolelle asti koneiden kyky käsitellä luonnollista kieltä ja kuvia säilyi vaatimattomana, mutta ihmisen älyn mittatikkuina pidetyissä rajatummissa ongelmissa koneet olivat jo ehtineet kauas edelle. Tietokone voitti shakin suurmestarin ensimmäistä kertaa jo 80-luvun puolella, lähes vuosikymmenen ennen kuuluisaa DeepBluen ja Gasparovin ottelua. Tämä onnistui nykypäivään verrattuna erittäin rajallisilla laskentaresursseilla.
Olikin niin, että ihmiselle helpot asiat ovat koneille vaikeita, vaikka ne suorituvatkin hyvin monista ihmisille vaikeista tehtävistä. Erään selityksen ilmiölle tarjosi 80-luvulla esitelty Moravecin paradoksi (Moravec H., 1988), jonka mukaan havainnointi vaatii merkittävästi enemmän laskentaa kuin päättely. Monimutkaisen aistiympäristön tulkinta ja siihen reagoiminen ovat itseasiassa tehtävinä vaikeita myös ihmisille, mutta eliöiden biologinen koneisto suoriutuu niistä tehokkaasti miljardien vuosien evoluution ansiosta. Abstrakti päättely taas on kehityshistoriallisesti uusi ilmiö. Se ei ole välttämättä erityisen vaikeaa laskennallisesti, mutta ihmisten aivoilla on ollut vain kymmeniä tuhansia vuosia aikaa erikoistua siihen. Havaintojen tulkintaan tarvitaan paljon enemmän laskentaresursseja kuin varhaisilla tietokoneilla oli käytössä.
Ihmiselle lähes automaattinen ympäristön havainnointi oli näin selitetty tekoälylle haastavaksi, mutta ei suinkaan mahdottomaksi. Jos eliöt pystyvät siihen varsin rajallisella energiankulutuksella, sen on oltava mahdollista koneellisesti. Nyt todistamme tätä askelta käytännössä. Meillä on nyt saatavilla sekä tarpeeksi suuria ja monimuotoisia aineistoja että tarpeeksi laskentaresursseja oppimaan aistiärsykkeitä käsitteleviä malleja. Tekoälytutkija Andrew Ng ennusti vuonna 2017, että pystymme lähitulevaisuudessa automatisoimaan tekoälyn avulla lähes kaikki sellaiset tehtävät, joista tyypillinen ihminen suoriutuu alle sekunnin pohdinnan avulla. Se alkaa näyttää mahdolliselta.
Olemme tavallaan palanneet tekoälyn alkuhetkiin. Tekoäly suoriutuu nyt melko hyvin aikuiselle ihmiselle lähes automaattisista ympäristön ja kielen havainnointiin liittyvistä pulmista, mutta korkeamman tason ajattelua edellyttävät ongelmat ovat sille edelleen haastavia. Tekoäly osaa nyt salamannopeasti kuvailla näkemänsä kuvan sisällön ja jopa vastata kysymykseen, mutta korkeamman tason päättelyä tehdään edelleen varta vasten kuhunkin tarpeeseen räätälöidyillä algoritmeilla. Niiden avulla voidaan pelata shakkia tai go-peliä, mutta pitkäjänteiseen suunnitteluun vapaassa ympäristössä kykeneviä tekoälyjä ei juurikaan edes tutkita. On kuitenkin hyvä huomata, että syötteitä matalalla tasolla käsittelevät mallit ovat jo hämmästyttävän hyviä monissa vaativissa tehtävissä. Pelkästään niiden avulla voidaan luoda keskustelevia tai kuvia piirtäviä tekoälyjä. Oppimalla käsittelemään aisteja opimme siis samalla enemmän. Palaamme tähän jäljempänä tarkasteltuamme ensin hieman sitä, miten tähän on päästy.
Perustutkimus ja avoimet ympäristöt kehityksen vetureina
Rinnakkain on tapahtunut laskentatehon, käytettävissä olevien tietoaineistojen ja algoritmien kehitystä. Nämä ovat sikäli yhtä tärkeitä, että ilman kaikkien kolmen kehitystä emme olisi vielä lähelläkään nykyisiä menetelmiä. Toisaalta millään näistä osa-alueista ei ole tapahtunut sellaista yksittäistä läpimurtoa, joka olisi kriittinen. Voidaankin perustellusti sanoa, että tekoälyn murros on seurausta pitkäjänteisestä ja laaja-alaisesta perustutkimuksesta. Se on parhaita esimerkkejä siitä, että perustutkimukseen panostetut eurot ja tunnit maksavat itsensä takaisin. Nykyisten menetelmien keskiössä on edelleen sekä Robbinsin ja Monron jo vuonna 1951 luoma optimointiperiaate, että Seppo Linnainmaan 70-luvun alussa kehittämä vastavirta-algoritmi. Monet syvien neuroverkkojen perusratkaisuista on kehitetty viime vuosituhannella. Nykyisin alan tutkijoita on moninkertaisesti enemmän ja uusia menetelmiä julkaistaan päivittäin. Seuraavien läpimurtojen elementit seuloutuvat tästä tutkimusmassasta. Uuden tehokkaamman algoritmin voi kehittää jopa yksittäinen tohtorikoulutettava pienessä maassa, koska kyse on pohjimmiltaan matematiikasta ja varsin lyhyistä ohjelmakoodin palasista.
Teknisten kehitysaskeleiden rinnalla muutosta ovat vauhdittaneet uudet toimintatavat, keskeisimpinä avoimuus ja paremmat työkalut. Nykyisin on tarjolla suunnaton määrä laadukkaita avoimia ohjelmistoja, jotka helpottavat tekoälymenetelmien kehittämistä. Omina opiskeluvuosinani neuroverkon toteuttaminen edellytti viikkojen työpanoksen, mutta nyt jokainen ohjelmoinnin perusteet tunteva voi luoda yksinkertaisen neuroverkon muutamalla koodirivillä. Valtaosa työkaluista on avointa lähdekoodia ja ilmaiseksi kaikkien saatavilla, valmiita esimerkkejä on saatavilla työn tueksi liki rajattomasti ja monet menetelmien kehittämisessä ja testaamisessa käytettävät datat ovat avoimia. Uusia malleja ja algoritmeja esittelevien tieteellisten artikkelien ohessa tarjotaan usein myös avoin ohjelmistototeutus. Näiden työkalujen avulla matka uudesta tieteellisestä ideasta toimivaksi, varmistetuksi malliksi voi onnistua jo viikoissa.
Oleellista on, että ilmaiset työkalut eivät ole vain tutkijoiden ja harrastelijoiden puuhastelua. Yritykset käyttävät täsmälleen samoja työkaluja ja monien avointen työkalujen taustalla on alan suurimpia toimijoita Googlesta Metaan. Syväoppimisen alustat ovat nousseet Linuxin rinnalle avoimen lähdekehityksen airuina ja näkyvimpinä esimerkkeinä. Luotettavat työkalut ovat suuryrityksille kriittisen tärkeitä ja avoin kehitys on todettu parhaaksi tavaksi pitää ne ajan tasalla. Kyse ei ole hyväntekeväisyydestä, vaan ainoasta vaihtoehdosta: suljettuun omaan järjestelmään nojaava yritys jäisi auttamatta kilpailijoista jälkeen. Avoimen ympäristön päälle rakennettavaan korttitaloon on helppo liittää kaikkein tuoreimmat menetelmät ja työvoima liikkuu helposti organisaatiosta toiseen, myös tutkimusmaailman ja yritysten välillä.
Suuryritysten merkitys tekoälyn murroksessa on kokonaisuutena moninainen ja yrityksiä on aiheesta kritisoitu erityisesti henkilökohtaisen datan hyödyntämiseen ja kaupallistamiseen liittyvistä ongelmista, mutta avointen työkalujen näkökulmasta ne ovat olleet tärkeitä tekoälykehityksen vauhdittamisessa. Ilman laadukkaita työkaluja sekä tutkimus että yritysten mahdollisuudet hyödyntää tekoälyjä olisivat selvästi jäljellä nykyisestä.
Enemmän irti datasta
Algoritmit ovat kehittyneet merkittävästi, mutta sitä kehitystä ei voi tällaisessa katsauksessa käsitellä laajemmin. Yksi käsitteellinen muutos voidaan kuitenkin nostaa esille. Historiallisesti valtaosa koneoppimisesta on keskittynyt ohjattuun oppimiseen, jossa malli opitaan syöte-vaste-pareista. Esimerkiksi kuvien luokittelijan opettamiseen tarvittiin tietoa eli dataa, jossa kaikista kuvista on valmiiksi kerrottu, mitä kuva esittää. Tälläkin periaatteella saatiin noin vuosikymmen sitten luotua kuvia hyvin tulkitsevia malleja (Krizhevsky A. ym. 2012). Tässä opetustavassa valmiiden vastausten luominen on kuitenkin aina merkittävä pullonkaula: ei auta, vaikka tarjolla olisi miljardi valokuvaa, jos on resursseja muodostaa toivottu vaste vain pienelle murto-osalle niistä. Mitä jos koko miljardin kuvan aineistoa voitaisiin hyödyntää tehokkaasti ilman käsityötä vastausten muodostamiseksi?
Tämä onnistuu niin kutsutun itseohjatun oppimisen (engl. self-supervised learning) avulla. Itseohjatussa oppimisessa malli opitaan ohjatun oppimisen algoritmeilla, mutta tavoitteena on ratkaista jokin keinotekoinen tehtävä, jonka vastaus on valmiina datassa. Kielimallia pyydetään ennustamaan lauseen seuraava sana tai täyttämään keskeltä lausetta poistettu sana. Kuvia käsittelevää mallia voidaan pyytää täyttämään kuvasta tarkoituksella poistettu osa tai poistamaan kuvasta siihen varta vasten lisättyä kohinaa (kuvio 1). Näihin tehtäviin voidaan käyttää hyviksi tunnettuja ohjatun oppimisen algoritmeja, mutta oikeat vastaukset ovat jo olemassa ja siten kaikki data saadaan käyttöön. Lisäksi samasta datasta voidaan muodostaa liki rajattomasti ennustustehtäviä: samaan kuvaan voidaan lisätä aina uudenlaista satunnaista kohinaa.
Kuvio 1: Kuvia luova tekoäly voidaan opettaa itseohjatun oppimisen periaatteella.
Opetuskuviin lisätään keinotekoista kohinaa ja malli opetetaan ennustamaan alkuperäinen kuva kohinaisesta versiosta. Diffuusiomallit käyttävät tähän tarkoitukseen differentiaalilaskentaa ja osaavat lopulta luoda pelkästä kohinasta tarkkoja kuvia.
On perusteltua kysyä, mitä hyötyä on mallista, joka osaa täyttää puuttuvan osan kuvasta. Vastaus on yksinkertainen: mallin on opittava jotain oleellista kuvan sisällöstä, jotta se pystyy täyttämään puuttuvan alueen. Jos tennisottelun kuvasta poistaa keskikentän, malli osaa täyttää sinne verkon vain, jos se on jollain tasolla oppinut, että tennisottelussa palloa lyödään verkon yli. Jos malli kykenee samaan kaikkien mahdollisten kuvien kanssa, sen on täytynyt oppia jotain kuvista yleensä. Kaikki tämä ”ymmärrys” on jollain tavalla koodattuna mallin sisäiseen esitykseen, jonka se muodostaa saatuaan kuvan syötteeksi. Tämän esityksen avulla on merkittävästi helpompaa ratkaista alkuperäinen ongelma. Enää ei tarvitakaan miljoonien kuvien ja niiden merkitysten opetusaineistoa, vaan jo muutamat sadat esimerkit riittävät. Ne on helppo kerätä.
Tämä oppimisen periaate on yhdessä suurempien datojen ja parempien mallien kanssa auttanut murtamaan Moravecin paradoksin rajat. Osaamme nyt opettaa luonnollista kieltä, kuvia, puhetta ja videota käsitteleviä malleja. Kaikille näille on ominaista se, että niistä on tarjolla lähes rajattomasti aineistoa ja osaamme muodostaa luontevia ennustustehtäviä niiden opettamiseksi.
Itseohjatusta oppijasta luovaksi tekoälyksi
Edellä kuvasin teknistä oppimisperiaatetta, jonka avulla tekoäly saatiin ymmärtämään monimutkaisia aistihavaintoja. Kuten aiemmin vihjasin, tämän kyvyn seurauksena saatiin myös enemmän. Sekä kielimalleista että kuvia tarjoavista tekoälyistä käytetään nykyisin yleistermiä luova tekoäly (engl. generative AI, huom. ei creative). Tällä käsitteellä viitataan siihen, että ne osaavat luoda uutta sisältöä: ne voivat jatkaa annetusta tekstisyötteestä mielivaltaisen pitkälle tai tuottaa pelkästä kohinasta valokuvan. Kieli- ja kuvamallien yhdistelmällä voidaan tuottaa kuvia, jotka vastaavat annettua sanallista kuvausta.
Nämä tekoälyn luomat sisällöt ovat hätkähdyttävän laadukkaita ja monella tapaa hyödyllisiä. Jos syötteenä kielimallille käytetään ihmisen puheenvuoroa, tekstiä eteenpäin jatkava kielimalli muuntuu suoraan yksinkertaiseksi keskustelevaksi tekoälyksi. Vaikka mallilla ei voida sanoa olevan ymmärrystä käsiteltävästä aiheesta, se osaa silti tuottaa mielekkäitä vastauksia myös vaativiin kysymyksiin, joihin vastaaminen edellyttää monimuotoisen tiedon yhdistämistä ja muistuttaa erehdyttävästi asian syvällistä ymmärrystä. Voidaan ajatella, että tekoäly osaa erinomaisesti näytellä henkilöä, joka tietää vastauksen haluttuun kysymykseen. Monissa tapauksissa se riittää, mutta ei kaikissa.
Tekoäly osaa hetkessä tuottaa kuvia, joiden piirtämiseen valtaosa ihmisistä ei kykenisi vuosikausien harjoittelunkaan jälkeen. Toisaalta me osaamme kuvitella vastaavia kuvia ja tämä on meille yhtä automaattista kuin näkökentän tulkinta. Tekoälyn kyvyt kuvien ja videon tuottamisessa on osuvampaa rinnastaa kuvitteluun. Kunhan kone on oppinut kuvittelemaan, varsinaisen kuvan muodostaminen, joka merkitsee pikselien tallentamista tietokoneen muistiin, on tietokoneelle erittäin yksinkertainen tehtävä ja sen takia kuvittelun tulos saadaan ihmisen hyödynnettäväksi ilman piirtämiseen tarvittavia motorisia taitoja. Koneelle vaikean osatehtävän ratkaisu johti suoraan häkellyttäviin tuloksiin, koska muut osaongelmat olivat sille helppoja.
Perustamallit kehityksen pohjana
Vaikka edellä kuvatuille malleille löytyy runsaasti käyttöä jo luovina tekoälyinä, niillä on myös toinen merkitys, jossa mallin arvo on sen sisäisessä esityksessä. Suuret kielimallit ja kuvia ymmärtävät mallit ovat esimerkkejä niin kutsutuista perustamalleista (engl. foundation model) (Bommasani R. ym. 2021). Ne ovat malleja, jotka on opetettu suurilla tietoaineistoilla siten, että ne oppivat mielekkään sisäisen esityksen kunkin mallin ominaiselle datalle. Nimensä mukaisesti niitä voidaan käyttää pohjana tai perustana uusille malleille, mutta ne eivät vielä ratkaise kuin pienen joukon ongelmia (kuvio 2).
Kuvio 2. Perustamallit opetetaan laajalla ja monipuolisella tietoaineistolla ratkaisemaan erilaisia tehtäviä itseoppimisen periaatteella. Malli oppii havainnoille sisäisen esityksen, joka auttaa uusien ongelmien ratkaisemisessa. Malli voidaan hienosäätää sovellusalueen datalla ja sen päälle on helppo opettaa malleja uusiin tehtäviin.
Tällä hetkellä moni tutkii, miten perustamallien avulla voidaan ratkaista tehokkaasti uusia ongelmia. Helpoimmillaan se tapahtuu hienosäätämällä mallia tietyn tehtävän datalla. Esimerkiksi kuvia ymmärtävää mallia voidaan käyttää lähtökohtana lääketieteellisten kuvien analyysissa. Mallin oppimiseen tarvitaan vähemmän dataa, koska perustamalli osaa jo käsitellä kuvissa esiintyviä rakenteita ja niiden välisiä suhteita. Perustamalleihin voidaan myös liittää muita malleja ja kielimalleihin lisätäänkin jatkuvasti uusia toiminnallisuuksia sallimalla, että se kutsuu ulkoisia ohjelmia.
Enää tuskin kannattaa luoda luonnollista kieltä tai kuvia käsittelevää tekoälymenetelmää, joka ei jollain tavalla rakentuisi valmiiksi opetettujen perustamallien päälle. Tämä muuttaa myös alan tutkimusta. Jokainen menetelmä rakentuu entistä suoremmin muiden tarjolle tuomien komponenttien päälle. Perustamallien hyödyt ovat selviä, mutta niiden käyttöön liittyy myös avoimia kysymyksiä. Miten tutkijan tai yrityksen tulisi suhtautua siihen, jos oman ratkaisun pohjana käytetystä kielimallista myöhemmin löydetään merkittävä puute tai se on kehitetty epäeettisesti? Entä jos perustamallin kehittänyt yritys vetää sen pois saatavilta tai alkaa laskuttaa sen käytöstä päätähuimaavia summia? Miten varmistetaan, että oma ratkaisu toimii hyvin tulevienkin perustamallien kanssa?
Samaan aikaan luodaan myös uusia perustamalleja. Ihmisen aistiympäristö kattaa loppujen lopuksi melko pienen osan niistä ilmiöistä, joita haluaisimme tekoälyjen käsittelevän. Samoihin oppimisperiaatteisiin nojaten kehitetään malleja esimerkiksi satelliittikuville ja lääkemolekyyleille, mutta useimmiten tarvitaan uutta tieteellistä tietoa esimerkiksi siitä, kuinka muodostetaan kullekin datatyypille parhaiten sopivia oppimistehtäviä itseohjattuun oppimiseen. Kohinan poisto tai seuraavan sanan ennustaminen ovat luontevia tehtäviä, mutta minkä tehtävän avulla opitaan hyvä malli solubiologiasta?
Toinen merkittävä haaste on riittävän kattavan datan kerääminen ja mallin usein korkeiden kehityskustannusten kattaminen. Suomessakin on paljon osaavia tekijöitä, jotka tuntevat perustamallien oppimiseen tarvittavat algoritmit ja CSC tarjoaa kattavat laskentaresurssit, mutta datan kerääminen ja käsittely on kallista. Suuryhtiöt ovat panostaneet kielen ja kuvan perustamalleihin suunnattomasti, koska näkevät niille kaupallisesti kannattavia sovelluksia, mutta emme voi luottaa niiden luovan vastaavia malleja kaikkiin tarkoituksiin. Esimerkiksi räätälöityjä opetuksen tukiratkaisuja voitaisiin tehokkaasti kehittää kunkin lapsen osaamistarpeita ymmärtävän perustamallin päälle, mutta olemmeko valmiita rahoittamaan perustamallin kehityskustannukset, jos konkreettiset hyödyt saadaan esille vasta vuosikymmenen kuluttua? Miten kemianteollisuuden yritykset saadaan yhdessä ponnistelemaan prosessiteollisuuden ilmiöiden mallintamiseen tarvittavien perustamallien eteen?
Avoimet haasteet – mitä seuraavaksi?
Kyky käsitellä ihmisen aistiympäristöä ratkaisee vain pienen, vaikkakin tärkeän, osan tekoälyn haasteista ja työtä riittää vielä paljon.
Alan kenties suurin avoin ongelma on kausaliteetti eli syy-seuraussuhteet. Ennustaminen ei riitä monissa sovelluksissa, lääketieteestä poliittiseen päätöksentekoon, vaan haluttaisiin päätellä, mikä suunnitellun toimen seuraus olisi. Kausaliteetin parissa on tehty alalla tutkimusta jo vuosikymmenien ajan, mutta valmiita ratkaisuja on vielä valitettavan vähän. Kausaalisia suhteita voidaan kyllä päätellä luotettavasti, mutta vain melko rajatuissa tilanteissa. Muissa tilanteissa voidaan usein osoittaa, että kausaalisia suhteita ei voida aukottomasti päätellä. Tämä on tärkeä tieto, mutta soveltajien näkökulmasta usein pettymys.
Toinen keskeinen haaste liittyy epävarmuuksien luotettavaan mallintamiseen. Erityisesti on tärkeää, että autonomisesti toimivat järjestelmät pystyvät arvioimaan, milloin ne ovat varmasti oikeassa ja milloin vastaukseen liittyy epävarmuuksia. Vaikka tilastollisten oppimismenetelmien avulla voidaankin periaatteessa ottaa epävarmuudet huomioon perustellulla tavalla, monet nykyisistä malleista ovat liian itsevarmoja. Epävarmuuksien huomioimisen tärkeys korostuu silloin, kun mallien oppimiseen on käytettävissä vain vähän dataa. Vaikka osassa sovelluksista datan määrä on vain kustannuskysymys, monissa tilanteissa dataa ei yksinkertaisesti ole olemassa enempää. Ensimmäistä Mars-lentoa tehdessä ei ole olemassa aiemmilla lennoilla mitattua dataa, fossiileja on olemassa rajatusti, ja harvinaisia sairauksia potevia potilaita on vähän kuten sairausryhmän nimi kertoo.
Tutkimusta tarvitaan myös ihmisten ja tekoälyjen yhteistyön parantamiseksi. Moni kaipaa tulkittavia tekoälyjä, jotka osaavat aina perustella, miksi päätyivät antamaansa vastaukseen. Vaikka tämä on pääpiirteittäin toivottava ominaisuus, on hyvä muistaa, että myöskään ihmiset eivät ole tulkittavia. Kuka osaa kertoa, miksi naurahti, kun työkaveri lounaalla valitti liian suolaisesta ruuasta? Osaako radiologi kertoa, miksi hän teki yhden potilaan kohdalla virhetulkinnan? Voinko luvata, että kohtelen kaikkia asiakkaita tasapuolisesti myös väsyneenä? Tekoälyjärjestelmät ovat jo nyt usein tässä mielessä läpinäkyvämpiä ja tasapuolisempia kuin ihmiset, mutta me edellytämme tekoälyltä enemmän kuin toisiltamme. Keskustelevat tekoälyt osaavat jo pyydettäessä muokata ilmaisuaan huomioidakseen keskustelukumppanin mielentilan, mutta meille tämä on erittäin hankalaa. Onko vastuu ihmisen tunteisiin ja oikkuihin reagoimisessa jatkossa nimenomaan tekoälyllä?
On aika kohdistaa katse myös siihen, miten tekoälyjä hyödynnetään mahdollisimman tehokkaasti kaikkein hankalimpien ongelmien ratkaisemisessa. Mikä on tekoälyn asema ilmastonmuutoksen hallinnassa tai miten sen avulla edistetään yhdenvertaisuutta? Näiden ongelmien ratkaisu ei ole autonominen tekoäly, eikä myöskään erilliset tekoälymallit osana ihmisen työkalupakkia. Niiden sijaan tarvitaan ratkaisuja, jossa ihminen ja tekoäly toimivat aidosti yhteistyössä. Tähän keskittyvää tutkimusta tehdään Suomen Akatemian lippulaivahankkeessa Suomen tekoälykeskus (https://fcai.fi). Esimerkiksi oma tutkimukseni liittyy siihen, miten tekoälyn avulla tuetaan ihmisiä sekä tieteellisessä tutkimuksessa että tuotekehityksessä niin, että käytettävät tekoälymallit yleistyvät laajasti eri aloilla. Näin vältetään resurssien tuhlaaminen alakohtaisiin ratkaisuihin.
Yhteistyöhön rakentuvassa ratkaisussa tekoälyn on pyrittävä tekemään omasta toiminnastaan läpinäkyvää sekä yritettävä ymmärtää ihmisen tavoitteita ja toimia. Toisaalta vastuuta yhteistyöstä ei pidä ulkoistaa vain tekoälylle, vaan myös meidän kannattaa toimia niin, että yhteistyö on mahdollisimman tehokasta. Kenties kemistin kannattaa tekoälyn pyynnöstä tehdä muutama laboratoriokoe lisää, vaikka hän ei itse heti ymmärrä niiden tarvetta? Alamme hyväksyä tällaiset pyynnöt vasta, kun luotamme siihen, että tekoäly pystyy niiden avulla auttamaan meitä ratkaisevasti paremmin. Voimme oppia luottamaan vain kokeilemalla.
Viitteet
Vaswani A., ym. Attention is all you need. Advances in Neural Information Processing Systems 30, 2017.
Belkin M., ym. Reconciling modern machine-learning practice and the classical bias–variance trade-off. Proceedings of the National Academy of Sciences (PNAS), 116(32):15849-15854, 2019.
Moravec H., Mind children: The future of robot and human intelligence, Harvard University Press, 1988.
Krizhevsky A., ym. ImageNet classification with deep convolutional neural networks, Advances in Neural Information Processing Systems 25, 2012.
Bommasani R., ym. On the Opportunities and Risks of Foundation Models. arXiv:2108.07258, 2021.
Artikkelin on laatinut tekniikan tohtori Arto Klami. Hän työskentelee tietojenkäsittelytieteen apulaisprofessorina Helsingin yliopistolla.
Artikkeli on ensimmäinen osa Akava Worksin ”Näkökulmia tekoälyyn” -artikkelisarjassa.
Kuva: DALL-E -tekoälysovelluksen tuottama kuva artikkelin teemoista.