Data tiedonlähteenä

Datan roolia päätöksenteossa kuvataan monin termein, kuten dataohjautuva, datapohjainen, data-avusteinen ja datan tukema. Yhtä kaikki, perusajatus on, että yrityksessä ja sen verkostossa on raaka-aineeksi digitaalisessa muodossa olevaa kerättyä dataa, jota analysoimalla voidaan saada informaatiota, joka ohjaa tekemään oikeita päätöksiä eli parantaa yrityksen osaamista.

Siirtymä datan ja analyysin maailmaan vie monet johtajat epämukavuusalueelle, sillä kyse ei ole enää IT-hallinnon tai erillisen business intelligence -osaston pelikentästä. Dataa syntyy kaikkialla organisaatiossa, samoin kuin sen potentiaalista käyttöä. Eräässä globaalissa Gartnerin webinaarissa alleviivattiinkin johdon roolin merkitystä yrityksen muutokselle data-ajan organisaatioksi: Jos johto kuvaa olevansa muutoksessa ”mukana” eikä ”johtamassa”, yritys päätyy hitaimman uudistumisen kategoriaan.

Samaan aikaan, kun data ja sen analytiikka pitäisi ottaa haltuun, se on jatkuvassa muutoksessa. Kuten IBM määritteli jo hyvän aikaa sitten, datan luonnetta kuvaa lyhennelmä 3V (volume, velocity, versalility) eli suomeksi vaikkapa: volyymi, vauhti, vaihtelevuus (Perry, 2017). Datan jatkuvasti kasvavan määrän ja datalähteiden kasvaessa nämä elementit korostuvat. Näiden kolmen V:n rinnalle on nostettu nostettu datan arvo (value) ja totuudenmukaisuus (veracity). Jatkuvasti kasvavien datamassojen myötä on tärkeää, että kerätty data on luotettavaa ja totuudenmukaista, jotta sen mahdollista arvoa voidaan hyödyntää esimerkiksi ennustamisessa, raportoinnissa tai tekoäly- ja koneoppimisalgoritmeissa.

Mihin datan ja analyysin maailma on menossa? Seuraavassa poimintoja viimeaikaisesta tutkimuksesta ja puheenvuoroista alan konferensseissa ja webinaareissa.

Dataa kaikkialta ja kaikille

Aiemmassa ajattelutavassa olennaisimpia kysymyksiä olivat kuka, milloin ja missä muodossa tallentaa dataa. Nämä olivat tarkasti määriteltyjä prosesseja ja formaatteja. Toimintamalli oli ns. ”Schema on Write”. Nyttemmin jalansijaa on saanut malli, jossa tieto on monimuotoista ja sitä tulee tietojärviin (data lake) hyvinkin eri suunnista organisaation sisältä ja myös ulkopuolelta. Tietoa myös ongitaan tietojärvestä eri aikoina ja eri tarpeisiin. Tieto saa lopullisen muotonsa sitä haettaessa eli ”Schema on Read”. Tällaisessa mallissa datan käyttötarvetta ei tarvitse suunnitella niin pitkälti sen lopulliseen muotoonsa, vaan “raakadataa” voidaan hyödyntää, ja jalostaa myös tulevia datatarpeita varten.

Datan hyödyntämiseen liittyvien palveluiden ja tuotteiden uusinta kärkeä kuvataan kahdella termillä nimeltä Data Mesh ja Data Fabric.

Data Mesh on Zhamak Dehghanin vuonna 2019 esittelemä toimintatapa- ja arkkitehtuurimalli, joka perustuu 1) datan hyödyntämiseen itsepalveluna, 2) datan toimialakohtaiseen hyödyntämiseen liiketoiminta-alueittain tiimien omistamana ja 3) datan hyödyntämiseen tuotteena. Tiivistettynä korkean tason ajatuksena toimialakohtaiset liiketoiminta-alueiden tiimit omistavat datan, ja pyrkivät hyödyntämään itsepalveluperiaatteiden kautta dataa omiin käyttötarpeisiinsa liiketoimintaa kehittävänä tuotteena (Dehghani , 2019).

Noel Yuhanna on yksi ensimmäisistä Data Fabric -arkkitehtuurin ideoitsijoista. Data Fabric -mallissa hyödynnetään useita eri lähteitä (pilvi-, hybrid- ja on-premise-alustat) ja tasoja tiedon käsittelyyn alkuperäisistä tietolähteistä metadata-pohjaisesti, mutta tiedon käyttöä yhdistää useat yhteiset hallintamallit. Data Fabric -mallissa hyödynnetään API-rajapintoja ja palveluita yhdistämään ja tilkitsemään yhteen löyhästi useat eri taustajärjestelmät yhtenäiseen näkymään tai käyttötarpeeseen.

Amazon re:Invent 2022 -tapahtumassa korostui datan tietoturvallinen käsittely, ja hyödyntäminen usean osapuolen toimesta organisaatioissa ja yrityksissä. Pilvipalveluiden mahdollistamat tietojärvet, joiden kapasiteettiä voidaan kasvattaa rajattomasti tarjoavat uusia tapoja käsitellä ja prosessoida dataa tietoturvallisesti.

Konsulttiyhtiö Deloitten tuore teknologiatrendien katsaus kuvaa hyvin “uutta data- ja analytiikka-maailmaa”, joka on sekoitus kovaa datatiedettä, automaatiota ja itsepalvelua (Deloitte, 2022). Tieto demokratisoituu organisaatioissa, ja luonnollisesti se nostaa esiin myös pelkoja tai ainakin varautuneisuutta: mikä voikaan mennä pieleen?

Datan ja analyysin riskit

Raportointitarpeiden lisäksi dataa hyödynnetään nykyään yhä suuremmissa määrin erilaisissa tekoäly- ja koneoppimisalgoritmeissa. Huhtikuussa 2023 Ylellä esitetyssä ”Prisma: Algoritmeillä rikollisia vastaan” dokumentissa nostettiin esiin tärkeä huomio nykypäivän haasteisiin liittyen datan hyödyntämisen eettisyydestä: “ovatko algoritmit vapaita inhimillisistä ennakkoluuloista?” (Algoritmeilla rikollisia vastaan, 2023.) Algoritmien havaittiin olevan hyvinkin ennakkoluuloisia niille syötetyn datan perusteella. Esimerkiksi IT-alan teknisten roolien rekrytoinnissa hyödynnettävien algoritmien todettiin suosivan miehiä naisten sijaan. Tämä luonnollisesti johti algoritmin korvaamiseen. (Dastin, 2018.)

Toinen näkökulma nousee esiin ”huonon datan” aiheuttamista vääristä päätelmistä. Huonolaatuisen datan hyödyntäminen päätöksien tekemisessä (tai automatisoinnissa tekoälyn avulla) voi johtaa virheisiin resurssoinnissa ja ennusteissa tai pahimmassa tapauksissa johtaa jopa liiketoiminnan keskeyttämiseen.

Ruuhkainen markkina

Jos kasvaa datan keräämisen, muokkaamisen ja data-analyysin kysyntä, niin samoin tekee tarjontakin. Tuoreessa Technology Market Maps -koosteessaan konsultti-/tutkimusyritys CB Insights listasi n. 250 dataturvallisuuteen ja/tai kyberturvaan liittyvää yhtiötä, ja tuossa joukossa eivät olleet mukana esim. suomalaisille tutut F-Secure ja SSH. Mikä tarjoaja ja mikä tuote mihinkin tarpeeseen? Toisaalta markkinalla on suuria toimijoita, joiden pilvipalveluilla voidaan kattaa suuri osa erillisten järjestelmätoimittajien paletista, esimerkiksi: Oracle, Microsoft, Amazon ja Snowflake.

Eikä teknologia tule koskaan valmiiksi. Kuuluisissa nousevien teknologioiden hype-käyrissään Gartner listasi datan hallintaan n. 25 erillistä teknologiaa, joiden tyypillinen odotusaika läpilyöntiin markkinoilla oli 2–10 vuotta. Dataprosessien hallintaan eli isompaan kokonaisuuteen taas löytyi toiset 30 teknologiaa, joiden odotusaika osui välille 5–10 vuotta.

Uusimpana ja hypetetyimpänä tulokkaana voidaan pitää OpenAI:n marraskuussa 2022 julkaistua ChatGPT-tekoäly-chattibottia, joka tietysti perustaa huikean tietonsa mihin muuhunkaan kuin dataan. Onkin mielenkiintoista nähdä, mihin suuntaan generatiivisen tekoälyn palvelut vievät datan tietoturvalliseen käsittelyyn liittyviä palveluita tulevaisuudessa. Uusimpina ominaisuuksina OpenAI julkaisi toukokuussa 2024 uuden GPT-4o (Omni) -mallin, joka pystyy tekstin lisäksi käsittelemään reaaliaikaisesti dataa kuvista, äänilähteistä ja videoista.

Voit lukea lisää suurten kielimallien vaikutuksesta opetukseen artikkelista: Johdatus suurten kielimallien hyödyntämiseen – generatiivisen tekoälyn vaikutus opetukseen, Teno & Tuikka, 2024.

Avainsanat:

data johtaminen pienet ja keskisuuret yritykset tekoäly

Kirjoittajat:

Juha-Tapio Teno

Lehtori

Jyväskylän ammattikorkeakoulu

Toimin Jyväskylän ammattikorkeakoulussa lehtorina tietojenkäsittelyn tutkinto-ohjelmassa keskittyen Amazon Web Services -pilvipalveluihin, datan käsittelyyn ja tekoäly- ja koneoppimispalveluihin.

Juha Saukkonen

Lehtori

Jyväskylän ammattikorkeakoulu

Toimin Jyväskylän ammattikorkeakoulussa liiketoiminnan lehtorina kansainvälisen liiketoiminnan ja johtamisen ohjelmassa keskittyen teknologialiiketoiminnan, tietojohtamisen ja tulevaisuuden ennakoinnin opetukseen ja tutkimukseen.

Lähteet:

AWS re:Invent. (2024). Amazon Web Services. Viitattu 1.1.2024. https://reinvent.awsevents.com.

Dastin, J . (2018). Amazon scraps secret AI recruiting tool that showed bias against women. Reuters. Viitattu 28.2.2024. https://www.reuters.com/article/us-amazon-com-jobs-automation-insight-idUSKCN1MK08G.

Dehghani Z. (2019). How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh. martinFowler.com. Viitattu 28.2.2024. https://martinfowler.com/articles/data-monolith-to-mesh.html.

Deloitte. (2022). Tech Trends 2022. Deloitte Insights. Viitattu 15.3.2024. https://www2.deloitte.com/us/en/insights/focus/tech-trends/2022.html.

Perry, J.S. (2017). What is big data? More than volume, velocity and variety. IBM Developer blogs. Viitattu 20.2.2024. https://developer.ibm.com/blogs/what-is-big-data-more-than-volume-velocity-and-variety/.

Redman, T . (2023). Bad Data Costs the U.S. $3 Trillion Per Year. Harvard Business Review. Viitattu 10.10.2023. https://hbr.org/2016/09/bad-data-costs-the-u-s-3-trillion-per-year.

Teno, J.-T. & Tuikka, T. (2024). Johdatus suurten kielimallien hyödyntämiseen – generatiivisen tekoälyn vaikutus opetukseen. Jamk Arena Public. https://urn.fi/urn:nbn:fi:jamk-issn-2984-0791-70.

Algoritmeilla rikoksia vastaan. (2022). Tuotanto: BlueSpark Collaborative/WGBH, Yhdysvallat. Yle Areena. Viitattu 14.5.2024. https://areena.yle.fi/1-63564199.