Arena Pro
Vasemmalta oikealle suuntautuva osittain läpinäkyviä nuolia ja kimalluksia tummalla taustalla. Useita 0- ja 1-numeroista muodostuvia jonoja nuolien suunnassa.

Kuva: Adobe Stock

Ketterästi data-analytiikan ja tekoälyn Proof-of-Concept (PoC) -ratkaisu

Teknologia ja teollisuus

Jyväskylän ammattikorkeakoulun IT-instituutissa on useamman vuoden ajan tehty datapohjaisia Proof-of-Concept (PoC) -ratkaisuita sekä tekoälyyn että data-analytiikkaan. CRISP-DM-malliin perustuva toimintatapa on kehittynyt hankkeiden aikana, joissa on tehty kymmeniä PoC-ratkaisuita eri toimialoille ja erilaiseen dataan. Tässä artikkelissa esitellään hyviä käytänteitä ja tapoja datapohjautuvien PoC-ratkaisuiden läpiviemiseksi.

Jamkin tekoäly ja data-analytiikka osaaminen kehittyy hankkeissa

Jyväskylän ammattikorkeakoulussa aloitettiin data-analytiikka- ja tekoälyosaamisen kompetenssin kehittäminen vuonna 2017 Jamkin strategiarahan avulla. Osaamisen ja kompetenssin kasvaessa kyseisille aloille valmisteltiin TKI-hankkeita vahvistamaan osaamisen kehittymistä. Ensimmäinen data-analytiikan ja tekoälyn TKI-hanke käynnistyi vuonna 2018 ja samalla siihen kytköksissä olevan investointihankkeen myötä pystyttiin rakentamaan oma laskentapalvelin (Partamies ym., 2020). Aihealueella on ollut sekä tutkimus- että investointihankkeita tämän jälkeen, joiden aikana olemme pystyneet kehittämään osaamistamme syvällisemmin ja rakentamaan suorituskykyisen laskentaklusterin (Rantonen, 2020; Jokinen ym., 2020).

Jamkin IT-instituutin data-analytiikkaan ja tekoälyyn meneillään olevia dataan pohjautuvia hankkeita ovat

  • VauhtiData – Datasta vauhtia valmistavan pk-teollisuuden liiketoimintaan (valtakunnallinen EAKR), A90748, 10/2023–9/2025.
  • KEMAR – Kestävän energiajärjestelmän modernien arvoketjujen resilienssi (JTF), J10052, 9/2023–6/2026.

Vuosina 2018-2023 toteuttamiamme hankkeita olivat Data-analytiikasta uutta osaamista ja liiketoimintaa, Investoinnit tietoturvalliseen data-analytiikan kehittämiseen, Tieto tuottamaan, coADDVA – ADDing VAlue by Computing in Manufacturing ja valmisteluhanke Datasta vauhtia valmistavan pk-teollisuuden liiketoimintaan (Arola ym., 2023). Kaikki hankkeet saivat rahoitusta Euroopan unionilta.

Datasta uutta liiketoimintaa

Digitalisaation myötä datan määrä yrityksissä on kasvanut merkittävästi (Rantonen, 2021) ja usein puhutaan termistä Big Data (Mikalef ym., 2019). Tämä datan merkitys yritysten liiketoiminnan kehittämisessä on kasvanut merkittävästi (Sestino ym., 2020). Jamkin data-analytiikka- ja tekoälyhankkeissa on ja on ollut mukana yrityksiä, jotka ovat tuoneet yrityksissä kerättyä dataa hankkeisiin. Hankkeissa on tehty yritysten dataan PoC-ratkaisuja osoittamaan data-analytiikan ja tekoälyn tarpeellisuus ja kyvykkyys. PoC-ratkaisulla tarkoitetaan toteutusta tai testiä, jolla arvioidaan idean toteuttamiskelpoisuutta ennen varsinaista kehitystyötä. Se auttaa tunnistamaan mahdolliset ongelmat ja varmistamaan, että kehitystyötä kannattaa jatkaa. Yllä mainituissa hankkeissa on tehty yli 50 erilaista PoC-ratkaisua soveltaen CRISP-DM (CRoss-Industry Standard Process for Data Mining) -mallia (Shearer, 2000) eri toimialoille. Kyseessä on kaikille toimialoille tarkoitettu tiedonlouhinnan standardiprosessi, joka on yleispätevä menetelmä kaikenlaisten dataan liittyvään mallinnukseen ja analyysiin. Data on mallin keskiössä, sillä dataa jalostetaan liiketoiminnan tehostamiseksi ja kehittämiseksi. Tehdyt PoC-ratkaisut ja data ovat olleet hyvin erilaisia, mutta silti malli on soveltunut aikaisemmin tuntemattoman datan työstämiseen erinomaisesti.

CRISP-DM-malli on iteratiivinen malli, jonka vaiheet ovat (Schröer ym., 2021):

  1. Liiketoimintaymmärrys: Tässä alkuvaiheessa keskitytään hankkeen tavoitteiden ja vaatimusten ymmärtämiseen liiketoiminnan näkökulmasta. Tavoitteen ymmärtäminen asiantuntijoiden osalta on todella tärkeää, samoin toimialaymmärryksen lisääminen. Yhteistoiminta ja vuoropuhelu asiantuntijoiden ja toimialan osaajien välillä korostuu.
  2. Datan ymmärrys: Tässä vaiheessa tietojen asiantuntija aloittaa tiedonkeruun ja tutustuu dataan. Oleellisia asioita on, että tunnistetaan oikea data ja miten se saadaan asiantuntijoille, esimerkiksi kuka yrityksessä pystyy hakemaan ja toimittamaan datan asiantuntijoille.
  3. Datan esikäsittely: Tässä vaiheessa data puhdistetaan, rikastetaan ja muunnetaan mallintamisen mahdollistamaan muotoon. Usein datassa on epäpuhtauksia, kuten puuttuvia arvoja ja poikkeamia, joita asiantuntijat joutuvat käsittelemään.
  4. Mallinnus: Dataan sovelletaan erilaisia mallinnustekniikoita, joilla pyritään ratkaisemaan liiketoiminnan tarpeista johdettu ongelma. Kukin mallinnustekniikka voi vaatia erityisiä dataformaatteja, joten tarvittaessa voidaan joutua palaamaan takaisin datan esikäsittelyvaiheeseen. Mallinnus tehdään yleensä koneoppimisen menetelmin tai käyttäen neuroverkkoja ja syväoppimista.
  5. Arviointi: Ennen käyttöönottoa mallin suorituskyky arvioidaan perusteellisesti. Näin varmistetaan, että se täyttää ensimmäisessä vaiheessa asetetut liiketoimintatavoitteet. Myös tulosten esittäminen selkeässä muodossa on tärkeää, jotta yrityksessä ymmärretään, kuinka dataa voidaan hyödyntää liiketoiminnassa.
  6. Käyttöönotto: Viimeisessä vaiheessa malli otetaan käyttöön todellisessa tuotantoympäristössä. Tämä vaihe on enemmän ohjelmistokehitystä ja voi olla ihan oman hankkeensa.

CRISM-DM-mallin soveltaminen käytännön PoC-ratkaisuissa

Liiketoimintaymmärrys

Hankkeissa tehdyt PoC-ratkaisut seuraavat CRISP-DM-mallia tapauskohtaisesti soveltaen. PoC-ratkaisut voivat vaihdella suuresti esimerkiksi toimialan tai ratkaistavan ongelman luonteesta johtuen. Jokainen datapohjainen PoC-ratkaisu alkaa palaverilla yrityksen kanssa, jossa yritykset kertovat ideastaan ja siihen liittyvästä datasta. Asiantuntijoiden tehtävänä on pyrkiä ymmärtämään liiketoiminta idean takana eli mitä aiotaan saada datasta aikaiseksi, millaista data oikeasti on ja mitä se sisältää. Tässä vaiheessa asiantuntijat esittävät paljon niin sanottuja “tyhmiä kysymyksiä”, joilla pyritään selvittämään mahdollisesti täysin tuntemattoman toimialan tai liiketoiminnan perusedellytyksiä ja määrittelemään PoC-ratkaisun tavoite. Lisäksi keskustellaan tarkemmin saatavilla olevasta datasta ja voidaanko sen avulla päästä tavoitteeseen eli sisältääkö data tarpeeksi informaatiota. Hyvinä käytäntöinä olemme huomanneet kaikkien palaverien videoinnin tai nauhoittamisen, koska asiantuntijat voivat palata uudestaan tallenteeseen. Näiden pohjalta kirjoitetaan PoCista vaatimusmäärittelydokumentti, jonka kirjoitukseen osallistuvat kaikki palaveriin osallistuneet asiantuntijat. Vaatimusmäärittelydokumentti toimitetaan yrityksen edustajille kommentointiin ja tarvittaessa korjataan väärinymmärrykset. Samalla myös sovitaan yritysten kanssa viestintäkäytännöt ja tulevat seurantapalaverit.

Datan ymmärrys

Datan ymmärryksen ensimmäisessä vaiheessa selvitellään datan toimittamisen mahdollisuudet, jotka voi vaihdella suuresti eri organisaatioiden välillä aina muistitikulla toimituksesta erilaisiin suojattuihin/salattuihin verkkojakojen, pilvipalveluiden tai sähköpostin avulla. Data voi olla hyvin erilaisissa muodoissa, esimerkiksi tekstitiedostona, csv-tiedostona tai tietokantadumppina riippuen datasta. Lisäksi dataa voi olla monesta eri lähteestä monessa eri tiedostossa ja formaatti voi olla tekstiä, kuvia, ääntä ja niin edelleen. Dataan tutustutaan yleensä visualisoimalla (Alatalo, 2024) ja käyttäen erilaisia tilastollisia menetelmiä. Datan analysoinnissa datan visualisointi on erittäin tärkeää, koska erilaisista kuvioista voi ihmissilmä erottaa selkeitä trendejä, kausivaihteluista, poikkeavia arvoja jne. Tässä vaiheessa myös arvioidaan, että onko data tarpeeksi laadukasta ja onko siinä kaikki tarvittava tieto asetetun ongelman ratkaisemiksi. Datan säilyttäminen tietoturvallisessa paikassa on itsestään selvää, koska Jamkin IT-instituutin laskentaklusteri sijaitsee tietosuojaluokitelluissa tiloissa.

Datan esikäsittely

Datan esikäsittely on kaikkein aikaa vievin vaihe. Datan esikäsittelyn aikana pidetään tarvittaessa palavereita yrityksen kanssa, jotta ymmärretään datassa olevat muuttujat ja mitä niistä kannattaa huomioida. Datan puhdistaminen ja rikastaminen mahdollisilla ulkoisten tai avointen lähteiden datoilla suoritetaan tässä vaiheessa. Esimerkkeinä avoimista datalähteistä ovat Ilmatieteen laitoksen säätiedot ja -ennusteet, Fingridin avoin data jne. Lopuksi data muotoillaan koneoppimis- tai syväoppimisalgoritmeille sopivaan muotoon.

Mallinnus

Mallinnusvaiheessa valitaan menetelmä, jolla pyritään asetettu ongelma ratkaisemaan. Voi olla, että menetelmiä valitaan useampi samanaikaisesti testaukseen erilaisilla parametreillä. Mallinnuksen jälkeen ja mallien tuloksia verrataan keskenään ja mallien toimivuuden arviointi. Saavutettujen tuloksien esittäminen yritykselle ja niiden pohjalta päätöksen tekeminen, että edetäänkö tuotantoon ottoon vai voidaanko mallia vielä parantaa esimerkiksi lisäämällä dataa tai tekemällä jotakin toisin. Mahdollista on, että todetaan ettei ongelmaan päästä olemassa olevalla datalla ja PoC-ratkaisun jatkaminen ei ole mahdollista.

Käyttöönotto ja loppudokumentointi

Viimeinen vaihe julkisrahoitteisissa hankkeissa on loppudokumentoinnin tekeminen ja tulosten julkistaminen. Kokonaisuudessa PoC-ratkaisu ei vie yrityksen asiantuntijoilta kovin paljoa aikaa, mutta vaatii kuitenkin sitoutumista ohjeistamaan projektin aikana. Riippuen yrityksen halusta seurata projektia, olemme sopineet seurantapalavereja 1–2 viikon välein ja yhteisen tavan kommunikoida pienien asioiden selvittämiseen. Yrityksien aito kiinnostus datan omaa dataa kohtaan on lisääntynyt ja he haluavat ymmärtää datan tuomat mahdollisuudet liiketoiminnan kehittämisessä.

Uusien teknologioiden haltuunotto luo haasteita erittäin nopeasti kehittyvällä IT-alalla sekä koulutusorganisaatioissa että yrityksissä. Tämä vaatii aluksi satsauksia asiantuntijoiden osaamisen kehittämiseen, joka mahdollistaa myös yrityksiä kiinnostavien TKI-hankkeiden hakemisen. TKI-hankkeiden avulla voidaan edelleen kasvattaa ja syventää asiantuntijoiden osaamista aina huippuosaamiseksi. Hankkeissa kasvaa myös yritysten osaaminen.

Lisätietoja:

Aikaisemmat Jamkin IT-instituutin data-analytiikan – ja tekoälyn hankkeet:

  • Data-analytiikasta uutta osaamista ja liiketoimintaa; Euroopan aluekehitysrahasto (EAKR), A73893; 4/2018-12/2020.
  • Investoinnit tietoturvalliseen data-analytiikan kehittämisympäristöön; Euroopan aluekehitysrahasto (EAKR), 4/2018-12/2020.
  • Tieto tuottamaan; Euroopan aluekehitysrahasto (EAKR), 4/2021-3/2023.
  • coADDVA – ADDing VAlue by Computing in Manufacturing; Euroopan aluekehitysrahasto (EAKR), 9/2021-10/2023
  • Datasta vauhtia valmistavan pk-teollisuuden liiketoimintaan, valmisteluhanke; Euroopan aluekehitysrahasto (EAKR), 10/2022-3/2023.

VauhtiData – Datasta vauhtia valmistavan teollisuuden liiketoimintaan

VauhtiData-hankkeessa pilotoidaan dataan perustuvia toimintamalleja, tukien valmistavan teollisuuden vihreää siirtymää. Osana hanketta kasvatetaan alalla toimivien tietämystä data-analytiikasta ja taitoa hyödyntää data-analyysimenetelmiä, mahdollistaen uusien tuotteiden ja palvelujen innovoinnin teollisuuden käyttöön. VauhtiData on Euroopan unionin osarahoittama hanke.

Lue lisää hankkeesta Avautuu uuteen välilehteen
Logo - Euroopan unionin osarahoittama

KEMAR – Kestävän energiajärjestelmän modernien arvoketjujen resilienssi

Kestävän energiajärjestelmän modernien arvoketjujen resilienssi (KEMAR) -hanke on Euroopan unionin osarahoittama ja hanketta rahoittavat myös hankkeen yhteistyökumppanit sekä Jyväskylän ammattikorkeakoulu. Hankkeessa rakennetaan ja pilotoidaan energiajärjestelmän arvoketjua mallintava digitaalinen ympäristö, jossa yhdistyvät sekä datan hyödyntäminen että kyberturvallisuusnäkökulmat.

Lue lisää hankkeesta
Logo - Euroopan unionin osarahoittama