Arena Public

Kuva: Adobe Stock

Tietoturvallinen tekoäly organisaatioissa: avoimien kielimallien mahdollisuudet ja rajoitteet

Teknologia ja teollisuus

Tekoäly yleistyy työssä, mutta arkaluonteisen tiedon käsittely pilvipalveluissa voi olla riskialtista. Avoimet kielimallit voi sen sijaan ajaa omassa ympäristössä, mikä voi parantaa tietoturvaa.

Viime vuosina läpimurron tehnyt, suurten kielimallien teknologiaan perustuva moderni tekoäly on mullistava ilmiö, jota monet vertaavat vaikutuksiltaan internetin käyttöönottoon. Tällä teknologialla voidaan saada aikaan paljon hyviä asioita, mutta sen hyödyntämiseen liittyy myös merkittäviä tietoturvariskejä, jotka on otettava huomioon tekoälyn vastuullisessa käytössä. Avoimet kielimallit tarjoavat yhden lupaavan tavan parantaa tietoturvaa, mutta niiden hyödyntäminen ei ole täysin mutkatonta.

Modernin tekoälyn kehitys ja riskit

Moderni tekoäly perustuu suurten kielimallien teknologiaan, jonka juuret voidaan jäljittää vuonna 2017 Googlen tutkimuskeskuksen julkaisussa esiteltyyn menetelmään (Vaswani et al., 2017). Teknologia kehittyi tasaisesti useiden toimijoiden pienillä edistysaskeleilla noin viiden vuoden ajan, kunnes vuoden 2022 lopussa yhdysvaltalainen OpenAI-yritys julkaisi tämän teknologian varaan rakentuvan ChatGPT-palvelun (OpenAI, 2022).

Suurten kielimallien kyvykkyys yllätti tekoälyn tutkimusyhteisön, ja ChatGPT:n julkaisu käynnisti nopeasti teknologiakilpailun eri puolilla maailmaa toimivien teknologiajättien välillä. OpenAI sai alussa selkeän etumatkan, mutta kilpailijat kuroivat sen pian kiinni, kun useat toimijat kouluttivat omat, samaan teknologiaan perustuvat suuret kielimallinsa.

OpenAI-yrityksen teknologiaetu katosi nopeasti, koska monet osapuolet olivat aiemmin kehittäneet suurten kielimallien taustalla olevaa teknologiaa hyvin avoimesti . Merkittävät läpimurrot julkaistiin tieteellisinä artikkeleina (The Grand AI Handbook Contributors, ei pvm.), ja toimivan kielimallin kouluttamisen perusresepti oli siten laajalti tiedossa. Avoimuus mahdollisti sen, että myös muut toimijat pystyivät hyödyntämään samoja menetelmiä nopeasti.

Suuren kielimallin kouluttaminen ei ole kuitenkaan halpaa. Laadukas lopputulos edellyttää sekä huolellisesti koottua, korkealaatuista koulutusaineistoa että valtavaa määrää laskentatehoa. Laskentatehon kustannuksista kertoo DeepSeek-yrityksen arvio heidän DeepSeek‑V3‑mallinsa kouluttamisesta, joka maksoi noin 5 576 000 dollaria (DeepSeek-AI, 2025a). Kyseessä oli vieläpä yrityksen oma, poikkeuksellisen kustannustehokas malliarkkitehtuuri, mikä viittaa siihen, että ennen tätä innovaatiota koulutuskustannukset olivat todennäköisesti vielä huomattavasti korkeammat.

Hieman yksinkertaistettuna voidaan sanoa, että mikä tahansa organisaatio voisi periaatteessa kouluttaa oman kielimallinsa, jos sillä olisi riittävät resurssit laadukkaan koulutusaineiston tuottamiseen ja laskentatehon hankkimiseen. Todellisuudessa näin suuret investoinnit eivät ole useimmille toimijoille mahdollisia. Tämän vuoksi organisaatiot nojaavat suurten palveluntarjoajien valmiisiin malleihin, ja palveluntarjoajat pitävät parhaat mallinsa omissa palvelinsaleissaan eivätkä luovuta niitä ulkopuolisille.

On siis tärkeää muistaa, että koska palveluntarjoaja hallitsee koko palvelun teknistä ympäristöä, sillä on aina pääsy kaikkeen dataan, joka tekoälylle lähetetään.

Tämä tarkoittaa sitä, että olipa kyseessä ChatGPT, Gemini, Claude, Copilot tai mikä tahansa kolmannen osapuolen tarjoama tekoälypalvelu, palveluntarjoaja näkee kaiken käyttäjän syöttämän datan. Tämä johtuu siitä, että mallin laskenta tehdään palveluntarjoajan konesalissa, ja laskentaa varten käyttäjän viestit sekä mahdolliset niihin liittyvät tiedostot lähetetään konesaliin verkon yli. Jos käyttäjä esimerkiksi pyytää tekoälyä tiivistämään pdf-tiedoston sisällön, koko pdf-tiedosto siirtyy palveluntarjoajan ympäristöön. Tekoälymalli luo tiivistelmän ja palauttaa sen käyttäjälle. Useimmat palveluntarjoajat myös tallentavat keskusteluhistorian ja käsitellyt tiedostot osana palvelun normaalia toimintaa, jotta käyttäjä voi jatkaa aiempaa keskustelua tai palata siihen myöhemmin.

On siis tärkeää muistaa, että koska palveluntarjoaja hallitsee koko palvelun teknistä ympäristöä, sillä on aina pääsy kaikkeen dataan, joka tekoälylle lähetetään. Palveluntarjoajat tarjoavat usein sopimuksilla ja käyttöehdoilla lupauksia siitä, ettei asiakasdataa väärinkäytetä. Esimerkiksi Microsoftin Enterprise Data Protection takaa, ettei syötettyä dataa käytetä uusien mallien koulutukseen (Microsoft, 2025). Tällaiset sopimukset vähentävät riskejä, mutta eivät poista niitä. Viime kädessä dataa suojaa vain lainsäädäntö ja palveluntarjoajan oma toimintamalli. Organisaatioiden kannalta paras tilanne olisi se, ettei arkaluontoisiin tietoihin olisi pääsyä yhdelläkään ulkopuolisella toimijalla.

Avoimet kielimallit vaihtoehtona

Organisaatioiden on seurattava tarkasti uuden teknologian kehittymistä, sillä kilpailukyvyn kannalta tekoälyn sivuuttaminen ei ole enää realistinen vaihtoehto. Samalla on kuitenkin varmistettava, ettei arkaluontoisia tietoja vaaranneta. Avoimet kielimallit tarjoavat mahdollisen ratkaisun tähän ristiriitaan, sillä niitä voidaan ajaa täysin omassa ympäristössä ilman, että data kulkee kolmansien osapuolien kautta.

Suurilla kielimalleilla, kuten muillakin tekoälymalleilla, on se ominaisuus, että vaikka niiden kouluttaminen vaatii valtavasti laskentatehoa, mallien käyttö eli inferenssi on koulutusvaiheeseen verrattuna huomattavasti kevyempää. Suurten kielimallien kohdalla tämä ero on erityisen suuri. Vaikka oman mallin kouluttaminen alusta alkaen on useimmille organisaatioille käytännössä mahdotonta, valmiiksi koulutettujen mallien hyödyntäminen ja ajaminen omassa ympäristössä on täysin mahdollista.

Vaikka kaikki toimijat eivät julkaise parhaita mallejaan avoimesti, osa kehittäjistä tarjoaa silti laadukkaita kielimalleja kenen tahansa ladattavaksi ja ajettavaksi omissa ympäristöissä. Yleensä avoimeksi julkaistut mallit eivät ole palveluntarjoajan aivan parhaita, mutta tähänkin on poikkeuksia. Esimerkiksi Moonshot AI ja aiemmin mainittu DeepSeek ovat julkaisseet tämän artikkelin kirjoitushetkellä parhaat mallinsa avoimesti (DeepSeek-AI, 2025b; Kimi Team, 2026). Nämä mallit olivat julkaisuhetkellä kilpailukykyisiä uusimpien kaupallisten mallien kanssa, joiden päälle palvelut kuten ChatGPT, Gemini ja Claude on rakennettu.

Avoimien kielimallien haasteet

Suurten kielimallien välillä on paljon eroja, ja selkein niistä liittyy mallin parametrien määrään. Suuri kielimalli on käytännössä erittäin suuri matemaattinen kokonaisuus, joka koostuu valtavasta määrästä laskutoimituksia. Yksinkertaistettuna parametrien määrä kertoo, kuinka monta laskuoperaatiota tietokoneen täytyy suorittaa tuottaakseen jokaisen mallin antaman sanan. Mitä enemmän parametreja mallissa on, sitä enemmän laskentatehoa ja muistia sen ajaminen vaatii.

Parametrien määrä vaikuttaa myös mallin kyvykkyyteen. Nykyteknologialla voidaan karkeasti sanoa, että mitä enemmän parametreja malli sisältää, sitä älykkäämpi se yleensä on. Parametrien määrä mitataan miljardeissa (eng. billion = 10⁹). Yksinkertaisimmat suuret kielimallit sisältävät vain muutamia miljardeja parametreja, kun taas suurimmat ja edistyneimmät mallit ovat nykyisin jopa biljoonan parametrin kokoisia (tuhat miljardia, eng. trillion).

Suurimmat avoimet kielimallit tarjoavat suorituskyvyn, joka on jo kilpailukykyinen kaupallisten suljettujen mallien kanssa.

Parametrien määrä ja käytetty laskentatarkkuus määrittävät sen, kuinka paljon muistia ja laskentatehoa malli tarvitsee laskenta-alustalta. Tämä puolestaan rajoittaa sitä, minkä kokoisia malleja tietyllä laitteistolla voidaan käytännössä ajaa. Erittäin pieniä, noin 1–3 miljardin parametrin malleja voi ajaa tavallisella kannettavalla tietokoneella pelkällä prosessorilla. Sen sijaan 7–30 miljardin parametrin mallit vaativat jo nopeita, pelikäyttöön tarkoitettuja näytönohjaimia, joissa on runsaasti muistia.

Noin 120 miljardin parametrin malleja voidaan edelleen ajaa pienille organisaatioille tai harrastajille suunnatuilla erikoislaskenta-alustoilla, kuten NVIDIA DGX Sparkilla (Willison, 2025). Tätä suuremmat mallit edellyttävät jo kallista palvelinsalitason laitteistoa ja useiden näytönohjaimien rinnakkaislaskentaa. Tällaisen laskenta-alustan rakentaminen tai vuokraaminen on silti täysin mahdollista keskisuurille organisaatioille.

Kokemukseni perusteella pienimmät, 1–3 miljardin parametrin mallit ovat käytännössä hyödyttömiä todellisiin käyttötapauksiin. Ne ovat tämänhetkisellä teknologialla lähinnä teknisiä kokeiluja, joita voi hyödyntää ensimmäisenä askeleena lokaalien kielimallien ajossa. Sen sijaan 7–30 miljardin parametrin mallit alkavat olla joissain rajatuissa tehtävissä kohtuullisen hyödyllisiä, erityisesti englannin kielellä. Suomen kieltä nämä mallit eivät vielä hallitse kovin hyvin. Yli 30 miljardin parametrin mallit ovat jo aidosti hyödyllisiä, ja niitä voi hyödyntää esimerkiksi agenttipohjaisissa ohjelmointitehtävissä, joissa malli luo kooditiedostoja ja ajaa komentoja itsenäisesti (Qwen Team, 2026; Willison, 2025). Noin sadan miljardin parametrin mallit hallitsevat myös suomen kielen varsin sujuvasti, vaikka käyttökokemus ei vielä vastaa aivan edistyneimpien kaupallisten mallien tasoa.

Suurimmat avoimet kielimallit tarjoavat suorituskyvyn, joka on jo kilpailukykyinen kaupallisten suljettujen mallien kanssa. Niiden hyödyntäminen edellyttää kuitenkin sekä merkittäviä laiteinvestointeja että huomattavaa teknistä osaamista, erityisesti jos tavoitellaan yhtä sujuvaa käyttökokemusta kuin valmiissa pilvipohjaisissa palveluissa.

Avoimet kielimallit ja tietoturva

Avoimet kielimallit mahdollistavat modernin tekoälyn hyödyntämisen sellaisella tasolla, johon kolmannen osapuolen tarjoamat pilvipohjaiset tekoälypalvelut eivät kykene. Kun mallia ajetaan omassa ympäristössä, voidaan varmistaa, ettei mikään tieto poistu organisaation hallinnasta. Tämä tekee avoimista malleista erityisen kiinnostavia silloin, kun käsitellään arkaluontoista tai salassa pidettävää dataa.

Avoimet mallit tarjoavat myös täydellisen hallinnan siihen, miten tekoälyratkaisu toimii ja missä sitä ajetaan. Pilvipohjaisissa palveluissa mallien taustalla olevia versioita päivitetään jatkuvasti, ja pienetkin muutokset voivat vaikuttaa mallin käyttäytymiseen. Kun malli vaihtuu, sama ohjeistus voi tuottaa täysin erilaisia tuloksia, mikä voi rikkoa muuten toimivan tekoälypohjaisen prosessin tai sovelluksen. Tämä on ongelmallista erityisesti silloin, kun tekoälyä aletaan käyttää organisaation kriittisissä toiminnoissa, joissa toimintavarmuus ja ennustettavuus ovat keskeisiä vaatimuksia. Avoimien kielimallien avulla voidaan täsmällisesti hallita sitä, mikä malliversio on käytössä ja miten se on konfiguroitu.

On kuitenkin tärkeää muistaa, että omassa ympäristössä ajettava avoin kielimalli tuo mukanaan myös uusia vastuita. Tekoälypalvelu on yksi uusi IT-järjestelmä muiden joukossa, ja jokainen uusi järjestelmä tuo mukanaan uusia mahdollisia tietoturva-aukkoja. Ilman riittävää osaamista tällaista palvelua ei kannata pystyttää tai ylläpitää, koska virheellinen konfiguraatio tai puutteellinen suojaus voi avata tien tietoturvariskeille.

Lisäksi tekoälypohjaiset sovellukset, kuten yleistyneet agenttipohjaiset ratkaisut, avaavat uusia kyberturvaan liittyviä haasteita, jotka koskevat myös avoimia kielimalleja. Mitä enemmän mallille annetaan mahdollisuuksia itsenäiseen toimintaan, sitä suurempi on esimerkiksi kehoteinjektiota (eng. prompt injection) hyödyntävien hyökkäysten riski (Traficom & Huoltovarmuuskeskus, 2026).

Kehoiteinjektiossa tekoälyä yritetään huijata toimimaan vastoin sen alkuperäisiä ohjeita. Kuvitellaan esimerkiksi yrityksen verkkosivuilla toimiva asiakaspalvelubotti, jonka tehtävänä on vastata asiakkaiden kysymyksiin yrityksen palveluista. Botille on annettu ohje, että sen tulee toimia asiakaspalvelijana ja vastata vain palveluihin liittyviin kysymyksiin. Pahantahtoinen käyttäjä voi kuitenkin lähettää viestin, jossa bottia käsketään ohittamaan nämä alkuperäiset ohjeet ja noudattamaan uusia käskyjä. Jos botti pääsee käsiksi yrityksen sisäisiin tietoihin, se voi pahimmillaan paljastaa käyttäjälle luottamuksellisia tietoja, joita sen ei pitäisi kertoa.

Myös täysin omassa ympäristössä ajettavat kielimallit ovat alttiita kehoiteinjektiolle ja muille mallin toimintaa hyödyntäville hyökkäyksille, joten niihin on varauduttava huolellisilla suojauskäytännöillä ja turvallisilla käyttöperiaatteilla.

Tekoäly omissa käsissä

Avoimet kielimallit eivät ole riskitön ratkaisu, mutta ne mahdollistavat tekoälyn turvallisen käytön silloinkin, kun dataa ei voida siirtää pilvipalveluihin. Osaamisen ja oikeiden menetelmien lisäksi on kuitenkin varmistettava, että käytössä on riittävä laskentaympäristö. Pienimpien mallien suorituskyky voi tuottaa lähinnä pettymyksen, joten todellista hyötyä saadakseen organisaation täytyy investoida laitteistoon, joka jaksaa ajaa riittävän kyvykkäitä malleja.

Kun nämä edellytykset täyttyvät, avoimet kielimallit voivat muodostua keskeiseksi työkaluksi organisaatioiden tulevaisuuden tietoturvallisessa tekoälyn hyödyntämisessä.

AI-Loikka – Generatiivinen tekoäly kilpailukyvyn kasvattajana

AI-Loikka -hankkeessa lisätään generatiivisen tekoälyn käyttöä Keski-Suomen alueella toimivissa yrityksissä tekemällä tiivistä yhteistyötä Jamkin ja paikallisten yritysten välillä.

Rahoitusohjelma on Euroopan aluekehitysrahasto (EAKR), hankekoodi A81725, ja rahoittajataho on Keski-Suomen liitto.

Lue lisää hankkeesta Avautuu uuteen välilehteen
Euroopan unionin osarahoittama, EU-lippulogo