Tekoälyn, GPT:n ja Copilotin rooli tietosuojassa ja organisaatioiden tiedonhallinnassa

Tekoäly, tunnetaan myös nimellä AI tai tukiäly, on ollut olennainen osa monien arkipäiväistä elämää vuosien ajan, mutta ei kovin näkyvänä osana. Erilaiset tekoälyn sovellukset, kuten OCR (optical character recognition, joka muuntaa kuvat tekstiksi, ovat olleet käytössä jo pitkään. Kuitenkin varsinaisen tekoälybuumin aloitti helposti ohjattava ChatGPT (Generative Pre-trained Transformer), joka toimii kehotteiden avulla. Sen yksinkertaistettu perusidea perustuu laajaan kielimalliin (Large Language Model, LLM), joka kerää valtavan määrän tekstiaineistoa ja oppii sen perusteella tunnistamaan tekstissä esiintyviä riippuvuuksia. Kun käyttäjä antaa kehotteen, esimerkiksi ”Voisitko tiivistää Suomen vuodenajat?”, kielimalli hakee tekstistä avainsanoja ja ymmärtää aiheen. Sisällön ymmärtäminen on yksi osa vastauksen tuottamista ja perustuu ennustukseen siitä, mitkä sanat ovat todennäköisimpiä seuraaviin sanoihin tai lauseisiin liittyen. Esimerkiksi alussa mainittu OCR, kuvasta tekstiksi tunnistaminen, toimii paljon rajatummalla toiminta-alueella ja on toiminnekohtainen sovellus.

Tekoälyn käytön turvallisuus ja tietoturvahaasteet

Julkisesti saatavilla olevat tekoälyt, kuten Google Bard, OpenAI:n ChatGPT ja monet muut, oppivat jatkuvasti käyttäjiensä syötteiden perusteella. Tämä tarkoittaa, että jos syötät tällaisiin palveluihin esimerkiksi taloudellisia tietojasi, on mahdollista, että ne tallentuvat järjestelmään ja voivat olla saatavilla muillekin. Tällaisia tietoturvahaasteita on esiintynyt useita kertoja, kuten Samsungin insinöörien tapaus, kun he pyysivät ChatGPT:tä analysoimaan ohjelmiston lähdekoodia. OpenAI, ChatGPT:n kehittäjäorganisaatio, muistuttaa käyttäjiä siitä, että arkaluonteista tai luottamuksellista tietoa ei tule jakaa ChatGPT:n kanssa. Käytön helppous ja esimerkiksi ChatGPT:n mahdollisuudet ohittivat Samsunginkin tapauksessa ohjeistukset ja tietoturvallisen käytön.

Tekoälyn avulla kuitenkin voidaan tehostaa rutiininomaisia töitä, suorittaa erilaisia testauksia ja saada tukea esimerkiksi ohjelmistokehitykseen. Kuitenkin lopputuloksen taso voi vaihdella suuresti eri sovelluksissa. Kuvien tuottamisessa on edelleen haasteita, esimerkiksi henkilön kädessä voi olla kuusi sormea ja kuvassa pyydetty teksti ”Yritys XYZ” saattaa näkyä epätarkkana tai virheellisenä.

Erityinen haaste LLM-kielimallien kohdalla liittyy siihen, millaisella aineistolla malli on koulutettu. Jos koulutusaineisto koostuu julkisesti saatavilla olevasta Internet-tietomassasta, se sisältää väistämättä myös virheellistä tai epätarkkaa tietoa. Tämä herättää pohdintaa siitä, mitä tapahtuisi, jos malli olisi koulutettu tai käyttäisi ainoastaan organisaation sisäistä tietoa?

Sisäiseen käyttöön tarkoitetut tekoälyratkaisut

Onko mahdollista rajoittaa kielimalli ja liittyvää tietoaineistoa vain sisäiseen käyttöön ja hyödyntää ainoastaan organisaation sisäisiä tietoresursseja? Tällaiset ratkaisut kehittyvät nopeasti ja esimerkiksi Microsoftin vastaus tähän haasteeseen on Copilot. Lisensoitu käyttäjä voi hyödyntää organisaation omaa dataa Copilotin avulla, mahdollistaen tehokkaat haut tiedoista ja datan uudelleenmuokkaamisen omiin tarpeisiinsa.

Kuva: Copilot 365 Fabrikam (lähde: How Copilot for Microsoft 365 works video, YouTube)

Sisäiseen tietoon liittyvät riskit: käyttöoikeudet, sisältö ja ajantasaisuus

Mitä tapahtuu, jos organisaation tiedonhallinta ei olekaan kunnossa? Voiko käyttäjä esimerkiksi päästä käsiksi tietoon, johon hänellä ei pitäisi olla pääsyä, jos pääsynhallintaa ei ole asianmukaisesti varmistettu? Vastaus on usein kyllä ja se on tarkoituksellista tässä tapauksessa, sillä tietoa on tarkoitus hyödyntää. Ongelmana on kuitenkin usein se, että käyttöoikeuksia ei ole varmistettu asianmukaisesti ja Microsoft 365:sta löytyy tarpeettomia pääsyjä tai käyttäjiä, jotka voivat kuulua jopa satoihin eri ryhmiin, mikä saattaa johtaa tahattomiin tietoturvariskeihin.

Entä jos tietoa on tallennettu väärään paikkaan? Esimerkiksi työtodistukset ovat päätyneet liikunnanohjaajien sivustolle HR-ohjelmiston sijaan. Hyvinvointialueet ovat eriytyneet ja dataa on jäänyt taakse, mukaan lukien potilaslistoja. Tai organisaation esittelyaineistossa on satoja henkilötunnuksia teknisen tiedonlinkityksen vuoksi. Myyntimateriaalin kansiosta löytyy myyjän avioliittoon liittyviä asiakirjoja, kuten avioehto ja testamentti. Valitettavasti nämä ovat vain muutamia esimerkkejä siitä, mitä löydämme organisaatioiden tietoaineistoista. Puhumattakaan tuhansista tai kymmenistä tuhansista dokumenteista sisältäen henkilötunnuksia.

Ja entäpä jos aineisto on erittäin vanhaa? Onko meillä edes käsittelyperustetta tällaiselle tiedolle? Monissa organisaatioissa on ohjeita siitä, kuinka vanhaa tietoa saa säilyttää. Ongelmana on kuitenkin se, että näitä ohjeita ei usein valvota tai hallita asianmukaisesti. Niinpä esimerkiksi palkkalaskelmia voi olla tallennettuna vuodesta 1991 lähtien ja ne ovat yhä saatavilla. Tai yhteystietolista voi olla peräisin yli 30 vuoden takaa.

Organisaation tiedonhallinnan tehostaminen: toimenpiteet, vinkit

Varmista, että organisaatiossasi olevat tiedot ovat ajan tasalla ja asianmukaisesti suojattuja. Ota myös huomioon, että tiedon tallennusaikataulu vastaa suunniteltua. Tässä tiivistettynä toimenpiteet, joita sinun kannattaa seurata:

Ymmärrä tiedostojen nykyiset käyttöoikeudet.
Varmista käyttäjäryhmät ja niiden pääsyoikeudet.
Tarkista erityisesti henkilökohtaisten tietojen tallennus ja aloita tiedonhallintatoimet, mukaan lukien tarpeettoman tiedon poistaminen tai arkistointi.
Käy läpi mahdolliset tekijänoikeuslain vastaiset videot tai muut mediat ja poista ne.
Raportoi mahdolliset vakavat poikkeamat organisaation tietosuojavastaavalle tai tarvittaessa kansalliselle Tietosuojavaltuutetun toimistolle.
Korjaa havaitut poikkeamat ja varmista niiden korjaaminen.
Laadi tiekartta, joka perustuu organisaatiosi nykytilanteeseen ja suunnittele tiedonhallinnan toimenpiteet seuraaville vuosille.
Poista tarpeeton tietoaineisto.
Ota toimet osaksi normaaleja prosesseja ja jatka niiden hallintaa
Pidä organisaation yksiköt, johto ja tietosuojavastaava tietoisina prosessimuutoksista.

Copilot for Microsoft 365 – toimenpiteet ennen käyttöönottoa työpaja

Lisäksi voit helpottaa toimia tilaamalla GDPR Techin ”Copilot ja AI Microsoft 365 ympäristössä – kartoitus ja toimenpiteet ennen käyttöönottoa” -työpajan.

Kysy lisätietoja tästä!

Ajankohtaista tietoa

Blogista löydät ajankohtaista tietoa, kiinnostavia artikkeleita sekä paljon yksityiskohtaista infoa liittyen tietosuojaan.

Tekoälyn, GPT:n ja Copilotin rooli tietosuojassa ja organisaatioiden tiedonhallinnassa

Tekoälyn käytön turvallisuus ja tietoturvahaasteet

Sisäiseen käyttöön tarkoitetut tekoälyratkaisut

Sisäiseen tietoon liittyvät riskit: käyttöoikeudet, sisältö ja ajantasaisuus

Organisaation tiedonhallinnan tehostaminen: toimenpiteet, vinkit

Copilot for Microsoft 365 – toimenpiteet ennen käyttöönottoa työpaja

Ajankohtaista tietoa

Lue myös nämä artikkelit

DPIA – pakollinen dokumentti vai arvokas prosessi?

Asiakaskysely 2025: NPS +67 ja mitä opimme palautteesta

Näin yritys vahvisti tietosuoja- ja tietoturvakulttuuria koulutuksella

Jaa kirjoitus somessa

Pyydä tarjous palveluista