“Anonymisoitu data” on usein myytti: miksi yksilön tunnistaminen onnistuu silti
By Konrad K / 19 lokakuun, 2025 / 14 kommenttia / Teknologia
Useimmat uskovat, että kun data on anonymisoitu, se ei enää paljasta yksilöä. Todellisuus on toisenlainen: riittää muutama datapiste – sijainti, ostos, aikaleima – ja tekoäly tai tilastollinen analyysi löytää sinut takaisin. Tämä tekee anonymisoinnista yhden digiajan suurimmista itsepetoksista.
1. Mitä Reclaim The Net nosti esiin
Reclaim The Netin artikkeli (“How anonymized data can be a myth”) kuvaa sen, mitä monet tietosuojatutkijat ovat sanoneet jo vuosia: anonymisointi ei ole varma suoja, vaan väliaikainen illuusio.
Yksilön jäljet näkyvät metadatassa, vaikka nimi poistettaisiin. Artikkelissa viitataan useisiin klassisiin esimerkkeihin:
- Netflix Prize: kun palvelu julkaisi “anonymisoidun” elokuvatottumusten datasetin tutkimuskäyttöön, tutkijat pystyivät yhdistämään sen IMDb-arvosteluihin ja tunnistamaan käyttäjiä.
- Sijaintidata: neljä satunnaista GPS-pistettä riittää tunnistamaan 95 % ihmisistä, kuten MIT:n tutkimus (de Montjoye et al., Nature, 2013) osoitti.
- Terveys- ja luottokorttidata: Yhdysvalloissa vakuutusyhtiöiden “de-identified” datasetit on voitu yhdistää ostoskäyttäytymiseen ja paljastaa potilaiden henkilöllisyys.
Näiden rinnalla tekoälyn aikakausi on tehnyt datasta entistä tunnistettavampaa: mallit oppivat rakenteita, joista voidaan johtaa takaisin henkilö, vaikka kaikki tunnisteet olisi poistettu.
2. Miksi anonymisointi epäonnistuu
a) Liian vähän muuttujia tarvitaan.
Käyttäjän säännölliset reitit, kellonajat, selaustavat ja ostot muodostavat “digitaalisen sormenjäljen”. Tätä ei voi helposti häivyttää ilman, että data menettää arvonsa.
b) Ristiinlinkitys on arkea.
Pilvipalvelut ja mainosverkot yhdistävät eri lähteitä: yksi palvelu tietää sijainnin, toinen ostot, kolmas selaushistorian. Kun nämä liitetään yhteen, “anonyymi” datasetti muuttuu nopeasti tunnistettavaksi profiiliksi.
c) Mallit eivät unohda.
Kun malli on koulutettu “anonyymillä” datalla, se voi säilyttää siihen liittyvän yksilöllisen rakenteen. Tätä kutsutaan model inversion-ongelmaksi – mallista voidaan palauttaa alkuperäisiä tietoja, vaikka datasetti olisi poistettu.
3. Tekoäly, big data ja anonymisoinnin romahdus
Tekoäly on tehnyt deanonymisoinnista massatoiminnon.
- Pattern matching ja clustering-menetelmät löytävät yhteyksiä, joita yksittäinen ihminen ei edes havaitse.
- LLM-mallit voivat vertailla valtavia datamassoja ja rekonstruoida henkilöllisyyksiä todennäköisyyspohjalta.
- Kun jokaisesta ihmisestä kertyy tuhansia datapisteitä, todennäköisyyskahleet sulkeutuvat nopeasti – jopa pseudonyymit tunnukset paljastuvat.
Käytännössä tämä tarkoittaa, että anonymisointi ei ole pysyvä tila, vaan ajallisesti rajallinen suoja: se kestää vain siihen asti, kunnes joku keksii uuden tavan yhdistää tiedot.
4. Sääntely ja harhakuvitelmat
GDPR ja anonymisointi:
EU-lainsäädäntö tekee eron “henkilötietojen” ja “anonymisoidun datan” välillä. Mutta jos data on mahdollista palauttaa henkilöön – edes teoreettisesti – se ei ole enää anonymisoitua. Tämä on harmaata aluetta, jota moni yritys hyödyntää: data myydään “de-identified”-leimalla, vaikka sen voisi yhdistää takaisin.
Yhdysvalloissa:
Yksityisyyslainsäädäntö on hajanaista, ja monet yritykset luottavat vapaaehtoisiin eettisiin periaatteisiin. Tämä on johtanut siihen, että anonymisoinnista on tullut markkinointitermi, ei tekninen tae.
5. Publication-X:n analyysi
- Reclaim The Netin analyysi on teknisesti ja journalistisesti kestävä. Se nostaa esiin ongelman, jota alalla usein vähätellään: anonymisointi ei suojaa yksilöä, vaan antaa väärän turvallisuudentunteen.
- Laajempi vaikutus: Tämä koskee kaikkea tekoälykehitystä ja dataekonomiaa. Kun mallit käyttävät “anonymisoitua” aineistoa, yksityisyys ja kaupallinen hyöty ovat jatkuvassa ristiriidassa.
- Tulevaisuuden linjaus: Tietosuoja ei enää voi perustua anonymisointiin, vaan data minimization– ja local processing-periaatteisiin — dataa ei saa kerätä, jos sitä ei oikeasti tarvita.
Johtopäätös:
Anonymisointi ei ole hopealuoti. Se on helposti purettava naamio, joka hajoaa datatalouden ja tekoälyn paineessa. Tietosuojan seuraava aikakausi edellyttää, että yksityisyys on sisäänrakennettu – ei jälkikäteen peitetty.
Lähteitä ja lisälukemista
- Reclaim The Net (2025): How anonymized data can be a myth
- Narayanan & Shmatikov (2008): Robust De-anonymization of Large Datasets
- de Montjoye et al. (2013): Unique in the Crowd: The privacy bounds of human mobility, Nature Scientific Reports
- EFF.org / ACM: Re-identification and data protection in AI systems
- EU GDPR Recital 26: määritelmä anonymisoinnista ja tunnistettavuudesta