Julkaisuaikataulut

Artikkelit julkaistaan 2 tunnin välein alkaen klo 11, poikkeustapauksissa jo klo 9. Jos päivälle on videoartikkeli, se julkaistaan klo 19.

Yhteystiedot

Publication-X on sitoutumaton julkaisu, artikkelit tulevat yhteistyökumppaneiltamme, ensisijassa ainoastaan käännämme tekstit ja muut julkaisut  suomeksi.

Tarvittaessa yhteyden toimitukseen saa helpoiten sähköpostilla osoitteella editor@publication-x.com

Business contacts: via email above.

Publication-X toimii kevytyrittäjä-periaatteella, laskutuksesta vastaa Omapaja Oy, 2399894-2

16.11.2024

Publication-X

"Tempus loquendi abiit, opus Domini faciendum est"

“Intersektionaalist hallusinaatiot”: miksi tekoälyn on vaikea ymmärtää, että kuusivuotias ei voi olla lääkäri tai hakea eläkettä

“Intersektionaalist hallusinaatiot”: miksi tekoälyn on vaikea ymmärtää, että kuusivuotias ei voi olla lääkäri tai hakea eläkettä
137 lukukertaa

Synteettinen data ja sen merkitys: Synteettinen data on tekoälyn tuottamaa tietoa, joka jäljittelee oikeaa dataa. Sitä käytetään tekoälymallien kouluttamiseen, kun oikeaa dataa ei ole riittävästi tai kun yksityisyyttä ja tietosuojasäännöksiä on noudatettava.

Ristiriitaisuudet ja harhat: Synteettinen data saattaa sisältää “hallusinaatioita”, eli ristiriitaisia tai mahdottomia tietoja, kuten naimattomat aviomiehet. Nämä harhat voivat vääristää tutkimustuloksia, varsinkin jos dataa käytetään ennustamaan ihmisten käyttäytymistä tai hoitotuloksia.

Intersektionaalinen tarkkuus: Synteettisen datan tarkkuus yksittäisten luokkien osalta voi olla hyvä, mutta monimutkaisemmissa risteämissä, kuten sukupuolen, iän ja tulotason yhdistelmissä, se voi tuottaa mahdottomia tai harhaanjohtavia tuloksia.

Haasteet ja tulevaisuuden näkymät: Luotettavien tekoälyjärjestelmien rakentamiseksi on tärkeää tunnistaa ja merkitä synteettisen datan hallusinaatiot. Tämä edellyttää standardoituja järjestelmiä, jotta voidaan varmistaa, että synteettistä dataa käytetään asianmukaisesti ja turvallisesti.

Kun menet sairaalaan ja otat verikokeen, tulokset tallennetaan tietokantaan ja niitä verrataan muiden potilaiden tuloksiin ja väestötietoihin. Näin lääkärit voivat verrata sinua (veresi, ikäsi, sukupuolesi, terveyshistoriasi, skannaushistoriaasi jne.) muiden potilaiden tuloksiin ja historiaan, minkä ansiosta he voivat ennustaa, hallita ja kehittää uusia hoitoja.

Vuosisatojen ajan tämä on ollut tieteellisen tutkimuksen perusta: tunnistetaan ongelma, kerätään tietoja, etsitään malleja ja rakennetaan malli ongelman ratkaisemiseksi. Toiveena on, että tekoäly (AI) – koneoppiminen, joka muodostaa malleja datasta – pystyy tekemään tämän paljon nopeammin, tehokkaammin ja tarkemmin kuin ihminen.

Näiden tekoälymallien kouluttamiseen tarvitaan kuitenkin paljon dataa, niin paljon, että osan siitä on oltava synteettistä eli ei oikeiden ihmisten todellista dataa vaan dataa, joka jäljittelee olemassa olevia malleja. Useimmat synteettiset datajoukot ovat itse koneoppivan tekoälyn tuottamia.

Kuvageneraattoreiden ja chatbottien aiheuttamat villit epätarkkuudet on helppo havaita, mutta synteettinen data tuottaa myös hallusinaatioita – tuloksia, jotka ovat epätodennäköisiä, puolueellisia tai yksinkertaisesti mahdottomia. Kuten kuvien ja tekstin kohdalla, ne voivat olla huvittavia, mutta koska näitä järjestelmiä käytetään laajalti kaikilla julkisen elämän aloilla, haittojen mahdollisuus on valtava.

Mitä on synteettinen data? Tekoälymallit tarvitsevat paljon enemmän dataa kuin mitä reaalimaailma voi tarjota. Synteettinen data tarjoaa ratkaisun – generatiivinen tekoäly tutkii todellisen tietokokonaisuuden tilastollisia jakaumia ja luo uuden, synteettisen tietokokonaisuuden muiden tekoälymallien kouluttamista varten.

Tämä synteettinen “pseudodata” on samankaltaista mutta ei identtistä alkuperäisen kanssa, mikä tarkoittaa, että sillä voidaan myös taata yksityisyys, noudattaa tietosuojasäännöksiä ja sitä voidaan jakaa tai jakaa vapaasti.

Synteettinen data voi myös täydentää oikeita tietokokonaisuuksia, jolloin niistä saadaan riittävän suuria tekoälyjärjestelmän kouluttamiseen. Tai jos todellinen tietokokonaisuus on vääristynyt (esimerkiksi siinä on liian vähän naisia tai siinä on liikaa villapaitoja villapaitojen sijaan), synteettinen data voi tasapainottaa sitä. Jatkuvaa keskustelua käydään siitä, kuinka paljon synteettinen data voi poiketa alkuperäisestä.

Ilman asianmukaista kuratointia synteettistä dataa tuottavat työkalut edustavat aina liikaa asioita, jotka ovat jo ennestään hallitsevia tietokokonaisuudessa, ja aliedustavat (tai jopa jättävät pois) harvinaisempia “ääritapauksia”.

Tämä herätti alun perin kiinnostukseni synteettistä dataa kohtaan. Lääketieteellisessä tutkimuksessa naiset ja muut vähemmistöt ovat jo nyt aliedustettuina, ja olin huolissani siitä, että synteettiset tiedot pahentaisivat tätä ongelmaa. Niinpä tein yhteistyötä koneoppimisen tutkijan, tohtori Saghi Hajisharifin kanssa tutkiakseni ilmiötä, joka liittyy reunapaikkojen katoamiseen.

Tutkimuksessamme käytimme tekoälyä, jota kutsutaan GAN:ksi, luodaksemme synteettisiä versioita vuoden 1990 Yhdysvaltojen aikuisten väestölaskentatiedoista. Kuten odotettua, synteettisistä tietokokonaisuuksista puuttui reunakysymyksiä. Alkuperäisessä aineistossa oli 40 alkuperämaata, mutta synteettisessä versiossa niitä oli vain 31 – synteettisestä aineistosta jäi pois maahanmuuttajia yhdeksästä maasta.

Kun tiesimme tästä virheestä, pystyimme hienosäätämään menetelmiä ja sisällyttämään ne uuteen synteettiseen aineistoon. Se oli mahdollista, mutta vain huolellisella kuratoinnilla.

“Ristiriitojen hallusinaatiot” – tekoäly luo mahdottomia tietoja Sitten aloimme huomata datassa jotain muuta – ristiriitojen hallusinaatioita.

Intersektionaalisuus on sukupuolentutkimuksen käsite. Se kuvaa valtadynamiikkaa, joka tuottaa syrjintää ja etuoikeuksia eri ihmisille eri tavoin. Siinä ei tarkastella vain sukupuolta vaan myös ikää, rotua, luokkaa, vammaisuutta ja niin edelleen ja sitä, miten nämä tekijät “risteävät” missä tahansa tilanteessa.

Tämä voi auttaa meitä analysoimaan synteettisiä tietoja – kaikkia tietoja, ei vain väestötietoja – sillä tietokokonaisuuden risteävät näkökohdat tuottavat monimutkaisia yhdistelmiä siitä, mitä tiedot kuvaavat.

Synteettisessä aineistossamme erillisten luokkien tilastollinen edustavuus oli melko hyvä. Esimerkiksi ikäjakauma oli synteettisessä aineistossa samanlainen kuin alkuperäisessä aineistossa. Ei identtinen, mutta lähellä. Tämä on hyvä asia, koska synteettisen datan pitäisi olla samanlainen kuin alkuperäinen, ei jäljitellä sitä täsmälleen.

Sitten analysoimme synteettisen aineistomme leikkauspisteiden osalta. Jotkin monimutkaisemmista risteyksistä myös toistettiin. Esimerkiksi synteettisessä aineistossamme iän, tulon ja sukupuolen risteymä toistui melko tarkasti. Kutsuimme tätä tarkkuutta “leikkauspisteiden tarkkuudeksi”.

Huomasimme kuitenkin myös, että synteettisessä aineistossa oli 333 datapistettä, joissa oli merkintä “aviomies/vaimo ja naimaton”, mikä oli leikkauspisteiden hallusinaatio. Tekoäly ei ollut oppinut (tai sille ei ollut kerrottu), että tämä on mahdotonta. Näistä yli 100 datapistettä oli “ei koskaan naimisissa olleita aviomiehiä, jotka ansaitsevat alle 50 000 dollaria vuodessa”, mikä on intersektionaalinen harha, jota ei ollut alkuperäisessä datassa.

Toisaalta alkuperäisessä aineistossa oli useita “teknisen tuen alalla työskenteleviä leskeksi jääneitä naisia”, mutta synteettisestä versiosta ne puuttuivat kokonaan.

Tämä tarkoittaa sitä, että synteettistä aineistoamme voitaisiin käyttää ikään ja tuloon sekä sukupuoleen liittyviä kysymyksiä käsittelevään tutkimukseen (jossa oli intersektionaalista uskollisuutta), mutta ei, jos oltaisiin kiinnostuneita “leskeksi jääneistä naisista, jotka työskentelevät teknisen tuen alalla”. Tuloksissa olisi myös varottava “naimattomien aviomiesten” esiintymistä.

Suuri kysymys on: mihin tämä loppuu? Nämä hallusinaatiot ovat 2- ja 3-osaisia risteymiä, mutta entä 4-osaiset risteymät? Tai 5-osainen? Missä vaiheessa (ja mihin tarkoituksiin) synteettisestä datasta tulisi epäolennaista, harhaanjohtavaa, hyödytöntä tai vaarallista?

Risteymäharhojen omaksuminen Strukturoidut tietokokonaisuudet ovat olemassa, koska taulukkolaskentaohjelman sarakkeiden väliset suhteet kertovat meille jotain hyödyllistä. Muistakaa verikoe. Lääkärit haluavat tietää, miten veresi vertautuu normaaliin vereen ja muihin sairauksiin ja hoitotuloksiin. Siksi me ylipäätään järjestämme tietoja, ja olemme tehneet niin vuosisatojen ajan.

Kun käytämme synteettisiä tietoja, syntyy kuitenkin aina ristikkäisiä harhoja, koska synteettisten tietojen on oltava hieman erilaisia kuin alkuperäiset, sillä muuten ne olisivat vain kopioita alkuperäisistä tiedoista. Synteettiset tiedot edellyttävät siis hallusinaatioita, mutta vain oikeanlaisia – sellaisia, jotka vahvistavat tai laajentavat tietokokonaisuutta, mutta eivät luo jotain mahdotonta, harhaanjohtavaa tai puolueellista.

Risteävien hallusinaatioiden olemassaolo tarkoittaa, että yksi synteettinen tietokokonaisuus ei voi toimia moniin eri käyttötarkoituksiin. Jokaisessa käyttötapauksessa tarvitaan räätälöityjä synteettisiä tietokokonaisuuksia, joissa on merkittyjä hallusinaatioita, ja tämä edellyttää tunnustettua järjestelmää.

Luotettavien tekoälyjärjestelmien rakentaminen Jotta tekoäly olisi luotettava, meidän on tiedettävä, mitä intersektionaalisia hallusinaatioita sen harjoitusaineistossa esiintyy, erityisesti silloin, kun sitä käytetään ennustamaan, miten ihmiset toimivat, tai sääntelemään, hallitsemaan, kohtelemaan tai valvomaan meitä. Meidän on varmistettava, ettei niitä kouluteta vaarallisilla tai harhaanjohtavilla intersektionaalisilla hallusinaatioilla – kuten 6-vuotias lääkäri, joka saa eläkemaksuja.

Mutta mitä tapahtuu, kun synteettisiä tietokokonaisuuksia käytetään huolimattomasti? Juuri nyt ei ole olemassa standardoitua tapaa merkitä niitä, ja ne sekoitetaan usein oikeisiin tietoihin. Kun tietokokonaisuus jaetaan muiden käyttöön, on mahdotonta tietää, voiko siihen luottaa ja mikä on harhaa ja mikä ei. Tarvitsemme selkeitä, yleisesti tunnistettavia tapoja tunnistaa synteettiset tiedot.

Ristiriitaiset hallusinaatiot eivät ehkä ole yhtä huvittavia kuin käsi, jossa on 15 sormea, tai suositukset liiman laittamisesta pizzaan. Ne ovat tylsiä, epäseksikkäitä numeroita ja tilastoja, mutta ne vaikuttavat meihin kaikkiin – ennemmin tai myöhemmin synteettinen data leviää kaikkialle, ja se sisältää aina luonteensa vuoksi intersektionaalisia harhoja. Joitakin haluamme, joitakin emme, mutta ongelmana on niiden erottaminen toisistaan. Meidän on tehtävä tämä mahdolliseksi ennen kuin on liian myöhäistä.

Lähde