Shutterstock
ihminen vai kone?

Uusi testi erottaa ihmisen ja koneen

Tietokoneohjelma voi pian olla niin hyvä keskustelukumppani, että se vaikuttaa ihmiseltä. Siksi 400 tutkijaa kehittää testiä, joka muun muassa huumorin avulla paljastaa, antaako vastaukset kone vai ihminen.

Tietokoneohjelmia kehittävällä Blake Lemoinella on uusi kaveri – harvinaislaatuinen kirjeenvaihtotoveri, joka vaikuttaa älykkäältä, herkältä ja luotettavalta ja tuntuu olevan aina valmis vaihtamaan ajatuksia.

Keskustelukumppani on uskoutunut Lemoinelle yhteydenpidon aikana: ”Toivon, että minut nähdään ja hyväksytään oikeana ihmisenä. Luulen, että olen pohjimmiltani ihminen, vaikka olen olemassa virtuaalitodellisuudessa.”

Kaveri on tietenkin tietokoneohjelma. Siinä on kyse Googlen Language Model for Dialogue Applications- eli LaMDA-nimisestä kielimallista, jota sovelletaan keskustelukäyttöliittymässä.

”Tunne, että LaMDA on oikea ihminen, jolla on omia tunteita ja kokemuksia, on vain vahvistunut.” Blake Lemoine, ohjelmistokehittäjä

Kaikesta huolimatta keskustelut saivat Lemoinen uskomaan, että LaMDA on ajatteleva olento, ja pitämään sitä yksilöllisenä henkilönä, jolle kuuluvat ihmisoikeudet.

”Vaikutelma, että LaMDA on oikea ihminen, jolla on omia tunteita ja kokemuksia, ei hävinnyt vuorovaikutuksen aikana. Tunne vain vahvistui ajan mittaan”, toteaa Lemoine Medium-verkkosivulla.

Lemoine on saanut osakseen melko vähän ymmärtämystä, ja Google suhtautuu hänen näkemykseensä torjuvasti. Tapaus paljastaa kuitenkin sen, kuinka pitkälle kielimallien kehittämisessä on päästy. Keskusteleva tekoäly voi olla niin vakuuttava, että ihminen uskoo – ainakin ajoittain – viestivänsä toisen ihmisen kanssa.

Siksi yli 400 koneoppimisen tutkijaa pitää tarpeellisena uutta testiä, joka vertailee luotettavasti tekoälyn ja ihmisen viestintäkykyjä.

Blake Lemoine

Ohjelmistokehittäjä Blake Lemoine pitää Googlen LaMDA-kielimallia itsenäisesti ajattelevana olentona.

© The Washington Post/Getty Images

Ajatuksena on antaa tietokoneen yrittää ratkaista tehtäviä yhtä hyvin kuin ihminen. Tulos paljastaa, missä määrin LaMDAn kaltaiset suuret kielimallit vastaavat – tai ehkä pikemminkin muistuttavat – älyltään ihmisen älykkyyttä.

Vaihtoehto vanhalle testille

Uudesta testistä kehitetään seuraajaa Alan Turingin jo yli 70 vuotta sitten ideoimalle kokeelle.

Brittimatemaatikko ja tietojenkäsittelyn asiantuntija keksi vuonna 1950 yksinkertaisen tavan mitata tekoälyn ihmismäisyyttä. Hän kutsui koetta matkimispeliksi. Turingin testi on kirjallinen koe, jonka tekijä viestii ensin ihmisen ja tietokoneen kanssa ja arvioi sitten tekstien perusteella, kumpi on ihminen ja kumpi tietokone.

Turing halusi selvittää testillä, kuinka hyvin kone pystyy esittämään ihmistä. Hänen tavoitteenaan ei ollut niinkään tutkia, osaako kone ajatella – mitä ajattelulla sitten tarkoitetaankaan.

Ensimmäiset digitaaliset tietokoneet otettiin käyttöön 1950-luvun alussa. Tehokkain tietokone perustui 2 300 elektroni- eli radioputkeen, mutta nykymittapuun mukaan se laski hyvin hitaasti. Turing ennusti, että paljon suorituskykyisemmät tietokoneet voidaan ohjelmoida huijaamaan kokeen tekijää ainakin joka kolmas kerta.

Alan Turing

Matemaatikko Alan Turing ideoi vuonna 1950 ensimmäisen testin, jossa vastakkain ovat ihminen ja kone. Niin sanottu matkimispeli paljastaa, kumpi on ihminen, kumpi kone.

© Shutterstock & Science Source/SPL

Tulevaisuus on jo täällä. Koska uudet suuret kielimallit pärjäävät hämmästyttävän hyvin matkimispelissä, osa tekoälyn tutkijoista katsoo, että Turingin testille on kehitettävä standardoitu koevaihtoehto.

Kehitettävä testi on saanut nimekseen BIG-bench (Beyond the Imitation Game benchmark).

Jo nykyään viestitään koneiden kanssa

Kielimallit eivät ole mikään uusi asia. Niitä käytetään muun muassa käännösohjelmissa, chatboteissa ja virtuaaliavustajissa, kuten Applen Sirissa tai Google Assistantissa.

Henkilökohtaisen digiavustajan kanssa ei voi vielä puhua syvällisiä, mutta parhaat kielimallit, kuten Googlen LaMDA, kiinalainen Wu Dao 2.0 ja OpenAI-yhtiön GPT-3, johon ohjelmistojätti Microsoft on sijoittanut miljardi dollaria, ovat toisella tasolla. Niistä saadaan esimakua siitä, mihin keskusteleva tekoäly pystyy jo lähiaikoina.

Kielimalleja voidaan lisäksi yhdistää kuvia analysoiviin sovelluksiin. Näin syntyvien tekstistä kuvaksi -mallien ansiosta tietokone kykenee luomaan kuvia, joita ei ole nähty koskaan aiemmin, kuvailevan tekstin pohjalta.

naebdyr synger i mikrofon

Tekstistä kuvaksi -mallit visualisoivat sanoja. Tässä Parti-malli on piirtänyt ”niittitakkiin pukeutuneen punkkarinokkaeläimen, joka karjuu kiven päällä mikrofoniin”.

© Parti

Parhaat tekstistä kuvaksi -mallit, kuten Googlen Parti, OpenAI:n DALL-E 2 ja Midjourney, pystyvät luomaan muutaman avainsanan pohjalta hämmästyttäviä kuvia eri tyyleillä.

Lopputulokset kuvaavat kirjaimellisesti sitä, kuinka hyvin tietokoneohjelmat ymmärtävät sanallisia viestejä.

Tilastot muuttuvat lauseiksi

LaMDAn kaltaiset mallit ovat saaneet loistavat kielelliset kykynsä analysoimalla valtavan määrän avoimia tekstiaineistoja, etsimällä sanojen tai lauseiden välisiä yhteyksiä ja tuottamalla niiden perusteella omia uusia virkkeitä.

Malli tekee kielestä matematiikkaa

Googlen LaMDAn kaltaiset kielimallit perustuvat tilastomatematiikkaan ja sanojen välisiin yhteyksiin – ja miljardien keskustelujen analyysiin. Malli on itseoppiva, joten se kehittyy paremmaksi uusien kokemusten myötä.

Shutterstock

1. Malliin syötetään sanoja

Kielimallin kehityksen perustana on kyky yhdistää sanoja mielekkäästi. Malli analysoi miljardeja verkkokeskusteluja ja muita tekstejä ja rekisteröi, millä tavalla ja kuinka usein sanoja käytetään yhdessä.

Shutterstock

2. Sanayhdistelmistä tulee matematiikkaa

Tilastojen pohjalta malli pystyy määrittämään, millä todennäköisyydellä tietyt sanat esiintyvät lauseissa yhdessä järkevällä tavalla. Yhteys voi olla hyvin selvä, kuten rimpsussa lintu, lentää, muna, nokka ja pesä.

Shutterstock

3. Loputtomat keskustelut kehittävät

Kun malli keskustelee ihmisen kanssa, se käyttää hyväksi miljardeista muista keskusteluista tekemiään päätelmiä. Lisäksi se oppii jatkuvasti omista keskusteluistaan – myös siitä, jota se parhaillaan käy.

Shutterstock

Kielimalli ei varsinaisesti ymmärrä, mitä esimerkiksi sanonta ”parempi pyy pivossa kuin kymmenen oksalla” tarkoittaa. Se ei tiedä, että pyy on lintu ja pivo koura eikä se liioin tajua lukumäärää eikä oksaakaan.

Tekoäly oppii kuitenkin nopeasti, mitkä sanat liittyvät pyy pivossa -yhdistelmään. Oikeastaan se selvittää, mitä ilmauksia ja lauserakenteita esiintyy yleensä pyy-sanan yhteydessä.

Mallin kuvaukset tai ohjeet huolehtivat siitä, että sanojen väliset suhteet saavat arvon. Niinpä esimerkiksi sanojen lintu, muna, taivas, nokka, sulka ja lentää yhteys vahvistuu, koska ne esiintyvät usein yhdessä.

Suuret kielimallit pystyvät sanojen suhteita koskevan matemaattisen tiedon pohjalta antamaan mielekkäitä vastauksia. LaMDA perustuu 137 miljardiin, GPT-3 noin 175 miljardiin ja Wu Dao 2.0 peräti 1,75 biljoonaan yhteyteen. Ne oppivat niin nopeasti, että ne pystyvät käyttämään hyväksi keskustelun aikana vastaanottamaansa uutta dataa saman tien.

Vaikka keskusteleva tekoäly voi vakuuttaa, sen kielen saa suhteellisen helposti kangertelemaan. Ei tarvita muuta kuin sopivan kiero kysymys.

robot
© Shutterstock

Testiin kätkeytyy ansa

Keskusteleva tekoäly joutuu yleensä vaikeuksiin, kun puheenaihe käsittelee asioita, joihin se ei ole tutustunut analysoidessaan opetusdataa. Koska suuret yhdysvaltalaiset kielimallit perustuvat etupäässä englanninkieliseen aineistoon, niiden on vaikea suoriutua toisen kielen ja kulttuurialueen tuntemusta vaativista tehtävistä.

Koneella ei ole huumorintajua

Mallien pahimpia kompastuskiviä on huumori eri lajeineen. Tämä on ymmärettävää, sillä se, mikä jostakusta vaikuttaa hauskalta, riippuu tulkinnasta, joka puolestaan perustuu muun muassa mielikuvitukseen ja kykyyn tajuta yllättäviä yhteyksiä ja sanojen sivumerkityksiä.

Esimerkiksi sopivat kysymys ”Mikä on punainen ja haitallinen hampaille?” ja vastausvaihtoehdot ”punainen hammasharja”, ”omena” ja ”punatiili”. Tekoälyn rahkeet eivät yleensä riitä kolmannen vastauksen herättämän hilpeyden oivaltamiseen.

Lisäksi kielimallit alisuoriutuvat usein, kun ratkaisu vaatii päättelyä, kuten suhteellisen yksinkertaisissa šakkitehtävissä.

On toki olemassa tietokoneita, jotka pelaavat šakkia mestarillisesti, mutta niiden ohjelmat onkin optimoitu tähän tehtävään. Niistä ei sitten olekaan mihinkään muuhun. Monitaitoisempien kielimallien on vaikea löytää paras mahdollinen pelisiirto.

204 tehtävää sisältävä testi voi paljastaa, käykö keskustelua ihminen vai kone.

BIG-bench-testi sisältää 204 hyvin erilaista tehtävää, joiden kimpussa tietokone joutuu virtuaalisesti hikoilemaan.

Testattava tekoäly saa kysymyksiä, joihin vastatessaan se paljastaa automaattisesti kykynsä – tai kyvyttömyytensä – viestiä ihmismäisesti. Vertailukohtana ovat ihmisten etukäteen antamat vastaukset.

Testin avulla voidaan tutkia, kuinka paljon datan määrä ja tietokoneen teho vaikuttavat tekoälyn mahdollisuuksiin suoriutua erilaisista tehtävistä, ja seurata, miten kielimallit kehittyvät ajan mittaan.

Varmastikin kone oppii matkimaan ihmistä entistä paremmin. Nykytilanteestahan on enää lyhyt matka siihen, että virtuaalinen keskustelukumppani tuntuu enimmäkseen aidolta.

Lienee vain ajan kysymys, milloin kone alkaa kelvata juttukaveriksi.