Miljardeja harjoituspelejä
DeepNash on päässyt Stratego-maailman huipuille pelaamalla 5,5 miljardia kertaa itseään vastaan. Joka kerralla se on oppinut uutta pelistä, pelistrategiasta ja tavoista voittaa siinä.
Tekoälyyn on ohjelmoitu palkitsemisjärjestelmä, joka ohjaa sitä koko ajan optimoimaan pelaamistaan. Ihmisohjelmoijat puolestaan jatkuvasta hiovat tekoälyn pelialgoritmia paremmaksi.
Tekoälyn strategia perustuu peliteoreettiseen ratkaisuperiaatteeseen nimeltä Nashin tasapaino. Sen ydin on se, että kukaan pelaajista ei muuta strategiaansa, ellei muuttamisesta ole hänelle välitöntä hyötyä.
Tästä lähtökohdasta DeepNash haastaa vastustajansa juonikkailla tempuilla.
Tekoäly muun muassa uhrasi useita arvokkaita pelinappuloitaan, niin sanottuja upseereita, houkutellaan vastustansa siirtämään tärkeimmät nappulansa paikkaan, jossa se saattoi käydä niiden kimppuun. Näin se lopulta löysi vastustajan lipun ja voitti.
Sen sijaan, että tekoäly oli optimoinut yksittäiset siirtonsa, se oppi tarkastelemaan peliä ja sen eri tekijöitä kokonaisuutena. Näin se onnistui hämäämään vastustajan haavoittuvaan asemaan ja iski sitten.
Lautapelistä oppia robottiautoille
DeepNashin oppimia kykyjä voidaan käyttää myös pelilaudan ulkopuolella.
Strategossa opittuja taktiikoita voidaan soveltaa muun muassa itseohjautuvien autojen ajotietokoneissa. Oman ja muiden tielläliikkujen ajotavan ja ratkaisujen ennakoinnissa ja nopeaa päätöksentekoa vaativissa tilanteissa selviää samoilla taidoilla kuin lautapelissä.
”Itseohjautuvaa autoa suunniteltaessa ei pidä olettaa, että kaikki muut autoilijat toimivat aina rationaalisesti ja käyttäytyvät optimaalisesti”, sanoo Googlen kilpailijan Meta AI:n tutkija Noam Brown Singularity Hub -verkkojulkaisussa.