Google’ın DeepMind oyuncularına savaşmayı öğretmesi

Takviye öğrenme

Ephesus30 Temmuz 2019Son güncelleme: 27 Mayıs 2022

Avrupa’daki oyuncular, dünyanın önde gelen yapay zeka araştırmacıları tarafından geliştirilen bir botu ele geçirmeye davet ediliyor. Ancak bir bükülme var: oyunculara , buna karşı çukurlandıklarında söylenmeyecekler. Testler , dünyanın en iyi Go oyuncularını mağlup eden bir program hazırlayan Londra merkezli AI şirketi DeepMind tarafından gerçekleştiriliyor .Bu durumda, zorluk bilim kurgu video oyunu Starcraft II ile ilgilidir.Daha karmaşık bir görev olarak görülüyor, çünkü oyuncular tüm parçaların sergilendiği Çin tahta oyunu Go’nun aksine rakiplerinin ne yaptığını kısmi olarak gözden geçirebiliyor.Ayrıca, her iki Starcraft oyuncusu da ordularını sırayla almak yerine eşzamanlı olarak hareket ettiriyor.Google’ın ana Alfabesi’ne ait olan DeepMind, botunun AlphaStar’ın isimsiz bir şekilde oynadığını ve normal bir eşleşme durumuna mümkün olduğunca yaklaştığını söyledi. Mesele şu ki, eğer insanlar bir bilgisayara karşı oynadıklarını kesin olarak biliyorlarsa, farklı oynayabilirler.Google’ın DeepMind oyuncularına savaşmayı öğretmesi
Ancak oyuncular, yalnızca denemenin bir parçası olmayı seçtilerse, algoritma kontrollü sistemle yüzleşeceklerdir.Eğer kaybederse Eşleştirme Puanı (MMR) puanlarının zarar görmesi, diğer oyunculara karşı sıralamalarının düşürülmesi ve yüksek liglere terfi etme ihtimalini etkileme riski vardır.İngiltere’nin önde gelen oyuncularından biri, Starcraft topluluğu arasında AlphaStar’ın nasıl bir performans göstereceği konusunda büyük ilgi olduğunu söyledi.Kent’ten Raza Sekha, “Bu gizli bilgilerin bir oyun ve çok sınırlı bilgiyle kararların alınması” dedi.”İnsanlar DeepMind’in inovasyon yapıp yapmayacağını ve yeni stratejik düşünceler üretip getirmeyeceğini merak ediyorlar.
“Bu gerçekten harika bir başarı olurdu, ama pek çok insanın olmasını beklediğini sanmıyorum.”Ancak AlphaStar’ın öncülleri, en iyi insan oyuncuların bazılarının kendi taktiklerini değiştirmelerini etkileyen, satranç, Go ve shogi oyunlarında yaratıcı stratejiler geliştirdiler.

Takviye öğrenme

AI araştırmacılarının bu alanı video oyunları aracılığıyla ilerletmeye çalıştıkları ilk şey değil.Google’ın DeepMind oyuncularına savaşmayı öğretmesi
Geçen yıl, San Francisco merkezli OpenAI, Montezuma’s Revenge içinde yüksek puanlar elde etmek için etkili bir şekilde “meraklı” bir ajan yarattığında bir atılım yaptı .Microsoft , blok oluşturma başlığının özel bir versiyonunu geliştirmesi sayesinde Minecraft içinde bir dizi makine öğrenme deneyi de gerçekleştirildi .Ve DeepMind , Breakout ve Space Invaders gibi düzinelerce Atari oyununu oynamayı öğreten ajanlar geliştirerek kendisini öne çıkardı . Daha yakın zamanlarda, Quake III Arena’da insan takım arkadaşlarıyla birlikte oynayan bir yazılım yarattı.Bu hazır sanal ortamlar, takviye öğrenme denilen bir işlemi gerçekleştirmenin bir yolunu sağlar. Bu, acentelere, deneme ve yanılma süreci yoluyla kendi başlarına daha iyi performans gösterme yollarını keşfetme, ne yapmaları gerektiği söylenmekten çok başarı için “ödüller” almayı içerir.Bazı durumlarda, ajanlar kendilerini sıfırdan öğretiyorlar. Ancak AlphaStar’ın durumunda, performansı daha da geliştirmek için diğer versiyonlarına karşı serbest bırakılmadan önce ilk maçları referans alarak insan oyununu taklit etmek için eğitildi.Özürlü AI AlphaStar’ın ilerlemesi tartışmasız olmamıştır.Google’ın DeepMind oyuncularına savaşmayı öğretmesi
Bazı oyuncular önceki maçlarda haksız bir avantaja sahip olduğunu hissediyorlardı, çünkü bir oyunun bütün haritasına aynı anda bakabiliyor, bir insandan daha fazla ayrıntı alıyordu.
Sekha, “Bir insan olarak, oyunun en zor kısımlarından biri çoklu görev” dedi.

“Dikkatinizi iki yer arasında bölmek gerçekten zor.

“Öyleyse, bir AI’nın her yerde aynı anda görebilmesi için çok önemli bir avantaja sahip olduğu için, bir insanın birini veya diğerini yapmanın en iyisini yapması gerektiğini seçmesi gerekirken bir insanın neredeyse aynı anda saldırmasını ve savunmasını sağlar.Bunun üstesinden gelmek için, ajan oyun haritasını daha çok insan gibi kullanacak şekilde ayarlandı. Şimdi içindeki eylemi belirlemek için bir bölümü yakınlaştırmak zorundadır ve yalnızca birimleri görünümdeki konumlara taşıyabilir.DeepMind, AlphaStar’ın diğer eleştirileri ele almak için dakika başına gerçekleştirebileceği eylem sayısını da azalttı.Ancak Sekha, hala cevaplanmamış sorular olduğunu söyledi.“Bir kameradan diğer kameralara çok hızlı bir şekilde geçebiliyorsa, bir insanın yapabileceğinden çok daha hızlı olursa, bu hala biraz adaletsiz olur” dedi.“Oyun alanını düzleştirmek için hangi adımları attığını görmek gerçekten ilginç olacak, çünkü topluluk son kez yapay zekanın lehine biraz fazla olduğunu hissetti.”Google’ın DeepMind oyuncularına savaşmayı öğretmesi
DeepMind, proje hakkında daha fazla ayrıntıyı bilimsel bir araştırma belgesinin bir parçası olarak paylaşmayı planlıyor, ancak henüz ne zaman yayınlanacağını belirlemedi.

Ne düşünüyorsunuz?