Önceki başarılarını hatırlayan ve onları yeni stratejiler üretmek için kullanabilen bu yapay zeka en zor atari oyunlarında rekor sonuçlara ulaştı.
Çoğu yapay zeka takviyeli öğrenme sistemi ile işler. Yani algoritmalara, belirli bir amaç yolundaki ilerleyişlerine göre her gerekli adımı attıklarında olumlu ya da olumsuz sonuçlar verilir. Böylelikle sonuca ulaşmaları konusunda teşvik edilirler. UberAI Labs ve OpenAI çalışanlarından oluşan ekibe göre bu tip algoritmalar oyunlar esnasında sık sık kazandırabilecek seçeneklere rastlasalar da farklı yollar seçerek ödül arayışına geçiyorlar. Böylece alınabilecek daha iyi sonuçları göz ardı etmiş oluyorlar.
Bu sorunu çözmek için denediği tüm yaklaşımları hatırlayan ve yüksek skorlara sahip olduğu anlara geri dönüp, o anları başlangıç noktası olarak seçerek daha farklı davranan bir algoritma oluşturdular. Bu fikre aslında bazı video oyunlarından aşinayız. Oyunu oynuyor, başarısız oluyor, kaydedilmiş bir ana yeniden dönüyor ve farklı bir şey deniyoruz. Atari oyunları normalde oyuncuların geçmiş anlara dönmesine izin vermez. Araştırmacılar, dönüş noktalarını kaydeden ve geri yükleyebilen bir emülatör (taklitçi) kullanarak atari sistemini taklit ettiler. Bu sayede algoritma oyuna baştan başlamak zorunda kalmadan herhangi bir yerden devam edebildi.
Go-Explore adı verilen bu yapay zeka, Montezuma’s Revenge de dahil daha önceki yapay zekaların yenemediği atari oyunlarında başarılı oldu. Bu oyunda, yeraltı tapınaklarından oluşan bir labirentte tuzak ve düşmanlardan kaçınırken ödüller de toplaması gereken Pedro adlı bir karakterin kontrol edilmesi gerekiyor. Tek bir yanlış zıplama sonraki seviyeye giden yolu kapatıyor.
Bu yapay zeka, sadece oyunlarda rekor skorlar elde etmek için kullanılmıyor. Go-Explore robotik bir kolun bilgisayar simülasyonuna “beyin” olarak yüklendiği zaman verilen komutları da uygulayabiliyor.
Robotların birkaç seçenek arasından seçilmiş bir rafa bardak koyabilmesi için genelde belirli alıştırmalara ihtiyacı oluyor. Bardağı tutmak, koyacağı doğru rafı belirlemek, çevredeki engellerden kaçınarak onu hareket ettirebilmek ve bardağa zarar vermeden yerine koyabilmek… Farklı bir algoritma ile karşılaştırıldığı zaman Go-Explore yapması gerekenleri hızlıca kavrayarak başarılı oldu. Rakibi ise bardağı doğru şekilde tutmakta bile zorlandı.
Cevap yazın