Pekiştirmeli Öğrenme Nedir?

Basitçe söylemek gerekirse, pekiştirmeli öğrenme, eylemlerin ve ilgili ödüllerin tekrarı yoluyla bir yapay zeka ajanının eğitilmesini içeren bir makine öğrenimi tekniğidir. Bir pekiştirmeli öğrenme ajanı, bir ortamda deneyler yapar, harekete geçer ve doğru eylemler yapıldığında ödüllendirilir. Zaman içinde ajanı, ödülünü en üst düzeye çıkaracak eylemleri yapmayı öğrenir. Bu, pekiştirmeli öğrenmenin hızlı bir tanımıdır, ancak pekiştirmeli öğrenmenin arkasındaki kavramlara daha yakından bakmak, onu daha iyi ve daha sezgisel bir şekilde anlamanıza yardımcı olacaktır.

“Pekiştirmeli öğrenme” terimi, psikolojideki pekiştirme kavramından uyarlanmıştır. Bu nedenle, psikolojik güçlendirme kavramını anlamak için bir dakikanızı ayıralım. Psikolojik anlamda, pekiştirme terimi, belirli bir tepki/eylem meydana gelme olasılığını artıran bir şeyi ifade eder. Bu pekiştirme kavramı, başlangıçta psikolog B.F. Skinner tarafından önerilen edimsel koşullanma teorisinin merkezi bir fikridir. Bu bağlamda pekiştirme, belirli bir davranışın sıklığının artmasına neden olan herhangi bir şeydir. İnsanlar için olası takviyeyi düşünürsek, bunlar övgü, işte zam, şekerleme ve eğlenceli aktiviteler gibi şeyler olabilir.

Psikolojik anlamda, iki tür pekiştirme vardır. Olumlu pekiştirme ve olumsuz pekiştirme vardır. Olumlu pekiştirme, köpeğinize iyi davrandığında bir ödül vermek gibi bir davranışı artıran bir şeyin eklenmesidir. Olumsuz pekiştirme, bir davranışı ortaya çıkarmak için bir uyaranın kaldırılmasını içerir.

Olumlu ve Olumsuz Pekiştirme

Olumlu pekiştirme davranışın sıklığını artırırken olumsuz pekiştirme davranışın sıklığını azaltır. Genel olarak, pozitif pekiştirme, pekiştirmeli öğrenmede kullanılan en yaygın pekiştirme türüdür, çünkü modellerin belirli bir görevdeki performansı en üst düzeye çıkarmasına yardımcı olur. Sadece bu değil, aynı zamanda olumlu pekiştirme, modeli daha sürdürülebilir değişiklikler, tutarlı kalıplar haline gelebilecek ve uzun süre devam edebilecek değişiklikler yapmaya yönlendirir.

Olumlu Pekiştirme

Buna karşılık, olumsuz pekiştirme aynı zamanda bir davranışın ortaya çıkma olasılığını arttırırken, bir modelin maksimum performansına ulaşmak yerine minimum performans standardını korumak için kullanılır. Pekiştirmeli öğrenmedeki olumsuz pekiştirme, bir modelin istenmeyen eylemlerden uzak tutulmasına yardımcı olabilir, ancak bir modelin istenen eylemleri keşfetmesini gerçekten sağlayamaz.

Olumsuz Pekiştirme

Pekiştirmeli Öğrenme Ajanı Eğitim Süreci:

Bir pekiştirmeli öğrenme aracısı eğitildiğinde, eğitimde kullanılan dört farklı bileşen veya durum vardır: Başlangıç durumu (Durum 0), yeni durum (Durum 1), aksiyon (eylem) ve ödüller.

Reinforcement Learning Fig. 1
https://www.kdnuggets.com/2018/03/5-things-reinforcement-learning.html

Yapay zekanın amacının ekranın karşısına geçerek oyunun son seviyesine ulaşmak olduğu olduğunu hayal edin. Oyunun ilk durumu ortamdan çizilir, yani oyunun ilk çerçevesi analiz edilir ve modele verilir. Bu bilgilere dayanarak, model bir eyleme karar vermelidir. Eğitimin ilk aşamalarında, bu eylemler rastgeledir, ancak model güçlendirildikçe belirli eylemler daha yaygın hale gelecektir. Aksiyon alındıktan sonra oyunun ortamı güncellenir ve yeni bir durum veya çerçeve oluşturulur. Ajan tarafından yapılan eylem arzu edilen bir sonuç verdiyse, diyelim ki bu durumda ajan hala hayatta ve bir düşman tarafından vurulmamışsa, ajana bir miktar ödül verilir ve aynı şeyi yapması daha olası hale gelir. Bu temel sistem sürekli döngü halindedir, tekrar tekrar gerçekleşir ve aracı her seferinde biraz daha fazla öğrenmeye ve ödülünü en üst düzeye çıkarmaya çalışır.

Pekiştirmeli Öğrenim İçin Kullanım Örnekleri:

Pekiştirmeli öğrenme, çok çeşitli rollerde kullanılabilir ve görevlerin otomasyon gerektirdiği uygulamalar için en uygunudur. Endüstriyel robotlar tarafından gerçekleştirilecek görevlerin otomasyonu, pekiştirmeli öğrenmenin faydalı olduğu bir alandır. Pekiştirmeli öğrenme, uzun metin gövdelerini özetleyebilen modeller oluşturarak metin madenciliği gibi problemler için de kullanılabilir. Araştırmacılar ayrıca, tedavi politikalarının optimizasyonu gibi işleri yürüten pekiştirici ajanlarla sağlık alanında pekiştirmeli öğrenmeyi kullanmayı deniyorlar. Pekiştirmeli öğrenme, eğitim materyallerini öğrenciler için özelleştirmek için de kullanılabilir.

Hindreen & Adnan, Reinforcement Learning and Modeling Techniques: A Review

SONUÇ:

Pekiştirmeli öğrenme, etkileyici ve bazen şaşırtıcı sonuçlara yol açabilen güçlü bir yöntemidir. Pek çok eğitim yinelemesi ve keşfetme/sömürme ikilemi arasında hassas bir denge gerektirdiğinden, pekiştirmeli öğrenme yoluyla bir aracıyı eğitmek karmaşık ve zor olabilir. Bununla birlikte, başarılı olursa, pekiştirmeli öğrenme ile oluşturulan bir etmen, çok çeşitli farklı ortamlarda karmaşık görevleri gerçekleştirebilir.

Yorum bırakın