Sinir Ağı Öğrenme Hızı vs Q-Öğrenme Öğrenme Oranı

Ben sadece makine öğrenmeye giriyorum - çoğunlukla takviye Öğrenme - Q değerleri hakkında eğitilmiş bir sinir ağı kullanarak. Bununla birlikte, hiper parametrelere bakıldığında, gereksiz görünen iki tane var: sinir ağı için öğrenme oranı, $ eta $ ve Q-öğrenme için öğrenme oranı, $ \ alpha $. Her ikisi de nöral ağın eskiden yeni sonuçlara ulaştığı oranı değiştiriyor gibi görünüyor.

Yani bu iki parametre gereksiz mi? Zaten $ \ eta $ ayarlıyorum veya sonuçta farklı etkileri varsa, $ 1 dışında bir şey olarak $ endişelenmenize gerek var mı?

3
İki farklı kaynaktan gelen sinir ağları ve takviye öğrenimi tanımlarınızı okuyorsunuz ve teoriyi kendiniz birleştirmeye mi çalışıyorsunuz, yoksa özellikle bu ikisini birleştirmekle ilgili bir makale mi okuyorsunuz? Eğer ikincisiyse, makalenin iki farklı öğrenme oranı için herhangi bir özel anlamı kalması durumunda bir referans verebilir misiniz?
katma yazar Jeff Ferland, kaynak
Birkaç yer onları bir araya getirmekten bahsediyor, ancak çoğu, hiçbir zaman, Wikipedia sayfasını, stokastik öğrenme ortamları için (kullanmayı planladığım) iyi bir fikir olarak ortaya çıkarılan Q-Learning'deki öğrenme oranından hiç bahsetmiyor. Yani ikisini de kullanmak benim fikrim.
katma yazar cheeze, kaynak

1 cevap

Takviye öğrenmede bir fonksiyon ağı olarak bir sinir ağı kullanıldığında genellikle sadece bir öğrenme oranı aktiftir. $ \ Eta $ ve $ \ alpha $ farklı isimler aynı temel kavram için sadece farklı kurallardır.

Takviye öğrenmede, lineer olandan başka bir fonksiyon parametresi kullandığınızda, genellikle aşağıdaki gibi TD hatası tabanlı güncelleme kullanmazsınız:

$$ \ mathbf {w} \ leftarrow \ mathbf {w} + \ alpha [R + \ gama \ şapka {q} (S ', A', \ mathbf {w}) - \ şapka {q} (S, A, \ mathbf {w})] \ nabla \ hat {q} (S, A, \ mathbf {w}) $$

Ancak, tahmincinizi örneklenmiş TD hedefinde (nöral bir ağda $ \ eta $ param kullanacak) denetimli bir öğrenme biçiminde eğiteceksin:

$$ \ mathbf {x} = \ phi (S, A), y = R + \ gama \ şapka {q} (S ', A', \ mathbf {w}) $$

Aslında, kitaplığınız destekliyorsa, açık bir eğitim kullanmak yerine, örneğin bir nöral ağ için $ \ nabla \ hat {q} (S, A, \ mathbf {w}) $ değerini hesaplamak mümkün olabilir. kayıp işlevi. Ancak, iki yaklaşım aynı şeyi ifade etmenin eşdeğer yollarıdır, her ikisini de kullanmanın bir nedeni yoktur.

Takviye öğrenmede, yakınsama oranlarını ve öğrenme ajanlarının diğer özelliklerini etkileyebilecek diğer parametreler vardır. Örneğin, diferansiyel bir yarı-gradyan TD öğrenmesi ile - ki bu da sürekli bir göreve bakacağınız bir algoritma olabilir - Sutton ve Barto, ortalama ödül için, tahmincinin öğrenme oranından farklı olarak $ \ beta $ 'ı ayrı bir öğrenme oranı olarak sunar. .

Yani bu iki parametre gereksiz mi? Zaten $ eta $ ayarlıyorum veya sonuçta farklı etkileri varsa, $ 1'den başka bir şey gibi $ endişelenmem gerekiyor mu?

Esasen farklı bir ada sahip olan aynı parametresidir.

$ R + \ gamma \ hat {q} (S ', A', \ mathbf {w}) - \ hat {q} (S, A, \ mathbf {w}) $ gibi bir hata değeri iletmeye çalışıyorsanız $ ($ \ alpha $ ile çarpılsın ya da olmasın) bir hedef olarak sinir ağına girerse, o zaman yanlış bir fikrin var. Bunun yerine, sinir ağınızın hedef $ R + \ gamma \ hat {q} (S ', A', \ mathbf {w}) $ değerini öğrenmesini istiyorsunuz. Bunun nedeni, şu anki tahmin ve çarpmanın bir öğrenme oranı ile çıkarılması, sinir ağı eğitimine yerleştirilmiştir.

1
katma