Latent Dirichlet ayırmasında eşit boyutta konular

R için topicmodels paketini büyük metinler kümesini (10-75 kelime arasında) kümelere yerleştirmek için kullanıyorum. Birkaç modeli manuel olarak inceledikten sonra, gerçekte 20 tane kararlı konu var gibi görünüyor. Ancak, gerçekten garip bulduğum şey, hepsinin kabaca aynı boyutta olması! Her konu, sembollerin yaklaşık% 5'ini ve metinlerin% 5'ini yakalar. Jetonlar açısından en küçük konu% 4.5, en büyük% 5.5'tir.

Bu 'normal' bir davranış varsa kimse önerebilir mi? Kullandığım kod bu:

ldafitted <- LDA(sentences.tm, k = K, method = "Gibbs",
             control = list(alpha = 0.1, # default is 50/k which would be 2.5.  a lower alpha value places more weight on having each document composed of only a few dominant topics
                            delta = 0.1, # default 0.1 is suggested in Griffiths and Steyvers (2004).
                            estimate.beta = TRUE,
                            verbose = 50, # print every 50th draw to screen
                            seed = 5926696,
                            save = 0,    # can save model every xth iteration
                            iter = 5000, 
                            burnin = 500,
                            thin = 5000, #  every thin iteration is returned for iter iterations. Standard is same as iter
                            best = TRUE)) #only the best draw is returned

Kısacası: Sorum, Latent Dirichlet tahsisinin metnin eşit büyüklükteki başlıklarda kümelenmesinin mantıklı olduğu durumlar olduğunda mı? Yoksa böyle bir şey olduğunda endişelenmem gereken bir şey mi?

1

1 cevap

It is normal, the best explantation I found for it, is from physics. Since Gibbs Sampling was known in physics long before LDA and LDA can simply be seen as a kind of matrix factorization. There is a system which has particles (words) and the particles can be in different states (topics). States with lower energy have a higher probability of being occupied than states with higher energy. Or simply: Since LDA is a dimensity reduction method that just compresses a words x documents matrix into a topics x documents and a words x topics matrix, the most effective way to do it is by maximizing the entropy which is done if the clusters get equal size. enter image description here

2
katma
Bunun için çok teşekkürler. Soru, bir süre önce sormamıza rağmen hala aklımdaydı. Bunu yazan bir makale veya kitap sağlayabilir misiniz? Beni biraz endişelendiren şey, eşit boyutta konuların bir sorun olmadığı bazı uygulamaları gördüm. Açıklamanızdan, konuların neredeyse her zaman aynı büyüklükte olması gibi görünüyor.
katma yazar cbrandolino, kaynak
Burada fiziksel açıklamayı ve maksimum entropi varsayımını bulabilirsiniz: en.wikipedia.org/wiki/Canonical_ensemble Konular en azından eşit büyüklüğe sahip olmaya çalışır. Belki de matris ayrıştırma perspektifinden bakarsanız daha fazlasını bulabilirsiniz: en.wikipedia.org/ wiki/Matrix_decomposition QR ayrıştırma ümit verici görünüyor.
katma yazar apchester, kaynak
katma yazar apchester, kaynak
Sadece yukarıdaki varsayımı basitçe kirletici dağılımından türetebileceğinizi fark ettiniz: [Link] wikimedia.org/api/rest_v1/media/math/render/svg/… Yoğunluk (PDF) işlevine bir göz atın ve öndeki normalleştirme faktörünü dikkate almayın ve sadece simetrik alfa parametresini varsayın. Bu, X1 ... XK ürün terimiyle sonuçlanır, tüm X1 ... XK'ların eşit büyüklükte olması durumunda ürün terimini maksimuma çıkarır, çünkü toplam X1 + X2 + ... + XK = 1, entropi ile aynıdır yukarıdaki.
katma yazar apchester, kaynak
Küçük ekleme: LDA, en.wikipedia.org/wiki/Dirichlet-multinomial_distribution adresini kullanır. Yukarıdaki ifadeyi bundan almalısınız.
katma yazar apchester, kaynak