İade Atıfları: Multicollinearity için olası çareler

Portföy döndürme ilişkilendirmesi için kullandığım aşağıdaki regresyon kurulumuna sahip olduğumu varsayalım:

$ R = 1 * \ beta (1) + A * \ beta (2) + B * \ beta (3) + C * \ beta (4) + \ epsilon $

A, ülkenin kukla matrisi nerede       B, Endüstrinin kukla bir matrisi,       C, bir faktör maruziyet matrisi,       1 olanların bir vektörü

As you can see in this setup, there is multicollinearity between A and B. The rank of (AB) < rank of (A) + rank of (B). In Matlab code:

rank([dummyvar(ceil(abs(rand(20,1))*5)'),dummyvar(ceil(abs(rand(20,1))*4)')])

Bu sorunu çözmek için tipik olarak yapıldığı gibi, A veya B matrisindeki Sütunlardan birini düşürmeden tüm bu beta'ları hesaplama hakkında nasıl gidebilirim. Bunu çözmek için bir numara olduğunu biliyorum, ama nasıl yapıldığını hatırlayamıyorum.

7
Yukarıdaki düzenlemeye bakın.
katma yazar fooot, kaynak
Neden çoklu doğrusallık olduğu açık?
katma yazar Kikapi, kaynak

3 cevap

çoklu doğrusallık konusunu ele almak için temel olarak aşağıdakileri yapabilirsiniz (source , yazar çokdillik tanılama ile ilgili doktora tezini yazmıştır.

  1. Daha fazla veri alma
  2. Bir değişken bırakılıyor
  3. Değişkenleri birleştirmek (ör. kısmi en küçük kareler regresyonu veya temel bileşen regresyonu) ve
  4. Önyargılı sonuçlar veren, ancak tahminlerdeki varyansı azaltan ridge regresyon gerçekleştirilmesi.

1'in mümkün olup olmadığını bilmiyorum ama her zaman iyi bir fikirdir (veri biliminin öğrenmelerinden biri, daha karmaşık algoritmalar için daha fazla ve daha iyi veri elde edilmesinin tercih edilmesidir).

2. ilgili bunu istemediğini söyledin.

3. Yeni değişkenin artık yorumlanmayacağı için pratik görünmüyor.

So 4. seems to be the best candidate. Mathematically this is also known as Tikhonov regularization. In matlab a good starting point seems to be this one:
http://www.mathworks.com/help/stats/ridge-regression.html

The command is ridge(), see also here:
http://www.mathworks.com/help/stats/ridge.html

1
katma

Kısıtlı bir gerileme kullanabilirsiniz. Bu tam olarak sorununuzu ele alacaktır. Bu soruna hitap eden endüstri standardı bir yoldur.

Bu grup için katsayıların toplamı 0 olacak şekilde sahip olduğunuz kukla değişkenlerin her biri için bir kısıtlama kurmak isteyeceksiniz. Bu durumda A ve B için. Kısıtlama olmadan C'yi bırakabilirsiniz (aslında! )

Eğer eş doğrusallık C'den geliyorsa (faktörler). Sonra başka bir konu ve diğer cevaplardaki öneriler o zaman çok faydalıdır.

2'den fazla grup veya bir grup ve kesiştiği sürece bunu yapmanız gerekir. Bir risk modelleme tekniği olarak oldukça standarttır. Örneğin, MSCI'nin ABD modelinde msci.com/documents/10199/ed6e42a3-c1fa-4430-89ba-efd5a5b52558 (sayfa 1'in ortalarında) ile nasıl ilgileneceğini görün

Bir yan notta, sağlam bir regresyon tekniği kullanmayı düşünmelisiniz.

If you are using Matlab (it seems from your snippet) you can read about constrained and robust regression in this excellent tutorial: http://www.mathworks.com/matlabcentral/fileexchange/8553-optimization-tips-and-tricks

Ve aşağıdaki işlevi kullanın: http://www.mathworks.com/matlabcentral/fileexchange/13835 -lse Matlab da bazı regresyon fonksiyonlarına sahip olmasına rağmen daha sınırlı IMO'dur.

1
katma
Kısıtlı gerileme, bazı durumlarda yararlı olabilse de, bunun, bu çoklu çoklu doğrusallık sorununun nasıl ele alınabileceğini göremiyorum. Bir kaynak verebilir misin? (Bahsettiğiniz belgelerde bu konuyla ilgili herhangi bir referans bulamadım). Ayrıca, "bu sorunu ele almak için endüstri standardı" olduğu iddianız için bir kaynak da verebilir misiniz? teşekkür ederim
katma yazar Jon G - Megaphone Tech, kaynak
Eh, belirli değişkenlere kısıtlamalar ekleyerek özgürlüğün ekstra derecesini kaldırmak biraz zorlanmış (ve kesinlikle "standart" değil) gibi görünüyor. Ridge regresyonu benim fikrimdeki varyansı azaltmak için çok daha iyi bir alternatiftir. İnternette bir şey bulursan merak ediyorum.
katma yazar Jon G - Megaphone Tech, kaynak
Bence bir zorunluluk var: Kısıtlı gerileme ile çok daha esneksin, ama tam olarak ne yaptığını bilmek zorundasın, sırt regresyonu ile süreç daha otomatik, bu yüzden de daha az tehlikeli.
katma yazar Jon G - Megaphone Tech, kaynak
Teşekkürler NegativeJo, tam da aradığım şey bu. Geçmişte, bunun nasıl ele alındığını tam olarak görmüştüm. Sadece hatırlayamadım.
katma yazar fooot, kaynak
Multicolinearity sadece A ve B'den (yani, kukla değişkenler) geliyorsa sorunu ele alır. Kısıtlama ekleyerek, ekstra özgürlük derecesini kaldırıyorsunuz. Sağ ?
katma yazar nick clark, kaynak
'Güven bana ben bir uzmanım' 'dışında endüstri standardı gelince :) Ben özgürce paylaşabileceğim herhangi bir belge yok ... Ben Google bir deneyin bu bağlantıları olsa da
katma yazar nick clark, kaynak
Ancak, sırt regresyonu, her grup katsayısı için daha az ilgili kukla değişkeni 0'a getirmez mi? Ya aptalların her birini bir katsayıya (örneğin, ülkeye atıfta bulunarak daha yorumlanabilir bir ülke için) zorlamak istiyorsan ne yapardın? İlginç bir nokta olsa da.
katma yazar nick clark, kaynak
MSCI Barra, USE4 modellerinin bazı detaylarını paylaşmaktan mutluluk duyar. Örneğin, sayfa 1'in ortasına bakın. msci.com/documents/10199/ed6e42a3-c1fa-4430- 89ba-efd5a5b5255 ve zwnj; 8
katma yazar nick clark, kaynak
Bunu sohbete taşımak için yeterli bir itibarım yok (henüz). Elbette ilginç bir konuşma yapardı. Seninle aynı fikirdeyim. Ve tanıdığım birkaç uygulayıcı sırt regresyonunu tercih ederdi. Bu spesifik ülke/endüstri konusundaki tecrübelerimde, kısıtlı regresyon çözümünü görmenin daha yaygın olduğu görülmektedir.
katma yazar nick clark, kaynak

Değişkeni korelasyon göstermeyen faktörlere ayıracak Ana Bileşen analizini kullanabilir ve faktör özet puanlarını değişken puanlar yerine modelde bir girdi olarak kullanabilirsiniz.

0
katma
PCA ile ilgili problem, bu durumda, yeni değişkenlerin artık yorumlanmayacağıdır (ayrıca cevabımdaki 3. noktaya bakınız).
katma yazar Jon G - Megaphone Tech, kaynak