Varianssi vs kovarianssi
Varianssi ja kovarianssi ovat kaksi tilastossa käytettyä mittaa. Varianssi on datan hajonnan mitta, ja kovarianssi ilmaisee kahden satunnaismuuttujan yhdessä muutosasteen. Varianssi on melko intuitiivinen käsite, mutta kovarianssi määritellään matemaattisesti ei aluksi niin intuitiivisesti.
Lisätietoja Variancesta
Varianssi on datan hajaantumisen mitta jakauman keskiarvosta. Se kertoo kuinka kaukana datapisteet ovat jakauman keskiarvosta. Se on yksi tärkeimmistä todennäköisyysjakauman kuvailijoista ja yksi jakauman hetkistä. Myös varianssi on perusjoukon parametri, ja otoksen varianssi perusjoukosta toimii populaation varianssin estimaattorina. Yhdestä näkökulmasta se määritellään keskihajonnan neliöksi.
Selvällä kielellä sitä voidaan kuvata kunkin datapisteen välisen etäisyyden neliöiden keskiarvona ja jakauman keskiarvona. Varianssin laskemiseen käytetään seuraavaa kaavaa.
Var(X)=E[(X-µ)2] populaatiolle ja
Var(X)=E[(X-‾x)2] näytteelle
Voidaan edelleen yksinkertaistaa antamalla Var(X)=E[X2]-(E[X])2.
Variancella on joitain allekirjoitusominaisuuksia, ja niitä käytetään usein tilastoissa käytön yksinkertaistamiseksi. Varianssi ei ole negatiivinen, koska se on etäisyyksien neliö. Varianssin aluetta ei kuitenkaan ole rajoitettu ja se riippuu tietystä jakaumasta. Vakion satunnaismuuttujan varianssi on nolla, eikä varianssi muutu sijaintiparametrin suhteen.
Lisätietoja kovarianssista
Tilastoteoriassa kovarianssi on mitta siitä, kuinka paljon kaksi satunnaismuuttujaa muuttuvat yhdessä. Toisin sanoen kovarianssi on kahden satunnaismuuttujan välisen korrelaation voimakkuuden mitta. Sitä voidaan myös pitää kahden satunnaismuuttujan varianssin yleistyksenä.
Kahden satunnaismuuttujan X ja Y kovarianssi, jotka jakautuvat yhdessä äärellisellä toisella momentilla, tunnetaan nimellä σXY=E[(X-E[X])(Y-E[Y])]. Tämän perusteella varianssia voidaan pitää kovarianssin erikoistapauksena, jossa kaksi muuttujaa ovat samoja. Cov(X, X)=Muutt(X)
Kovarianssia normalisoimalla saadaan lineaarinen korrelaatiokerroin tai Pearsonin korrelaatiokerroin, joka määritellään ρ=E[(X-E[X])(Y-E[Y])]/(σ X σY)=(Cov(X, Y))/(σX σY )
Graafisesti datapisteparin välinen kovarianssi voidaan nähdä suorakulmion alueena, jossa datapisteet ovat vastakkaisissa pisteissä. Se voidaan tulkita kahden datapisteen välisen eron suuruuden mittana. Kun otetaan huomioon koko perusjoukon suorakulmiot, kaikkia datapisteitä vastaavien suorakulmioiden päällekkäisyyttä voidaan pitää erotuksen vahvuutena; kahden muuttujan varianssi. Kovarianssi on kahdessa ulottuvuudessa kahdesta muuttujasta johtuen, mutta sen yksinkertaistaminen yhdeksi muuttujaksi antaa singlen varianssin erotukseksi yhdessä ulottuvuudessa.
Mitä eroa on varianssilla ja kovarianssilla?
• Varianssi on populaation leviämisen/hajonnan mitta, kun taas kovarianssia pidetään kahden satunnaismuuttujan vaihtelun tai korrelaation voimakkuuden mittana.
• Varianssia voidaan pitää kovarianssin erikoistapauksena.
• Varianssi ja kovarianssi ovat riippuvaisia data-arvojen suuruudesta, eikä niitä voi verrata; siksi ne normalisoituvat. Kovarianssi normalisoidaan korrelaatiokertoimeksi (jaettuna kahden satunnaismuuttujan keskihajonnan tulolla) ja varianssi normalisoidaan keskihajonnaksi (ottamalla neliöjuuri)