Korrelaatio vs kovarianssi
Korrelaatio ja kovarianssi ovat läheisesti toisiinsa liittyviä käsitteitä teoreettisessa tilastossa. Ne ovat tärkeitä määritettäessä kahden satunnaismuuttujan välistä suhdetta.
Mikä on korrelaatio?
Korrelaatio on kahden muuttujan välisen suhteen vahvuuden mitta. Korrelaatiokerroin kvantifioi yhden muuttujan muutosasteen toisen muuttujan muutoksen perusteella. Tilastoissa korrelaatio liittyy riippuvuuden käsitteeseen, joka on kahden muuttujan välinen tilastollinen suhde
Pearsonin korrelaatiokerroin tai vain korrelaatiokerroin r on arvo välillä -1 ja 1 (-1≤r≤+1). Se on yleisimmin käytetty korrelaatiokerroin ja pätee vain muuttujien väliseen lineaariseen suhteeseen. Jos r=0 suhdetta ei ole, ja jos r≥0, suhde on suoraan verrannollinen; yhden muuttujan arvo kasvaa toisen kasvaessa. Jos r≤0, suhde on kääntäen verrannollinen; yksi muuttuja pienenee toisen kasvaessa.
Lineaarisuusehdon vuoksi korrelaatiokerrointa r voidaan käyttää myös lineaarisen suhteen olemassaolon toteamiseen muuttujien välillä.
Mikä on kovarianssi?
Tilastoteoriassa kovarianssi on mitta siitä, kuinka paljon kaksi satunnaismuuttujaa muuttuvat yhdessä. Toisin sanoen kovarianssi on kahden satunnaismuuttujan välisen korrelaation voimakkuuden mitta.
Toisesta näkökulmasta voidaan nähdä, että korrelaatio on vain kovarianssin normalisoitu versio, jossa kovarianssi jaetaan kahden satunnaismuuttujan keskihajonnan tulolla. Kovarianssin vaihteluväli voi olla suuri; siksi vertailu ei ole helppoa. Tämä vaikeus ratkaistaan tuomalla kovarianssiarvot alueelle, jossa niitä voidaan verrata normalisoimalla (ikään kuin z-score tekee). Vaikka kovarianssi ja varianssi on linkitetty toisiinsa yllä olevalla tavalla, niiden todennäköisyysjakaumat eivät liity toisiinsa yksinkertaisella tavalla ja ne on käsiteltävä erikseen.
Mitä eroa on korrelaatiolla ja kovarianssilla?
• Sekä korrelaatio että kovarianssi ovat kahden satunnaismuuttujan välisen suhteen mittareita. Korrelaatio on kahden muuttujan lineaarisuuden voimakkuuden mitta ja kovarianssi on korrelaation voimakkuuden mitta.
• Korrelaatiokertoimen arvot ovat arvoja välillä -1 ja +1, kun taas kovarianssialue ei ole vakio, vaan se voi olla joko positiivinen tai negatiivinen. Mutta jos satunnaismuuttujat standardoidaan ennen kovarianssin laskemista, kovarianssi on yhtä suuri kuin korrelaatio ja sen arvo on välillä -1 ja +1.