Regressio vs ANOVA
Regressio ja ANOVA (varianssianalyysi) ovat tilastoteoriassa kaksi menetelmää, joilla analysoidaan yhden muuttujan käyttäytymistä toiseen verrattuna. Regressiossa se on usein riippumattoman muuttujan vaihtelu riippumattoman muuttujan perusteella, kun taas ANOVAssa se on kahden otoksen attribuuttien vaihtelu kahdesta populaatiosta.
Lisätietoja regressiosta
Regressio on tilastollinen menetelmä, jota käytetään kahden muuttujan välisen suhteen piirtämiseen. Usein tietoja kerättäessä saattaa olla muuttujia, jotka ovat riippuvaisia muista. Tarkka suhde näiden muuttujien välillä voidaan määrittää vain regressiomenetelmillä. Tämän suhteen määrittäminen auttaa ymmärtämään ja ennustamaan yhden muuttujan käyttäytymistä toiseen kohtaan.
Regressioanalyysin yleisin sovellus on estimoida riippuvaisen muuttujan arvo tietylle arvolle tai riippuvien muuttujien arvoalueelle. Esimerkiksi regression avulla voimme määrittää hyödykkeen hinnan ja kulutuksen välisen suhteen satunnaisotoksesta kerättyjen tietojen perusteella. Regressioanalyysi tuottaa tietojoukosta regressiofunktion, joka on matemaattinen malli, joka sopii parhaiten saatavilla olevaan dataan. Tämä voidaan helposti esittää sirontakaaviolla. Graafisesti regressio vastaa parhaiten sopivan käyrän löytämistä annetulle tietojoukolle. Käyrän funktio on regressiofunktio. Matemaattisen mallin avulla voidaan ennustaa hyödykkeen käyttö tietyllä hinnalla.
Siksi regressioanalyysiä käytetään laaj alti ennustamisessa ja ennustamisessa. Sitä käytetään myös suhteiden luomiseen kokeellisissa tiedoissa, fysiikan, kemian ja monien luonnontieteiden ja tekniikan aloilla. Jos suhde tai regressiofunktio on lineaarinen funktio, prosessi tunnetaan lineaarisena regressiona. Sirontakaaviossa se voidaan esittää suorana. Jos funktio ei ole lineaarinen parametrien yhdistelmä, regressio on epälineaarinen.
Lisätietoja ANOVAsta (varianssianalyysi)
ANOVA ei sisällä kahden tai useamman muuttujan välisen suhteen analyysiä eksplisiittisesti. Pikemminkin se tarkistaa, onko kahdella tai useammalla näytteellä eri populaatioista sama keskiarvo. Ajatellaan esimerkiksi koulun arvosanaa varten pidetyn kokeen tuloksia. Vaikka testit ovat erilaisia, suorituskyky voi olla samanlainen luokittain. Yksi tapa varmistaa tämä on vertaamalla jokaisen luokan keskiarvoja. ANOVA tai ANalysis Of Variance mahdollistaa tämän hypoteesin testaamisen. Pohjimmiltaan ANOVAa voidaan pitää t-testin jatkeena, jossa verrataan kahdesta populaatiosta otetun kahden näytteen keskiarvoja.
ANOVA:n perusideana on ottaa huomioon vaihtelu otoksen sisällä ja vaihtelu näytteiden välillä. Otoksen sisäinen vaihtelu johtuu satunnaisuudesta, kun taas näytteiden välinen vaihtelu voidaan katsoa sekä satunnaisuuden että muiden ulkoisten tekijöiden ansioksi. Varianssianalyysi perustuu kolmeen malliin; kiinteätehostemalli, satunnaistehostemalli ja sekatehostemalli.
Mitä eroa on regression ja ANOVA:n välillä?
• ANOVA on kahden tai useamman näytteen välisen vaihtelun analyysi, kun taas regressio on kahden tai useamman muuttujan välisen suhteen analyysi.
• ANOVA-teoriaa sovelletaan kolmella perusmallilla (kiinteätehostemalli, satunnaistehostemalli ja sekaefektimalli), kun taas regressiota sovelletaan kahdella mallilla (lineaarinen regressiomalli ja moniregressiomalli).
• ANOVA ja Regression ovat molemmat kaksi versiota yleisestä lineaarisesta mallista (GLM). ANOVA perustuu kategorisiin ennustajamuuttujiin, kun taas regressio perustuu kvantitatiivisiin ennustajamuuttujiin.
• Regressio on joustavampi tekniikka, ja sitä käytetään ennustamiseen ja ennustamiseen, kun taas ANOVAa käytetään kahden tai useamman populaation yhtäläisyyden vertaamiseen.