Lineaarinen vs logistinen regressio
Tilastollisessa analyysissä on tärkeää tunnistaa tutkimukseen liittyvien muuttujien väliset suhteet. Joskus se voi olla itse analyysin ainoa tarkoitus. Eräs vahva työkalu suhteen olemassaolon määrittämiseen ja suhteen tunnistamiseen on regressioanalyysi.
Regressioanalyysin yksinkertaisin muoto on lineaarinen regressio, jossa muuttujien välinen suhde on lineaarinen suhde. Tilastollisesti se tuo esiin selittävän muuttujan ja vastausmuuttujan välisen suhteen. Esimerkiksi regression avulla voimme määrittää hyödykkeen hinnan ja kulutuksen välisen suhteen satunnaisotoksesta kerätyn tiedon perusteella. Regressioanalyysi tuottaa tietojoukosta regressiofunktion, joka on matemaattinen malli, joka sopii parhaiten saatavilla olevaan dataan. Tämä voidaan helposti esittää sirontakaaviolla. Graafisesti regressio vastaa parhaiten sopivan käyrän löytämistä annetulle tietojoukolle. Käyrän funktio on regressiofunktio. Matemaattisen mallin avulla voidaan ennustaa hyödykkeen käyttö tietyllä hinnalla.
Siksi regressioanalyysiä käytetään laaj alti ennustamisessa ja ennustamisessa. Sitä käytetään myös suhteiden luomiseen kokeellisessa datassa, fysiikan, kemian aloilla sekä monilla luonnontieteillä ja tekniikan aloilla. Jos suhde tai regressiofunktio on lineaarinen funktio, prosessi tunnetaan lineaarisena regressiona. Sirontakaaviossa se voidaan esittää suorana. Jos funktio ei ole lineaarinen parametrien yhdistelmä, regressio on epälineaarinen.
Logistinen regressio on verrattavissa monimuuttujaregressioon, ja se luo mallin, joka selittää useiden ennustajien vaikutuksen vastemuuttujaan. Logistisessa regressiossa lopputulosmuuttujan tulisi kuitenkin olla kategorinen (yleensä jaettu; ts. saavutettavissa olevien tulosten pari, kuten kuolema tai eloonjääminen, vaikka erityistekniikat mahdollistavatkin luokiteltumman tiedon mallintamisen). Jatkuva tulosmuuttuja voidaan muuntaa kategoriseksi muuttujaksi, jota käytetään logistiseen regressioon; jatkuvien muuttujien kutistamista tällä tavalla ei kuitenkaan suositella, koska se heikentää tarkkuutta.
Toisin kuin lineaarisessa regressiossa, logistisen regression ennustemuuttujien ei tarvitse olla lineaarisesti kytkettyjä, yhteisjakaumia tai niillä on sama varianssi jokaisen klusterin sisällä. Tämän seurauksena ennustajan ja tulosmuuttujien välinen suhde ei todennäköisesti ole lineaarinen funktio.
Mitä eroa on logistisen ja lineaarisen regression välillä?
• Lineaarisessa regressiossa selittävän muuttujan ja vastemuuttujan välillä oletetaan lineaarista suhdetta ja mallia tyydyttävät parametrit löydetään analysoimalla, jotta saadaan tarkka suhde.
• Lineaarinen regressio suoritetaan kvantitatiivisille muuttujille, ja tuloksena saatava funktio on kvantitatiivinen.
• Logistisessa regressiossa käytetyt tiedot voivat olla joko kategorisia tai kvantitatiivisia, mutta tulos on aina kategorinen.