Hierarkkinen vs ositettu klusteri
Klusterointi on koneoppimistekniikka tietojen analysointiin ja samank altaisten tietojen ryhmiin jakamiseen. Näitä ryhmiä tai samank altaisten tietojen ryhmiä kutsutaan klustereiksi. Klusterianalyysi tarkastelee klusterointialgoritmeja, jotka voivat tunnistaa klusterit automaattisesti. Hierarkkinen ja Osittainen ovat kaksi tällaista klusterointialgoritmien luokkaa. Hierarkkiset klusterointialgoritmit jakavat tiedot klusterihierarkiaan. Kohtausalgoritmit jakavat tietojoukon keskenään erillään oleviin osioihin.
Mitä on hierarkkinen klusterointi?
Hierarkkiset klusterointialgoritmit toistavat syklin joko yhdistämällä pienemmät klusterit suurempiin tai jakamalla suuremmat klusterit pienempiin. Joka tapauksessa se tuottaa klusterihierarkian, jota kutsutaan dendogrammiksi. Agglomeratiivinen klusterointistrategia käyttää alha alta ylös -lähestymistapaa, jossa klusterit yhdistetään suurempiin, kun taas jakautuva klusterointistrategia käyttää ylhäältä alas -lähestymistapaa jakaa pienempiin ryhmiin. Tyypillisesti ahnetta lähestymistapaa käytetään päätettäessä, mitä suurempia/pienempiä klustereita käytetään yhdistämiseen/jakamiseen. Euklidinen etäisyys, Manhattanin etäisyys ja kosinin samank altaisuus ovat joitain yleisimmin käytetyistä numeerisen datan samank altaisuuden mittareista. Ei-numeerisille tiedoille käytetään mittareita, kuten Hamming-etäisyys. On tärkeää huomata, että varsinaisia havaintoja (esiintymiä) ei tarvita hierarkkiseen klusterointiin, koska vain etäisyyksien matriisi riittää. Dendogrammi on visuaalinen esitys klustereista, joka näyttää hierarkian erittäin selkeästi. Käyttäjä voi saada erilaisia klusterointia sen mukaan, millä tasolla dendogrammi leikataan.
Mitä on ositettu klusterointi?
Osiaaliset klusterointialgoritmit luovat erilaisia osioita ja arvioivat ne sitten joidenkin kriteerien mukaan. Niitä kutsutaan myös ei-hierarkkisiksi, koska jokainen esiintymä on sijoitettu täsmälleen yhteen k:sta toisensa poissulkevasta klusterista. Koska vain yksi klusterijoukko on tyypillisen osittaisen klusterointialgoritmin tulos, käyttäjän on syötettävä haluttu määrä klustereita (jota yleensä kutsutaan nimellä k). Yksi yleisimmin käytetyistä osittaisklusterointialgoritmeista on k-means-klusterointialgoritmi. Käyttäjän on annettava klusterien lukumäärä (k) ennen aloittamista, ja algoritmi käynnistää ensin k osion keskukset (tai sentroidit). Lyhyesti sanottuna k-means-klusterointialgoritmi määrittää sitten jäsenet nykyisten keskuksien perusteella ja arvioi keskukset uudelleen nykyisten jäsenten perusteella. Näitä kahta vaihetta toistetaan, kunnes tietty klusterin sisäinen samank altaisuuden tavoitefunktio ja klusterin välisen eron tavoitefunktio on optimoitu. Siksi keskusten järkevä alustus on erittäin tärkeä tekijä laadukkaiden tulosten saamiseksi osittaisista klusterointialgoritmeista.
Mitä eroa on hierarkkisen ja osittaisen klusteroinnin välillä?
Hierarkkisessa ja osittaisessa klusterissa on keskeisiä eroja ajoajassa, oletuksissa, syöttöparametreissa ja tuloksena olevissa klustereissa. Tyypillisesti partitiivinen klusterointi on nopeampaa kuin hierarkkinen klusterointi. Hierarkkinen klusterointi vaatii vain samank altaisuusmitan, kun taas osittaisklusterointi vaatii vahvempia oletuksia, kuten klustereiden lukumäärää ja alkukeskuksia. Hierarkkinen klusterointi ei vaadi syöttöparametreja, kun taas osittaiset klusterointialgoritmit edellyttävät klustereiden lukumäärän käynnistämisen. Hierarkkinen klusterointi palauttaa paljon merkityksellisemmän ja subjektiivisemman klusterijaon, mutta osittaisklusterointi johtaa tasan k klusteriin. Hierarkkiset klusterointialgoritmit sopivat paremmin kategorisille tiedoille, kunhan samank altaisuusmitta voidaan määritellä vastaavasti.