Avainero klusteroinnin ja luokittelun välillä on se, että klusterointi on valvomaton oppimistekniikka, joka ryhmittelee samank altaisia ilmentymiä ominaisuuksien perusteella, kun taas luokittelu on valvottu oppimistekniikka, joka määrittää esiintymille enn alta määritettyjä tunnisteita ominaisuuksien perusteella.
Vaikka klusterointi ja luokittelu näyttävät olevan samanlaisia prosesseja, niiden välillä on ero niiden merkityksen perusteella. Tietojen louhintamaailmassa klusterointi ja luokittelu ovat kahdenlaisia oppimismenetelmiä. Molemmat menetelmät luonnehtivat objektit ryhmiin yhdellä tai useammalla ominaisuudella.
Mitä on klusterointi?
Clusterointi on tapa ryhmitellä kohteita siten, että objektit, joilla on samank altaisia ominaisuuksia, tulevat yhteen ja objektit, joilla on erilaisia ominaisuuksia, eroavat toisistaan. Se on yleinen tekniikka tilastolliseen data-analyysiin koneoppimisessa ja tiedon louhinnassa. Tutkiva tiedon analysointi ja yleistäminen on myös alue, jossa käytetään klusterointia.
Kuva 01: Klusterit
Clusterointi kuuluu valvomattomaan tiedon louhintaan. Se ei ole yksittäinen tietty algoritmi, vaan se on yleinen menetelmä tehtävän ratkaisemiseksi. Siksi on mahdollista saavuttaa klusterointi käyttämällä erilaisia algoritmeja. Sopiva klusterialgoritmi ja parametriasetukset riippuvat yksittäisistä tietojoukoista. Se ei ole automaattinen tehtävä, vaan se on iteratiivinen etsintäprosessi. Siksi tietojenkäsittelyä ja parametrien mallintamista on tarpeen muokata, kunnes tulos saavuttaa halutut ominaisuudet. K-keskiarvoklusterointi ja hierarkkinen klusterointi ovat kaksi yleistä klusterointialgoritmia tiedon louhinnassa.
Mikä on luokitus?
Luokittelu on luokitteluprosessi, joka käyttää harjoitustietojoukkoa objektien tunnistamiseen, erottamiseen ja ymmärtämiseen. Luokittelu on ohjattu oppimistekniikka, jossa on käytettävissä harjoitussarja ja oikein määritellyt havainnot.
Kuva 02: Luokitus
Luokituksen toteuttava algoritmi on luokitin, kun taas havainnot ovat esiintymiä. K-Lähimmän naapurin algoritmit ja päätöspuualgoritmit ovat tiedon louhinnan tunnetuimpia luokitusalgoritmeja.
Mitä eroa on klusteroinnin ja luokittelun välillä?
Klusterointi on ohjaamatonta oppimista, kun taas luokittelu on ohjattua oppimistekniikkaa. Se ryhmittelee samank altaiset ilmentymät ominaisuuksien perusteella, kun taas luokittelu määrittää esiintymille enn alta määritetyt tunnisteet ominaisuuksien perusteella. Klusterointi jakaa tietojoukon osajoukkoihin samank altaisten ominaisuuksien omaavien esiintymien ryhmittelemiseksi. Se ei käytä merkittyjä tietoja tai harjoitussarjaa. Toisa alta luokittele uudet tiedot harjoitusjoukon havaintojen mukaan. Harjoitussarja on merkitty.
Klusteroinnin tavoitteena on ryhmitellä joukko objekteja sen selvittämiseksi, onko niiden välillä suhdetta, kun taas luokittelun tarkoituksena on selvittää, mihin luokkaan uusi objekti kuuluu enn alta määritettyjen luokkien joukosta.
Yhteenveto – klusterointi vs luokittelu
Klusterointi ja luokittelu voivat vaikuttaa samanlaisilta, koska molemmat tiedonlouhintaalgoritmit jakavat tietojoukon osajoukkoon, mutta ne ovat kaksi eri oppimistekniikkaa tiedon louhinnassa luotettavan tiedon saamiseksi raakadatan kokoelmasta. Ero klusteroinnin ja luokituksen välillä on se, että klusterointi on valvomaton oppimistekniikka, joka ryhmittelee samank altaisia ilmentymiä ominaisuuksien perusteella, kun taas luokittelu on valvottu oppimistekniikka, joka määrittää esiintymille enn alta määritettyjä tunnisteita ominaisuuksien perusteella.
Kuva:
1.”Cluster-2″, Cluster-2.gif: hellisp-johdannaistyö: (Public Domain) Wikimedia Commonsin kautta 2.”Magnetism”, John Aplessed – Oma työ. (Julkinen verkkotunnus) Wikimedia Commonsin kautta