KDD vs tiedon louhinta
KDD (Knowledge Discovery in Databases) on tietojenkäsittelytieteen ala, joka sisältää työkalut ja teoriat, jotka auttavat ihmisiä poimimaan hyödyllistä ja aiemmin tuntematonta tietoa (eli tietoa) suurista digitoidun tiedon kokoelmista. KDD koostuu useista vaiheista, ja tiedon louhinta on yksi niistä. Tiedonlouhinta on tietyn algoritmin soveltaminen kuvioiden poimimiseksi tiedosta. Siitä huolimatta KDD:tä ja Data Miningiä käytetään vaihtokelpoisesti.
Mikä on KDD?
Kuten edellä mainittiin, KDD on tietojenkäsittelytieteen ala, joka käsittelee aiemmin tuntemattoman ja mielenkiintoisen tiedon poimimista raakatiedoista. KDD on koko prosessi, jossa yritetään tehdä tiedosta järkeä kehittämällä sopivia menetelmiä tai tekniikoita. Tämä prosessi käsittelee matalan tason tietojen kartoittamista muihin muotoihin, jotka ovat kompaktimpia, abstraktimpia ja hyödyllisempiä. Tämä saavutetaan luomalla lyhyitä raportteja, mallintamalla tiedon tuottoprosessia ja kehittämällä ennakoivia malleja, jotka voivat ennustaa tulevia tapauksia. Datan räjähdysmäisen kasvun vuoksi, erityisesti sellaisilla aloilla kuin liiketoiminta, KDD:stä on tullut erittäin tärkeä prosessi tämän suuren tietomäärän muuntamiseksi liiketoimintatiedoksi, koska kuvioiden manuaalinen poimiminen on käynyt näennäisesti mahdottomaksi viime vuosikymmeninä. Sitä käytetään tällä hetkellä esimerkiksi erilaisissa sovelluksissa, kuten sosiaalisten verkostojen analysoinnissa, petosten havaitsemisessa, tieteessä, investoinneissa, valmistuksessa, televiestinnässä, tietojen puhdistuksessa, urheilussa, tiedonhaussa ja suurelta osin markkinointiin. KDD:tä käytetään yleensä vastaamaan kysymyksiin, kuten mitkä ovat tärkeimmät tuotteet, jotka voivat auttaa saamaan suuren voiton ensi vuonna Wal-Martissa?. Tässä prosessissa on useita vaiheita. Se alkaa sovellusalueen ja tavoitteen ymmärtämisellä ja sitten kohdetietojoukon luomisella. Tätä seuraa tietojen puhdistus, esikäsittely, vähentäminen ja projisointi. Seuraava vaihe on tiedon louhinta (selvitetty alla) kuvion tunnistamiseen. Lopuksi löydetty tieto lujitetaan visualisoimalla ja/tai tulkitsemalla.
Mitä tiedonlouhinta on?
Kuten edellä mainittiin, tiedon louhinta on vain yksi vaihe KDD-prosessissa. Sovelluksen tavoitteessa on kaksi suurta tiedon louhintatavoitetta, ja ne ovat varmennus tai etsiminen. Todentaminen vahvistaa käyttäjän hypoteesin datasta, kun taas löytö löytää automaattisesti mielenkiintoisia malleja. Tietojen louhintatehtävää on neljä: klusterointi, luokittelu, regressio ja assosiaatio (yhteenveto). Klusterointi on samanlaisten ryhmien tunnistamista strukturoimattomasta tiedosta. Luokittelu on oppimissääntöjä, joita voidaan soveltaa uuteen dataan. Regressio on sellaisten funktioiden löytämistä, joissa on mahdollisimman vähän virhettä mallintamaan tietoja. Ja assosiaatio etsii suhteita muuttujien välillä. Sitten on valittava tietty tiedon louhintaalgoritmi. Tavoitteesta riippuen voidaan valita erilaisia algoritmeja, kuten lineaarinen regressio, logistinen regressio, päätöspuut ja Naiivit Bayes. Sitten etsitään kiinnostavia malleja yhdessä tai useammassa esitysmuodossa. Lopuksi mallit arvioidaan joko ennakoivan tarkkuuden tai ymmärrettävyyden avulla.
Mitä eroa on KDD:n ja tiedon louhinnan välillä?
Vaikka kahta termiä KDD ja Data Mining käytetään usein keskenään, ne viittaavat kahteen toisiinsa liittyvään mutta hieman erilaiseen käsitteeseen. KDD on yleinen prosessi tiedon poimimiseksi tiedoista, kun taas tiedon louhinta on askel KDD-prosessissa, joka käsittelee datan kuvioiden tunnistamista. Toisin sanoen tiedonlouhinta on vain tietyn algoritmin soveltaminen, joka perustuu KDD-prosessin yleiseen tavoitteeseen.