Tietojen louhinnan ja tietovarastoinnin välinen ero

Tietojen louhinnan ja tietovarastoinnin välinen ero
Tietojen louhinnan ja tietovarastoinnin välinen ero

Video: Tietojen louhinnan ja tietovarastoinnin välinen ero

Video: Tietojen louhinnan ja tietovarastoinnin välinen ero
Video: HTC U12+ - Unser Erfahrungsbericht (Deutsch) 2024, Marraskuu
Anonim

Tietojen louhinta vs tietovarasto

Datan Mining ja Data Warehousing ovat molemmat erittäin tehokkaita ja suosittuja tekniikoita tietojen analysointiin. Käyttäjät, jotka ovat taipuvaisia tilastoihin, käyttävät tiedon louhintaa. He käyttävät tilastollisia malleja etsiessään tiedosta piilotettuja malleja. Tiedonkaivostyöntekijät ovat kiinnostuneita löytämään hyödyllisiä suhteita eri tietoelementtien välille, mikä on viime kädessä kannattavaa yrityksille. Mutta toisa alta data-asiantuntijat, jotka voivat analysoida yrityksen ulottuvuuksia suoraan, käyttävät yleensä tietovarastoja.

Tietojen louhinta tunnetaan myös nimellä Knowledge Discovery in data (KDD). Kuten edellä mainittiin, se on tietojenkäsittelytieteen ala, joka käsittelee aiemmin tuntemattoman ja mielenkiintoisen tiedon poimimista raakatiedoista. Datan räjähdysmäisen kasvun vuoksi erityisesti liiketoiminnan k altaisilla alueilla tiedon louhinnasta on tullut erittäin tärkeä työkalu tämän suuren tietomäärän muuntamiseksi liiketoimintatiedoksi, koska kuvioiden manuaalinen poimiminen on käynyt näennäisesti mahdottomaksi viime vuosikymmeninä. Sitä käytetään tällä hetkellä esimerkiksi erilaisissa sovelluksissa, kuten sosiaalisten verkostojen analysoinnissa, petosten havaitsemisessa ja markkinoinnissa. Tiedonlouhinta käsittelee yleensä seuraavia neljää tehtävää: klusterointi, luokittelu, regressio ja assosiaatio. Klusterointi on samanlaisten ryhmien tunnistamista strukturoimattomasta tiedosta. Luokittelu on oppimissääntöjä, joita voidaan soveltaa uuteen dataan ja joka sisältää tyypillisesti seuraavat vaiheet: tietojen esikäsittely, mallinnuksen suunnittelu, oppiminen/ominaisuuksien valinta ja arviointi/validointi. Regressio on sellaisten funktioiden löytämistä, joissa on mahdollisimman vähän virhettä mallintamaan tietoja. Ja assosiaatio etsii suhteita muuttujien välillä. Tiedonlouhintaa käytetään yleensä vastaamaan kysymyksiin, kuten mitkä ovat tärkeimmät tuotteet, jotka voivat auttaa saavuttamaan suuren voiton ensi vuonna Wal-Martissa?

Kuten edellä mainittiin, tietovarastointia käytetään myös tietojen analysointiin, mutta eri käyttäjäjoukot ja hieman eri tavoite mielessä. Esimerkiksi vähittäiskaupan os alta tietovaraston käyttäjiä kiinnostaa enemmän se, minkälaiset ostot ovat asiakkaiden keskuudessa suosittuja, joten analyysin tulokset voivat auttaa asiakasta parantamalla asiakaskokemusta. Tietojen kaivostyöntekijät kuitenkin olettavat ensin hypoteesin, kuten ketkä asiakkaat ostavat tietyn tyyppistä tuotetta, ja analysoivat tiedot hypoteesin testaamiseksi. Tietovarastoinnin voisi suorittaa suuri vähittäismyyjä, joka varastoi myymälöissään aluksi samankokoisia tuotteita, jotta myöhemmin selviää, että New Yorkin kaupat myyvät pienempiä varastoja paljon nopeammin kuin Chicagon myymälöissä. Joten katsomalla tätä tulosta jälleenmyyjä voi varastoida New Yorkin myymälään pienempiä kokoja kuin Chicagon myymälöissä.

Joten, kuten näet selvästi, nämä kaksi analyysityyppiä näyttävät olevan samanlaisia paljaalla silmällä. Molemmat ovat huolissaan voittojen kasvusta historiallisten tietojen perusteella. Mutta tietysti on keskeisiä eroja. Yksinkertaisesti sanottuna Data Mining ja Data Warehousing on omistettu erityyppisten analytiikan tarjoamiseen, mutta ehdottomasti erityyppisille käyttäjille. Toisin sanoen Data Mining etsii korrelaatioita, kuvioita tilastollisen hypoteesin tukemiseksi. Data Warehousing vastaa kuitenkin verrattain laajempaan kysymykseen, ja se leikkaa ja pilkkoo tietoja siitä eteenpäin tunnistaakseen tapoja parantaa tulevaisuudessa.

Suositeltava: