Datan louhinta vs OLAP
Sekä tiedon louhinta että OLAP ovat kaksi yleistä Business Intelligence (BI) -tekniikkaa. Business Intelligence tarkoittaa tietokonepohjaisia menetelmiä hyödyllisen tiedon tunnistamiseksi ja poimimiseksi yritystiedoista. Tiedonlouhinta on tietojenkäsittelytieteen ala, joka käsittelee mielenkiintoisten kuvioiden poimimista suurista tietojoukoista. Se yhdistää monia menetelmiä tekoälystä, tilastoista ja tietokantojen hallinnasta. OLAP (online analyyttinen käsittely), kuten nimestä voi päätellä, on kokoelma tapoja tehdä kyselyitä moniulotteisista tietokannoista.
Tietojen louhinta tunnetaan myös nimellä Knowledge Discovery in data (KDD). Kuten edellä mainittiin, se on tietojenkäsittelytieteen ala, joka käsittelee aiemmin tuntemattoman ja mielenkiintoisen tiedon poimimista raakatiedoista. Datan räjähdysmäisen kasvun vuoksi erityisesti liiketoiminnan k altaisilla alueilla tiedon louhinnasta on tullut erittäin tärkeä työkalu tämän suuren tietomäärän muuntamiseksi liiketoimintatiedoksi, koska kuvioiden manuaalinen poimiminen on käynyt näennäisesti mahdottomaksi viime vuosikymmeninä. Sitä käytetään tällä hetkellä esimerkiksi erilaisissa sovelluksissa, kuten sosiaalisten verkostojen analysoinnissa, petosten havaitsemisessa ja markkinoinnissa. Tiedonlouhinta käsittelee yleensä seuraavia neljää tehtävää: klusterointi, luokittelu, regressio ja assosiaatio. Klusterointi on samanlaisten ryhmien tunnistamista strukturoimattomasta tiedosta. Luokittelu on oppimissääntöjä, joita voidaan soveltaa uuteen dataan ja joka sisältää tyypillisesti seuraavat vaiheet: tietojen esikäsittely, mallinnuksen suunnittelu, oppiminen/ominaisuuksien valinta ja arviointi/validointi. Regressio on sellaisten funktioiden löytämistä, joissa on mahdollisimman vähän virhettä mallintamaan tietoja. Ja assosiaatio etsii suhteita muuttujien välillä. Tiedonlouhintaa käytetään yleensä vastaamaan kysymyksiin, kuten mitkä ovat tärkeimmät tuotteet, jotka voivat auttaa saavuttamaan suuren voiton ensi vuonna Wal-Martissa.
OLAP on luokka järjestelmiä, jotka tarjoavat vastauksia moniulotteisiin kyselyihin. Tyypillisesti OLAP:ia käytetään markkinointiin, budjetointiin, ennustamiseen ja vastaaviin sovelluksiin. On sanomattakin selvää, että OLAP:iin käytetyt tietokannat on määritetty monimutkaisia ja ad-hoc-kyselyjä varten nopeaa suorituskykyä ajatellen. Tyypillisesti matriisia käytetään näyttämään OLAP:n tulos. Rivit ja sarakkeet muodostuvat kyselyn mitoista. He käyttävät usein aggregointimenetelmiä useissa taulukoissa saadakseen yhteenvedot. Voidaanko sillä esimerkiksi saada tietoa tämän vuoden myynnistä Wal-Martissa viime vuoteen verrattuna? Mikä on ennuste seuraavan vuosineljänneksen myynnistä? Mitä voidaan sanoa trendistä katsomalla prosentuaalista muutosta?
Vaikka on ilmeistä, että tiedon louhinta ja OLAP ovat samank altaisia, koska ne käyttävät dataa saadakseen älykkyyttä, suurin ero johtuu siitä, miten ne toimivat datalla. OLAP-työkalut tarjoavat moniulotteisen data-analyysin ja yhteenvedot tiedoista, mutta sen sijaan tiedon louhinta keskittyy tietojoukon suhteisiin, malleihin ja vaikutuksiin. Se on OLAP-sopimus aggregoinnin kanssa, joka tiivistyy datan toimintaan "lisäyksen" kautta, mutta tiedon louhinta vastaa "jakoa". Toinen merkittävä ero on, että vaikka tiedonlouhintatyökalut mallintavat tietoja ja palauttavat toimivia sääntöjä, OLAP suorittaa vertailu- ja kontrastitekniikoita liiketoimintaulottuvuuden mukaan reaaliajassa.