DBMS vs tiedonlouhinta
A DBMS (Database Management System) on täydellinen järjestelmä, jota käytetään digitaalisten tietokantojen hallintaan ja joka mahdollistaa tietokantasisällön tallennuksen, tietojen luomisen/ylläpidon, haun ja muita toimintoja. Toisa alta Data Mining on tietojenkäsittelytieteen ala, joka käsittelee aiemmin tuntemattoman ja mielenkiintoisen tiedon poimimista raakadatasta. Yleensä tiedon louhintaprosessin syötteenä käytettävät tiedot tallennetaan tietokantoihin. Käyttäjät, jotka ovat taipuvaisia tilastoihin, käyttävät tiedon louhintaa. He käyttävät tilastollisia malleja etsiessään tiedosta piilotettuja malleja. Tiedonkaivostyöntekijät ovat kiinnostuneita löytämään hyödyllisiä suhteita eri tietoelementtien välille, mikä on viime kädessä kannattavaa yrityksille.
DBMS
DBMS, jota joskus kutsutaan vain tietokannan hallintaohjelmaksi, on kokoelma tietokoneohjelmia, jotka on tarkoitettu kaikkien järjestelmään (eli kiintolevyyn tai verkkoon) asennettujen tietokantojen hallintaan (eli järjestämiseen, tallentamiseen ja hakemiseen).. Maailmassa on olemassa erilaisia tietokannan hallintajärjestelmiä, ja osa niistä on suunniteltu tiettyihin tarkoituksiin määritettyjen tietokantojen oikeaan hallintaan. Suosituimmat kaupalliset tietokannan hallintajärjestelmät ovat Oracle, DB2 ja Microsoft Access. Kaikki nämä tuotteet mahdollistavat eritasoisten oikeuksien jakamisen eri käyttäjille, mikä mahdollistaa sen, että yksi järjestelmänvalvoja voi hallita DBMS-järjestelmää keskitetysti tai se voidaan jakaa useille eri henkilöille. Jokaisessa tietokannan hallintajärjestelmässä on neljä tärkeää elementtiä. Ne ovat mallinnuskieli, tietorakenteet, kyselykieli ja tapahtumien mekanismi. Mallinnuskieli määrittää jokaisen DBMS:ssä isännöidyn tietokannan kielen. Tällä hetkellä käytössä on useita suosittuja lähestymistapoja, kuten hierarkkinen, verkko-, relaatio- ja objekti. Tietorakenteet auttavat järjestämään tiedot, kuten yksittäiset tietueet, tiedostot, kentät ja niiden määritelmät sekä objektit, kuten visuaalinen media. Tiedonkyselykieli ylläpitää tietokannan turvallisuutta valvomalla kirjautumistietoja, eri käyttäjien käyttöoikeuksia ja protokollia tietojen lisäämiseksi järjestelmään. SQL on suosittu kyselykieli, jota käytetään relaatiotietokannan hallintajärjestelmissä. Lopuksi transaktioiden mahdollistava mekanismi edistää samanaikaisuutta ja moninaisuutta. Tämä mekanismi varmistaa, että useat käyttäjät eivät muokkaa samaa tietuetta samanaikaisesti, mikä säilyttää tietojen eheyden. Lisäksi DBMS tarjoaa myös varmuuskopiointi- ja muita toimintoja.
Datan louhinta
Tietojen louhinta tunnetaan myös nimellä Knowledge Discovery in Data (KDD). Kuten edellä mainittiin, se on tietojenkäsittelytieteen tyyppi, joka käsittelee aiemmin tuntemattoman ja mielenkiintoisen tiedon poimimista raakatiedoista. Datan räjähdysmäisen kasvun vuoksi erityisesti liiketoiminnan k altaisilla alueilla tiedon louhinnasta on tullut erittäin tärkeä työkalu tämän suuren tietomäärän muuntamiseksi liiketoimintatiedoksi, koska kuvioiden manuaalinen poimiminen on käynyt näennäisesti mahdottomaksi viime vuosikymmeninä. Sitä käytetään tällä hetkellä esimerkiksi erilaisissa sovelluksissa, kuten sosiaalisten verkostojen analysoinnissa, petosten havaitsemisessa ja markkinoinnissa. Tiedonlouhinta käsittelee yleensä seuraavia neljää tehtävää: klusterointi, luokittelu, regressio ja assosiaatio. Klusterointi on samanlaisten ryhmien tunnistamista strukturoimattomasta tiedosta. Luokittelu on oppimissääntöjä, joita voidaan soveltaa uuteen dataan ja joka sisältää tyypillisesti seuraavat vaiheet: tietojen esikäsittely, mallinnuksen suunnittelu, oppiminen/ominaisuuksien valinta ja arviointi/validointi. Regressio on sellaisten funktioiden löytämistä, joissa on mahdollisimman vähän virhettä mallintamaan tietoja. Ja assosiaatio etsii suhteita muuttujien välillä. Tiedonlouhintaa käytetään yleensä vastaamaan kysymyksiin, kuten mitkä ovat tärkeimmät tuotteet, jotka voivat auttaa saavuttamaan suuren voiton ensi vuonna Wal-Martissa?
Mitä eroa on DBMS:n ja tiedon louhinnan välillä?
DBMS on täysimittainen järjestelmä digitaalisten tietokantojen säilyttämiseen ja hallintaan. Data Mining on kuitenkin tietojenkäsittelytieteen tekniikka tai käsite, joka käsittelee hyödyllisen ja aiemmin tuntemattoman tiedon poimimista raakatiedoista. Useimmiten nämä raakatiedot on tallennettu erittäin suuriin tietokantoihin. Siksi tietojen louhintatyöntekijät käyttävät DBMS:n olemassa olevia toimintoja käsittelemään, hallitsemaan ja jopa esikäsittelemään raakadataa ennen tiedonlouhintaprosessia ja sen aikana. Pelkästään DBMS-järjestelmää ei kuitenkaan voida käyttää tietojen analysointiin. Joissakin DBMS-järjestelmissä on kuitenkin tällä hetkellä sisäänrakennettuja tietojen analysointityökaluja tai -ominaisuuksia.