Knowledge discovery
in databases

Zoznámte sa s Big Data

Scroll down
Scroll down

Vitajte v našom svete

ČO SÚ BIG DATA?

Databázové systémy sú neoddeliteľnou súčasťou takmer všetkých informačných systémov a väčších softvérových aplikácii. Môžeme sa s nimi stretnúť vo väčšine firiem, ale aj v štátnej sfére a inde. Slúžia nám na manipuláciu a uchovávanie väčšieho množstva logicky prepojených dát. Potrebnosť databáz a technologický pokrok dotlačil tieto systémy na takú úroveň, že sme schopní uchovávať a manipulovať s obrovským množstvom dát (rádovo giga, tera, ale aj peta bajty), lenže už nie sme schopní len tak jednoducho sa v nich orientovať a využívať ich potenciál. Ide o takzvané zahltenie dátami. Správne využitie a spracovanie existujúcich dát môže pozitívne ovplyvniť chod firmy alebo byť jej konkurenčnou výhodou. S narastajúcim počtom dostupných dát je nevyhnutné vyvíjať aj techniky a metódy ich spracovania tak, aby boli pochopiteľnejšie pre človeka a aby sa v nich dokázal jednoduchšie orientovať. Big Data je pomerne nový pojem, pričom definujeme ich ako informácie veľkého objemu, dynamicky sa meniace a charakteristická je pre ne široká rôznorodosť. Do kategórie riešení z oblasti Big Data spadá aj Knowlege Discovery in Databases (KDD), alebo v slovenčine dolovanie znalostí z databáz.

 

KNOWLEDGE DISCOVERY IN DATABASES

môžeme definovať ako získavanie implicitných, v minulosti neznámych a užitočných informácií z dát. V oblasti KDD poskytujeme komplexný servis od prípravy dát až po ich interpretáciu. V závislosti od potrieb klienta pracujeme aj s externými dátami, ktoré popisujú prostredie v ktorom sa analyzované deje odohrávajú (kalendárne obdobia, reklama, politické udalosti, počasie atď.) a nie len internými dátami klienta, ktoré delíme na dáta zákaznícke a dáta technické.

Zákaznícke dáta: sú všetky elektronické dáta vzťahujúce sa k zákazníkom a údajom o nich a ich nákupoch, preferenciách, atď. Príkladom môžu byť registračné údaje na webe, informácie o klientoch ak sa evidujú, ich zakúpených službách alebo produktoch, emailová alebo iná digitálne zaznamenaná komunikácia s klientmi. Niektoré údaje môžu spadať do kategórie osobných, avšak pri procese spracovania sa anonymizujú a môžu byť použité rovnako ako ostatné dáta

Technické dáta:  sú to ostatné nezákaznícké dáta, najmä interné firemné dáta, účtovníctvo, informačný systém, dáta o dodávateľoch, atď. Medzi tieto dáta tiež zaraďujeme aj dáta generované firemnými zariadeniami a strojmi (napr. zariadenia na výrobnej linke riadené elektronicky, detektory, kamerové záznamy). Pri technických dátach analyzujeme interné firemné procesy a dokážeme ich optimalizovať . Vo výrobných firmách analyzujeme a optimalizujeme proces výroby, ale tiež aj poruchovosť (ak sa vyskytuje) plynúcu z aktuálneho nastavenia procesu.

 

PROCES REALIZÁCIE KDD

Populárnejší a známejší pojem Data Mining charakterizujeme ako, určité softvérové spracovanie dát za dopredu definovaných pravidiel. Data Mining pritom predstavuje len jednu z niekoľkých fáz procesu realizácie KDD:

Selekcia: Zo všetkých nahromadených zdrojov vyberieme (vyfiltrujeme) dáta, ktoré zapojíme do procesu KDD. Dáta sú filtrované podľa relevantnosti k požadovaným výstupom.

Predspracovanie: Slúži na očistenie vybraných dát, odstránenie duplicít, vyradenie nepodstatných častí, atď.

Transformácia: Transformácia do vhodnejšej dátovej štruktúry a formátu, ktorý je vstupom do procesu spracovania (Data Mining)

Data Mining: Hlavné spracovanie dát, jedná o využitie jednej alebo kombinácii niektorých z nasledujúcich metód: agregácia, asociačná analýza, zhlukovanie, segmentácia, klasifikácia, regresia, korelácia a iné. Takmer ku každej úlohe sa vytvorí jedinečný model spracovania, ktorý zostavia spolu s analytikmi aj doménoví experti.

Vyhodnotenie: Dôležitá je interpretácia výstupu, najmä vizualizácia, na základe ktorej dokážeme dosiahnuté výsledky vhodne aplikovať, zorientovať sa v nich alebo aj overiť či bol zvolený správny postup. Pri overení a získaní informačne nedostatočných výsledkov je možné sa procesom spätne vrátiť až do fázy selekcia. KDD proces môže byť a často aj je iteratívny, čo znamená že sa opakuje pokým nie sú dosiahnuté požadované výsledky.

 

MOŽNOSTI VYUŽITIA KDD

  • Segmentácia zákazníkov do skupín s podobnými vzormi správania sa,
  • efektívna profilácia zákazníkov pre riadenie individuálnych vzťahov s nimi,
  • identifikácia zákazníkov, ktorí prinášajú najväčší zisk a identifikácia dôvodov prečo,
  • analýza dôvodov zmeny poskytovateľa služieb/prechodu ku konkurencii,
  • identifikácia faktorov, ktoré významne ovplyvňujú nákupné správanie,
  • predikcie spotreby energie, dodávok vody, telekomunikačných služieb,
  • pochopenie budúceho správania zákazníkov na základe ich histórie a charakteristík,
  • zistenie kritických faktorov vo výrobe (automobily, elektronika, hutnícky priemysel),
  • analýza nákupného košíka (dáta tvoria charakteristiky zákazníkov a údaje o jednotlivých nákupoch). Je možné hľadať súvislosti medzi jednotlivými typmi produktov. Existujú skupiny produktov, ktoré zákazníci kupujú súčasne? Čím sa vyznačujú jednotlivé skupiny zákazníkov? atď.