Wprowadzenie
W tym rozdziale wyjaśnimy najważniejsze pojęcia związane z eksploracją danych. Wymienimy i scharakteryzujemy algorytmy eksploracji danych. Przedstawimy także kluczowe różnice pomiędzy analizą eksploracyjną a przetwarzaniem danych w oparciu o model OLAP.Wstęp
Definicje pojęć
Algorytmy
Główne zadania
Data mining a OLAP
Business Intelligence
Warto zobaczyć:
allplayer Xerox Monitoring pracowników Najlepsz i najtańsze projektowanie stron poznań
Główne zadania eksploracji danych
Poniżej przedstawimy główne zadania eksploracji danych w oparciu o klasyfikację zaproponowaną w książce autorstwa David Hand, Heikki Mannila, Padhraic Smith pt. „Eksploracja danych” [Han05]. Eksplorację danych można sklasyfikować według rodzajów zadań odpowiadających różnym celom osób analizujących dane. Poniższy podział ma na celu prezentację głównych typów algorytmów wykorzystywanych do wydobywania wiedzy z danych.
Eksploracyjna analiza danych
Eksploracyjna analiza danych (ang. exploratory data analysis; EDA) polega na rozpoznawaniu zbioru danych bez konkretnie określonego celu poszukiwań. Takie podejście oparte jest głównie na interaktywnej i wizualnej prezentacji stosunkowo niewielkich zbiorów danych z wykorzystaniem efektywnych graficznie metod przedstawiania.Modelowanie opisowe
Modelowanie opisowe ma na celu poznanie charakteru wszystkich danych (lub procesu, który tworzył dane). Opisywanie danych obejmują modele całościowego rozkładu prawdopodobieństwa danych (estymacja gęstości), dzielenia danych na grupy (analiza skupień, klastrowanie i segmentacja). Segmentacja służy grupowaniu razem rekordów podobnych. Różnica pomiędzy segmentacją a analizą skupień polega na tym, że w pierwszej metodzie ilość grup jest zadawana przez analityka, natomiast w drugiej metodzie szukamy naturalnego podziału danych na grupy. Poniżej przedstawiamy kilka zastosowań modelowania opisowego:- W marketingu - podział osób na grupy w zależności od wzorców zakupów oraz danych demograficznych (wiek, dochód itp.)
- W medycynie - usystematyzowanie chorób
- Badania klimatyczne - analiza długoterminowych zmienności klimatycznych, analiza ciśnienia atmosferycznego itp.
Modelowanie przewidujące (predykcyjne)
Celem modelowania przewidującego jest zbudowanie takiego modelu, który pozwoli przewidzieć wartości jednej zmiennej w oparciu o znane wartości innych zmiennych. Dwiema głównymi metodami wykorzystywanymi w podejściu modelowania przewidującego są klasyfikacja i regresja. Różnica między nimi polega na tym, że w klasyfikacji zmienna, która będzie przewidywana jest kategoryczna, natomiast w regresji zmienna ta jest ilościowa.Odkrywanie wzorców i reguł
Odkrywanie wzorców jest innym podejściem i zadaniem eksploracji danych w porównaniu do trzech wcześniej wymienionych - opartych na budowaniu modeli. Jednym z zastosowań tej metody jest namierzanie fałszerstw poprzez wykrywanie transakcji znacząco różniących się od reszty. W takim podejściu odkrywamy wzorce transakcji prawidłowych a analizujemy i badamy pozostałe w celu wykrycia nadużyć lub oszustw. Inne zastosowanie odkrywania wzorców wykorzystywane jest w astronomii, gdzie badacze odkrywając nieznane gwiazdy i galaktyki mogą doprowadzić do okrycia dotychczas nieznanych zjawisk. Kolejnym zastosowaniem jest, już wcześniej wspomniana (odkrywanie asocjacji), analiza zbiorów danych zawierających rekordy kombinacji artykułów - produktów, które są kupowane razem.W procesie odkrywania wzorców, w eksploracji danych, stosuje się techniki algorytmiczne oparte na regułach asocjacyjnych. Głównym problemem związanym z odkrywaniem wzorców jest rozstrzyganie, co uznajemy za zachowanie rzeczywiście niezwykłe na tle zachowań normalnych. Dlatego w takich analizach niezmiernie ważna jest wiedza badacza - analityka dotycząca zgłębianego obszaru.