Wprowadzenie
W tym rozdziale wyjaśnimy najważniejsze pojęcia związane z eksploracją danych. Wymienimy i scharakteryzujemy algorytmy eksploracji danych. Przedstawimy także kluczowe różnice pomiędzy analizą eksploracyjną a przetwarzaniem danych w oparciu o model OLAP.Wstęp
Definicje pojęć
Algorytmy
Główne zadania
Data mining a OLAP
Business Intelligence
Warto zobaczyć:
hosting Templatki Joomla avast download winamp
Algorytmy i metody eksploracji danych
Odkrywanie asocjacji
Metoda odkrywania asocjacji polega na odnajdywaniu związków pomiędzy występowaniem grup elementów (atrybutów) w zbiorach danych. Korelacje między zestawami danych są najczęściej wyrażone poprzez reguły ukazujące zależności atrybutwartość, które najczęściej pojawiają się w danym zbiorze. Reguła asocjacyjna jest postaci:A => B co interpretujemy jako: elementy spełniające A, spełniają także B. Asocjacje są najczęściej reprezentowane przez reguły logiczne w formie implikacji charakteryzowane miarami statystycznymi określającymi ich wsparcie i ufność. Lewą stronę reguły nazywa się ciałem a prawą – głową reguły. Definiowane są dwie relacje, które mogą zachodzić pomiędzy danymi: potwierdzenie i naruszenie. Krotka potwierdza regułę, jeżeli dla wartości jej atrybutów wartości ciała i głowy są prawdziwe. Natomiast narusza regułę, gdy dla wartości jej atrybutów ciało jest prawdziwe a głowa fałszywa. Profesor Piotr Jędrzejowicz w swojej pracy pt. „Eksploracja danych – narzędzie współczesnego biznesu” w następujący sposób definiuje pojęcia wsparcia i ufności: „Wsparciem dla reguły jest liczba (lub procent) krotek relacji, które potwierdzają regułę. Zaufanie reguły wyraża się zależnością: zaufanie = wsparcie/wsparcie dla ciało reguły (procent krotek, dla których ciało reguły przyjmuje wartości logiczne)”.
Przykładowe zastosowanie asocjacji wykorzystywane jest w tzw. analizie koszykowej. Sieci supermarketów analizują produkty zakupione przez klientów w celu zaplanowania nowych kampanii reklamowych lub zmiany rozmieszczenia produktów w swoich halach.
Odkrywanie sekwencji
Odkrywanie sekwencji można uznać jako specyficzną odmianę odkrywania asocjacji. „Sekwencją jest lista działań, czynności lub zdarzeń następujących po sobie w czasie. Podstawą odkrywania sekwencji jest baza danych sekwencji zawierająca, przykładowo, listy transakcji dokonywanych przez pojedynczych klientów.” Odkrywanie sekwencji ma na celu odnalezienie w bazie sekwencji wszystkich sekwencji, których wsparcie przekracza zadaną przez analityka wartość. Dla przykładu możemy wymienić zależności w kupowaniu produktów:kupno pieczywa => kupno tłuszczy (margaryna, masło itp.)
kupno komputera => kupno monitora
Klasteryzacja
Metoda klasteryzacji polega na podziale zbioru danych w grupy (klastry, klasy). Podziału danych na grupy dokonuje się w oparciu o podobieństwo rekordów względem charakterystycznych cech. Elementy – rekordy znajdujące się w tej samej grupie powinny być do siebie maksymalnie podobne, natomiast te znajdujące się w różnych grupach powinny się od siebie bardzo różnić.Bardzo ważne jest dokładne rozróżnienie procesu klasteryzacji i klasyfikacji. W procesie klasyfikacji mamy zadany zbiór etykiet (klas) i naszym zadaniem jest znalezienie nowej – kolejnej klasy lub przyporządkowanie analizowanych danych do poszczególnych klas. W procesie klasteryzacji zadaniem jest wyznaczenie etykiet (klas, klastrów, grup) w oparciu o ukryte w danych zależności, relacje i związki.
Grupowanie obiektów podobnych jest jedną ze składowych inteligencji. Większość tzw. testów na inteligencję opiera się na grupowaniu elementów podobnych w oparciu o jakąś cechę, szczegół czy element. Wyodrębnienie grupy podobnych zjawisk oraz uogólnienie ich cech jest niezbędnym elementem do zrozumienia jakiegoś zjawiska.
Klasyfikacja
Proces klasyfikacji polega na analizie zbioru danych i konstruowaniu modeli dla każdej z klas w oparciu o pewne cechy charakterystyczne analizowanych danych. Proces ten dostarcza drzewa decyzyjne lub zbiór reguł decyzyjnych, które wspomagają zrozumienie cech każdej z klas oraz wspomagają określenie przynależności nowych obiektów do poszczególnych klas.Jednym z przykładów wykorzystania klasyfikacji jest medycyna, gdzie można przeprowadzić proces klasyfikacji na znanych chorobach. Następnie poprzez dokonanie analizy symptomów poszczególnych chorób występujących u pacjentów można wspomagać przewidywanie tychże chorób. Innymi przykładami wykorzystania klasyfikacji jest rozpoznawanie trendów na rynkach finansowych, automatyczne rozpoznawanie obrazów, podział klientów w sieciach marketingowych oraz wspomaganie podejmowania decyzji przy udzielaniu kredytów bankowych.