Wprowadzenie

W tym rozdziale wyjaśnimy najważniejsze pojęcia związane z eksploracją danych. Wymienimy i scharakteryzujemy algorytmy eksploracji danych. Przedstawimy także kluczowe różnice pomiędzy analizą eksploracyjną a przetwarzaniem danych w oparciu o model OLAP.

Wstęp

Definicje pojęć

Algorytmy

Główne zadania

Data mining a OLAP

Business Intelligence


Warto zobaczyć:
hosting Templatki Joomla avast download winamp

Algorytmy i metody eksploracji danych

Odkrywanie asocjacji

Metoda odkrywania asocjacji polega na odnajdywaniu związków pomiędzy występowaniem grup elementów (atrybutów) w zbiorach danych. Korelacje między zestawami danych są najczęściej wyrażone poprzez reguły ukazujące zależności atrybutwartość, które najczęściej pojawiają się w danym zbiorze. Reguła asocjacyjna jest postaci:

A => B co interpretujemy jako: elementy spełniające A, spełniają także B. Asocjacje są najczęściej reprezentowane przez reguły logiczne w formie implikacji charakteryzowane miarami statystycznymi określającymi ich wsparcie i ufność. Lewą stronę reguły nazywa się ciałem a prawą – głową reguły. Definiowane są dwie relacje, które mogą zachodzić pomiędzy danymi: potwierdzenie i naruszenie. Krotka potwierdza regułę, jeżeli dla wartości jej atrybutów wartości ciała i głowy są prawdziwe. Natomiast narusza regułę, gdy dla wartości jej atrybutów ciało jest prawdziwe a głowa fałszywa. Profesor Piotr Jędrzejowicz w swojej pracy pt. „Eksploracja danych – narzędzie współczesnego biznesu” w następujący sposób definiuje pojęcia wsparcia i ufności: „Wsparciem dla reguły jest liczba (lub procent) krotek relacji, które potwierdzają regułę. Zaufanie reguły wyraża się zależnością: zaufanie = wsparcie/wsparcie dla ciało reguły (procent krotek, dla których ciało reguły przyjmuje wartości logiczne)”.

Przykładowe zastosowanie asocjacji wykorzystywane jest w tzw. analizie koszykowej. Sieci supermarketów analizują produkty zakupione przez klientów w celu zaplanowania nowych kampanii reklamowych lub zmiany rozmieszczenia produktów w swoich halach.

Odkrywanie sekwencji

Odkrywanie sekwencji można uznać jako specyficzną odmianę odkrywania asocjacji. „Sekwencją jest lista działań, czynności lub zdarzeń następujących po sobie w czasie. Podstawą odkrywania sekwencji jest baza danych sekwencji zawierająca, przykładowo, listy transakcji dokonywanych przez pojedynczych klientów.” Odkrywanie sekwencji ma na celu odnalezienie w bazie sekwencji wszystkich sekwencji, których wsparcie przekracza zadaną przez analityka wartość. Dla przykładu możemy wymienić zależności w kupowaniu produktów:

kupno pieczywa => kupno tłuszczy (margaryna, masło itp.)
kupno komputera => kupno monitora

Klasteryzacja

Metoda klasteryzacji polega na podziale zbioru danych w grupy (klastry, klasy). Podziału danych na grupy dokonuje się w oparciu o podobieństwo rekordów względem charakterystycznych cech. Elementy – rekordy znajdujące się w tej samej grupie powinny być do siebie maksymalnie podobne, natomiast te znajdujące się w różnych grupach powinny się od siebie bardzo różnić.

Bardzo ważne jest dokładne rozróżnienie procesu klasteryzacji i klasyfikacji. W procesie klasyfikacji mamy zadany zbiór etykiet (klas) i naszym zadaniem jest znalezienie nowej – kolejnej klasy lub przyporządkowanie analizowanych danych do poszczególnych klas. W procesie klasteryzacji zadaniem jest wyznaczenie etykiet (klas, klastrów, grup) w oparciu o ukryte w danych zależności, relacje i związki.

Grupowanie obiektów podobnych jest jedną ze składowych inteligencji. Większość tzw. testów na inteligencję opiera się na grupowaniu elementów podobnych w oparciu o jakąś cechę, szczegół czy element. Wyodrębnienie grupy podobnych zjawisk oraz uogólnienie ich cech jest niezbędnym elementem do zrozumienia jakiegoś zjawiska.

Klasyfikacja

Proces klasyfikacji polega na analizie zbioru danych i konstruowaniu modeli dla każdej z klas w oparciu o pewne cechy charakterystyczne analizowanych danych. Proces ten dostarcza drzewa decyzyjne lub zbiór reguł decyzyjnych, które wspomagają zrozumienie cech każdej z klas oraz wspomagają określenie przynależności nowych obiektów do poszczególnych klas.

Jednym z przykładów wykorzystania klasyfikacji jest medycyna, gdzie można przeprowadzić proces klasyfikacji na znanych chorobach. Następnie poprzez dokonanie analizy symptomów poszczególnych chorób występujących u pacjentów można wspomagać przewidywanie tychże chorób. Innymi przykładami wykorzystania klasyfikacji jest rozpoznawanie trendów na rynkach finansowych, automatyczne rozpoznawanie obrazów, podział klientów w sieciach marketingowych oraz wspomaganie podejmowania decyzji przy udzielaniu kredytów bankowych.

Predykcja

Metoda predykcji polega na jak najlepszym określeniu wartości jednej cechy w oparciu o właściwości pozostałych cech badanego obiektu. Przykładem predykcji może być postawienie pacjentowi diagnozy medycznej na podstawie wyników przeprowadzonych badań, oszacowanie prawdopodobieństwa zakupienia konkretnego produktu na podstawie zbioru produktów już zakupionych lub wyznaczenie wartości jakiejś zmiennej w czasie (np. jej wartość za miesiąc, za pół roku itp.) na podstawie jej wartości poprzednich (historycznych) i obecnej.  najlepszy sklep internetowy serwery www sklep komputerowy darmowy avast