Wprowadzenie

W tym rozdziale wyjaśnimy najważniejsze pojęcia związane z eksploracją danych. Wymienimy i scharakteryzujemy algorytmy eksploracji danych. Przedstawimy także kluczowe różnice pomiędzy analizą eksploracyjną a przetwarzaniem danych w oparciu o model OLAP.

Wstęp

Definicje pojęć

Algorytmy

Główne zadania

Data mining a OLAP

Business Intelligence


Warto zobaczyć:
allplayer Xerox Monitoring pracowników Najlepsz i najtańsze projektowanie stron poznań

Główne zadania eksploracji danych

Poniżej przedstawimy główne zadania eksploracji danych w oparciu o klasyfikację zaproponowaną w książce autorstwa David Hand, Heikki Mannila, Padhraic Smith pt. „Eksploracja danych” [Han05]. Eksplorację danych można sklasyfikować według rodzajów zadań odpowiadających różnym celom osób analizujących dane. Poniższy podział ma na celu prezentację głównych typów algorytmów wykorzystywanych do wydobywania wiedzy z danych.

Eksploracyjna analiza danych

Eksploracyjna analiza danych (ang. exploratory data analysis; EDA) polega na rozpoznawaniu zbioru danych bez konkretnie określonego celu poszukiwań. Takie podejście oparte jest głównie na interaktywnej i wizualnej prezentacji stosunkowo niewielkich zbiorów danych z wykorzystaniem efektywnych graficznie metod przedstawiania.

Modelowanie opisowe

Modelowanie opisowe ma na celu poznanie charakteru wszystkich danych (lub procesu, który tworzył dane). Opisywanie danych obejmują modele całościowego rozkładu prawdopodobieństwa danych (estymacja gęstości), dzielenia danych na grupy (analiza skupień, klastrowanie i segmentacja). Segmentacja służy grupowaniu razem rekordów podobnych. Różnica pomiędzy segmentacją a analizą skupień polega na tym, że w pierwszej metodzie ilość grup jest zadawana przez analityka, natomiast w drugiej metodzie szukamy naturalnego podziału danych na grupy. Poniżej przedstawiamy kilka zastosowań modelowania opisowego:

Modelowanie przewidujące (predykcyjne)

Celem modelowania przewidującego jest zbudowanie takiego modelu, który pozwoli przewidzieć wartości jednej zmiennej w oparciu o znane wartości innych zmiennych. Dwiema głównymi metodami wykorzystywanymi w podejściu modelowania przewidującego są klasyfikacja i regresja. Różnica między nimi polega na tym, że w klasyfikacji zmienna, która będzie przewidywana jest kategoryczna, natomiast w regresji zmienna ta jest ilościowa.

Odkrywanie wzorców i reguł

Odkrywanie wzorców jest innym podejściem i zadaniem eksploracji danych w porównaniu do trzech wcześniej wymienionych - opartych na budowaniu modeli. Jednym z zastosowań tej metody jest namierzanie fałszerstw poprzez wykrywanie transakcji znacząco różniących się od reszty. W takim podejściu odkrywamy wzorce transakcji prawidłowych a analizujemy i badamy pozostałe w celu wykrycia nadużyć lub oszustw. Inne zastosowanie odkrywania wzorców wykorzystywane jest w astronomii, gdzie badacze odkrywając nieznane gwiazdy i galaktyki mogą doprowadzić do okrycia dotychczas nieznanych zjawisk. Kolejnym zastosowaniem jest, już wcześniej wspomniana (odkrywanie asocjacji), analiza zbiorów danych zawierających rekordy kombinacji artykułów - produktów, które są kupowane razem.

W procesie odkrywania wzorców, w eksploracji danych, stosuje się techniki algorytmiczne oparte na regułach asocjacyjnych. Głównym problemem związanym z odkrywaniem wzorców jest rozstrzyganie, co uznajemy za zachowanie rzeczywiście niezwykłe na tle zachowań normalnych. Dlatego w takich analizach niezmiernie ważna jest wiedza badacza - analityka dotycząca zgłębianego obszaru.

Wyszukiwanie według zawartości

W tym wypadku analityk, na podstawie interesującego go wzorca, chce znaleźć jemu podobne w zgromadzonej bazie danych. Głównymi obszarami wykorzystywania takiego podejścia jest analiza wykonywana na zbiorach danych zawierających teksty lub obrazy. Przy analizie tekstu, możemy wyszukiwać dokumenty w oparciu o wzorzec będący zbiorem słów kluczowych. W poszukiwaniu obrazów, użytkownik dysponuje obrazem przykładowym lub szkicem i próbuje odnaleźć mu podobne w zbiorach danych. W obydwu przypadkach krytycznym elementem jest definicja podobieństwa oraz szczegóły strategii poszukiwania.

 Naprawa komputerów Kielce dane allplayer vps