Algorytmy



Wstęp

Odkrywanie asocjacji

Asocjacje w IBM Digger

Klasteryzacja


Warto zobaczyć:
avast download psychoterapia warszawa Międzynarodowy transport zmarłych programy

Eksploracja danych - charakterystyka algorytmów

W rozdziale 6 scharakteryzujemy dokładnie algorytmy eksploracji danych, które w dalszej części pracy zostaną wykorzystane do analizy zbioru danych. Dokonamy opisu funkcji eksploracji oraz zaprezentujemy praktyczną konfigurację w pakiecie IM4D. Możemy wyróżnić dwa następujące podejścia do analizy dużego zbioru danych:
· Opis rzeczywistości – charakterystyka zjawiska,
· Predykcja – przewidywanie.


W podejściu pierwszym dokonuje się analizy danych, opisujących fragment rzeczywistości, który jest zdeterminowany okresem, z jakiego dane pochodzą. Na podstawie przeprowadzonych badań analityk opisuje i charakteryzuje odkryte zależności oraz zostaje stworzony model zaobserwowanego zjawiska.
W drugim podejściu analityk na podstawie zgromadzonych danych, poprzez wykorzystanie algorytmów data miningowych, dokonuje predykcji, czyli przewidywania, wartości poszukiwanych parametrów i zależności.
W pracy skupimy się na opisie zaobserwowanych zjawisk i dokonamy charakterystyki fragmentu rzeczywistości. Badania i rozważania nad uzyskanymi wynikami będą w głównej mierze oparte na algorytmach odkrywania asocjacji. Takie podejście ma na celu odkrycie zależności w występowaniu zdarzeń w analizowanym fragmencie rzeczywistości. Odkryte reguły asocjacji umożliwią scharakteryzowanie korelacji pomiędzy połączeniami systemów autonomicznych oraz analizę wykorzystywanych portów usług. Wykorzystanie algorytmu odkrywania asocjacji, w analizie ruchu sieciowego, zostało opisane, w kilku pracach badawczych, związanych z poruszaną w niniejszej pracy tematyką [Lee00], [Bal01]. W celu ograniczenia potrzeb wydajnościowych na przetworzenie dużej ilości danych, algorytmy odkrywające reguły asocjacyjne, dokonują podziału problemu na 2 części. Najpierw znajduje się częste zbiory elementów a następnie tworzone są reguły asocjacyjne z tych zbiorów częstych [Han05]. Definicja częstości zbioru opisana w [Bal01] określa zbiór jako częsty, gdy przekracza on zadany próg na tle całego zbioru danych. W momencie odkrycia zbiorów częstych, znajdowanie reguł asocjacyjnych jest znacznie uproszczone. „Jeśli reguła X => B ma częstość co najmniej s , to wówczas zbiór X z definicji ma częstość co najmniej s. Jeśli zatem wszystkie zbiory częste są znane, możemy tworzyć wszystkie reguły postaci X => B, gdzie X jest częste i oceniać dokładność tych reguł w pojedynczym przejściu przez dane” [Han05]. W podanym przykładzie [Bal01] zbiór:
{adres_IP_celu = X, port_celu = Y} jest zbiorem częstym, jeśli występuje więcej niż Z% (np. Z = 5%) przykładów wystąpienia takiego zbioru. Kontynuując rozważania autor podaje przykład hosta S znanego jako serwer http, reguła asocjacji:
Adres_IP_celu = S => port_celu = 80, pokazuje wysokie prawdopodobieństwo występowania przepływów w kierunku hosta S, z wykorzystaniem 80 portu docelowego. Autor [Bal01] w swojej pracy, wykorzystuje techniki data miningowe, w celu wykonania tzw. migawek sieci (z ang. snapshot - ujęcie migawkowe). Dokonuje analizy i szuka następujących informacji: które hosty są serwerami, które są klientami, które są routerami itd. Zaproponowane rozwiązanie, umożliwia administratorowi weryfikację prawidłowego zachowania się hostów. Dodatkową funkcjonalnością jest możliwość analizy migawek i ich charakterystyki, pomiędzy migawkami z różnych okresów.
W pracy przeanalizujemy możliwości i funkcjonalność pakietu IBM Intelligent Miner for Data w tym zakresie, w celu wykonania takiej migawki sieci i jej charakterystyki.  pozycjonowanie katowice kable serwery Polecamy tonery, w tym tonery HP do drukarek i kopiarek HP