Algorytmy
Wstęp
Odkrywanie asocjacji
Asocjacje w IBM Digger
Klasteryzacja
Warto zobaczyć:
gimp centrala voip reklama w internecie Skuteczne linki sponsorowane w Google
Klasteryzacja
Klasteryzacja przy użyciu funkcji demograficznych
Podstawową techniką wykorzystywaną w procesie klasteryzacji jest zastosowanie funkcji demograficznej. Funkcja dokonuje podziału dużych zbiorów danych na klastry. Podobieństwa pomiędzy poszczególnymi rekordami w zbiorze danych są określane poprzez porównywanie wartości pól. Na podstawie podobieństwa rekordy przydzielane są do odpowiednich klastrów. Rekordy cechujące się wysokim stopniem podobieństwa są kwalifikowane do tego samego klastra.Klasteryzacja w pakiecie IBM Intelligent Miner For Data
Aby w pakiecie IM4D zdefiniować nową funkcję klastryzacji wykonujemy czynności analogiczne jak w przypadku tworzenia funkcji asocjacji opisanej w punkcie 6.1.2. Poniżej wyodrębnimy zasadnicze różnice w konfiguracji obu funkcji. Tworzymy nową funkcję eksploracji poprzez wybranie przycisku Create mining a następnie spośród dostępnych funkcji wybieramy Clustering – Demographic. Podajemy nazwę ustawień „Settings name”, komentarz - „Comment” oraz możemy zaznaczyć opcję „Show the advanced pages and controls” jak na poniższym rysunku.
Klasteryzacja - Konfiguracja
Krok wyboru źródła danych wejściowych jest analogiczny do opisanego w punkcie 6.1.2. Kolejnym krokiem jest parametryzacja funkcji klasteryzacji. Dokonujemy wyboru pomiędzy „Clustering mode” a „Application mode” oraz definiujemy wartości parametrów:
- Maximum passes – parametr określa maksymalną ilość przejść przez dane w celu przydzielenia ich do poszczególnych klastrów. Wysoka liczba przejść wydłuża proces eksploracji, jednocześnie zwiększając dokładność modelu wynikowego,
- Maximum clusters – parametr określa maksymalną liczbę klastrów. Możemy określić maksymalną liczbę klastrów na jakie zostanie podzielony badany zbiór danych. Zbyt duża liczba klastrów spowoduje podzielenie danych na małe klastry. Jeśli liczba klastrów będzie niewystarczająca wynik eksploracji będzie niedokładny,
- Accuracy improvement – parametr określający dokładność przydzielania danych do klastrów pomiędzy kolejnymi przejściami wyrażany w procentach. Jeśli parametr będzie miał wartość np. 5% to funkcja zakończy swoje działanie jeśli ulepszenie jakości klasteryzacji pomiędzy przejściami będzie miało wartość mniejszą niż 5%. Procent ulepszenia jakości klasteryzacji jest mierzony dla każdego z przejść przez dane i jeśłi aktualna wartość jest niższa niż zadany próg funkcja zakończy działanie.
- Similarity treshold – parametr określający próg podobieństwa, określa wartości akceptowane jako pasujące do klastra.

Klasteryzacja - Parametryzacja
Następnym krokiem jest wybór pól, które będą brały udział w procesie klasteryzacji. Wyboru dokonujemy pomiędzy polami:
· Active fields – pola aktywne, pola brane pod uwagę w procesie klasteryzacji,
· Supplementary fields – pola dodatkowe, wykorzystywane w wyniku do celów statystycznych.
budowa stron www strony internetowe warszawa nero odzyskiwanie danych