Asocjacje w pakiecie IBM Intelligent Miner For Data
Aby wykorzystać do analiz funkcję asocjacji (ang. associations mining function) w pakiecie IM4D klikamy ikonę Create mining a następnie wybieramy Associations. W polu „Setting name” wpisujemy nazwę konfigurowanej funkcji asocjacji. Dodatkowo w polu „Comment” mamy możliwość dopisania komentarza. Następnie zaznaczając opcję „Show the advanced pages and controls” uzyskujemy dostęp do zaawansowanych parametrów konfiguracyjnych funkcji. Formatka konfiguracji nowej funkcji asocjacji przedstawiona została na poniższym rysunku:
Funkcja asocjacji – Konfiguracja
Przechodzenie pomiędzy stronami konfiguracji funkcji odbywa się poprzez użycie przycisków Next oraz Back.
Następnym etapem jest wybranie źródła danych wejściowych. Źródłem danych wejściowych może być tzw. plik płaski lub baza danych (widok, tabela). Wyboru dokonujemy z dostępnych („Available input data”), wcześniej skonfigurowanych źródeł danych wejściowych lub poprzez użycie przycisku Create data możemy skonfigurować, odpowiednie dla potrzeb funkcji asocjacji nowe źródło danych wejściowych. W sekcji „Optimize mining run for” możemy dokonać wyboru sposobu optymalizacji procesu eksploracji na czas („Time”) lub na miejsce na dysku („Disk space”). Formatka wyboru źródła danych wejściowych przedstawiona została na poniższym rysunku:

Funkcja asosjacji - Dane wejściowe
W sekcji „Advanced parameters” mamy możliwość skonfigurowania dodatkowych parametrów funkcji asocjacji. „Filter record condition” umożliwia filtrowanie danych i ograniczenie liczby analizowanych rekordów. Na przykład wprowadzając ograniczenie na pole daty możemy ograniczyć rekordy, do tych z zadanego okresu.
Kolejnym etapem konfiguracji funkcji asocjacji jest wybór pola transakcji („Transaction field”) oraz pola rzeczy („Item field”). W celu określenia pola transakcji można użyć pól: data, numeru klienta czy identyfikatora transakcji. Analizując konfigurację funkcji asocjacji, dla przypadku analizy koszykowej, możemy jako pole transakcji wybrać datę. Wynikiem takiej eksploracji będą reguły, związane z wartościami pola rzeczy, odnoszące się do takiej samej daty. Na poniższym rysunku przedstawiamy formatkę wyboru pól transakcji i pól rzeczy dla analizowanego w pracy źródła danych wejściowych. Dostępne do wyboru pola znajdują się w sekcji „Available fields”.

Funkcja asocjacji - Pole transakcji, pole rzeczy
W celu posortowania danych wejściowych należy zaznaczyć opcję „Sort input data on the value in the Transaction field before running this function”. Następnym krokiem jest parametryzacja funkcji asocjacji. Dostępne są następujące parametry:
· Minimum support – minimalne wsparcie
· Minimum confidence – minimalna ufność
· Maximum rule length – maksymalna długość reguły
· Item constraits – filtrowanie danych wynikowych
Znaczenie parametrów określających minimalne wsparcie oraz minimalną ufność zostały opisane wraz z przykładem w poprzednim punkcie pracy. Maksymalna długość reguły określa liczbę elementów w wynikowej regule. Opcja „Item constraits” umożliwia określenie reguł, które mają zostać wykluczone lub uwzględnione w wyniku.
Poniżej przedstawiamy formatkę parametryzacji funkcji asocjacji:

Funkcja asocjacji – Parametryzacja
W kolejnym etapie konfiguracji funkcji asocjacji możemy dokonać pogrupowania i ustalenia hierarchii pomiędzy podobnymi elementami z analizowanego zbioru danych. Na przykład dla analizy koszykowej może to być pogrupowanie artykułów analogicznie do działów w supermarkecie (art. spożywcze, pieczywo, chemia, warzywa i owoce itp.). Poniżej widok formatki umożliwiającej dodawanie taksonomii (grupowania elementów i ustalania hierarchii). Aby dodać nową taksonomię klikamy przycisk „Create taxonomy”.

Funkcja asocjacji – Taksonomie
Ostatnimi czynnościami do wykonania w celu uruchomienia procesu eksploracji jest podanie nazwy wyniku w polu „Results name”, ewentualne dodanie komentarza w polu „Comment” i zapisanie wszystkich ustawień poprzez użycie przycisku FINISH. Zaznaczenie na ostatnim z ekranów konfiguracji opcję „Run this settings immediately” spowoduje uruchomienie procesu kopania danych, zaraz po zakończeniu konfiguracji nowej funkcji.