Proces eksploracji danych

W tym rozdziale zajmiemy się uszczegółowieniem procesu eksploracji danych z uwzględnieniem podziału na poszczególne etapy i ich charakterystykę.

Wstęp

Wybór źródła danych

Przetwarzanie, eksploracja, interpretacja danych

Przykład procesu eksploracji


Warto zobaczyć:
serwery vps Stracone dane? Odzyskiwanie danych z każdego nośnika danych! ares pobierz microsoft molp

Wybór źródła danych

Pierwszym krokiem procesu eksploracji jest wybór źródła danych do zgłębiania i analizy. Na tym etapie należy określić obszar poszukiwań oraz dziedzinę analiz. Kolejnym krokiem jest ustalenie jakie dane zostaną wykorzystane, kładąc nacisk na wybór formatu danych, zastanowienie się nad ilością potrzebnych danych oraz na wyborze sposobu ich gromadzenia i przechowywania. Dane wykorzystywane do analizy mogą być gromadzone i przechowywane na wiele sposobów. Mogą to być np. logi transakcji bankowych, zestawienie pozycji paragonów z zakupów supermarkecie, bilingi rozmów telefonicznych, historie objawów przebytych chorób czy dane z ruchu sieciowego, którymi zajmiemy się w niniejszej pracy. Zbiory danych mogą być gromadzone przez wiele lat i dotyczyć np. dużej liczby pacjentów i przebytych przez nich chorób lub np. dotyczyć wszystkich połączeń z jednym serwerem w określonym oknie czasu, czasem bardzo krótkim, np. w ciągu jednego dnia. Mimo, że w wyżej wymienionych przykładach, okres zbierania informacji jest bardzo różny to liczba źródłowych rekordów może być zbliżona. Wybór odpowiedniej liczby rekordów w źródle danych uzależniony jest od celu i obszaru poszukiwań zależności.

W procesie eksploracji w zależności od wykorzystywanych narzędzi, możemy bazować na wielu różnych źródłach danych przechowywanych między innymi w hurtowniach danych, bazach danych, tabelach, widokach czy nawet bezpośrednio w tzw. plikach płaskich (ang. flat files).

Procedura gromadzenia danych może powodować niekompletność zbieranych i rejestrowanych rekordów lub dane mogą być nieprawidłowe lub zawierające błędy. Aby wyeliminować zaistniałe nieprawidłowości dokonujemy procesu przetworzenia danych.  kasowanie danych wycena domen pozycjonowanie