Mentionsy

KajoData - Analiza danych dla każdego
KajoData - Analiza danych dla każdego
18.11.2024 16:30

DATA CLEANING - PODSTAWY | Jak Data Analyst czyści dane? | KajoData Podcast

🟨 https://kajodata.com/space/

🟦 https://kajodata.com/kursy/


Czyszczenie danych – brzmi jak coś nudnego, prawda? Ale w tym odcinku pokazuję, że to właśnie ta żmudna praca za kulisami pozwala na tworzenie świetnych analiz i podejmowanie trafnych decyzji biznesowych. Opowiadam o pięciu najważniejszych etapach czyszczenia danych, które sprawiają, że tabele i bazy danych stają się klarowne i użyteczne. Jeśli planujesz wejść w świat analityki danych, to absolutnie musisz wiedzieć, co kryje się za hasłem „wywóz śmieci” z tabel!


Od identyfikacji duplikatów, przez radzenie sobie z brakującymi wartościami, aż po normalizację i wykrywanie anomalii – każdy etap to mini zagadka, którą trzeba rozwiązać, aby dane nabrały sensu. W odcinku tłumaczę, na czym polegają te procesy, podaję przykłady z życia analityka i pokazuję, jak przekształcić bałagan w dobrze poukładaną bazę danych. Czyszczenie danych to nie tylko techniczne wyzwania, ale też umiejętność detektywistycznego myślenia i współpracy z innymi zespołami.


Jeśli zastanawiasz się, czy analityka danych to coś dla Ciebie, spróbuj swoich sił w tym „brudnym” elemencie pracy analityka. A może właśnie w tym znajdziesz frajdę? Detektyw danych to ktoś, kto wyłapuje błędy, poprawia nieścisłości i zamienia bałagan w czystą wartość. Daj znać w komentarzu, co najbardziej interesuje Cię w pracy analityka danych!

Rozdziały (7)

1. Wprowadzenie i definicja czyszczenia danych

Podstawowe pojęcia czyszczenia danych i wprowadzenie do tematu.

2. Usuwanie duplikatów

Wyjaśnienie czego to jest i dlaczego jest ważne, przykłady zastosowań i zagadnienia techniczne.

3. Radzenie sobie z brakującymi wartościami

Różne scenariusze i metody obsługi brakujących danych w praktyce.

4. Standardyzacja i normalizacja danych

Wyznaczenie i zastosowanie standardów w danych oraz normalizacja baz danych.

5. Sprawdzanie poprawności danych

Metody sprawdzania poprawności danych, w tym standardowe i niestandardowe podejścia.

6. Wykrywanie i usuwanie anomalii

Zagadnienia związane z wykrywaniem anomalii i decyzją o jej usuwaniu.

7. Podsumowanie i zakończenie

Podsumowanie kluczowych punktów i konkluzje na temat czyszczenia danych.

Szukaj w treści odcinka

Znaleziono 14 wyników dla "PL"

Identyfikacja i usuwanie duplikatów.

Bo to jest tak, że w różnych danych czasem te duplikaty będą występowały i czasem tak po prostu musi być.

Czy też nasza firma ma i sprzedajemy międzynarodowo, że ten sam produkt będzie występował dwa razy, tylko raz będzie miał flagę, nie wiem, PL, a raz EN, bo to będą opisy w różnych językach i wszystko będzie to samo, identyfikator będzie ten sam, ale ten rekord będzie jakoś zduplikowany, bo później w tym zamówieniu będzie wskazane, czy tam właśnie użyto tej angielskiej flagi czy polskiej flagi, a być może jeszcze coś się różni, na przykład opis tego produktu wtedy, tak?

I tutaj czasem będzie się usuwało te duplikaty i będzie się po prostu robiło listę produktów po identyfikatorze, a czasem nie.

Natomiast sam proces identyfikacji duplikatów jest dosyć ważny, ponieważ jeżeli tego nie zrobimy, to najczęściej sumując sprzedaż, ilość zamówień, stan zamagazynowania, to będzie nam po prostu wychodziło więcej niż jest w rzeczywistości.

Gorsze, jeżeli się machniemy o niewielką ilość jednostek, to znaczy tych duplikatów jest niewiele, ale są.

Na podstawie tego są podejmowane jakieś decyzje i później dopiero wyjdzie, że kurczę, myśmy zliczali trochę duplikaty.

I będzie się ciężko wytłumaczyć z tego, no bo jednak już lecimy z tymi duplikatami od jakiegoś czasu.

Dlatego właśnie bardzo ważne jest, żeby duplikaty w danych rozpoznać.

nasza aplikacja nie działała przez jakiś czas, nie dostarczała tam ważnych danych.

Natomiast trzeba pamiętać, że sprawdzenie tych nullis, sprawdzenie tych brakujących wartości jest czymś tak podstawowym, jak sprawdzenie duplikatów i robi się to praktycznie zawsze.

Natomiast z naszego punktu widzenia, czyli z punktu widzenia analityka, to jest trochę tak, że musimy wrócić do duplikatów.

Hej, sorry, że wbijam się w temat, ale chciałem tylko przypomnieć, że na mojej stronie kajodata.com znajdziesz dostęp do społeczności i platformy dla analityków danych, gdzie jest mnóstwo świetnych materiałów i pełne wersje kursów z Excela, SQL, Pythona i Tableau, a także webinary z Power BI, więc gorąco zachęcam kajodata.com.

Mamy identyfikację i usuwanie duplikatów.