Mentionsy

KajoData - Analiza danych dla każdego
KajoData - Analiza danych dla każdego
19.10.2025 17:00

Data Engineer vs AI | Big Data - granice bezpieczeństwa, prywatności i kontroli | Marek Czuma

KajoData:

🟨 Społeczność analityków KajoDataSpace

🟦 Kursy - Excel, Power Query, SQL, PowerBI, Python, Tableau

Marek Czuma

🟩 Akademia Big Data

🟫 Big Data Po Polsku


W tym odcinku spotkałem się z Markiem Czumą – inżynierem danych, twórcą Akademii Big Data i podcastu „Big Data po polsku”. To rozmowa o świecie ogromnych zbiorów danych, technologii rozproszonych i granicach tego, co możemy dziś przetworzyć. Zaczynamy od pytania, czy danych nie jest po prostu za dużo – i czy w tej „danej ropie XXI wieku” nie zaczynamy się powoli topić. Marek tłumaczy, jak naprawdę wygląda branża Big Data, na czym polega przetwarzanie rozproszone i dlaczego dodanie „kolejnych serwerów” nie zawsze rozwiązuje problem.


Rozmawiamy też o różnicach między analitykiem danych a inżynierem danych – gdzie kończy się Excel, a zaczyna Apache Spark. Marek pokazuje, że Big Data to nie tylko programowanie, ale sposób myślenia – inżynierski, systemowy, zrozumiały dopiero wtedy, gdy wiesz, co dzieje się „pod spodem”.


Zastanawiamy się też, jak wygląda ścieżka rozwoju od analityka do inżyniera danych i które umiejętności są tu naprawdę kluczowe.


W drugiej części schodzimy na meta-poziom – rozmawiamy o przyszłości zawodów IT w erze sztucznej inteligencji, o tym, co AI może zmienić (a czego raczej nie ruszy), i które systemy robią na Marku największe wrażenie – od Google Maps po infrastrukturę NSA. To szczera, inspirująca rozmowa o tym, jak wygląda świat danych od środka – technicznie, organizacyjnie i... filozoficznie.

Szukaj w treści odcinka

Znaleziono 11 wyników dla "Spark"

Przykładem czegoś takiego jest Apache Spark.

I my to sobie wciągamy, tych miliard Excel i CSVek jest rozłożonych na wielu maszynach i my dzięki Sparkowi

Czyli mamy już wspomnianego Sparka, który przetwarza dane, no to nie uczmy się tylko Sparka, uczmy się...

Patrzmy na architekturę, jak Spark to zrobił.

Jeżeli ja umiem tak myśleć, no to wywołanie tych funkcji staje się dużo bardziej dojrzałe, bo ja wiem, co się dzieje pod spodem, ja wiem, czym się drobne smaczki różnią, a co więcej, jak ja potem przysiądę się na inny framework, bo zaraz wejdzie zupełnie nowa alternatywa do przetwarzania danych dla na przykład Sparka,

Będę czytał dokumentację i będę myślał, aha, a w Sparku to jest zrobione inaczej, a tutaj jak to jest zrobione w taki sposób, to to się świetnie zgrywa, bo to zapełnia jakieś tam problemy, które Spark miał na przykład.

Tylko to jest mój zarzut zresztą największy do wielu kursów, które widzę online, które mają cię nauczyć właśnie tego przysłowiowego sparka, że tam wchodzisz i masz po prostu zestaw funkcji, które masz wywołać i uczysz się co to jest.

Tym bardziej, że wiesz, ja teraz mogę być ekspertem od właśnie Sparka czy czegoś, a pójdę do drugiej firmy, a tam tego nie wykorzystują.

W jego sercu leży właśnie wspomniany przeze mnie Spark.

Odpalam Sparka.

Spark zaciąga dane, przetwarza, wrzuca do tabelki.