Mentionsy
TEGO AI NIE POTRAFI - ARC-AGI-3 i koniec epoki SaaS | Opanuj.AI
Czy AI naprawdę rozumie świat, skoro oblewa testy, które człowiek rozwiązuje bez większego problemu? I czy jednocześnie właśnie na naszych oczach kończy się era klasycznych SaaS-ów?W najnowszym odcinku opanuj.ai bierzemy na warsztat dwa tematy, które dziś najmocniej rozgrzewają świat sztucznej inteligencji i technologicznego biznesu.Najpierw analizujemy ARC-AGI-3 - nowy benchmark, o którym w środowisku AI zrobiło się głośno dosłownie kilka dni po premierze. To test, który ludzie przechodzą relatywnie łatwo, podczas gdy najlepsze modele AI osiągają wyniki bliskie zera. Co tak naprawdę mierzy ARC-AGI-3? Dlaczego współczesne modele zawodzą na nim tak spektakularnie? Czy da się poprawić ich wyniki i najważniejsze: czy ten benchmark faktycznie mówi nam coś istotnego o realnych możliwościach AI w 2026 roku?W drugiej części odcinka przechodzimy do pytania, które coraz częściej wraca w rozmowach founderów, inwestorów i liderów produktów: czy SaaSy naprawdę umierają? Przez lata obowiązywał prosty model - użytkownik korzystał z interfejsu, firma płaciła za seaty, a dostawca skalował przewidywalny przychód. Dziś ten porządek zaczyna się kruszyć. AI radykalnie obniża koszt budowy oprogramowania, zmienia oczekiwania klientów i przesuwa wartość z samego narzędzia na dostarczanie konkretnego wyniku. Rozkładamy więc na czynniki pierwsze, kto w nowym świecie będzie kontrolował relację z klientem, dlaczego pricing per-seat przestaje działać i czemu wiele firm SaaS będzie musiało wykonać głęboki pivot.To odcinek o tym, gdzie dziś naprawdę są granice AI i jak AI zmienia ekonomię budowy software’u.
Intro
ARC-AGI 3 – nowy benchmark AI
Historia ARC-AGI 1 i 2
ARC-AGI 3 – format gry i kontrowersje
Szybkie newsy: Anthropic, OpenAI, Pentagon
Przyszłość SaaS i migracja wartości
Szybkie newsy: NVIDIA GTC, Cursor, Chiny
Podsumowanie i zakończenieProgramuj z AI: https://10xdevs.plZapisz się na newsletter Opanuj.AI: https://opanuj.ai/newsletter💌 Podobało się? Zostaw suba 🚀
Sponsorzy odcinka (1)
"Odpowiedź w komentarzach. Dziękujemy też za wszelkie wsparcie. No wielu z Was pisze do nas miłe słowa pod adresem tego podcastu, że go lubicie, że wnosi Wam wartość."
Szukaj w treści odcinka
Tym razem przygotowaliśmy do Was podsumowanie marca w świecie sztucznej inteligencji, kodowania z AI i uczenia maszynowego.
Z tej strony Marcin Czarkowski.
ARC-AGI-3, czyli benchmarka, który miał swoją premierę zaledwie kilka dni temu i już stał się obiektem gorących debat w środowisku AI.
I pierwsze zastanowimy się kto cały czas będzie miał silną pozycję w świecie technologii i biznesu, dlaczego ten model wyceniania w oparciu o dostępy najprawdopodobniej przejdzie do lamusa i jakie firmy typu SaaS będą musiały się bać o swoje przetrwanie i najpewniej piwotować, aby przetrwać w tej nowej rzeczywistości.
Odcinek pełen mięsa, więc nie ma na co czekać i przejdźmy do pierwszego tematu, czyli Arc-AGI-3.
No ale dzisiaj porozmawiamy o tezie przeciwnej, takiej, która wywodzi się z fundacji ArcPrize.
Założyciele tej fundacji patrzą na ten cały potencjał sztucznej inteligencji w ogóle obecnej generacji modeli nieco inaczej, co udowadniają wydając na rynek ARC-AGI-3.
No bo kiedy Arc-AGI-3 został wydany, to okazało się, że ludzie, którzy brali udział w tym badaniu, którzy byli taką próbką kontrolną dla agentów AI, byli w stanie przejść 100% środowisk testowych, czyli można powiedzieć takich plansz, po których poruszamy się, rozwiązując zadania w tym benchmarku.
Natomiast, co właśnie zaznaczył Marcin we wstępie, najlepsze LLM-y, te same, które piszą dla nas kod, które tłumaczą dokumenty, na podstawie których chcemy też automatyzować procesy w naszych firmach, notują wyniki rzędu 0,37%, 0,26%, 0,25%, a jednemu z dostawców niestety nie udało się nawet ruszyć powyżej absolutnego zera.
I zresztą Arc-AGI-3 to potwierdza.
Natomiast, żeby porozmawiać o całym temacie testowania AI i całej historii Arc-AGI, to na początku chcemy Wam przedstawić autora tego badania, czyli właśnie François Chollet.
Tak więc François Chollet jest researcherem z Googla i jedną z najbardziej opiniotwórczych postaci w świecie deep learningu.
No i jak Przemku wyglądało ARC-AGI-1?
Wtedy to nasz przyjaciel François publikuje pierwszy korpus danych właśnie testowych, czyli taki abstraction and reasoning korpus, skąd właściwie wywodzi się właśnie ta nazwa ARC.
To jest taki zbiór, który dziś znamy jako ARC-AGI.
No i ten Arc-AGI niestety gdzieś tam się załamał pod takim podejściem.
Drugi problem był jeszcze bardziej poważny, o tym również Marcin mówi na naszym kanale YouTube przeprogramowani, czyli właśnie overfitting na wiedzę.
A to wszystko dlatego, że te dane, te zadania po prostu zaczęły się pojawiać w internecie odpowiednio często i same modele zaczęły znać konwencję Arc AGI-1, pomimo tego, że nikt ich tego wprost nie uczył.
I to się potwierdziło w momencie, kiedy Arc AGI-1 pojawił się na rynku.
Ten sam Arc AGI-1 zawierał zaledwie 100 zadań.
Zadania z Arc-AGI-1.
Jeden z zespołów The Architects, zwycięski zespół, osiągnął 53,5% skuteczności na prywatnym datasecie, a na publicznym leaderboardzie wyniki szły jeszcze wyżej.
Wtedy już była ta świadomość problemów, które wcześniej zidentyfikowaliśmy i postanowiono tę sytuację naprawić, wydając drugą wersję tego benchmarku, czyli Arc-AGI-2.
Przyliterowano same zadania w Arc AGI 2.
No ale mieliśmy kolejne konkursy i tutaj najwyższy wynik to było 24%, no czyli znacznie niżej w przypadku Arc AGI, no ale cały czas mieliśmy tak naprawdę ten sam problem.
Mianowicie Arc AGI było benchmarkiem statycznym.
Nieważne, czy to po prostu następuje od razu, czy w jakiś dłuższy okres czasu, w końcu będzie wystarczająca ilość analiz, żeby modele na podstawie chociażby samych omówień były w stanie zrozumieć, jak ten benchmark rozwiązać.
No i z tego tytułu Cholet i ArcPrize doszli do wniosku, że Arc-AGI-2 jeszcze nie jest tym ostatecznym benchmarkiem, o który tak naprawdę walczą, który tak naprawdę chcą stworzyć, więc zabrali się raz jeszcze do roboty.
No i tutaj właśnie przechodzimy do naszej świeżej premiery, jaką jest Arc-AGI-3.
Tak, poza tym elementem logiki i rozumowania, można powiedzieć, że doszedł tutaj element rozrywkowy, bo Arc AGI 3 stało się grą samą w sobie.
Nie tylko jakby inną grą w stosunku do Arc AGI 1 i 2, ale po prostu grą, w którą można pograć, gdzie można się pobawić w przechodzeniu, w realizowaniu tych wszystkich questów, leveli, które tam autorzy dla nas
No i ja w tego Arc-AGI-3 zagrałem, dość intuicyjnie można tutaj rozpoznać, o co chodzi, natomiast to nie jest tak, że wszystko jest faktycznie podane na tacy.
O czym zresztą Marcin wspominał i którą też pan Szolle zdefiniował 7 lat wcześniej.
Ale zanim przejdziemy do samej burzy, to może Marcin opowiedzmy jeszcze o kilku takich cechach samego benchmarku, takich decyzjach technicznych, które zostały podjęte na etapie jego projektowania, tak żebyśmy lepiej rozumieli, można powiedzieć, też takie podstawy badawcze, może trochę bardziej akademickie, dotyczące całego tego programu.
Następnie mamy różne warianty tego benchmarku i to akurat są lekcje wyniesione z Arc AGI 1 i 2.
No i też mamy walidację środowisk w tym Arc-AGI-3, czyli
No i Przemku, jakie właśnie opinie w społeczności wywołało Arc-AGI-3?
Natomiast sami tutaj członkowie fundacji ARC Prize kontrargumentują, mówiąc, że człowiek nie potrzebuje dedykowanego harnessu per każdy problem, który rozwiązuje.
U mnie akurat pojawia się tutaj pewien zgryz, kiedy słyszę ten kontrargument, bo patrzę też w tym momencie, kiedy sobie to nagrywamy na leaderboard Arc-AGI-2 i wcześniej też mieliśmy już takie rozróżnienie, które w zasadzie powodowałoby, że już nawet poprzednia wersja tego benchmarku byłaby wystarczająca, bo patrzę sobie tutaj na Arc-AGI-2.
I ta poprzednia wersja benchmarku byłaby wystarczająca.
Natomiast można pewnie to odbić w ten sposób, że Chain of Thought też nie był tutaj tworzony pod rozwiązywanie Arc AGI.
Natomiast reakcja ArcPrice była równie szybka.
No bo o ile my ludzie, ja, ty czy każdy kto słucha tego podcastu możemy sobie pograć w te gry z Arc AGI 3 w przeglądarce i mamy coś na zasadzie Game Boya z przyciskami, tak modele dostają po prostu JSON, czyli tekstową, symboliczną reprezentację danego levelu, danej sceny, z którą muszą sobie poradzić.
Modele już dzisiaj są w stanie dobrze interpretować obrazy, natomiast jakby włączenie tego trybu i tak nie zmieniłoby stanu rzeczy, nie sprawiłoby, że na przykład ten Arc-Agi-3
Rozwiązanie symbolika AI, które tutaj proponuje architekturę orkiestratora i subagentów zostało zdyskwalifikowane z oficjalnego leaderboardu jako benchmark specific harness, czyli takie rozwiązanie, które po prostu działało, ale zostało stworzone tylko po to, żeby rozwiązywać Arc-AGI-3.
Ciężko powiedzieć tak naprawdę, czy ten stosunek pomiędzy postępami w ARC-AGI będzie odzwierciedleniem też bardzo dużych postępów w zakresie realizacji zadań chociażby programistycznych.
Może być tak, że modele staną się dużo lepsze właśnie w rozwiązywaniu Arc AGI, a nie zrobią ogromnych postępów w zakresie dołożenia zadań programistycznych, a też może być tak, że zrobią ogromne postępy w zakresie osiągania efektów biznesowych, a cały czas w Arc AGI będą miały wyniki słabe i nikogo to specjalnie nie będzie interesowało, no poza wąską grupą badaczy, którzy chcą się
W takim tygodniu premiery tego Arc AGI-3
W Polsce też jednak mocno patrzy się na to, co potrafią surowe modele, trochę tak jak tutaj twórca ARC-AGI-3 i taki obóz na pewno w tej debacie też jest.
Duże zamieszanie było w marcu z tym związane.
No bo mówi się Marcin, że SaaSy umierają.
No i na pewno takim jednym z bardziej istotnych trendów staje się gdzieś tam budowanie wartości w oparciu o historię wyjątków i decyzji biznesowych na poziomie danej firmy, czyli wszystkiego tego, czego nie znajdziemy tak naprawdę w danych treningowych modelu, czego nie znajdziemy w Wikipedii, co znajduje się na jakichś zamkniętych forach wewnętrznych w bazach wiedzy, w oparciu o to ma być budowane oprogramowanie nowej generacji, czyli takie oprogramowanie
Myślę, że wcześniej to byłoby albo poszukiwanie freelancera, albo po prostu stwierdzenie, co zresztą często się zdarzało, że Marcin Przemek, słuchaj, kiedy indziej?
Nie wiem, różne są warianty, są jakieś kredyty na akcje, jest rozliczanie za tokeny, no różne takie proxy na tą działalność AI są tworzone, ale to zwykle i tak jest obarczone wieloma problemami, zmieniają się modele i mamy po prostu kolejne zmiany w tych cennikach i tak dalej, i tak dalej, a z drugiej strony ciężko wycenić ten outcome, nie?
Zresztą sam ten Linar poinformował dosłownie pod koniec marca, że oni sami już przestają o sobie myśleć jako o takim systemie do issue trackingu, bo wiedzą, że taki klasyczny model dostarczania software'u, gdzie najpierw tworzymy issue, potem się rzeczy dzieją, siadamy, dyskutujemy 2, 3, 4 tygodnie, a na końcu jest rozwiązanie.
I też ważny milestone, 30 marca firma AGI Bot wyprodukowała dziesięciotysięcznego robota humanoidalnego.
Dziękujemy też za wszelkie wsparcie.
Ostatnie odcinki
-
TEGO AI NIE POTRAFI - ARC-AGI-3 i koniec epoki ...
03.04.2026 06:43
-
Programowanie w epoce AI z Claude Code, Cursore...
19.03.2026 16:35
-
OpenClaw, SWE-AGI i zmierzch chatbotów - Opus 4...
04.03.2026 14:08
-
Doktor AI nadchodzi - ChatGPT Health vs Google ...
01.02.2026 18:45
-
Wielkie Podsumowanie AI w 2025 - Modele, Narzęd...
09.01.2026 05:00
-
GPT-5.2 to GEMINI KILLER? Google VS OpenAI, MCP...
01.01.2026 10:51
-
Gemini 3 to hit, ale konkurencja nie śpi! GPT-5...
01.12.2025 12:38
-
Cursor 2.0 vs Windsurf SWE-1.5 - dobrze, szybko...
04.11.2025 05:00
-
Czy agenci AI zdominują branżę e-commerce? Chat...
04.10.2025 06:10
-
Czy agenci AI zdominują branżę e-commerce? Chat...
03.10.2025 05:05