Mentionsy

Opanuj.AI Podcast

03.04.2026 06:43

TEGO AI NIE POTRAFI - ARC-AGI-3 i koniec epoki SaaS | Opanuj.AI

Czy AI naprawdę rozumie świat, skoro oblewa testy, które człowiek rozwiązuje bez większego problemu? I czy jednocześnie właśnie na naszych oczach kończy się era klasycznych SaaS-ów?W najnowszym odcinku opanuj.ai bierzemy na warsztat dwa tematy, które dziś najmocniej rozgrzewają świat sztucznej inteligencji i technologicznego biznesu.Najpierw analizujemy ARC-AGI-3 - nowy benchmark, o którym w środowisku AI zrobiło się głośno dosłownie kilka dni po premierze. To test, który ludzie przechodzą relatywnie łatwo, podczas gdy najlepsze modele AI osiągają wyniki bliskie zera. Co tak naprawdę mierzy ARC-AGI-3? Dlaczego współczesne modele zawodzą na nim tak spektakularnie? Czy da się poprawić ich wyniki i najważniejsze: czy ten benchmark faktycznie mówi nam coś istotnego o realnych możliwościach AI w 2026 roku?W drugiej części odcinka przechodzimy do pytania, które coraz częściej wraca w rozmowach founderów, inwestorów i liderów produktów: czy SaaSy naprawdę umierają? Przez lata obowiązywał prosty model - użytkownik korzystał z interfejsu, firma płaciła za seaty, a dostawca skalował przewidywalny przychód. Dziś ten porządek zaczyna się kruszyć. AI radykalnie obniża koszt budowy oprogramowania, zmienia oczekiwania klientów i przesuwa wartość z samego narzędzia na dostarczanie konkretnego wyniku. Rozkładamy więc na czynniki pierwsze, kto w nowym świecie będzie kontrolował relację z klientem, dlaczego pricing per-seat przestaje działać i czemu wiele firm SaaS będzie musiało wykonać głęboki pivot.To odcinek o tym, gdzie dziś naprawdę są granice AI i jak AI zmienia ekonomię budowy software’u.

Intro

ARC-AGI 3 – nowy benchmark AI

Historia ARC-AGI 1 i 2

ARC-AGI 3 – format gry i kontrowersje

Szybkie newsy: Anthropic, OpenAI, Pentagon

Przyszłość SaaS i migracja wartości

Szybkie newsy: NVIDIA GTC, Cursor, Chiny

Podsumowanie i zakończenieProgramuj z AI: https://10xdevs.plZapisz się na newsletter Opanuj.AI: https://opanuj.ai/newsletter💌 Podobało się? Zostaw suba 🚀

AI AGI Arc AGI ARC Arc harness Arc AGI Anthropic Software as a Salesforce'a ARR Service Salesforce Pentagon Przemku

Sponsorzy odcinka (1)

Opanuj.AI, TEGO post-roll

"Odpowiedź w komentarzach. Dziękujemy też za wszelkie wsparcie. No wielu z Was pisze do nas miłe słowa pod adresem tego podcastu, że go lubicie, że wnosi Wam wartość."

Szukaj w treści odcinka

Znaleziono 35 wyników dla "Arc AGI"

ARC-AGI-3, czyli benchmarka, który miał swoją premierę zaledwie kilka dni temu i już stał się obiektem gorących debat w środowisku AI.

Odcinek pełen mięsa, więc nie ma na co czekać i przejdźmy do pierwszego tematu, czyli Arc-AGI-3.

Założyciele tej fundacji patrzą na ten cały potencjał sztucznej inteligencji w ogóle obecnej generacji modeli nieco inaczej, co udowadniają wydając na rynek ARC-AGI-3.

No bo kiedy Arc-AGI-3 został wydany, to okazało się, że ludzie, którzy brali udział w tym badaniu, którzy byli taką próbką kontrolną dla agentów AI, byli w stanie przejść 100% środowisk testowych, czyli można powiedzieć takich plansz, po których poruszamy się, rozwiązując zadania w tym benchmarku.

I zresztą Arc-AGI-3 to potwierdza.

Natomiast, żeby porozmawiać o całym temacie testowania AI i całej historii Arc-AGI, to na początku chcemy Wam przedstawić autora tego badania, czyli właśnie François Chollet.

No i jak Przemku wyglądało ARC-AGI-1?

To jest taki zbiór, który dziś znamy jako ARC-AGI.

No i ten Arc-AGI niestety gdzieś tam się załamał pod takim podejściem.

A to wszystko dlatego, że te dane, te zadania po prostu zaczęły się pojawiać w internecie odpowiednio często i same modele zaczęły znać konwencję Arc AGI-1, pomimo tego, że nikt ich tego wprost nie uczył.

I to się potwierdziło w momencie, kiedy Arc AGI-1 pojawił się na rynku.

Ten sam Arc AGI-1 zawierał zaledwie 100 zadań.

Zadania z Arc-AGI-1.

Wtedy już była ta świadomość problemów, które wcześniej zidentyfikowaliśmy i postanowiono tę sytuację naprawić, wydając drugą wersję tego benchmarku, czyli Arc-AGI-2.

Przyliterowano same zadania w Arc AGI 2.

No ale mieliśmy kolejne konkursy i tutaj najwyższy wynik to było 24%, no czyli znacznie niżej w przypadku Arc AGI, no ale cały czas mieliśmy tak naprawdę ten sam problem.

Mianowicie Arc AGI było benchmarkiem statycznym.

No i z tego tytułu Cholet i ArcPrize doszli do wniosku, że Arc-AGI-2 jeszcze nie jest tym ostatecznym benchmarkiem, o który tak naprawdę walczą, który tak naprawdę chcą stworzyć, więc zabrali się raz jeszcze do roboty.

No i tutaj właśnie przechodzimy do naszej świeżej premiery, jaką jest Arc-AGI-3.

Tak, poza tym elementem logiki i rozumowania, można powiedzieć, że doszedł tutaj element rozrywkowy, bo Arc AGI 3 stało się grą samą w sobie.

Nie tylko jakby inną grą w stosunku do Arc AGI 1 i 2, ale po prostu grą, w którą można pograć, gdzie można się pobawić w przechodzeniu, w realizowaniu tych wszystkich questów, leveli, które tam autorzy dla nas

No i ja w tego Arc-AGI-3 zagrałem, dość intuicyjnie można tutaj rozpoznać, o co chodzi, natomiast to nie jest tak, że wszystko jest faktycznie podane na tacy.

Następnie mamy różne warianty tego benchmarku i to akurat są lekcje wyniesione z Arc AGI 1 i 2.

No i też mamy walidację środowisk w tym Arc-AGI-3, czyli

No i Przemku, jakie właśnie opinie w społeczności wywołało Arc-AGI-3?

U mnie akurat pojawia się tutaj pewien zgryz, kiedy słyszę ten kontrargument, bo patrzę też w tym momencie, kiedy sobie to nagrywamy na leaderboard Arc-AGI-2 i wcześniej też mieliśmy już takie rozróżnienie, które w zasadzie powodowałoby, że już nawet poprzednia wersja tego benchmarku byłaby wystarczająca, bo patrzę sobie tutaj na Arc-AGI-2.

Natomiast można pewnie to odbić w ten sposób, że Chain of Thought też nie był tutaj tworzony pod rozwiązywanie Arc AGI.

No bo o ile my ludzie, ja, ty czy każdy kto słucha tego podcastu możemy sobie pograć w te gry z Arc AGI 3 w przeglądarce i mamy coś na zasadzie Game Boya z przyciskami, tak modele dostają po prostu JSON, czyli tekstową, symboliczną reprezentację danego levelu, danej sceny, z którą muszą sobie poradzić.

Modele już dzisiaj są w stanie dobrze interpretować obrazy, natomiast jakby włączenie tego trybu i tak nie zmieniłoby stanu rzeczy, nie sprawiłoby, że na przykład ten Arc-Agi-3

Rozwiązanie symbolika AI, które tutaj proponuje architekturę orkiestratora i subagentów zostało zdyskwalifikowane z oficjalnego leaderboardu jako benchmark specific harness, czyli takie rozwiązanie, które po prostu działało, ale zostało stworzone tylko po to, żeby rozwiązywać Arc-AGI-3.

Ciężko powiedzieć tak naprawdę, czy ten stosunek pomiędzy postępami w ARC-AGI będzie odzwierciedleniem też bardzo dużych postępów w zakresie realizacji zadań chociażby programistycznych.

Może być tak, że modele staną się dużo lepsze właśnie w rozwiązywaniu Arc AGI, a nie zrobią ogromnych postępów w zakresie dołożenia zadań programistycznych, a też może być tak, że zrobią ogromne postępy w zakresie osiągania efektów biznesowych, a cały czas w Arc AGI będą miały wyniki słabe i nikogo to specjalnie nie będzie interesowało, no poza wąską grupą badaczy, którzy chcą się

W takim tygodniu premiery tego Arc AGI-3

W Polsce też jednak mocno patrzy się na to, co potrafią surowe modele, trochę tak jak tutaj twórca ARC-AGI-3 i taki obóz na pewno w tej debacie też jest.

I też ważny milestone, 30 marca firma AGI Bot wyprodukowała dziesięciotysięcznego robota humanoidalnego.

Ostatnie odcinki

TEGO AI NIE POTRAFI - ARC-AGI-3 i koniec epoki ...
03.04.2026 06:43
Programowanie w epoce AI z Claude Code, Cursore...
19.03.2026 16:35
OpenClaw, SWE-AGI i zmierzch chatbotów - Opus 4...
04.03.2026 14:08
Doktor AI nadchodzi - ChatGPT Health vs Google ...
01.02.2026 18:45
Wielkie Podsumowanie AI w 2025 - Modele, Narzęd...
09.01.2026 05:00
GPT-5.2 to GEMINI KILLER? Google VS OpenAI, MCP...
01.01.2026 10:51
Gemini 3 to hit, ale konkurencja nie śpi! GPT-5...
01.12.2025 12:38
Cursor 2.0 vs Windsurf SWE-1.5 - dobrze, szybko...
04.11.2025 05:00
Czy agenci AI zdominują branżę e-commerce? Chat...
04.10.2025 06:10
Czy agenci AI zdominują branżę e-commerce? Chat...
03.10.2025 05:05