Mentionsy

Opanuj.AI Podcast
Opanuj.AI Podcast
03.04.2026 06:43

TEGO AI NIE POTRAFI - ARC-AGI-3 i koniec epoki SaaS | Opanuj.AI

Czy AI naprawdę rozumie świat, skoro oblewa testy, które człowiek rozwiązuje bez większego problemu? I czy jednocześnie właśnie na naszych oczach kończy się era klasycznych SaaS-ów?W najnowszym odcinku opanuj.ai bierzemy na warsztat dwa tematy, które dziś najmocniej rozgrzewają świat sztucznej inteligencji i technologicznego biznesu.Najpierw analizujemy ARC-AGI-3 - nowy benchmark, o którym w środowisku AI zrobiło się głośno dosłownie kilka dni po premierze. To test, który ludzie przechodzą relatywnie łatwo, podczas gdy najlepsze modele AI osiągają wyniki bliskie zera. Co tak naprawdę mierzy ARC-AGI-3? Dlaczego współczesne modele zawodzą na nim tak spektakularnie? Czy da się poprawić ich wyniki i najważniejsze: czy ten benchmark faktycznie mówi nam coś istotnego o realnych możliwościach AI w 2026 roku?W drugiej części odcinka przechodzimy do pytania, które coraz częściej wraca w rozmowach founderów, inwestorów i liderów produktów: czy SaaSy naprawdę umierają? Przez lata obowiązywał prosty model - użytkownik korzystał z interfejsu, firma płaciła za seaty, a dostawca skalował przewidywalny przychód. Dziś ten porządek zaczyna się kruszyć. AI radykalnie obniża koszt budowy oprogramowania, zmienia oczekiwania klientów i przesuwa wartość z samego narzędzia na dostarczanie konkretnego wyniku. Rozkładamy więc na czynniki pierwsze, kto w nowym świecie będzie kontrolował relację z klientem, dlaczego pricing per-seat przestaje działać i czemu wiele firm SaaS będzie musiało wykonać głęboki pivot.To odcinek o tym, gdzie dziś naprawdę są granice AI i jak AI zmienia ekonomię budowy software’u.

Intro

ARC-AGI 3 – nowy benchmark AI

Historia ARC-AGI 1 i 2

ARC-AGI 3 – format gry i kontrowersje

Szybkie newsy: Anthropic, OpenAI, Pentagon

Przyszłość SaaS i migracja wartości

Szybkie newsy: NVIDIA GTC, Cursor, Chiny

Podsumowanie i zakończenieProgramuj z AI: https://10xdevs.plZapisz się na newsletter Opanuj.AI: https://opanuj.ai/newsletter💌 Podobało się? Zostaw suba 🚀

Sponsorzy odcinka (1)

Opanuj.AI, TEGO post-roll

"Odpowiedź w komentarzach. Dziękujemy też za wszelkie wsparcie. No wielu z Was pisze do nas miłe słowa pod adresem tego podcastu, że go lubicie, że wnosi Wam wartość."

Szukaj w treści odcinka

Znaleziono 14 wyników dla "harness"

I mamy również drugą wersję leaderboardu, czyli community, gdzie już mogą modele korzystać z harnessów, gdzie jest samo reportowanie.

Jako o całym tym pakiecie modelu w połączeniu z harnessem.

No nie pytamy po API, nie wysyłamy fragmentu kodu i nie kopujemy go z powrotem, tylko korzystamy z Cloud Coda, kursora, kodeksa, który ma właśnie ten agent harness, który daje nam

Na pewno jednym z takich najgorętszych punktów całej tej debaty jest właśnie wątek harnessu i tego, czy harness to jest element całego rozwiązania, czy to jest jakiś sposób na hakowanie tego czy innego testu.

Część społeczności mówi, że bez harnessu tak naprawdę działamy tak, jak gdyby człowiekowi zabrać zmysły, że modele już dzisiaj domyślnie tak naprawdę są budowane pod kątem obsługi, narzędzi i

Natomiast sami tutaj członkowie fundacji ARC Prize kontrargumentują, mówiąc, że człowiek nie potrzebuje dedykowanego harnessu per każdy problem, który rozwiązuje.

Natomiast z ich punktu widzenia ten harness to jest jakieś tam rozszerzenie mające umożliwiać modelowi rozwiązywanie tych zadań.

No i teraz moje pytanie brzmi, czym jest tak naprawdę chain of thought jakby w relacji do harnessu, do całej tej dyskusji?

Wydaje mi się dla mnie osobiście, że harness jest takim kolejnym etapem w całej tej grze pod tytułem robimy modele, one mają swoje ograniczenia, potem wprowadzamy Chain of Thought, uczymy te modele rozumowania w taki, a nie inny sposób.

A następnie obudowujemy je harnessem, uczymy je obsługi narzędzi.

Natomiast dla mnie jest to rozszerzenie takie samo, jak sam harness jest rozszerzeniem i powinno się to brać pod...

Rozwiązanie symbolika AI, które tutaj proponuje architekturę orkiestratora i subagentów zostało zdyskwalifikowane z oficjalnego leaderboardu jako benchmark specific harness, czyli takie rozwiązanie, które po prostu działało, ale zostało stworzone tylko po to, żeby rozwiązywać Arc-AGI-3.

I te harnessy też po prostu do tego służą, więc myślę, że i mocniej tutaj pan Szolle, którego zresztą bardzo lubię i też śledzę jego publikacje, będzie trzymał się tych wszystkich wyłączeń i tego twardego rozgraniczenia surowego modelu od, powiedzmy, takich zastosowań komercyjnych, od rozwiązań, które są stosowane komercyjnie, tym raczej będzie bardziej na tym tracił.

Natomiast ja jestem gdzieś tam po stronie takich praktycznych zastosowań, więc im lepszy harness, im lepszy reasoning, to dla mnie jest po prostu tylko zysk taki praktyczny.