Mentionsy
GPT-5.2 to GEMINI KILLER? Google VS OpenAI, MCP w Linux Foundation i wątpliwości wokół benchmarków METR
Gorące premiery grudnia – czy GPT-5.2 i GPT-Image 1.5 wystarczą OpenAI, by odzyskać koronę w starciu z rodziną Google Gemini 3 i zmieniającą się dynamiką rynku? Jak czytać partnerstwo autorów ChataGPT z Disneyem - to trwała przewaga technologiczna czy kontrolowany eksperyment na najcenniejszym IP świata? Co mówią twarde dane o relacji ChatGPT - Gemini i dlaczego sama dystrybucja w ekosystemie Google’a zaczyna wygrywać z narracją o „najlepszym modelu”? Czy przekazanie Model Context Protocol (MCP) do Linux Foundation rzeczywiście porządkuje świat agentów AI, czy tylko przesuwa walkę o standardy na wyższy poziom?
Szukaj w treści odcinka
benchmarku, w tym razie tym razem na przykładzie benchmarku metr pokażemy jakie są słabości mierzenia w ten sposób efektywności modeli, tak żebyście lepiej rozumieli, że często te liczby podawane w ramach nowych anonsmentów modeli wcale nie wnoszą tak wiele do realnego progresu, do zrozumienia jak te modele się
takie zmiany wprowadza, mamy tutaj taką zaawansowaną kontrolę nad parametrami, nad elementami stałymi obrazu podczas edycji, można sobie wyizolować i zachować poszczególne fragmenty, można lepiej zadbać o podobieństwo rysów twarzy, o oświetlenie sceny, o kompozycję albo o tonację kolorów, czyli wszystko to, co znowu właśnie konwertuje to narzędzie z takiego modelu hobbystycznego już do realnego narzędzia.
Teraz po opowieściach o standardach jeszcze troszkę rantu na temat benchmarków, również jeden z takich stałych, powtarzających się fragmentów tego naszego podcastu, takich motywów przewodnich, bo na koniec tego odcinka, w tej ostatniej części opowiemy Wam o tym, jak zyskujący na popularności wykres czasu pracy modeli sztucznej inteligencji rozwijany przez organizację METR.
Na początku może Marcin przytoczmy kilka takich problemów tych współczesnych benchmarków zanim do samego metra przejdziemy, no bo wiemy, że z benchmarkami różnie bywa, wiemy, że można w różny sposób wpływać na te wyniki, więc jakie takie ogólne problemy tutaj trzeba byłoby zidentyfikować, na co warto zwracać uwagę.
Jeżeli mamy jakąś metrykę, która staje się jednocześnie celem, no to ona przestaje też być dobrą metryką.
Teraz Przemku omówmy, jak to wygląda w przypadku samego metru, jakie tam mamy problemy.
No i tutaj właśnie autor tego tekstu, który chcemy omówić, on wskazuje, że jest to istotny gdzieś tam istotny wskaźnik pokazujący postępy na tym polu generatywnej sztucznej inteligencji, ale bardzo łatwo go zaburzać i właśnie ten metr plot, który stał się takim standardem, takim częstym punktem odniesienia,
Jeśli przyjrzymy się tym zadaniom, które rozwiązują modele właśnie, które są oceniane pod kątem tego metru plotu, tego horizon left,
Jeśli chodzi o samą tę metodę badania, którą tutaj organizacja METR przyjęła, ona tutaj bierze konkretne typy zadań, które są właśnie przykładane do działania modelu.
No więc to wszystko kończy się tak, że metr nie tyle pokazuje jak długo zaczynają pracować modele, co pokazuje jak długo one są w stanie pracować właśnie w zakresie tej wąskiej specjalizacji właśnie.
Ogólnie ten benchmark ma dużo sensu i tak jak mówisz, zdolność tych modeli do wykonywania jakichś dłuższych zadań samodzielnie jest istotną metryką tego, do czego one są zdolne.
Ostatnie odcinki
-
Doktor AI nadchodzi - ChatGPT Health vs Google ...
01.02.2026 18:45
-
Wielkie Podsumowanie AI w 2025 - Modele, Narzęd...
09.01.2026 05:00
-
GPT-5.2 to GEMINI KILLER? Google VS OpenAI, MCP...
01.01.2026 10:51
-
Gemini 3 to hit, ale konkurencja nie śpi! GPT-5...
01.12.2025 12:38
-
Cursor 2.0 vs Windsurf SWE-1.5 - dobrze, szybko...
04.11.2025 05:00
-
Czy agenci AI zdominują branżę e-commerce? Chat...
04.10.2025 06:10
-
Czy agenci AI zdominują branżę e-commerce? Chat...
03.10.2025 05:05
-
GPT-5: sukces i porażka. Koniec marzeń o AGI pr...
01.09.2025 09:02
-
Czy AI spowalnia programistów? Halucynacje w NC...
02.08.2025 06:27
-
5 mitów programowania z AI - zapomnij o Vibe Co...
29.07.2025 06:00