Najnowsze i najpotężniejsze modele od Google, OpenAI i Anthropic osiągają wyniki rzędu ułamków procenta w nowym teście ARC-AGI-3. Dla porównania, przypadkowi ludzie rozwiązują te same zadania ze 100-procentową skutecznością. Opublikowany w marcu 2026 roku benchmark od ARC Prize Foundation brutalnie weryfikuje narrację o rychłym nadejściu sztucznej inteligencji ogólnego przeznaczenia (AGI).
Koniec statycznych zagadek i optymalizacji pod testy
Poprzednie wersje testu (ARC-AGI-1 i 2) opierały się na statycznych zadaniach logicznych polegających na rozpoznawaniu wzorców na siatkach. Czołowe modele językowe (LRM), w tym o1, o3 czy Gemini 3, nauczyły się je rozwiązywać dzięki ogromnej mocy obliczeniowej w fazie wnioskowania (test-time compute) oraz masowemu trenowaniu na syntetycznych danych. W ten sposób sztuczna inteligencja „zhakowała” benchmark, wykorzystując skróty pamięciowe i wiedzę domenową, co mylnie interpretowano jako dowód na posiadanie płynnej inteligencji.
Nowe zasady gry: interakcja zamiast instrukcji
ARC-AGI-3 drastycznie zmienia podejście, przenosząc testy do interaktywnych, turowych środowisk 2D, przypominających proste gry wideo.
- Zadaniem agenta AI jest samodzielne odkrycie celu, zasad oraz mechaniki środowiska poprzez eksplorację.
- Środowisko nie dostarcza żadnych instrukcji tekstowych, cyfr, liter ani symboli kulturowych.
- Agent musi polegać wyłącznie na tzw. podstawowej wiedzy o świecie (Core Knowledge), obejmującej intuicyjną fizykę, podstawową geometrię i topologię.
Inteligencja mierzona efektywnością akcji
W nowym teście sukces to nie tylko rozwiązanie problemu, ale zrobienie tego przy użyciu jak najmniejszej liczby ruchów.
- Wynik AI jest kalkulowany na podstawie efektywności ludzkiej. Punktem odniesienia jest wynik drugiego najlepszego gracza z ludzkiej grupy kontrolnej.
- System drastycznie karze modele za metody typu „brute-force” (ślepe próbowanie wszystkich opcji), promując celowe planowanie, szybką adaptację i wyciąganie wniosków z błędów.
- Punktacja opiera się na skali potęgowej – jeśli maszyna potrzebuje 100 ruchów na rozwiązanie poziomu, który człowiek przechodzi w 10 ruchów, sztuczna inteligencja otrzymuje za ten poziom zaledwie 1% punktów.
Wyniki, które sprowadzają na ziemię
Oficjalna tabela wyników (stan na marzec 2026 r.) testująca modele „prosto z pudełka” (bez specjalnie przygotowanych pod ten test nakładek programistycznych) nie pozostawia złudzeń:
- Gemini 3.1 Pro Preview: 0.37%
- GPT 5.4 (High): 0.26%
- Opus 4.6 (Max): 0.25%
- Grok-4.20: 0.00%
ARC-AGI-3 udowadnia bezlitośnie: dzisiejsze potężne modele to wciąż systemy uwięzione w ramach wyuczonej wiedzy domenowej. Choć doskonale radzą sobie z programowaniem czy automatyzacją znanych procesów , w starciu z całkowicie nowymi, pozbawionymi instrukcji środowiskami przegrywają z każdym przeciętnym człowiekiem.
Jak dokładnie wygląda test, na którym kapitulują najdroższe algorytmy świata? Można się o tym przekonać osobiście – publiczna, grywalna wersja demonstracyjna środowisk ARC-AGI-3 jest dostępna dla każdego na stronie arcprize.org.






Leave a Comment