Andrej Karpathy, jeden z najważniejszych inżynierów współczesnej sztucznej inteligencji, ma prostą, ale wymowną tezę: nie żyjemy w “roku agentów” – żyjemy w ich dekadzie.
Karpathy rozbiera na części pierwsze obecny etap rozwoju modeli językowych i agentów. Tłumaczy, dlaczego przełom, na który wszyscy czekają, nie nastąpi jutro i dlaczego to wcale nie jest powód do rozczarowania.
Rok agentów? Nie. To dopiero początek dekady
Kiedy branża ogłaszała, że 2024 będzie „rokiem agentów AI”, Karpathy zareagował z dystansem. W jego ocenie jesteśmy dopiero na początku drogi. Dzisiejsze systemy: Claude, GPT, Codex potrafią wiele, ale wciąż są „poznawczo niedorozwinięte”. Nie mają trwałej pamięci, nie potrafią samodzielnie uczyć się w sposób ciągły, nie działają multimodalnie.
Według Karpathy’ego stworzenie agentów, którzy faktycznie będą mogli pracować obok człowieka jak inteligentni asystenci czy stażyści, potrwa co najmniej dziesięć lat. To czas potrzebny, by połączyć wszystkie brakujące elementy: rozumienie, pamięć, działanie i świadomość kontekstu.
Od gier do świata rzeczywistego
Karpathy wspomina, że pierwsze próby budowy agentów skupiały się na grach – Atari, Go, StarCraft. Dziś ocenia ten okres jako „ślepą uliczkę”. Gry dawały mierzalne wyniki, ale nie zbliżały AI do umiejętności, które przydają się w realnym świecie.
Jego własne doświadczenie z projektu Universe w OpenAI, gdzie agent miał obsługiwać komputer jak człowiek, za pomocą myszki i klawiatury pokazało, jak bardzo byliśmy wtedy przed czasem. Modele nie miały jeszcze odpowiedniego „mózgu”, czyli potężnych reprezentacji językowych, które dziś zapewniają duże modele językowe (LLM). Dopiero one stworzyły fundament pod prawdziwy rozwój agentów.
LLM-y nie są zwierzętami, są duchami
W najbardziej poetyckiej części rozmowy Karpathy porównuje ludzką inteligencję do ewolucji zwierząt, a sztuczną do „duchów”.
Nie budujemy zwierząt. Budujemy duchy – cyfrowe byty, które powstają przez imitację ludzi i danych z internetu.
Ewolucja ukształtowała mózgi w procesie trwającym miliony lat. My, zamiast tego, tworzymy skrót – pre-trening. Karpathy nazywa go „lichą wersją ewolucji”, która jednak działa: pozwala modelom zacząć od pewnego poziomu rozumienia świata. Problem w tym, że pre-trening daje zbyt wiele pamięci, a zbyt mało zdolności poznawczych. Prawdziwa inteligencja, jego zdaniem, wymaga „usunięcia wiedzy i zachowania tylko rdzenia poznawczego” – czystej zdolności myślenia.
In-context learning, czyli inteligencja w czasie rzeczywistym
Karpathy tłumaczy, że najciekawszym zjawiskiem w modelach językowych jest uczenie w kontekście (in-context learning). To moment, w którym model wydaje się naprawdę inteligentny i potrafi poprawić własny błąd w trakcie rozmowy, „zastanowić się” i zmienić tok rozumowania.
Czego brakuje agentom? Wszystkiego, co czyni nas ludźmi
Choć współczesne modele potrafią pisać kod i prowadzić rozmowy, Karpathy podkreśla, że są jeszcze „poznawczo niepełnosprawne”.
Nie mają odpowiedników ludzkiej pamięci długotrwałej (hipokamp), emocji (ciało migdałowate) ani procesów konsolidacji wiedzy, które u nas zachodzą podczas snu. Brakuje im także procesu destylacji doświadczeń zdolności do wyciągania wniosków z tego, co wydarzyło się wcześniej.
To, jego zdaniem, jeden z kluczowych kierunków badań: jak nauczyć modele przetwarzać własne doświadczenia i zapamiętywać użyteczne wzorce, nie ucząc się wszystkiego od zera po każdym „przebudzeniu”.
Kod, który nie powstał wcześniej
Karpathy niedawno udostępnił projekt nanoGPT – prostą, w pełni otwartą implementację ChatGPT. Zbudował ją sam, bez większej pomocy ze strony modeli kodujących. Dlaczego? Bo, jak mówi, LLM-y „nie radzą sobie z kodem, którego jeszcze nikt nie napisał”.
Są znakomite w generowaniu szablonów i powtarzalnych fragmentów, ale nie potrafią tworzyć oryginalnych, głęboko spójnych systemów. Jego zdaniem jesteśmy w „etapie autouzupełniania” – podobnie jak dawniej, gdy kompilatory i lepsze języki programowania zwiększały produktywność, ale nie powodowały rewolucji.
Reinforcement learning jest… fatalny
Karpathy nie zostawia suchej nitki na uczeniu ze wzmocnieniem (RL).
Uczenie ze wzmocnieniem to skrajnie nieefektywny sposób uczenia. Model wykonuje mnóstwo działań, ale dostaje tylko jedną informację zwrotną — czy wynik był dobry czy zły. To za mało, by naprawdę zrozumieć, co zadziałało.
Problem? Model dostaje jedną liczbę na końcu długiego procesu – nagrodę – i na tej podstawie próbuje ocenić całą sekwencję działań. To tak, jakby po dziesięciu latach prowadzenia firmy ktoś powiedział ci tylko „sukces” albo „porażka”. Żadnej informacji, co działało, a co nie.
Ludzie uczą się inaczej – analizują błędy, porównują etapy, rozumieją przyczynowość. Właśnie takich mechanizmów brakuje modelom. I choć powstają próby tzw. „process-based supervision”, czyli oceniania krok po kroku, wszystkie one zmagają się z tym samym problemem: modele łatwo oszukać.
Modele się też starzeją
Najbardziej filozoficzna część rozmowy dotyczy zjawiska kolapsu modeli – czyli utraty różnorodności. Karpathy zauważa, że gdy modele trenują się na własnych danych, ich odpowiedzi zaczynają się zawężać.
To tak, jakby miały coraz mniej entropii. Mówią wciąż to samo. Zaskakująco podobnie jak ludzie.
Według niego dzieci są bardziej kreatywne, bo jeszcze nie „przeuczyły się świata”. Z wiekiem – i z treningiem – stajemy się coraz bardziej przewidywalni. By tego uniknąć, mózg (a może i przyszłe AI) potrzebuje mechanizmów zwiększających entropię – snu, rozmowy, marzeń sennych. To sposób na uniknięcie przeuczenia.
Mniej pamięci, więcej myślenia
Karpathy wierzy, że przyszłość AI to nie większe modele, ale mądrzejsze i mniejsze.
Zamiast gigantów o bilionach parametrów, spodziewa się pojawienia się „rdzeni poznawczych” o wielkości miliarda parametrów – lekkich, elastycznych, zdolnych do logicznego myślenia i uczenia się w czasie rzeczywistym.
Za 20 lat będziesz mógł rozmawiać z takim miliardowym modelem jak z człowiekiem. Jeśli zapytasz go o fakt, może nie wiedzieć – ale będzie wiedział, jak go znaleźć.
Ku inteligencji, która nie naśladuje, lecz rozumie
Wnioski Karpathy’ego są zaskakująco trzeźwe, jak na świat, który codziennie ogłasza „przełomy”. Sztuczna inteligencja nie eksploduje jutro. Ewoluuje krok po kroku, dekada po dekadzie.
Zanim AI stanie się naprawdę autonomiczna, musi nauczyć się tego, co dla ludzi jest naturalne: refleksji, pamięci, kontekstu i ciekawości.
Jeśli chcesz posłuchać pełnej rozmowy, w której Karpathy rozwija wszystkie te wątki — od ewolucji modeli językowych po przyszłość agentów i ograniczenia uczenia ze wzmocnieniem — warto obejrzeć całe wideo. To ponad dwie godziny intensywnej, technicznej, ale fascynującej rozmowy o tym, jak naprawdę powstaje inteligencja.






Leave a Comment