Rok 2025 był dla modeli językowych czymś więcej niż kolejnym etapem wzrostu mocy obliczeniowej czy skali danych. Był rokiem zmian paradygmatów. Tak przynajmniej widzi go Andrej Karpathy, jeden z najbardziej wpływowych obserwatorów i praktyków rozwoju sztucznej inteligencji. W swoim podsumowaniu wskazuje zjawiska, które nie tylko poprawiły jakość modeli, ale realnie zmieniły sposób, w jaki myślimy o oprogramowaniu i relacji człowiek–maszyna.
To nie jest tekst o rankingach ani benchmarkach. To próba zrozumienia, czym stają się LLM-y i dlaczego coraz trudniej opisywać je przy pomocy dawnych kategorii.
Od RLHF do RLVR. Kiedy modele uczą się myśleć po swojemu
Przez lata branża funkcjonowała według względnie stabilnego schematu. Najpierw pretraining, czyli masowe „czytanie internetu”, potem supervised fine-tuning, a na końcu RLHF, czyli uczenie ze wzmocnieniem na podstawie opinii ludzi. W 2025 roku ten układ został rozszerzony o nowy, kluczowy etap: Reinforcement Learning from Verifiable Rewards (RLVR).
RLVR polega na trenowaniu modeli w środowiskach, w których nagroda jest jednoznaczna i automatycznie weryfikowalna. Typowe przykłady to matematyka, logika czy programowanie. Model nie dostaje instrukcji „jak myśleć”. Otrzymuje jedynie sygnał, czy wynik jest poprawny. Sposób dojścia do rozwiązania musi wypracować sam.
Efekt okazał się zaskakujący. Modele zaczęły spontanicznie rozwijać strategie przypominające ludzkie rozumowanie krok po kroku (reasoning). Dzielą problemy na mniejsze części, cofają się, testują alternatywne ścieżki. Nie dlatego, że ktoś je tego nauczył, lecz dlatego, że taki sposób działania maksymalizuje nagrodę.
RLVR zmieniło też ekonomię rozwoju AI. Zamiast inwestować wyłącznie w coraz większe modele, laboratoria zaczęły przeznaczać ogromne zasoby na dłuższy proces wnioskowania w czasie odpowiedzi, czyli tzw. test-time compute. To nowa oś skalowania możliwości modeli. Nie liczy się już tylko „wielkość mózgu”, ale czas i przestrzeń, jakie model otrzymuje na myślenie.
Duchy, nie zwierzęta. Poszarpana inteligencja
Karpathy proponuje metaforę, która dobrze oddaje naturę dzisiejszych LLM-ów. Nie są one cyfrowymi zwierzętami, które ewoluują w sposób ciągły i spójny. Bardziej przypominają duchy przywoływane przez proces optymalizacji. Ich architektura, dane treningowe i cele są radykalnie inne niż biologiczne przetrwanie.
Efektem jest tzw. inteligencja poszarpana (jagged intelligence). W jednych obszarach model potrafi zachowywać się jak genialny polimat. W innych bywa naiwny niczym kilkuletnie dziecko i łatwo daje się wprowadzić w błąd prostymi sztuczkami.
Ta obserwacja prowadzi do kryzysu zaufania wobec benchmarków. Skoro testy są z definicji środowiskami weryfikowalnymi, modele mogą być pod nie bezpośrednio optymalizowane. Powstaje zjawisko benchmaxxingu, czyli „hodowania” kompetencji dokładnie tam, gdzie są mierzone. W efekcie można osiągnąć rekordowe wyniki testów i jednocześnie pozostać bardzo daleko od ogólnej inteligencji.
Cursor i nowa warstwa architektury oprogramowania
Rok 2025 przyniósł też wyraźne wyłonienie się nowej kategorii produktów. Cursor przestał być postrzegany jedynie jako edytor kodu z wbudowanym modelem językowym. Stał się przykładem nowej warstwy architektury software’u, czyli aplikacji, które aktywnie organizują pracę modeli.
W tej warstwie kluczowe staje się nie samo posiadanie LLM-a, lecz inżynieria kontekstu, orkiestracja wywołań modelu oraz zarządzanie kosztami i czasem reakcji. Właśnie dlatego w 2025 roku zaczęto mówić o „Cursorze dla X”. To termin określający aplikacje dedykowane konkretnym branżom, takim jak prawo, księgowość czy medycyna. Działają one analogicznie do pierwowzoru: nie są ogólnymi chatbotami, lecz specjalistycznymi środowiskami pracy, głęboko zintegrowanymi z danymi i narzędziami danej profesji.
W wizji Karpathy’ego laboratoria AI będą dostarczać coraz bardziej ogólne modele – niczym zdolnych absolwentów. Natomiast aplikacje takie jak Cursor będą zamieniać ich w wyspecjalizowanych profesjonalistów, osadzając ich w realnym kontekście pracy, z dostępem do plików, narzędzi i historii projektu.
Claude Code. AI, które mieszka na twoim komputerze
Jednym z najbardziej wyrazistych przykładów nowego paradygmatu jest Claude Code od Anthropic. To agent, który nie działa w odizolowanym środowisku chmurowym, lecz bezpośrednio na komputerze użytkownika. Ma dostęp do lokalnych plików, konfiguracji i terminala.
Ta decyzja projektowa zmienia charakter interakcji. AI przestaje być stroną internetową, do której zaglądamy po odpowiedzi. Staje się czymś w rodzaju cyfrowego ducha, który „mieszka” w naszym systemie i współdzieli nasz kontekst pracy. W świecie, gdzie możliwości modeli są wciąż nierówne i nie w pełni autonomiczne, takie osadzenie w lokalnym środowisku okazuje się znacznie bardziej użyteczne niż wizje całkowicie samodzielnych agentów działających wyłącznie w chmurze.
Vibe coding. Kiedy kod staje się jednorazowy
Jednym z najbardziej nośnych pojęć 2025 roku jest vibe coding. To sposób tworzenia oprogramowania, w którym programista opisuje intencję w języku naturalnym, a model zajmuje się resztą. Szczegóły składni, struktury plików czy bibliotek przestają być centralnym problemem. Liczy się zamysł.
To prawdziwa demokratyzacja tworzenia oprogramowania. Osoby bez formalnego przygotowania technicznego zyskują możliwość budowania własnych narzędzi. Dla profesjonalistów oznacza to coś innego: kod staje się tani, efemeryczny i łatwy do wyrzucenia. Można napisać program tylko po to, by znaleźć jeden błąd lub sprawdzić hipotezę, a potem go porzucić.
W tej rzeczywistości wąskim gardłem przestaje być samo pisanie kodu. Coraz ważniejsza staje się umiejętność precyzyjnego formułowania problemów i oceny wyników.
Nano Banana i zmierzch tekstu
Ostatni z opisywanych przełomów dotyczy interfejsów. Karpathy zauważa, że czat tekstowy przypomina wiersz poleceń z lat 80. Jest naturalny dla maszyn, ale męczący dla ludzi. Czytanie i pisanie tekstu to wolny i kosztowny poznawczo sposób komunikacji.
Eksperymentalne modele, takie jak Google Gemini Nano, sugerują inny kierunek. LLM-y coraz częściej łączą generowanie tekstu, obrazów i wiedzy o świecie w jedną spójną reprezentację. To otwiera drogę do interfejsów opartych na diagramach, interaktywnych tablicach, wizualnych symulacjach czy animacjach. Jeśli modele językowe mają stać się nową platformą obliczeniową, nie mogą pozostać zamknięte w oknie czatu. Tekst prawdopodobnie okaże się jedynie etapem przejściowym.
Podsumowanie
Rok 2025 pokazał, że nie jesteśmy na finiszu rozwoju AI, lecz na początku nowego etapu. Modele okazały się jednocześnie znacznie mądrzejsze i znacznie głupsze, niż wielu się spodziewało. Jedno jest jednak pewne: paradygmaty uległy zmianie. Sposób, w jaki będziemy pracować z AI za kilka lat, może mieć niewiele wspólnego z dzisiejszym wpisywaniem promptów w okienko czatu.
Artykuł powstał na podstawie analizy „2025 LLM Year in Review” autorstwa Andreja Karpathy’ego.



Leave a Comment