Fei-Fei Li, jedna z najważniejszych postaci współczesnej sztucznej inteligencji, ogłasza nowy rozdział: erę przestrzennej inteligencji (spatial intelligence). To koncepcja, która ma uczynić AI zdolną nie tylko do rozumienia języka, ale też do postrzegania i działania w świecie.
Od Turinga do świata 3D
W 1950 roku Alan Turing zadał pytanie, które zmieniło historię: czy maszyny mogą myśleć? Jego wizja zapoczątkowała poszukiwania, które dziś nazywamy sztuczną inteligencją. Przez dekady rozwój AI koncentrował się wokół języka – rozumienia, generowania i analizy tekstu. Najnowsze modele, jak GPT czy Gemini, rzeczywiście myślą w słowach. Ale, jak zauważa Fei-Fei Li, „to wciąż słowotwórcy w ciemności: elokwentni, lecz bez doświadczenia”.
Tymczasem prawdziwa inteligencja – ludzka i zwierzęca – nie wyrasta z języka, lecz z percepcji i działania w przestrzeni. To one pozwalają orientować się w świecie, planować, przewidywać, tworzyć i uczyć się. AI, która potrafi widzieć, rozumieć i reagować przestrzennie, stanie się zupełnie nową kategorią technologii.
Czym jest przestrzenna inteligencja?
Przestrzenna inteligencja to zdolność rozumienia relacji pomiędzy obiektami w świecie – ich położenia, kształtu, dynamiki i znaczenia. To ona pozwala nam zaparkować samochód, złapać klucze w locie czy nalać kawę do filiżanki, nie patrząc. W skali ludzkiej to oczywiste, niemal instynktowne. W świecie maszyn – wciąż nieosiągalne.
Fei-Fei Li przypomina, że percepcja i działanie były kluczowym motorem ewolucji inteligencji. To zdolność reagowania na bodźce z otoczenia – światło, dźwięk, dotyk – doprowadziła do powstania układów nerwowych, a w końcu do ludzkiego umysłu. AI, która ma naprawdę rozumieć świat, musi przejść tę samą drogę – nauczyć się postrzegać, działać i przewidywać skutki swoich działań.
Granice języka
Dzisiejsze modele, nawet te multimodalne, które potrafią analizować obrazy czy wideo, mają wciąż ograniczone „zmysły”. Potrafią rozpoznać obiekty, ale nie wiedzą, jak te obiekty zachowują się w przestrzeni. Nie potrafią ocenić dystansu, rotacji, ciężaru czy trajektorii ruchu. Wygenerowany przez AI film szybko traci spójność, a robot zasilany modelem językowym nie potrafi pewnie chwycić przedmiotu z biurka.
Jak pisze Fei-Fei Li: „AI wciąż jest oderwana od fizycznej rzeczywistości, którą próbuje zrozumieć.”
Bez przestrzennej inteligencji maszyny pozostają w świecie słów, a nie rzeczy. To bariera, która ogranicza ich zdolność do prawdziwego działania – od prowadzenia samochodu, przez wspomaganie naukowców w laboratorium, po budowanie wirtualnych światów w grach czy filmach.
Nowy kierunek: modele świata (World Models)
Droga ku przestrzennej inteligencji prowadzi przez nową generację systemów: world models. To modele, które nie tylko opisują świat, ale go symulują – rozumieją jego geometrię, dynamikę i prawa fizyki. Potrafią generować spójne trójwymiarowe środowiska, przewidywać skutki działań i reagować na zmiany w czasie rzeczywistym.
Fei-Fei Li wyróżnia trzy kluczowe cechy world models:
- Generatywność – zdolność tworzenia światów, które zachowują spójność fizyczną i geometryczną. AI powinna rozumieć, że popchnięta filiżanka spadnie ze stołu i że nie może przeniknąć przez ścianę.
- Multimodalność – możliwość uczenia się z różnych źródeł: tekstu, obrazu, wideo, dźwięku, dotyku czy ruchu. Tak jak człowiek korzysta ze zmysłów, by zrozumieć otoczenie.
- Interaktywność – umiejętność reagowania na działania i przewidywania kolejnych stanów świata. AI nie tylko obserwuje, ale uczestniczy w rzeczywistości, przewidując konsekwencje swoich decyzji.
To ambitny cel. Jak zauważa Li, reprezentowanie świata to zadanie o znacznie większej złożoności niż generowanie języka. Wymaga połączenia semantyki, geometrii, dynamiki i fizyki w jednym modelu.
World Labs i projekt Marble
Fei-Fei Li wraz z zespołem współzałożyła w 2024 roku firmę World Labs, by tę wizję urzeczywistnić. Jej najnowszym dziełem jest Marble – pierwszy światowy model zdolny do generowania spójnych środowisk 3D na podstawie multimodalnych danych wejściowych (np. opisu tekstowego i szkicu).
Marble umożliwia twórcom filmów, gier i architektom błyskawiczne budowanie eksplorowalnych światów – przestrzeni, które można zobaczyć, dotknąć i rozwijać. To pierwszy krok ku narzędziom, które pozwolą każdemu opowiedzieć historię nie tylko słowami, ale przestrzenią.
Jak pisze Li, „tworzenie pozostaje głęboko ludzkim aktem – AI jedynie przyspiesza i amplifikuje to, co człowiek potrafi najlepiej.”
Kreatywność w nowym wymiarze
Przestrzenna inteligencja może zrewolucjonizować sposób, w jaki tworzymy i doświadczamy narracji. Reżyserzy i projektanci gier będą mogli w kilka minut przenieść scenariusz do wirtualnego świata, sprawdzając ujęcia, perspektywy i interakcje bez ograniczeń budżetowych.
Architekci i projektanci będą spacerować po swoich projektach, zanim powstanie pierwszy szkic techniczny. Edukatorzy pozwolą uczniom wejść w głąb komórki, a historycy – w sam środek bitwy pod Grunwaldem. Każda opowieść stanie się przestrzenią do odkrywania.
To nowy sposób na „czytanie” świata – nie oczami, lecz zmysłami. Nie przez słowa, lecz przez doświadczenie.
Roboty, które czują przestrzeń
Kolejnym obszarem, który radykalnie zmieni przestrzenna inteligencja, są roboty. Dziś większość z nich działa w ściśle kontrolowanych warunkach – w fabrykach, gdzie każdy ruch jest zaprogramowany. Prawdziwa autonomia wymaga czegoś więcej: umiejętności interpretowania świata i dostosowywania się do jego zmienności.
Dzięki world models roboty będą mogły uczyć się w symulowanych środowiskach milionów scenariuszy, zanim podejmą działanie w świecie rzeczywistym. To sposób na bezpieczne i skalowalne szkolenie robotów do pracy w domach, laboratoriach, szpitalach czy przestrzeniach publicznych.
Fei-Fei Li podkreśla, że roboty przyszłości muszą być empatyczne – rozumieć nie tylko przestrzeń, ale i intencje ludzi. Pomocnik w domu opieki powinien wiedzieć, kiedy podać kubek wody, a kiedy po prostu towarzyszyć. Inteligencja przestrzenna to nie tylko fizyka – to również kontekst, gest, emocja.
Nauka, zdrowie i edukacja
W dalszej perspektywie przestrzenna inteligencja może stać się kluczem do postępu w nauce i medycynie.
W laboratoriach pozwoli symulować eksperymenty i testować hipotezy w środowiskach 3D. W badaniach klimatu – tworzyć realistyczne modele Ziemi, łączące dane z satelitów, oceanów i atmosfery. W medycynie – analizować struktury molekularne leków czy wspierać diagnostykę obrazową z nową precyzją.
W edukacji natomiast przestrzenna inteligencja uczyni naukę bardziej intuicyjną. Uczniowie będą mogli dosłownie wejść w proces fotosyntezy, zrozumieć fizykę ruchu planet czy anatomię człowieka poprzez eksplorację, a nie zapamiętywanie. To nauka zgodna z tym, jak ewoluował nasz mózg – przez doświadczenie, a nie instrukcję.
AI, która wzmacnia człowieka
W świecie pełnym ekstremalnych narracji – od technoutopii po katastrofizm – Fei-Fei Li pozostaje wierna prostemu przekonaniu: AI ma wzmacniać człowieka, nie go zastępować.
Nie chodzi o tworzenie maszyn mądrzejszych od ludzi, lecz o budowanie systemów, które rozszerzają nasze możliwości – twórcze, poznawcze, empatyczne.
„AI jest tworzona przez ludzi, używana przez ludzi i zarządzana przez ludzi. Musi szanować ludzką godność i sprawczość” – podkreśla Li.
Jej wizja AI to technologia, która czyni nas bardziej kreatywnymi, połączonymi i spełnionymi. Przestrzenna inteligencja jest właśnie tym – pomostem między maszynami a światem, który naprawdę zamieszkujemy.
Nowe horyzonty
Sztuczna inteligencja dokonała już rewolucji języka. Teraz nadchodzi rewolucja przestrzeni. Jeśli AI nauczy się naprawdę rozumieć świat – nie tylko w kategoriach słów, ale w fizycznym, dynamicznym, zmysłowym sensie – stanie się naszym partnerem w rozwiązywaniu największych problemów.
To wizja, w której technologia nie odciąga nas od rzeczywistości, lecz pozwala głębiej ją zrozumieć.
Jak pisze Fei-Fei Li w zakończeniu swojego eseju:
„Po raz pierwszy w historii stoimy u progu budowy maszyn, które naprawdę rozumieją świat – i mogą pomagać nam go ulepszać.”
Pełny esej Fei-Fei Li „From Words to Worlds: Spatial Intelligence is AI’s Next Frontier” można przeczytać w tym miejscu.


Leave a Comment