Roboty humanoidalne 22 min

Jak naprawde dziala robot humanoidalny: wizualny przewodnik dla kazdego, kto nie jest inzynierem

Autor: Robots In Life
explainer engineering beginners how-it-works hardware AI

W skrócie

Widziałes viralowe filmy. Robot przechodzi przez hale fabryczną, podnosi pudelko i stawia je na polce. Ale co tak naprawde dzieje sie wewnatrz tej maszyny? Ten przewodnik otwiera maske pieciu kluczowych systemow, ktore sprawiaja, ze robot humanoidalny dziala, z wykorzystaniem prawdziwych specyfikacji robotow dostepnych dzis na rynku.

Widziałes te filmy. Dwunozna maszyna przechodzi przez hale magazynową, schyla sie, podnosi plastikowy pojemnik i ustawia go na polce. Inna wykonuje salto na scenie demonstracyjnej w fabryce. Trzecia prowadzi naturalna rozmowe z ludzkim goscciem, jednoczesnie podajac mu filizanke kawy.

Z zewnatrz te maszyny wygladaja niemal magicznie. Od wewnatrz to piec systemow inzynieryjnych zlaczonych razem i walczacych o energie z baterii.

Ten przewodnik przeprowadzi cie przez kazdy z tych pieciu systemow, wyjasni, co kazdy z nich naprawde robi, i uzyje prawdziwych specyfikacji robotow, ktore mozesz sledzic na tej stronie. Bez rownan. Bez zadrego bezobjasnionego zaronu. Tylko uczciwa mechanika tego, jak robot humanoidalny przechodzi ze stania w miejscu do wykonywania uzytecznej pracy.

Maszyny, do ktorych bedzemy sie odwolywal w calym tym przewodniku

$16 tys.

Unitree G1

23-43 stopnie swobody, 35 kg

$250 tys.

Agility Digit

ok. 30 stopni swobody, 65 kg

56 stopni sw.

Boston Dynamics Atlas

90 kg, tylko dla korporacji

42 stopnie sw.

Figure 03

61 kg, AI Helix

Piec systemow w skrocie

Zanim zaglebisz sie w kazdy z nich, oto ogolna architektura. Kazdy robot humanoidalny - od Unitree G1 za 16 000 dolarow po wielomilionowy Boston Dynamics Atlas - dziala na tych samych pieciu kluczowych systemach. Roznią sie wyrafinowaniem, kosztem i mozliwosciami, ale podstawowa struktura jest universalna.

Kluczowe systemy robota humanoidalnego

1

Percepcja

Kamery, LiDAR, IMU, czujniki sily

2

AI / Planowanie

Modele fundacyjne, planowanie sciezki, rozumowanie zadan

3

Lokomocja

Nogi, stawy, siłowniki, kontrola rownowagi

4

Manipulacja

Ramiona, dlonie, chwytaki, kontrola sily

5

Zasilanie

Bateria, dystrybucja energii, zarzadzanie termiczne

System percepcji widzi swiat. System AI decyduje, co z nim zrobic. Lokomocja porusza cialem. Manipulacja oddzialuje z obiektami. A zasilanie utrzymuje wszystko w dzialaniu tak dlugo, jak pozwala bateria.

Ta ostatnia czesc okazuje sie byc glownym ograniczeniem dla wszystkiego innego. Ale do tego dojdziemy.

System 1: Lokomocja - jak chodzi bez wywrotki

Chodzenie to cos, co ludzie robia bez myslenia. Dla robota to najtrudniejszy mechanicznie problem do rozwiazania.

Dwunozna maszyna jest z natury niestabilna. W przeciwienstwie do samochodu lub robota kolowego, ktore pasywnie spoczywaja na stabilnej podstawie, robot na dwoch nogach ciagle spada i sie ratuje. Kazdy krok to kontrolowany upadek. System lokomocji musi obliczac setki drobnych korekt na sekunde, by utrzymac srodek ciezkosci nad stopami - a precyzyjniej, nad ciagle przesuwajacym sie “wielokatem podparcia” definiowanym przez stope, ktora akurat spoczywa na ziemi.

Stopnie swobody: dlaczego liczba ma znaczenie

Termin “stopnie swobody” (DoF) opisuje, ile niezaleznych stawow i osi ruchu ma robot. Pomysl o tym tak: twoj lokiec ma jeden stopien swobody (zgina sie w jednej plaszczyznie). Twoje ramie ma trzy (obraca sie w trzech plaszcyznach). Twoje cale cialo ma okolo 244 stopni swobody, jesli policzysz kazdy staw od kregoslupa po palce nog.

244 przyblizona liczba stopni swobody w ludzkim ciele

Roboty humanoidalne nie dorownuja tej liczbie. Priorytetyzuja stawy najbardziej istotne dla swoich zamierzonych zadan i pomijaja resztę.

Stopnie swobody obecnych robotow humanoidalnych

Unitree G1 (bazowy)

Konsumencki / Badawczy 23 stopnie sw.
Przemyslowy / Korporacyjny

Bazowy model konsumencki. Wystarczajacy do chodzenia i podstawowego chwytania.

Unitree G1 (EDU)

Konsumencki / Badawczy 43 stopnie sw.
Przemyslowy / Korporacyjny

Wariant badawczy dodaje artykulacje palcow i dodatkowe stawy tulowia.

Xiaomi CyberOne

Konsumencki / Badawczy 21 stopni sw.
Przemyslowy / Korporacyjny

Prototyp demonstracyjny z 2022 roku. Ograniczona praktyczna zrecznosc.

Tesla Optimus Gen 2/3

Konsumencki / Badawczy
Przemyslowy / Korporacyjny 28 + 22 dlonie

28 stopni sw. ciala plus 11 stopni sw. na dloni w Gen 3. Lacznie ok. 50.

Agility Digit

Konsumencki / Badawczy
Przemyslowy / Korporacyjny ok. 30 stopni sw.

Zoptymalizowany do obslugi pojemnikow magazynowych, nie ogolnej zrecznosci.

Figure 03

Konsumencki / Badawczy
Przemyslowy / Korporacyjny 42 stopnie sw.

16 stopni sw. na dlonie. Zaprojektowany do zlozonej manipulacji na linii montazowej.

Apptronik Apollo

Konsumencki / Badawczy
Przemyslowy / Korporacyjny 44+ stopni sw.

Modularny projekt z wymiennymi efektorami koncowymi.

Boston Dynamics Atlas

Konsumencki / Badawczy
Przemyslowy / Korporacyjny 56 stopni sw.

Najbardziej przegubowy humanoid w produkcji. Zbudowany dla maksymalnej wszechstronnosci.

Fourier GR-2

Konsumencki / Badawczy
Przemyslowy / Korporacyjny 53 stopnie sw.

Wywodzi sie z badan nad robotyka rehabilitacyjna. Bardzo zreczny.

Roznica miedzy 23 a 56 stopniami swobody to nie tylko liczba na karcie specyfikacji. Determinuje, co robot moze fizycznie robic. Robot o 23 stopniach swobody moze chodzic, skrecac i chwytac duze obiekty prostym chwytakiem. Robot o 56 stopniach swobody moze siagac za przeszkody, obracac nadgarstkami, by odkrecac sruby, i dostosowywac posture, by przecisnac sie przez waskie przejscie.

Siłowniki: miesnie

Kazdy stopien swobody potrzebuje czegos do wprawienia go w ruch. W robocie humanoidalnym tym czyms jest siłownik - zazwyczaj silnik elektryczny sparowany z przekladnia. Siłownik przetwarza energie elektryczna na moment obrotowy, ktory porusza stawem.

Jakosc siłownikow jest jednym z glownych czynnikow rozniacych robota za 16 000 dolarow od tego za 250 000 dolarow. Tanie siłowniki sa mniej precyzyjne, generuja wiecej ciepla i szybciej sie zuzykaja pod obciazeniem. Siłowniki premium (takie jak w Boston Dynamics Atlas czy Figure 03) oferuja wyzsze wskazniki momentu do wagi, lepsza przesterownosc (co oznacza, ze czlowiek moze pchnac staw i bezpiecznie ustapi) oraz scislejsza kontrole polozenia.

Unitree utrzymuje niska cene G1 czesciowo dzieki uzyciu siłownikow ze swojej istniejącej linii robotow czworonoznych. Ten sam silnik, ktory napedza noge psa robotycznego Unitree Go2, napedza rowniez kolano G1. To sprytna produkcja, ale oznacza, ze siłowniki G1 sa zoptymalizowane do 15-kilogramowego czworonoga, nie do 35-kilogramowego biped niosacego ladunek.

Na drugim koncu Boston Dynamics projektuje niestandardowe siłowniki do Atlasa z maksymalnym momentem do 450 Nm, co pozwala 90-kilogramowemu robotowi podnosic 50 kg i wykonywac dynamiczne ruchy, takie jak bieganie i skakanie. Fourier GR-2 uzywa wlasnych siłownikow FSA 2.0 o mocy 380 Nm, ktore wywodza sie z wieloletnich badan nad robotyka rehabilitacyjna.

Kontrola rownowagi: ukryte oprogramowanie

Sam sprzet nie sprawia, ze robot chodzi. Petla sterowania rownowaga - system oprogramowania czasu rzeczywistego dzialajacy z czestotliwoscia 500-1000 Hz (500 do 1000 cykli na sekunde) - stale odczytuje dane z jednostki pomiaru bezwladnosci (IMU) i enkodera stawow robota, a nastepnie dostosowuje polecenia silnika, by utrzymac robota pionowo.

Nowoczesne roboty humanoidalne uzywaja kombinacji dwoch podejsc:

Sterowanie oparte na modelu uzywa modelu fizyki ciala robota. Oprogramowanie zna dokladna mase, dlugosc i limity stawow kazdej konczyny oraz oblicza sily potrzebne do utrzymania rownowagi przy uzyciu rownan fizyki. Jest niezawodne i przewidywalne, ale ma trudnosci z nieoczekiwanymi sytuacjami, jak postawienie nogi na luźnym kamieniu.

Sterowanie nauczone uzywa sieci neuronowych trenowanych przez miliony symulowanych prob chodzenia. AI nie ma wyraznego modelu fizyki. Zamiast tego nauczyla sie wzorcow: “gdy IMU odczytuje ten kat przechylenia i lewa noga odczuwa ta sile, zastosuj to polecenie silnika”. Takie podejscie lepiej radzi sobie z niespodziankami, ale moze zachowywac sie nieprzewidywalnie w przypadkach brzegowych.

Wiekszosc produkcyjnych robotow laczy oba podejscia. Unitree G1 uzywa uczenia przez wzmacnianie trenowanego w NVIDIA Isaac Sim do lokomocji, dzialajacego na procesorze NVIDIA Jetson Orin. Boston Dynamics Atlas uzywa tego, co firma nazywa “Duzymi Modelami Zachowan” (Large Behavior Models), laczacymi wyuczone polityki z zabezpieczeniami opartymi na modelach.

Jak dziala petla kontroli rownowagi (uproszczone)

1

IMU + czujniki stawow odczytuja aktualny stan ciala

Kat przechylenia, predkosc katowa, sila kontaktu stopy

2

Sterownik rownowagi oblicza korekte

Czestotliwosc aktualizacji 500-1000 Hz, model fizyki + siec neuronowa

3

Polecenia silnika wyslane do siłownikow nog

Cele momentu dla stawow biodrowych, kolanowych i skokowych

4

Robot dostosowuje postureę w milisekundach

Petla powtarza sie co 1-2 ms

System 2: Manipulacja - dlaczego dlonie sa trudniejsze niz nogi

Jesli lokomocja to najtrudniejszy mechanicznie problem, manipulacja to najtrudniejszy polaczony problem mechaniczno-AI. Chodzenie jest powtarzalne. Robot wykonuje zasadniczo ten sam wzorzec ruchu w kolko. Ale podnoszenie rzeczy jest inne za kazdym razem. Filizanka do kawy, kartonowe pudelko, srubokret i surowe jajko wymagaja calkowicie roznych strategii chwytu, poziomow sily i katow podejscia.

Spektrum robotycznych dloni

Robotyczne dlonie siegaja od prostych chwytakow szczekowych (dwie plaskie powierzchnie sciskajace sie razem) po w pelni przegubowe dlonie pieciocalowe z czujnikami dotyku na kazdej opuszce. Miejsce, w ktorym robot lokuje sie na tym spektrum, mowi niemal wszystko o tym, jakie zadania moze wykonywac.

Zrecznosc dłoni na rynku

Podstawowa

Unitree G1 (bazowy)

Prosty chwytak, ograniczone chwytanie

16 stopni sw.

Figure 03 na dlonie

Czujniki sily, precyzyjna manipulacja

11 stopni sw.

Tesla Optimus na dlonie

Czujniki dotyku, projekt Gen 3

Bazowy model Unitree G1 jest dostarczany z prostym chwytakiem. Moze podniesc butelke wody lub male pudelko. Nie moze zawiazac wezla, obrocic srubokreta ani obsluzyc cienkiej kartki papieru. Wariant EDU oferuje opcjonalna dlonie pieciocalową, ale jej zrecznosc nadal nie dorownuje dedykowanym dłoniom przemyslowym.

Dlonie Figure 03 maja 16 stopni swobody kazda oraz czujniki sily, ktore moga wykryc sile sciskania palcow. Pozwala to robotowi obsługiwac kruche przedmioty i wykonywac zadania montazowe wymagajace precyzyjnej kontroli sily, jak wsuwanie zlacza w gniazdo lub przeciaganie drutu przez otwor.

Projekt Gen 3 Optimusa od Tesli umieszcza 11 stopni swobody w kazdej dłoni z czujnikami dotyku na opuszkach palcow. To mniej stawow niz w Figure 03, ale podejscie Tesli uzywa kompleksowych sieci neuronowych trenowanych na tysiącach godzin danych o manipulacji z jej Gigafactories, kompensujac mniejsza liczbe mechanicznych stopni swobody bardziej zaawansowanym sterowaniem AI.

Ladunek: praktyczne wąskie gardło

Zdolnosc do podnoszenia ladunku - ile wazy to, co robot moze niesc - jest determinowana przez laczna sile siłownikow ramienia, strukturalna sztywnosc ramienia i tulowia oraz zdolnosc robota do zachowania rownowagi przy trzymaniu czegos ciężkiego.

Porownanie udwignosci

Unitree G1

Lzejsze roboty 3 kg
Roboty do ciezkich zadan

Dobry na butelke wody. Nie przeniesie pojemnikow magazynowych.

Xiaomi CyberOne

Lzejsze roboty 1,5 kg na dlonie
Roboty do ciezkich zadan

Prototyp demonstracyjny. Bardzo ograniczona praktyczna udwizgnosc.

Agility Digit

Lzejsze roboty
Roboty do ciezkich zadan 16 kg

Zbudowany do pojemnikow magazynowych Amazon (zazwyczaj 10-15 kg).

Tesla Optimus

Lzejsze roboty
Roboty do ciezkich zadan 20 kg

Obsluguje czesci samochodowe na linii Gigafactory.

Figure 03

Lzejsze roboty
Roboty do ciezkich zadan 20 kg

Ta sama klasa 20 kg co Tesla, inne podejscie do manipulacji.

Apptronik Apollo

Lzejsze roboty
Roboty do ciezkich zadan 25 kg

Najwyzsza udwizgnosc bipedalna. Projekt z wymienna bateria.

1X NEO

Lzejsze roboty
Roboty do ciezkich zadan 25 kg w nosieniu, 70 kg w podnoszeniu

Projekt mieśniowo-szkieletowy umozliwia duzą sile przy ciele 30 kg.

Boston Dynamics Atlas

Lzejsze roboty
Roboty do ciezkich zadan 50 kg w podnoszeniu

Najsilniejszy humanoid. Uzywa masy 90 kg jako przeciwwagi.

Udwizgnosc 3 kg Unitree G1 jest bezposrednia konsekwencją jego wagi 35 kg i siłownikow klasy konsumenckiej. Fizyka jest bezlitosna: lekki robot ze słabymi silnikami po prostu nie moze podnosic ciezkich obiektow bez przewracania sie. G1 wymienia udwizgnosc na przenosnosc i przystepnosc cenową.

Na drugim koncu Boston Dynamics Atlas moze podnosic 50 kg, bo sam wazy 90 kg (dajac przeciwwage), uzywa niestandardowych siłownikow o wysokim momencie i ma szkielet zaprojektowany do duzych obciazen. Ale ta masa 90 kg oznacza rowniez, ze Atlas zuzywa znacznie wiecej energii na chodzenie, co wraca do problemu baterii.

1X NEO jest ciekawym wyjatkiem. Przy wadze zaledwie 30 kg moze niesc 25 kg i podnosic 70 kg. Sekretem jest jego projekt mięsniowo-szkieletowy: zamiast sztywnych siłownikow z przekladnia, NEO uzywa miekkiego systemu z sztucznymi miesniami napedzanymi kablami, ktore nasladuja dzialanie ludzkich sciegien. Jest to lejsze na jednostke sily, ale technologia jest nowsza i mniej sprawdzona na skale.

System 3: Percepcja - jak robot widzi

System percepcji robota humanoidalnego jest jego oknem na swiat. Bez niego AI nie ma nic, o czym mogloby rozumowac, a system lokomocji nie ma pojecia, gdzie postawic krok.

Stos czujnikow

Kazdy robot humanoidalny uzywa warstwowego podejscia do czujnikow. Zadne jedyne zrodlo czujnikow nie moze dostarczyc wszystkich informacji, ktorych robot potrzebuje.

Typowy stos czujnikow percepcji

1

Kamery RGB

Kolorowe wideo do rozpoznawania obiektow, wykrywania twarzy, czytania etykiet

2

Kamery glebi / stereowizja

Pomiar odleglosci 3D, wykrywanie przeszkod, mapowanie przestrzenne

3

LiDAR (w niektorych modelach)

Precyzyjne mapowanie odleglosci laserem, dziala w slabym swietle

4

IMU (jednostka pomiaru bezwladnosci)

Przechyl, rotacja, przyspieszenie - niezbedne do rownowagi

5

Czujniki sily / momentu

W stawach i palcach, mierzy sily kontaktu z obiektami

6

Enkodery stawow

Precyzyjne polozenie kazdego stawu, raportowanie do petli rownowagi

Najprostszy zestaw, uzywany przez Unitree G1, obejmuje kamere glebi, IMU i enkodery stawow. Wystarczy do podstawowej nawigacji i interakcji z obiektami w kontrolowanych srodowiskach.

Najbardziej zlozony zestaw, uzywany przez Boston Dynamics Atlas, dodaje kamery stereo, LiDAR, czujniki sily/momentu w kazdym stawie i wiele redundantnych IMU. Atlas moze mapowac zagrozona halê fabryczna, identyfikowac konkretne czesci na polce i czuc dokladnie, jak duza sile aplikuja jego palce na kruchy komponent.

Tesla przyjmuje podejscie oparcie wylacznie na kamerach dla Optimusa, naśladujac filozofie “Tesla Vision” ze swoich samochodow autonomicznych. Brak LiDAR. Zamiast tego wiele kamer zasila kompleksowa siec neuronową, ktora wydobywa glebie, tozsamosc obiektow i relacje przestrzenne wylacznie z danych wizualnych. Jest to tansze na jednostke, ale wymaga ogromnych danych treningowych.

Figure 03 uzywa osmiu kamer (RGB i glebi) rozmieszczonych w celu zapewnienia 360-stopniowego pokrycia. W polaczeniu z modelem fundacyjnym Helix te kamery daja robotowi ciagla swiadomosc calego otoczenia bez koniecznosci obracania glowy.

Fuzja czujnikow: laczenie wszystkiego

Zadne pojedyncze zrodlo czujnikow nie dostarcza kompletnego obrazu. Kamery RGB nie moga dokladnie mierzyc odleglosci. Kamery glebi maja trudnosci w jasnym swietle. LiDAR nie moze czytac tekstu na etykiecie. Czujniki sily informuja o kontakcie, ale nic o tym, co jest 10 metrow dalej.

Fuzja czujnikow to proces laczenia danych ze wszystkich czujnikow w zunifikowany model swiata. System percepcji tworzy i stale aktualizuje mape 3D otoczenia robota, sledzi poruszajace sie obiekty, identyfikuje powierzchnie, po ktorych robot moze chodzic, i etykietuje obiekty, z ktorymi robot moze potrzebowac interagowac.

Ten proces fuzji dziala w czasie rzeczywistym, zazwyczaj z czestotliwoscia 30-60 Hz, na komputerze pokładowym robota. Unitree G1 obsluguje to na NVIDIA Jetson Orin (275 TOPS mocy obliczeniowej AI). Boston Dynamics Atlas uzywa niestandardowej platformy obliczeniowej z akceleratorem GPU. Apptronik Apollo uzywa dwoch modulow NVIDIA Jetson (AGX Orin plus Orin NX) do podzialu obciazenia miedzy percepcje a planowanie.

System 4: AI i planowanie - mozg

Tu dzieje sie aktualnie najwieksza rewolucja w robotyce humanoidalnej. Piec lat temu wiekszosc robotow polegala na starannie zakodowanych reczne instrukcjach: “przenies ramie do pozycji X, zamknij chwytak, uniesc do pozycji Y”. Dzis czolowe roboty uzywaja systemow AI, ktore potrafia uczyc sie nowych zadan z garnelu demonstracji i rozumowac w nowych sytuacjach, z ktorymi nigdy wczesniej sie nie spotkaly.

Tradycyjne programowanie vs. modele fundacyjne

Rozroznienie ma znaczenie, bo determinuje, jak szybko robot moze uczyc sie nowych zadan i jak dobrze radzi sobie z niespodziewanym.

Tradycyjne podejscie (programowane): Inzynier pisze kod okreslajacy dokladnie, co robot powinien robic w kazdej sytuacji. Jesli inzynier nie przewidzial konkretnego scenariusza, robot albo nic nie robi, albo robi cos zlego. Dodanie nowego zadania wymaga wiecej czasu inzynieryjnego. Tak wiekszosc robotow przemyslowych (np. ramiona w fabrykach samochodow) dzialala przez dekady.

Podejscie oparte na modelu fundacyjnym: Duza siec neuronowa jest trenowana na ogromnych zbiorach demonstracji robotow, ludzkich filmow i opisow jezykowych zadan. Zamiast na sztywno kodowac konkretne zachowania, model uczy sie ogolnych zasad: “tak wyglada podnoszenie czegos”, “tak nawigujesz wokol przeszkody”, “to ma na mysli czlowiek, gdy mowi postaw to tam”. Kiedy robot napotyka nowa sytuacje, moze sie uogolnic z danych treningowych zamiast potrzebowac nowego programu.

Systemy AI na rynku

Helix

Figure 03

Model wizualno-jezykowo-akcyjny

Chip FSD

Tesla Optimus

Kompleksowa siec neuronowa

GR00T

Apptronik Apollo

Model fundacyjny NVIDIA

Co naprawde robi model fundacyjny

Wezmy jako konkretny przyklad model Helix od Figure AI, poniewaz jest jednym z najbardziej publicznie udokumentowanych systemow.

Helix jest modelem “wizualno-jezykowo-akcyjnym” (VLA). Ta nazwa opisuje jego trzy kanaly wejscia/wyjscia:

Wizja: Helix przetwarza surowe sygnaly z kamer osmiu kamer Figure 03. Nie rozpoznaje tylko obiektow (“to jest filizanka”). Rozumie relacje przestrzenne (“filizanka jest na krawedzi stolu, w pozycji pionowej, do polowy pelna”), wlasciwosci fizyczne (“filizanka jest ceramiczna, okolo 300 gramow”) i doswiadczenia (“filizanka ma uchwyt, ktory mozna uchwycic od lewej strony”).

Jezyk: Helix rozumie polecenia w jezyku naturalnym. Ludzki nadzorca moze powiedziec “przesuń niebieski pojemnik na druga polke” i model przetlumaczy to na sekwencje akcji robotycznych. Rozumuje rowniez przy niejednoznacznosci: jesli sa dwa niebieskie pojemniki, moze zapytac o doprecyzowanie lub uzyc kontekstu, by wywniostowac, o ktory chodzi.

Akcja: Helix generuje polecenia silnikow niskiego poziomu, okreslajac dokladny moment, polozenie i predkosc dla kazdego stawu w kazdej chwili. Model nie przekazuje dalej do oddzielnego systemu planowania ruchu. Przechodzi bezposrednio od rozumienia (“musze podniesc niebieski pojemnik po lewej”) do wykonania (“przesuн staw barkowy do 45 stopni z predkoscia 30 stopni na sekunde, jednoczesnie zamykajac stawy palcow z sila 5 N”).

Jak Helix przetwarza zadanie (uproszczone)

1

Wejscie z kamer

8 kamer, RGB i glebia

2

Polecenie jezykowe

Jezyk naturalny lub instrukcja flotowa

3

Model VLA Helix

Zunifikowane rozumowanie na wszystkich wejsciach

4

Polecenia silnikow

Moment / polozenie dla wszystkich 42 stawow

To fundamentalnie rozni sie od podejscia Unitree G1. G1 uzywa wyuczonych polityk lokomocji (trenowanych w symulacji) do chodzenia i podstawowych ruchow, ale polega na oprogramowaniu stron trzecich do wykonywania zlozonych zadan. Laboratorium badawcze uzywajace G1 moze zainstalowac pipeline manipulacji oparty na ROS2, ktory uzywa oddzielnych modulow do wykrywania obiektow, planowania chwytu i sterowania ramieniem. Kazdy modul jest odmienny, komunikuje sie przez zdefiniowane interfejsy i byl prawdopodobnie opracowany przez inny zespol. To dziala, ale jest wolniejsze w adaptacji i bardziej kruche, gdy cos idzie nie tak.

Ekosystem NVIDIA GR00T

Przez NVIDIA GR00T (Generalist Robot 00 Technology) - model fundacyjny integrowany przez kilku producentow robotow - pojawia sie srednia droga. Apptronik Apollo uzywa Jetson AGX Orin Nvidii w polaczeniu z modelem GR00T do “uczenia sie z demonstracji”, co oznacza, ze czlowiek teleoperuje robota przez zadanie kilka razy, a AI uogolnia z tych demonstracji, by wykonywac zadanie autonomicznie.

Boston Dynamics rowniez integruje NVIDIA Isaac GR00T z Atlas, obok Gemini Robotics od Google DeepMind. To hybrydowe podejscie laczy rozne mocne strony AI: GR00T do ogolnego rozumowania robotycznego, Gemini do rozumienia jezyka i dekompozycji zadan, oraz wlasne “Duze Modele Zachowan” Boston Dynamics do atletycznej lokomocji.

Obliczenia lokalnie vs. w chmurze

Gdzie dziala AI ma znaczenie dla opoznienia, prywatnosci i niezawodnosci.

Wszystkie produkcyjne roboty humanoidalne uruchamiaja swoje petli sterowania czasu rzeczywistego (rownowage, lokomocje, unikanie kolizji) na lokalnym sprzecie. Nie mozna sobie pozwolic na opoznienia sieciowe, gdy ratujac sie przed upadkiem co 2 milisekundy. Ale AI wyzszego poziomu - model fundacyjny rozumujacy o tym, jakie zadanie wykonac nastepnie - moze dzialac lokalnie lub w chmurze.

Unitree G1 uruchamia wszystko na swoim NVIDIA Jetson Orin lokalnie. Tesla Optimus uzywa niestandardowego chipa FSD do wnioskowania na urzadzeniu. Figure 03 ma niestandardowy akcelerator AI na pokladzie, ale rowniez odladowuje dane bezprzewodowo podczas ladowania w stacji. Agility Digit laczy sie z platforma chmurową Arc do zarzadzania flota i przydzielania zadan, przy czym nawigacja czasu rzeczywistego dziala lokalnie.

Kompromis jest prosty: obliczenia lokalne oznaczaja nizsze opoznienie i brak zaleznosci od polaczenia internetowego, ale ograniczaja rozmiar modelu, jaki mozesz uruchamiac. Obliczenia w chmurze pozwalaja uruchamiac wieksze, bardziej zdolne modele, ale wprowadzaja opoznienie i wymagaja niezawodnej łącznosci.

System 5: Zasilanie - glowne ograniczenie

Kazda decyzja inzynierska w robocie humanoidalnym ostatecznie wraca do jednego pytania: ile baterii mozemy wlozyc i jak dlugo wytrzyma?

2-5 godz. typowy zakres zywotnosci baterii produkcyjnych robotow humanoidalnych

To najwazniejsza liczba na calej karcie specyfikacji i ta, ktora otrzymuje najmniej uwagi w materialach marketingowych. Zywotnosc baterii determinuje, jak dlugo robot moze pracowac, co determinuje, czy moze zakonczyc uzyteczna zmiane, co determinuje, czy firma moze uzasadnic zakup jednego.

Dlaczego zywotnosc baterii jest tak krotka

Robot humanoidalny robi cos, do czego baterie nie byly nigdy projektowane: zasila dziesiątki silnikow o wysokim momencie ciagle, jednoczesnie uruchamiajac procesory AI o wysokiej wydajnosci.

Rozwaz budzet energetyczny dla jednego kroku. Robot musi:

  1. Obliczyc nastepne polozenie stopy (zuzycie energii CPU/GPU)
  2. Uniesc jedna noge przeciwko grawitacji (siłowniki biodrowe i kolanowe zuzywa energie)
  3. Wymachwac noga do przodu (wiecej energii siłownikow)
  4. Zamortyzowac ladowanie (siłownik kostkowy pochlanajacy energie)
  5. Przesunal ciezar ciala (siłowniki tulowia i przeciwnej nogi reguluja)
  6. Utrzymac stabilnosc gornej czesci ciala (siłowniki ramion i tulowia kompensuja)

Pomnozy przez okolo 100 krokow na minute chodu, dodaj staly pobor mocy kamer, LiDAR, procesorow i systemow komunikacji, a dostaniesz maszyne zuywajaca energię w ogromnym tempie wzgledem pojemnosci baterii.

Zywotnosc baterii i waga na rynku

Unitree G1

Zywotnosc baterii ok. 2 godziny
Waga robota 35 kg

Najkrotsza zywotnosc baterii, ale tez najlejszy. Mala bateria obniza koszty.

Xiaomi CyberOne

Zywotnosc baterii 2-3 godziny
Waga robota 52 kg

Podobna wydajnosc baterii mimo wiekszej wagi.

Fourier GR-2

Zywotnosc baterii ok. 2 godziny (wymienna)
Waga robota 63 kg

Wymienna bateria to praktyczne obejscie krotkiego czasu pracy.

Tesla Optimus

Zywotnosc baterii 3-5 godzin
Waga robota 57 kg

Widoczna wiedza Tesli o bateriach. Najlepsza gestosc energii w klasie.

Agility Digit

Zywotnosc baterii 4 godziny
Waga robota 65 kg

Zaprojektowany zgodnie z harmonogramem zmian magazynowych.

Apptronik Apollo

Zywotnosc baterii 4 godziny (hot-swap)
Waga robota 73 kg

Bateria hot-swap oznacza zero przestojow miedzy pakietami.

Figure 03

Zywotnosc baterii 5 godzin
Waga robota 61 kg

Bezprzewodowe ladowanie indukcyjne. Najlepsza zywotnosc baterii w klasie.

1X NEO

Zywotnosc baterii 4 godziny (842 Wh)
Waga robota 30 kg

Najlepszy stosunek baterii do wagi. Projekt mięsniowo-szkieletowy jest energooszczedny.

Boston Dynamics Atlas

Zywotnosc baterii Pakiety hot-swap
Waga robota 90 kg

Brak stalego czasu pracy. Ciagle dzialanie dzieki wymianie baterii.

Kompromisy inzynieryjne

Zywotnosc baterii to nie tylko kwestia wlozenia wiekszej baterii do tulowia. Wieksze baterie sa ciezsze, a ciezsze roboty zuywaja wiecej energii na poruszanie sie, czesciowo niweczac korzysci. To fundamentalny paradoks wagi i energii robotyki bipedalnej.

Sa tylko cztery sposoby przedluzenia zywotnosci baterii:

1. Lepsza chemia baterii. Tesla ma tu przewage. Te same badania nad ogniwami litowo-jonowymi, ktore zasilaja samochody Tesli, zasilaja bezposrednio projekt baterii Optimusa. 3-5-godzinna zywotnosc baterii Tesli w robocie o wadze 57 kg jest najlepsza gestoscia energii wsrod robotow humanoidalnych ze stałym pakietem baterii.

2. Bardziej wydajne siłowniki. Im mniej energii zuzywa kazdy staw na ruch, tym dluzsza zywotnosc baterii. Dlatego jakosc siłownikow tak mocno koreluje z cena. Siłowniki premium (takie jak w Atlasie i Figure 03) zamieniaja wyzszy procent energii elektrycznej na uzyteczna prace mechaniczna, z mniej straty na cieplo.

3. Lejszy projekt strukturalny. 4-godzinna zywotnosc baterii 1X NEO przy wadze ciala 30 kg demonstruje to podejscie. Uzywajac projektu mięsniowo-szkieletowego zamiast ciezkich metalowych przekladni, NEO zmniejsza energie potrzebna do kazdego ruchu. Mniejsza masa do przyspieszania i zwalniania oznacza mniej energii na krok.

4. Wymiana hot-swap lub ciagle ladowanie. Boston Dynamics Atlas i Apptronik Apollo calkowicie omijaja problem zywotnosci baterii, uzywajac wymiennych pakietow baterii. Operator (lub automatyczny system) moze wymienic wyczerpany pakiet na naladowany w ciagu kilku sekund, dajac efektywnie nieograniczony czas pracy. Figure 03 uzywa bezprzewodowego ladowania indukcyjnego w stacji dokowania, pozwalajac uzupelniać naladowanie podczas przerw.

Dlaczego roznica miedzy 16 000 a 250 000 dolarow istnieje

Teraz, gdy rozumiesz wszystkie piec systemow, mozemy odpowiedziec na pytanie, ktore przyciaga wielu do tego tematu: dlaczego Agility Digit kosztuje ponad 15 razy wiecej niz Unitree G1?

Roznica cenowa odwzorowuje bezposrednio decyzje inzynieryjne we wszystkich systemach.

Zalety

Unitree G1 uzywa siłownikow z polki wspolnych z linia robotow czworonoznych, Agility Digit uzywa niestandardowych siłownikow zoptymalizowanych do pracy dwunoznej w magazynie
G1 ma podstawowy chwytak (lub opcjonalna dlonie pieciocalową) z udwizgnoscia 3 kg. Digit ma dedykowane ramiona manipulacyjne z udwizgnoscia 16 kg
G1 uzywa pojedynczej kamery glebi i IMU. Digit uzywa LiDAR, kamer stereo, IMU i enkodera stawow
G1 opiera sie na AI open-source stron trzecich przez ROS2. Digit uruchamia wlasciwa platforme chmurową Arc Agility z zarzadzaniem flota i bezprzewodowymi aktualizacjami umiejetnosci
G1 osiaga 2 godziny zywotnosci baterii. Digit osiaga 4 godziny, wystarczajace na praktyczna zmiane magazynową
G1 ma odpornosc na wode IP54. Digit jest zbudowany dla warunkow temperatury, kurzu i wibracij przemyslowego magazynu

Ograniczenia

Cena 250 000 dolarow Digit czyni go dostepnym tylko dla duzych korporacji, takich jak Amazon
G1 za 16 000 dolarow jest w zasięgu badaczy, uczelni i dobrze finansowanych hobbystow
Zamkniêty ekosystem Digit oznacza, ze nie mozna modyfikowac ani rozszerzac jego oprogramowania
Otwarty SDK ROS2 G1 oznacza, ze globalna spolecznosc wnoszi ulepszenia
Digit wymaga platformy chmurowej Arc Agility do wiekszosci zaawansowanych funkcji
G1 moze dzialac w pelni izolowany w wariancie EDU z bezposrednim Ethernet

G1 nie jest zlym robotem. Za swoja cene jest niezwykly. Ale jest zbudowany wedlug budzetu 16 000 dolarow i kazdy system odzwierciedla to ograniczenie. Siłowniki sa lalejszej jakosci. Czujnikow jest mniej. Dlonie sa prostsze. Bateria jest mniejsza. AI zalezy od tego, co zainstaluje uzytkownik.

Digit jest zbudowany wedlug specyfikacji “czego Amazon potrzebuje, by niezawodnie przenosic pojemniki przez 4 godziny”. Kazdy system jest opracowany zgodnie z tym wymogiem, a cena to odzwierciedla.

Miedzy tymi dwoma ekstremami tworzy sie rosnacy srodkowy segment. Figure 03 przy cenie docelowej 20 000 dolarow (zapowiedziana dla przyszlej produkcji masowej) i 1X NEO za 20 000 dolarow to proby dostarczenia mozliwosci klasy przemyslowej w cenie konsumenckiej. Czy jest to osiagalne na skale - to dopiero sie okaze. Nikt jeszcze tego nie zrobil.

Droga naprzod: co zmienia sie nastepne

Zrozumienie tych pieciu systemow pomaga rowniez zrozumiec, dokad zmierza branzy.

Lokomocja jest w duzej mierze rozwiazanym problemem dla plaskich srodowisk wewnetrznych. Pozostale wyzwania to teren zewnetrzny, schody o nieregularnych wymiarach i praca w deszczu, sniegu i lodzie. Boston Dynamics Atlas radzi sobie z warunkami zewnetrznymi do minus 20 stopni Celsjusza. Wiekszosc innych robotow humanoidalnych jest ograniczona do srodowisk wewnetrznych w temperaturze 0-40 stopni Celsjusza.

Manipulacja jest najbardziej aktywnym obszarem poprawy. Roznica miedzy tym, co moga robic robotyczne dlonie, a tym, co moga robic ludzkie dlonie, jest nadal ogromna. Mozna sie spodziewac szybkiego postepu w czujnikach dotyku, kontroli sily i zrecznosci palcow przez nastepne 2-3 lata w miare jak modele fundacyjne trenowane na danych manipulacji staja sie bardziej zdolne.

Percepcja bedzie kontynuowac przejscie ku systemom opartym wylacznie na kamerach. LiDAR dodaje koszty i wage, ktore producenci chca eliminowac. Podejscie Tesli oparte na samych kamerach dla Optimusa, jesli sie sprawdzi, bedzie naciskac innych producentow do naśladowania.

AI to miejsce, gdzie beda nawieksza poprawa. Modele fundacyjne podwajaja mozliwosci mniej wiecej co rok. Przejscie od “programuj kazdego zadanie” do “zademonstruj zadanie kilka razy” do “opisz zadanie slowami” dzieje sie teraz. Helix od Figure i Duze Modele Zachowan Boston Dynamics reprezentuja obecna granice. W ciagu 2-3 lat mozna sie spodziewac robotow, ktore moga uczyc sie wiekszosci zadan manipulacji wylacznie z instrukcji w jezyku naturalnym.

Zasilanie pozostaje najtrudniejszym ograniczeniem do przelmania. Chemie baterii poprawia sie okolo 5-8% rocznie pod wzgledem gestosci energii. Nie ma Prawa Moore’a dla baterii. Praktyczne rozwiazania to lepsza efektywnosc energetyczna (lejsze roboty, lepsze siłowniki), projekty hot-swap do ciaglego dzialania i infrastruktura bezprzewodowego ladowania wbudowana w miejsca pracy.

Gdzie stoi kazdy system dzisiaj

85%

Lokomocja

W duzej mierze rozwiazana wewnatrz, wyzwania na zewnatrz

40%

Manipulacja

Najwieksza luka mozliwosci vs. czlowiek

70%

Percepcja

Dobra wewnatrz, trudnosci przy zewnetrznym/zmiennym oswietleniu

30%

AI / Planowanie

Modele fundacyjne szybko sie poprawiaja

20%

Zasilanie

Glowne ograniczenie, najwolniej sie poprawia

Praktyczna lista kontrolna do oceny dowolnego robota humanoidalnego

Nastepnym razem, gdy zobaczysz ogloszenie o robocie humanoidalnym, oto pytania, ktore naprawde maja znaczenie. Kazde odnosi sie do jednego z pieciu systemow.

Lokomocja: Ile stopni swobody? Jaka jest predkosc chodzenia? Czy radzi sobie ze schodami i nierownym terenem, czy tylko z plaskimi podlogami?

Manipulacja: Jakie dlonie? Proste chwytaki czy przegubowe palce? Jaka jest udwizgnosc? Czy posiada czujniki sily lub dotyku?

Percepcja: Jakich czujnikow uzywa? Tylko kamery czy kamery z LiDAR? Ile kamer i jakie pokrycie (tylko przednie czy 360 stopni)?

AI: Jaki system AI go napedza? Czy to model fundacyjny z uczeniem sie z kilku przykladow, czy kazde zadanie trzeba programowac? Czy rozumie instrukcje w jezyku naturalnym? Ile demonstracji potrzebuje, by nauczyc sie nowego zadania?

Zasilanie: Jaka jest zywotnosc baterii w realistycznych warunkach pracy (nie “idealnych”)? Czy bateria jest wymienna? Jaki jest czas ladowania? Jaki jest koszt wymiany baterii i zywotnosc cykli?

Branży robotow humanoidalnych szybko sie rozwija. Goldman Sachs prognozuje rynek warty 38 miliardow dolarow do 2035 roku. Ale za naglowkami i viralowymi filmami kryja sie maszyny inzynieryjne zbudowane z prawdziwych komponentow z prawdziwymi ograniczeniami. Zrozumienie tych pieciu systemow - co robia, jak oddzialuja i jakie sa obecne limity - zmienia cie ze widza w kogos, kto moze naprawde ocenic, co jest realne, co jest hype’em i co nadejdzie nastepne.

Źródła

  1. IEEE Spectrum - Guide to Humanoid Robots - dostęp 2026-03-28
  2. Boston Dynamics Atlas Technical Overview - dostęp 2026-03-28
  3. Figure AI Helix Foundation Model - dostęp 2026-03-28
  4. Unitree G1 Product Page and Specifications - dostęp 2026-03-28
  5. Agility Robotics Digit Product Page - dostęp 2026-03-28
  6. Goldman Sachs - Humanoid Robot Market Forecast - dostęp 2026-03-28
  7. NVIDIA Isaac GR00T Foundation Model for Humanoid Robots - dostęp 2026-03-28
  8. Tesla Optimus AI and Robotics Overview - dostęp 2026-03-28
  9. Apptronik Apollo and NVIDIA Collaboration - dostęp 2026-03-28
  10. 1X Technologies NEO Product Page - dostęp 2026-03-28
  11. Fourier Intelligence GR-2 Humanoid Platform - dostęp 2026-03-28
  12. MIT Technology Review - The Hard Problem of Robot Hands - dostęp 2026-03-28
  13. Nature - Advances in Legged Locomotion - dostęp 2026-03-28
  14. Science Robotics - Foundation Models for Robotic Manipulation - dostęp 2026-03-28
  15. Boston Dynamics Blog - Large Behavior Models for Atlas - dostęp 2026-03-28

Powiązane artykuły

Roboty humanoidalne 18 min

Od Roomby do Atlasa: skala Smart Level wyjaśniona, i gdzie wypada każdy robot

Każdy robot na tej stronie otrzymuje ocenę Smart Level od 1 do 10. Ale co te liczby naprawdę oznaczają? Przechodzimy przez całą skalę, poziom po poziomie, używając prawdziwych maszyn, które możesz kupić, obserwować lub się o nie martwić.

smart-level scale explainer
Roboty humanoidalne 18 min

Firma warta 39 miliardów dolarów, która dostarczyła 200 robotów: Figure AI i przepaść między wyceną a wdrożeniami

Figure AI jest wyceniane na 195 milionów dolarów za każdego dostarczonego robota. Unitree sprzedaje swojego humanoida za 16 000 dolarów i dostarczyło 5500 jednostek. Przepaść między wyceną a wdrożeniami w branży humanoidów mówi wszystko o tym, co inwestorzy tak naprawdę kupują.

Figure AI valuation investment
Roboty humanoidalne 16 min

Pierwszy robot, ktory zrezygnował: co się dzieje, gdy humanoid psuje się na zmianie

Branża robotów humanoidalnych dostarczyła ponad 15 000 jednostek. Nikt nie mówi o tym, jak często się psują. Wypalenie silników, dryf czujników, awarie oprogramowania i degradacja baterii generują pierwszy prawdziwy zbiór danych o niezawodności w historii. Firmy, które rozwiążą problem konserwacji, wygrają rynek. Te, które go zignorują, będą dostarczać drogie przycisk do papieru.

reliability maintenance downtime
Przyszłość 15 min

Ramię robota za 25 000 USD vs humanoid za 16 000 USD: dlaczego w końcu wygrywa pełne ciało

Ramiona FANUC kosztują 25 000 USD i pracują 100 000 godzin bez awarii. Unitree G1 kosztuje 16 000 USD i się przewraca. Dlaczego więc miliardy płyną w humanoidalne formy zamiast w tańsze, sprawdzone ramiona? Ponieważ prawdziwy koszt robota to nie robot. To 500 000 USD za przebudowę linii fabrycznej, budynek zaprojektowany dla ludzkich ciał i 45 000 USD rocznie na pracownika, którego robot ma zastąpić.

industrial-arms form-factor economics