20 października 1985 roku młody chłopiec nagrywany jest przez swojego starszego brata wypożyczoną kamerą wartą ponad tysiąc dolarów. Biega po parkingu przed budynkiem Reader’s Digest. Skacze, wdrapuje się na murek, robi wślizg, upada. Nie wie jeszcze, że ruchy, które wykonuje tego jesiennego dnia, wpiszą się do historii gier wideo.

Być może przeczuwa to jego starszy brat, mimo że całą sesję w pamiętniku podsumowuje lakonicznym „Na początek starczy”. Jordan Mechner nie nagrywa bowiem Davida Mechnera dla zabawy. Nie biega po mieście z drogim, cudzym sprzętem w ramach rozrywki. Ma w głowie wizję swojej gry, nad którą będzie pracował jeszcze najbliższe cztery lata. Kiedy natomiast Prince of Persia wyjdzie wreszcie w 1989, tytułowy bohater będzie biegł przez perskie pałace i wdrapywał się na krawędzie dokładnie w taki sam sposób, w jaki w 1985 David Mechner wdrapywał się na murek przed Reader’s Digest.

Wszystko dzięki animacji rotoskopowej – technice wynalezionej w 1915 roku przez urodzonego w Polsce i wychowanego w Ameryce Maxa Fleischera. Polega ona na odrysowywaniu (pierwotnie ręcznie) filmu aktorskiego klatka po klatce w celu jak najbardziej szczegółowego skopiowania rzeczywistego ruchu. Zastosowano ją choćby w „Królewnie Śnieżce i siedmiu krasnoludkach” Disneya (1939) czy „Władcy Pierścieni” Ralpha Bakshiego (1978). Wiele lat później ożywiła najsławniejszego księcia popkultury.

Rotoskopia uważana jest za prototyp motion capture, czyli współczesnej podstawy realistycznej animacji komputerowej. Trudno się dziwić. I w jednym, i w drugim chodzi o przechwytywanie ruchu, nawet jeśli jest to osiągane w zupełnie inny sposób. Eksperymenty przypominające działaniem dzisiejszy mocap pojawiały się z kolei na początku lat osiemdziesiątych poprzedniego wieku. W 1983 roku w amerykańskim Massachusetts Institute of Technology powstał Graphical Marionette – projekt, w którym za pomocą dwóch kamer nagrywających obraz 2D i bardzo wczesnej, LED-owej wersji znaczników motion capture udało się odtworzyć w środowisku 3D prostego ludzika z kresek.

Niestety, było jeszcze za wcześnie na szersze zastosowanie tego typu technologii: brakowało i mocy przerobowych na renderowanie skromnej postaci, i pieniędzy na kupno tak drogiego sprzętu. Czyli już nie science fiction, ale jeszcze odległa galaktyka. Pracowano więc dalej nad różnymi systemami, które pozwoliłyby kopiować ludzki ruch w zaciszu akademickich pracowni i laboratoriów branży zdrowotnej czy sportowej.

W 1992 firma SimGraphics stworzyła na przykład system do przechwytywania mimiki twarzy, z którego szybko skorzystało Nintendo. W tamtym roku podczas targów elektronicznych przy stoisku Wielkiego N można było zobaczyć monitor z głową Mario. Ta mówiła i ruszała się w czasie rzeczywistym, wchodząc w interakcję z uczestnikami imprezy. Za twarzą hydraulika stał żywy człowiek w specjalnym hełmie z czujnikami przyczepionymi do policzków, brwi, nosa… Co ciekawe, efekt końcowy jakością niewiele odstawał od dzisiejszych animoji z iPhone’a X. A przypominam, że był rok 1992!

W tamtym okresie Acclaim Entertainment od kilku lat pracowało nad zaawansowanym systemem przechwytywania ruchu, który rozwijał pomysły z czasów Graphical Marionette. W 1993 podczas konferencji SIGGRAPH firma zachwyciła świat złożoną animacją postaci, odtworzoną całkowicie za pomocą motion capture. W trakcie nadchodzących lat technologia zaczęła zyskiwać popularność i stawała się coraz bardziej dostępna, ale to Acclaim było pierwszą firmą w branży gier z wewnętrznym studiem mocapowym. Wydana przez nich bijatyka Rise of the Robots (listopad 1994) jest zresztą uważana za pierwszą grę ożywiającą swoje postacie za pomocą motion capture… razem z Virtua Fighter 2 wydanym w Japonii w tym samym roku i miesiącu.

Potem było już z górki. Dobrze zaanimowanej górki, po której toczyła się dobrze zanimowana, renderowana w czasie rzeczywistym kula śnieżna. To całkiem zabawne, ile na przełomie wieków do motion capture wniosły zarówno „Gwiezdne wojny”, jak i ich największy konkurent – „Władca Pierścieni. W 1999 w „Mrocznym widmie Jar-Jar niepostrzeżenie rodził w ludziach psychopatyczne skłonności, ale zachwycał też jako pomiot Szatana stworzony od stóp do głów w motion capture. Magię technologii przypieczętował jednak dopiero Andy Serkis w 2002 roku, kiedy ubrany w kombinezon mocapowy biegał za Elijah Woodem jako Gollum. Wszyscy na świecie otworzyli szeroko oczy: oto mamy do czynienia z technologią, która jest w stanie stworzyć stwora tak prawdziwego, że aż trudno uwierzyć, że nie istnieje naprawdę.

Animatorzy nie lubili (niektórzy wciąż nie lubią) motion capture; bali się, że pozbawi ich pracy, postrzegali jako „oszukiwanie”. W napisach końcowych Ratatouille Pixara (2007) pojawia się znaczek jakości zapewniający, że film jest w 100% „autentycznie zaanimowany” i nie użyto w nim żadnego motion capture. Takie otwarte piętnowanie było jednak czymś wyjątkowym, a sam Pixar już w swoim następnym filmie – Wall-E – korzystał z dobrodziejstw technologii. Nie jest też tak, że mocap faktycznie odarł animatorów z pracy.

„Mocap nigdy nie jest finalny. Pomaga, ale nie zastąpi animatora. Te dane zawsze potem do niego idą.” – mówi specjalista od mocapu Grzegorz Mazur z Platige Image, studia specjalizującego się w animacji komputerowej i posiadającego własną przestrzeń do realizacji motion capture.

Wtóruje mu jego współpracownik Adam Szymkuć:

„Animator zawsze narzeka, że nie potrzebuje mocapu, bo zrobi to sam, ale jak goni termin, to przychodzi do nas. On ma wtedy prościej. Może zobaczyć wszystkie interakcje z otoczeniem. Nawet chodzenie nie jest tylko jakimś tam ruszaniem nóżkami – ważne jest każde odbicie stawu, zachowanie biodra, barku… Animator, jeśli jest naprawdę utalentowany, może pamięta o tych wszystkich elementach, ale to jest mnóstwo pracy. Więc my mu połowę tej pracy upraszczamy, i to od ręki, jeżeli chce ruch realistyczny.”

Oprócz poprawek zostają też rzeczy, które animator musi zaanimować ręcznie. Często są to np. palce lub inne małe przedmioty. W tym momencie warto zresztą sprecyzować, czym jest motion capture. Technologia polega bowiem na nagrywaniu aktora w czarnym kombinezonie oklejonego tzw. markerami, oznaczającymi orientacyjnie kości i miejsca zgięcia stawów. Najczęściej jest ich pięćdziesiąt trzy – wykonane są z refleksyjnej powłoki, która odbija światło podczerwone.

Światło to jest wysyłane ze specjalnych kamer rozmieszczonych wokół wyznaczonej przestrzeni. Odbija się ono od markerów na ciele aktora i wraca do kamer.  Obrazy 2D z dwudziestu paru obiektywów w procesie triangulacji są łączone w trójwymiarowy obraz i na tej podstawie jest wyliczone położenie markera w przestrzeni trójwymiarowej. Aktor turla się, skacze i biega, a jego cyfrowy szkielet złączony z markerów robi to samo na ekranie monitora.

„Motion capture jest systemem wizyjnym. Jest dokładny, czasami widzi różnice nawet połowy milimetra między markerami. I to się przenosi do animacji. Widać wszystkie drgania. Jeśli aktor nieznacznie rusza ręką albo nawet po prostu się trzęsie, można to odczytać. A jak aktor siedzi, chowa się, tarza za jakąś przeszkodą, musimy to już przerobić, bo system tego nie widzi, kamery gubią markery i nie są w stanie ustalić co, gdzie, jak. Wtedy my bawimy się analogicznie w półanimatora. Ustalamy, gdzie co powinno być. Dochodzą też kamery referencyjne, czyli normalne wideo. Na nim widzimy na przykład, że aktorzy w danej scenie trzymają się pod ramię i poprawiamy odpowiednio markery na ich modelach.” – tłumaczy mi Adam.

Dlatego unika się choćby palców, które łatwo zgubić w trakcie sesji, a które sprawnie może opracować animator.

„To fajnie wygląda w materiałach promocyjnych, że jesteśmy tacy dokładni. Jednak w praktyce to zawsze więcej roboty niż jest to warte.” – dodaje Adam.

Dlatego też gdy oglądamy materiały promocyjne do jakiegoś Beyond: Two Souls czy innego Uncharted, warto mieć w głowie, że magia nie dzieje się tylko dzięki aktorom podczas sesji. To dopiero pierwsza połowa magii. Druga rozgrywa się już natomiast w mniej efektowny sposób. Podobno z tego względu branża mocapowa często czepia się też Andy’ego Serkisa, jako że w wywiadach na temat swoich mocapowych ról potrafi powiedzieć, że „wszystko robi sam”. A to tak nie działa.

Markerami nie pokrywa się też raczej mniejszych rekwizytów w rodzaju noży czy piłeczek. Bo te większe już jak najbardziej. Chłopaki z Platige Image pół żartem, pół serio mówią, że tworzenie tak zwanych propów to połowa ich pracy. Często trzeba działać „na McGyvera”, tworząc halabardy i galeony z prowizorycznych materiałów.

„Jak nie mamy taśmy i trytytek, to nie robimy mocapu.” – śmieje się Grzesiek.

Adam wspomina też taki piękny obraz: krzesło obrotowe z przyczepioną deską, klękający na tym kaskader i oni z tyłu trzęsący tym krzesłem, żeby był efekt odrzutu. Chodziło wtedy o symulację wieżyczki z działkiem Gatlinga.

Rolę rekwizytów podkreśla też Adrian Perdjon, aktor i założyciel studia mocapowego Mocap.pl:

„Obecnie mamy własny magazyn rekwizytów. Meble, schody, ściany, samochody, drzwi i tym podobne. Specyfiką propów w motion capture jest konieczność transparentności. Muszą być prześwitujące, aby kamery mogły widzieć aktora z każdej strony. To wymusza na nas budowanie ich z siatki, krat, czy korzystanie tylko z niezbędnego szkieletu takiego obiektu. Każda sesja jest unikatowa i każdy projekt wymaga różnych przedmiotów. Dlatego poza magazynem mamy także pracownię, gdzie produkujemy przedmioty na potrzeby kolejnego klienta. Dostajemy wcześniej wymiary i plany, a na ich podstawie tworzymy rekwizyty. Nie zawsze są to solidne i realistyczne konstrukcje. Niech przykładem będzie jednorożec z Wiedźmina 3, którego zrobiłem z dwóch paczek styropianu spiętych taśmami. Sprawdziły się bardzo dobrze.”

Dodaje też, że w studiu mają np. specjalny samochód do sesji. Kupili multiplę i piłą tarczową wykroili wszystkie elementy zasłaniające aktorów. A zanim Adrian musiał myśleć nad takimi rzeczami, jeszcze przed założeniem działalności, parał się przede wszystkim aktorstwem. Przy okazji Wiedźmina 2 zagrał większość ról męskich w grze. Ba, nie tylko męskich – kiedy w pewnej scenie jedna kobieta smaga drugą pejczem po tyłku, to tą smaganą jest właśnie Adrian. Przyznaje jednak, że to tylko taka ciekawostka, a próby zastępowania kobiet mężczyznami na ogół kończą się fatalnie.

Przy wyborze ważna jest nie tylko płeć aktora czy umiejętności, ale i gabaryty. Jeśli postać w grze jest niska, to aktor sięgający prawie dwóch metrów się nie sprawdzi.

„To jest przeliczane przez komputer, więc ruch ręki nagle nie ma sensu. Łapiesz kogoś za ramię, a model łapie powietrze. Są więc pewne widełki, ale model i ciało aktora muszą się mniej więcej zgadzać. Podobnie dzieci powinny być raczej grane przez prawdziwe dzieci. Dorosły nie uda pewnej nieporadności, specyficznej koordynacji ruchowej. Czasami nagrywa się też zwierzęta.” – tłumaczy Adam.

W Platige’u studio odwiedził pies, ktoś w branży przyklejał markery do świni, ale to z wiadomych przyczyn zawsze bardzo wymagające zadanie.

A kiedy już aktor musi zagrać małpę czy potwora, w ruch ponownie idą rekwizyty: jakieś przedłużenia rąk, szczudła i inne wynalazki. Warto zobaczyć choćby materiały z planu Pięknej i bestii (2017), na których Emma Watson chodzi pod rękę z aktorem w absurdalnym stroju. W innych sytuacjach ciało i twarz zaanimowanej postaci to dwie różne osoby. Gdy Rami Malek grał w Until Dawn, deweloperzy potrzebowali przechwycić jego twarz i głos. Resztą ciała Josha był już inny aktor. Niektórzy nazywają to, całkiem adekwatnie, „efektem Frankensteina”.

A jak polska branża wypada na tle szeroko pojętego Zachodu? Moi rozmówcy zgodnie przyznają, że rodzime podwórko mocapu jest bardzo małe. Studia są głównie wewnętrzne, jak np. w przypadku CD Projekt RED czy Techlandu. Brakuje nam też budżetu, by zrównać się poziomem technicznym z najlepszymi. W branży oprogramowanie potrafi być droższe niż same kamery i nawet długie metry kabli internetowych o odpowiednim zakresie potrafią dać po kieszeni. Niszczące się podczas sesji markery mogą być z kolei „odblaskowymi kulkami”, ale jako że mamy do czynienia z akcesorium w branży niszowej, to cena też staje się… odpowiednio niszowa. Kluczowe są też rozmiary studiów.

„Z praktyki wiem, że ważniejszy jest rozmiar niż jakość kamer. Można mieć słabsze kamery, ale mieć ich tyle, żeby mieć dużą przestrzeń. I to się lepiej sprawdzi niż posiadanie małej przestrzeni z bardzo fajnymi kamerami. Dane i z gorszych, i lepszych kamer da się naprawić. Wiadomo, że przy lepszych kamerach jest to łatwiejsze, ale jak mamy dużą przestrzeń, możemy o wiele więcej rzeczy nagrać. Nie mamy limitu ośmiu metrów w tę czy tamtą stronę, bo dalej kamera nie widzi. Jakbyśmy mieli nagrywać ruchy do FIFY, boisko czy nawet pół boiska, to tutaj tego nie nagramy. I taki ruch musielibyśmy podzielić na parę odcinków. A to się niekiedy nie sprawdza, bo potem ktoś to musi połączyć. To nie jest takie łatwe. Jak się źle nagra, to się w ogóle nie połączy.” – – mówi Grzesiek.

„Pojawiają się tu takie kwestie jak to, czy aktor zaczął z prawej nogi, czy z lewej, czy ustawienie bioder jest identyczne. Bo jednak rozpęd, środek biegu i zatrzymanie to zupełnie inne ruchy.” – uzupełnia Adam.

Adrian zwraca z kolei uwagę na inny aspekt:

„Na pewno dużym problemem jest brak dobrze wyszkolonych ludzi. Zatrudniłbym z miejsca nowe osoby do obróbki danych, animacji postaci, riggowania i retargetu. Animacja postaci 3D to wyjątkowo trudna dziedzina, więc przypływ nowej kadry odbywa się bardzo powoli, jeśli samodzielnie nie szkoli się nowych artystów w tym fachu. Ten brak kadrowy ma także przełożenie na branżę gier, nie tylko mocapu. Wiele firm boryka się z brakiem pracowników, a ci, którzy są w tym dobrzy, mają nawał pracy.”

Słucham o tych riggowaniach, systemach wizyjnych i dziesiątkach kamer w wielkich studiach, ale w głowie mam ciągle Davida Mechnera na parkingu przed Reader’s Digest i jego starszego brata z jedną, wypożyczoną kamerą. „Na początek starczy”, podsumował w swoim pamiętniku Jordan Mechner. Rzeczywiście, starczyło.

Artykuł ukazał się w Pixelu #39, którego nakład został już wyczerpany. Zapraszamy jednak do sklepu Pixela po inne wydania drukowanego magazynu.