Wzbraniałem się i wzbraniałem, aż w końcu przestałem. Przed AI nie ma co uciekać, bo najprawdopodobniej używania tych narzędzi w przyszłości nikt z nas nie uniknie. Jeśli jesteście ciekawi jak wyglądały moje pierwsze próby generowania grafiki w AI to zapraszam do lektury.
Od czego zacząłem?
Jakiś czas temu napisałem rymowaną baśń z myślą, że prędzej czy później ją zilustruje. Tekst ma 36 krótkich „rozdziałów”, a każdy z nich składa się z pięciu, cztero-wersowych strof. Opowiadanie osadziłem w dwóch kontrastujących ze sobą krainach: Morelowy Las i Mroczna Knieja. Żeby stworzyć książeczkę dla dzieci potrzebowałem wygenerować około 40 obrazków, przynajmniej po jednej grafice na rozdział (plus okładkę). Tradycyjnie – szacunki rozjechały się u mnie niczym oczy kameleona i finalnie w książeczce umieściłem ponad 80 grafik, a w produkcji wszystkich obrazków wygenerowałem więcej niż 1000! Tak, że mocno amatorsko ale no cóż, to mój pierwszy taki projekt.
Jak generowałem i w czym?
Po jednym ukończonym projekcie, dalej zdecydowanie nie jestem specjalistą, więc zamiast pisać cały poradnik to odniosę się tylko do wniosków które wyciągnąłem… tak żebyście w razie czego, nie musieli popełniać tych samych błędów co ja.
Na rynku jest masa dostępnych aplikacji umożliwiających generowanie grafik. Ja po baaardzo krótkim rozpoznaniu terenu wybrałem Leonardo.ai. Nie pytajcie czemu akurat ta apka. Tak mi po prostu wyszło (*nie jest to niestety artykuł sponsorowany*). Może w przyszłości pokuszę się o jakieś porównanie, jeśli inne ciekawe narzędzie wpadnie mi w ręce.
Proces generowania – czyli jak wprawić lokomotywę w ruch?
Na początek dobrze będzie wam wypracować odpowiedni schemat działania. Im lepiej dopracujecie swój warsztat, tym szybciej wygenerujecie odpowiednie sceny. W moim wypadku ten proces wyglądał następująco:
Dobranie stylu
W baśni przeplatają się dwa różne motywy- pełen ciepłych kolorów i światła motyw Morelowego Lasu i przeciwny, pełen chłodu, cienia i tajemniczości motyw Mrocznej Kniei. Te dwa style przenikają się pomiędzy kolejnymi rozdziałami i wpływają na świat przedstawiony utworu, a także na generowane treści. Dlatego wszystkie kolejne generowane obrazy będą nacechowane którymś z nich.
Generowanie tła
Następnie potrzebowałem wygenerować tła dla scen, żeby móc w nich później osadzić wydarzenia. Tutaj pierwsza wskazówka, co byście się nie musieli męczyć zanadto. Tła polecam wygenerować z różnych perspektyw (np. z lotu ptaka, czy plan pełny). Ułatwi to kolejne etapy tworzenia. Sam, przez chwilę głowiłem się czemu wszystkie moje sceny wyglądają podobnie, a jak się okazało tło wymuszało perspektywę na całej scenie ignorując słowa kluczowe, które wpisywałem w poleceniu. Jak się później okazało można także określić parametrami czemu model powinien przypisać większą wagę, obrazkom referencyjnym czy poleceniu, ale chwilę mi zajęło, żeby to zrozumieć.
Bohaterowie – wskazówka druga
Kolejnym moim zawrotem głowy było generowanie postaci. Tworząc obrazy dla konkretnych bohaterów, początkowo trzeba wygenerować postacie w różnych pozycjach (siedzi, stoi, biegnie, itd.) i z różnymi wyrazami twarzy (np. śmieje się, smutny), dzięki temu unikniecie frustracji na późniejszym etapie i będziecie mogli generować różne sylwetki tej samej postaci, lepiej zachowując spójność.
Sceny – Łączenie w całość
Jak już opanujecie elementy o których wspomniałem powyżej to możecie zacząć generować sceny. Powinno być teraz łatwiej ale w praktyce nic takie nigdy nie jest i te wygenerowane sceny też często będą wymagały dalszych przeróbek, bądź manualnych interwencji.
Na czym się potknąłem?
Spójność? A po co to komu?
Największą trudność sprawiło mi utrzymanie spójności między obrazami, nawet pomimo używania referencji od innych wcześniej generowanych obrazów, czy podobnych, bądź tak samo skonstruowanych poleceń, wygenerowane obrazy mogły różnić się pomiędzy iteracjami. Postacie pomimo tego, że wyglądają niemal identycznie mogły mieć różny kolor źrenic, włosów, ubrań. Brak spójności pojawiał się także przy ubraniach i fryzurach. Dlatego dobrze jest zdefiniować odpowiednio cechy w poleceniu i pamiętać, że styl tła może także wpływać na kolorystykę postaci.
Przechytrzyć model?
Kolejna mankament który wzbudził u mnie wiosenną migrenę to ograniczenia prawdopodobnie związane z polityczną poprawnością*. Wpisanie w polecenie „zła dziewczyna krzyczy na więzionego chłopca” może skończyć się wprost przeciwnym do zamysłu obrazem i nagle to zły bohater będzie krzyczał na bohaterkę. W takich wypadkach trzeba pokombinować i wspomnieć w poleceniu, że tworzymy fantastyczną scenę w której dziewczyna dosadnie wyraża opinię w kierunku chłopca stojącego za kratą, tak żeby „przechytrzyć” model.
* Z czego to może wynikać? Mogę się tylko domyślać, że modele trenowane są na różnych treściach więc pewne cechy mogą być przypisywane do płci, bądź afektowane bezpośrednio przez politykę serwisu.
Czy 6 palców u jednej dłoni to czasem nie za dużo?
Otóż nie, dla modeli generujących obrazy wydaje się to dosyć częsty błąd. Dłonie z 6 palcami, zniekształcone twarze, dodatkowe kończyny, albo kończyny „zlewające się” z innymi częściami ciała. Takich problemów było całkiem sporo. Można im na szczęście zaradzić, definiując negatywne polecenie, czyli instrukcję która „mówi” modelowi czego w obrazie ma nie być. Nie jest to niestety niezawodna metoda i tak czy siak, jakieś zniekształcenia mogą się wkradać.
O jednego z nas za wiele?
Najbardziej problematyczne okazało się utrzymanie spójności przy kilku postaciach. W pewnym momencie doszedłem do wniosku, że łatwiej mi je generować osobno, a później łączyć manualnie w narzędziu do rysowania (nadal używam Procreate). Jak znacie jakąś dobrą metodę na takie polecenia, to piszcie proszę w komentarzach. Osobiście mam zamiar doedukować się przed kolejnym projektem.
Ile mi to zajęło?
Żeby wygenerować te 1000+ grafik, z których wybrałem kilkadziesiąt, potrzebowałem około tygodnia. Cały weekend, plus 4 wieczory. Łącznie, pewnie z 30 godzin. Można by pomyśleć, że długo, natomiast napewno krócej niż czas, który musiałbym poświęcić na tradycyjne rysowanie tylu, nie wspominając już o jakości (rysowane przeze mnie obrazki są dalej 3/10, a Leonardo potrafi w sztukę 10/10).

Co dalej?
Z pomocą Leonarda, ukończyłem swoją pierwszą książeczkę dla dzieci i jestem z niej bardzo zadowolony. Natomiast, stwierdziłem, że przyda się, żeby ktoś poprawił po mnie błędy w tekście, bo niestety cały czas jakieś style, interpunkcje, czy inne ortografy popełniam. Kto czytał moje wypociny ten wie, że gramatyka niestety zawsze u mnie kulała.
Jak tylko tekst wróci od edytora to ku chwale polskiego uniwersum fantastycznego załaduje pewnie na któryś z serwisów oferujący rozwiązania typu „self-publishing”… wpadnijcie zajrzeć od czasu do czasu na bloga albo YT to napewno się przekonacie jak to się dalej potoczy, a ja w międzyczasie wrócę do tworzenia Opowieści z Gopełka.
Poniżej projekt okładki i kilka wygenerowanych obrazków.



P.S
Generowanie obrazków to całkiem fajna zabawa, więc pewnie wcisnę „kącik AI” na WP i YT gdzieś pomiędzy tworzeniem nowych odcinków Almanachu utrapień.
P.S2
Pisałem jakiś czas temu o „Zaginionych Kartach” – Projektu oczywiście nie porzuciłem, wręcz przeciwnie stwierdziłem, że ciekawym dodatkiem będzie obszerne wprowadzenie-przewodnik do świata gry, dlatego chciałbym go ukończyć przed kolejnymi krokami.
Dodaj komentarz