Jak działają LLM-y? Tokenizacja, wektoryzacja, generacja

Model językowy nie rozumie języka. A przynajmniej nie tak, jak my go rozumiemy. Sprawia wrażenie, że rozumie. Zachowuje się tak, jakby rozumiał. Ale pod spodem jest potężna maszyna licząca. Zajrzyjmy pod maskę. Przy okazji nauczysz się lepiej promptować.

Tokenizacja, czyli zamiana języka na liczby

Ten element procesu jest bardzo prosty do wyjaśnienia.

[30720, 3577, 164251, 12637, 49755, 24762, 88, 621, 14962, 2067, 2259, 135779, 13, 220]

Dla Ciebie język składa się z liter, słów, zdań, akapitów okraszonych interpunkcją. Dla modelu językowego wszystko składa się z tokenów. Zdanie „Ten element procesu jest bardzo prosty do wyjaśnienia.” zamieniony na tokeny wygląda jak ciąg liczb powyżej. Token to nie jest pojedyncze słowo – moje zdanie ma osiem słów, pięćdziesiąt pięć znaków i jest reprezentowany przez czternaście tokenów. Trzynaście, jeśli usunę spację po kropce. Jeśli chcesz samodzielnie się pobawić zamianą języka na tokeny, OpenAI oferuje narzędzie o nazwie Tokenizer.

Czego możesz się nauczyć z zabawy Tokenizerem?

Jeden token to mniej-więcej cztery litery. Choć – jak widać na powyższym przykładzie – język polski jest bardzo oszczędny. Jedynie słowo „wyjaśnienia” składa się więcej niż z jednego tokenu.
Te same słowa w różnych kontekstach mają różne tokeny. Zamek w drzwiach i zamek do spodni na przykład.
Znaki przestankowe, spacje czy znaki specjalne – takie jak prawidłowe cudzysłowy („”) czy wielokropek (…) mają swoje tokeny. Model nie widzi zdań czy akapitów. Cały czas widzi ciągi liczb.

Tokenizacja sprawia, że model nie musi już więcej mieć do czynienia z elementami języka (słowa, zdania, akapity, litery, przecinki). Wszystko staje się liczbą. Myśl o tokenie jako o identyfikatorze liczbowym nadanym każdemu elementowi języka.

Polecana książka

Jak wprowadzić klienta w trans kupowania

Nowa psychologia sprzedaży i marketingu

Joe Vitale

Sprawdź ofertę | 39,90 zł

Wektoryzacja, czyli nadawanie znaczenia

To będzie bardzo ciekawe doświadczenie. Wyobraź sobie, że bierzemy słownik i go tokenizujemy. Czyli: nadajemy identyfikator liczbowy każdemu słowu, które tam znajdziemy. Bez kombinowania, po kolei, alfabetycznie. Dostajemy długą listę.

A teraz wyobraź sobie, że ta długa lista jest długą linią w przestrzeni. Matematycy powiedzieliby „wektorem”. Ten wektor ma jeden wymiar – długość. Podając odpowiednią cyferkę lądujemy na konkretnej długości wektora i dostajemy słowo, które odpowiada tej cyferce na liście. Ponieważ ze świata abstrakcji przenieśliśmy się do świata geometrii, możemy zacząć rozmawiać o zależnościach między słowami. Niektóre słowa są blisko siebie, inne daleko.

Bardzo szybko okaże się, że alfabetyczny, arbitralny podział, który przyjęliśmy na początku, nie ma wiele sensu. Słowo „abażur” jest na naszym wektorze bliżej słowa „amnezja” (bo są na tę samą literę) niż słowa „lampa” (z którym jest logicznie powiązane). Więc może zastąpimy wektor alfabetyczny czymś bardziej sensownym? Ale czym?

Pomysł pierwszy: zróbmy wektor, na którym będziemy oznaczać „materialność” przedmiotu. Zatem z jednej strony będą słowa, które opisują przedmioty, które można dotknąć, kopnąć, zrzucić ze stołu. „Abażur” i „lampa” na przykład. Po drugiej stronie tej osi będą rzeczy, które nie mają fizycznych właściwości – jak „wojna” – a jeszcze dalej rzeczy całkowicie abstrakcyjne – choćby „nadzieja”. W takim układzie „lampa” i „abażur” będą o wiele bliżej siebie niż „amnezji”. Ma to sens, prawda?

Teraz pomyśl, że nie musimy się ogarniczać do jednego wymiaru. Jeśli na jednej osi umieścisz wektor „materialność” a potem dodasz do tego wektor „pozytywność” (czy słowo jest używane w pozytywnym czy negatywnym kontekście), dostaniesz dwuwymiarową przestrzeń, w której słowa układają się w „plamy”. Tu zaczynają nam się już przydawać tokeny. Bo kiedy myślę, gdzie na tej osi umieściłbym słowo „burak”, to jego miejsce zależy od tego, czy myślę o bulwie (neutralne) czy człowieku (negatywne).

Patrz teraz:

burak (bulwa) [1; 0] – burak dostaje jedynkę na skali „materialność” i zero (połowa skali) na wektorze „pozytywność”;
burak (człowiek) [1; -1] – burak jako określenie człowieka dostaje jedynkę na skali materialności i minus jeden na skali pozytywności;
wojna [-0,7; -1] – wojna nie jest materialna, ale ma początek i koniec, więc dajmy jej minus 0,7 na skali materialności i minus jeden na skali pozywytności.

W tym podziale słowa „lampa” i „abażur” zajmowałyby bardzo podobną przestrzeń: oba są materialne i oba są neutralne. A takich wymiarów może być więcej. Na przykład:

czy słowo oznacza coś ożywionego;
czy słowo jest współczesne;
czy słowo jest slangowe;
w jakim języku jest to słowo.

Im więcej parametrów, tym więcej „wymiarów zrozumienia” model przypisuje do pojedynczego słowa i tym precyzyjniejsze są przestrzenie, w których to słowo się układa. Współczesne modele, takie jak ChatGPT używają ponad 12 tysięcy (!) parametrów do opisania znaczenia pojedynczego tokenu. To jest coś, czego nasz mózg nie jest w stanie już ogarnąć. To tak, jakby każdy po poznaniu nowego słowa zadawał dwanaście tysięcy pytań ułatwiających zrozumienie tego słowa.

Tak jak tokenizacja sprawiała, że zamiast słów mamy liczby, tak wektoryzacja sprawia, że te liczby układają się w przestrzeniach. Dlatego procesory graficzne są o wiele lepsze do pracy ze sztuczną inteligencją – one zostały stworzone do obliczania rzeczy w przestrzeni. A LLM nie widzi tabeli z liczbami, widzi wielowymiarową przestrzeń wektorową.

Transformer i uwaga – na co patrzeć, żeby miało sens?

Wektoryzacja sama w sobie niczego nie rozwiązuje. Ułatwia zrozumienie, ale sens pojawia się w trzecim kroku. Model patrzy na token i zadaje sobie pytanie: z którym tokenem powinno się go połączyć szczególnie silną więzią?

To bardzo przypomina rozbiór zdania, którym męczyli Cię w szkole poloniści. Spójrz na ten przykład: „Chłopiec, którego babcia przedwczoraj kupiła motocykl marki Harley-Davidson, jedzie na wzgórze do położonej tam szkoły.”

Przed pracą Attention is all you need modele do rozpracowywania języka pracowały w oparciu o sąsiedztwo słów lub słowa kluczowe. Tylko że jeśli weźmiemy słowo „jedzie” i zaczniemy się zastanawiać kto jedzie, to – biorąc pod uwagę sąsiedztwo – mamy mocnego kandydata w postaci „motocykla”, wcześniej jest „babcia” a na samym początku zdania „chłopiec”.

Transformery – w dużym uproszczeniu – zamieniają to zdanie za pomocą silnych połączeń pomiędzy niektórymi częściami i słabych połączeń z innymi. Transformery widzą to zdanie następująco:

Chłopiec jedzie do szkoły - pierwszy zestaw silnych połączeń, źródłem jest „chłopiec”
Babcia kupiła motocykl – drugi zestaw silnych połączeń, źródłem jest „babcia”
Motocykl jest marki Harley-Davidson – źródłem tego zestawu jest „motocykl”

I tak dalej. Nie wszystkie słowa są równie ważne, nie wszystkie połączenia są równie silne. Transformer czyta zdanie tak jak robiłby to redaktor (zwracając uwagę na znaczenie) a nie jak stenotypista (czytając wszystko po kolei). A mechanizm uwagi pozwala ignorować językowy szum, łączyć zaimki z odpowiednimi rzeczownikami czy widzieć zależności na dużą odległość.

Rozkłady prawdopodobieństwa, czyli jesteśmy gotowi do przewidywania

Mamy tokeny, mamy wektory, mamy połączenia między nimi. W tym miejscu model jest gotowy, żeby przewidzieć, co będzie dalej. Tu jedna ważna uwaga: model nie wybiera kolejnego tokenu. Model liczy rozkład prawdopodobieństwa wystąpienia takiego czy innego tokenu.

Czyli na przykład mając zdanie: „Dobra kampania reklamowa to…” ma następujące przewidziane zakończenia:

…taka, która sprzedaje (28%)
…klucz do sukcesu (15%)
…inwestycja a nie koszt (12%)
…podstawa każdego biznesu (9%)

Wszystkie powyższe zdania mają sens, więc jeśli oceniałbym działanie modelu powiedziałbym, że „rozumie” język. W przewidywanych wynikach nie pojawiają się bzdury. Natomiast jeśli chciałbym, żeby model wygenerował tekst, muszę mu powiedzieć, którą z tych opcji preferuję. Bo nie zawsze będę potrzebował najbardziej prawdopodobnej odpowiedzi.

Tu wchodzą dwa kluczowe parametry:

Temperatura reguluje „odwagę” modelu. Niska temperatura oznacza, że tekst jest poprawny, ale nudny jak regulamin sklepu internetowego. Wysoka temperatura oznacza większą kreatywność – model częściej sięga po mniej oczywiste opcje. Wada? Rośnie ryzyko generowania bzdur. Ważne: temperatura nie dodaje modelowi kreatywności. Dodaje losowości do generowanych wyników (a tę losowość my sami interpretujemy jako kreatywność).
Top-p, czyli odcięcie. Ten parametr reguluje, jak głęboko może sięgać nawet ten „odważniejszy” model. Komenda mówi dosłownie: bierz tylko tokeny z tej części rozkładu, która sumuje się do 64% (taka jest suma procentów w moich zdaniach na górze). Odetnij resztę. Im wyżej ustawiamy top-p, tym częściej model uraczy nas w rozmowie jakąś egzotyczną opcją.

Ważne: w modelach dostępnych dla przeciętnego Kowalskiego nie mamy możliwości bezpośredniego grzebania przy suwakach temperatury czy top-p. Zamiast tego Chat GPT daje nam możliwość wybrania „osobowości”. Albo dostajemy modele dostosowane do konkretnych zadań. Na przykład Gemini, z którym rozmawiamy w narzędziu NotebookLM jest nastawiony na niższą temperaturę, niż standardowy Gemini. Dlaczego? Bo NotebookLM to narzędzie, które ma wyciągać wiedzę z dostarczonych materiałów i nie zmyślać a standardowy Gemini jest często używany do kreatywnych zadań.

Co z tego wynika da promptowania?

Kiedy zrozumiemy, że LLM nie „odpowiada”, tylko dopowiada ciąg dalszy tekstu, promptowanie przestaje przypominać rozmowę, a zaczyna bardziej wyglądać jak ustawianie sceny w filmie. Jeśli wrzucisz model w próżnię i zapytasz „napisz strategię marki”, to zrobi dokładnie to, co robi w próżni – sięgnie po najbardziej ogólną, bezpieczną wersję „strategii marki”, jaką widział tysiące razy. Gdy jednak zaczniesz od „Jesteś strategiem marki pracującym z firmą B2B, która właśnie straciła 20% leadów po zmianie pozycjonowania”, nagle rozkład prawdopodobieństwa przesuwa się w zupełnie inne rejony. Model nie staje się mądrzejszy – dostaje po prostu lepszy punkt startowy.

To samo dotyczy stylu. Model nie czyta między wierszami i nie wyczuwa nastroju autora. Jeśli nie powiesz mu, że ma pisać spokojnie, analitycznie, bez coachingu i bez „dynamicznie zmieniającego się rynku”, to z bardzo dużym prawdopodobieństwem właśnie tam wyląduje. To nie złośliwość, tylko statystyka – takich tekstów w danych było po prostu dużo. Ale wystarczy dodać jedno zdanie w rodzaju: „ton: rzeczowy, ironiczny w tle, zero marketingowych klisz”, by model przesunął się w zupełnie inny fragment przestrzeni językowej. Nie dlatego, że zrozumiał ironię, tylko dlatego, że widział tysiące tekstów, w których takie instrukcje prowadziły do innych form.

Najbardziej zdradliwy moment pojawia się wtedy, gdy model czegoś nie wie. LLM nie ma naturalnego mechanizmu podnoszenia ręki i mówienia „nie mam danych”. Jeśli nie ustawisz mu granic, wygeneruje odpowiedź, która brzmiwiarygodnie. Może podać nieistniejące badania, przypisać cytat niewłaściwej osobie albo zmyślić definicję, która pasuje do reszty akapitu. To nie jest kłamstwo – to czysta kontynuacja języka. Dlatego prośby w rodzaju „jeśli nie masz danych, napisz wprost” albo „podaj źródła, a jeśli ich nie znasz, zaznacz to” są jednymi z najskuteczniejszych narzędzi promptowania. Zawężają przestrzeń zgadywania.

W praktyce dobra interakcja z LLM-em wygląda więc mniej jak zadawanie pytań, a bardziej jak redagowanie briefu dla bardzo dosłownego, bardzo pracowitego stażysty. Trzeba mu powiedzieć, kim jest, w jakiej sytuacji się znajduje, jakim językiem ma mówić i gdzie kończą się jego kompetencje. Gdy to zrobisz, model potrafi być zaskakująco użyteczny. Gdy tego nie zrobisz – dostaniesz poprawnie brzmiący tekst, który niczym się nie różni od setek innych poprawnie brzmiących tekstów.

To nie koniec historii – tylko kolejna warstwa

Gdy spojrzeć na drogę, którą przeszła sztuczna inteligencja, łatwo zauważyć coś, co umyka w codziennym szumie newsów i premier kolejnych narzędzi. Ta historia nie jest opowieścią o nagłym przebudzeniu maszyn. Jest opowieścią o cierpliwym oswajaniu złożoności. O kolejnych próbach zapisywania fragmentów świata w formie, którą da się policzyć, przetestować i poprawić.

Od prostych neuronów jako włączników, przez reguły IF–THEN, brute force Deep Blue, algorytmy statystyczne, backpropagation, ImageNet, aż po transformery i modele multimodalne – każdy etap coś obiecywał i coś zawodził. I każdy zostawiał po sobie narzędzia, które okazywały się bezcenne później, gdy technologia wreszcie do nich dojrzała. W AI bardzo rzadko coś się naprawdę wyrzuca. Częściej trafia na półkę „za wcześnie”.

Współczesne modele językowe i multimodalne nie są kulminacją tej historii. Są raczej pierwszym momentem, w którym wiele starych pomysłów zaczęło działać jednocześnie. Skala danych spotkała się z architekturą, sprzęt dogonił algorytmy, a statystyka zaczęła przypominać kompetencję. To dlatego dzisiejsza AI wygląda tak przekonująco. Nie dlatego, że rozumie świat, lecz dlatego, że widziała go w danych w niewyobrażalnej liczbie wariantów.

To rozróżnienie jest kluczowe, zwłaszcza dla ludzi marketingu. AI nie jest nowym podmiotem w zespole. Nie ma intencji, ambicji ani wizji marki. Jest za to bardzo czułym instrumentem do wychwytywania wzorców – stylów, narracji, schematów argumentacji, językowych klisz i kulturowych skrótów. Potrafi przyspieszać pracę, poszerzać pole wariantów i zdejmować z ludzi ciężar mechanicznego pisania. Ale nie zastępuje decyzji. Nie wie, po co coś robimy.

Dlatego najbardziej sensowna zmiana, jaką przynosi AI, nie dotyczy zastępowania ludzi, lecz przesuwania granicy między myśleniem a wykonywaniem. Tam, gdzie wcześniej trzeba było ręcznie generować dziesiątki wersji, dziś wystarczy dobrze opisać problem. Tam, gdzie wcześniej traciło się czas na formę, dziś można skupić się na sensie. AI nie odbiera odpowiedzialności – ona ją uwypukla.

Jeśli coś w tej historii powinno zdejmować lęk, to właśnie jej ciągłość. AI nie pojawiła się nagle i nie działa wbrew znanym prawom. Jest kolejną generacją algorytmów, które robią to, co algorytmy robią najlepiej: porządkują złożoność przez uproszczenie. Czasem aż za bardzo. I właśnie dlatego nadal potrzebują ludzi, którzy wiedzą, co jest ważne, a co tylko dobrze brzmi.

Na końcu tej drogi nie czeka sztuczny umysł. Czeka coś znacznie bardziej przyziemnego, ale i bardziej użytecznego: statystyczne echo świata, który sami stworzyliśmy w danych, tekstach, obrazach i decyzjach. Echo, które potrafi odpowiedzieć – o ile zadamy mu sensowne pytanie i wiemy, jak słuchać odpowiedzi.