Historia sztucznej inteligencji — od Turinga do agentów AI

Sztuczna inteligencja nie wydarzyła się nagle. Może się tak wydawać, bo nagle jest wszędzie – podsumowuje nasze spotkania, pisze teksty, generuje obrazy. Prasa pisze, że szykuje się do zabrania nam pracy. Chcę Ci powiedzieć, że to złudzenie. AI nie pojawiła się znikąd. Pomysły, które napędzają dzisiejsze modele były już testowane – niektóre w latach 40 ubiegłego wieku, niektóre w 60, inne w 90.

Pierwszy raz o sztucznej inteligencji powiedział John McCarthy na konferencji w Dartmouth w 1956 roku. Pierwsza sieć neuronowa, która miała zabrać nam pracę to perceptron, który Frank Rosenblatt buduje ze swoim zespołem rok później. Pierwsza maszyna, której ludzie przypisują posiadanie prawdziwych emocji to ELIZA zaprojektowana w MIT w 1962 roku.

Problem nie polegał na tym, że pomysły były błędne. OK, niektóre były. Ale niektórym brakowało danych, sprzętu, skali by rozwinąć swój pełny potencjał. To jak z opowieściami. Dwudziestowieczne wersje Diuny czy Planety Małp urzekają intelektualnie, ale efekty specjalne pozostawiają niedosyt albo – mówiąc dosadniej – uczucie zażenowania.

Ten artykuł nie jest opowieścią o tym, jak maszyny stały się inteligentne (spoiler: nie stały się, trzymam tu stronę Alana Turinga). Jest opowieścią o tym, jak matematyka, statystyka i inżynieria krok po kroku przybliżają nas do punktu, który intuicyjnie nazywamy inteligencją. Opowiem o tym, dlaczego dzisiejsza moda na AI ma zaskakująco mało „pierwszych razów" – i dlaczego to właśnie jest w tej modzie najciekawsze. Bo kiedy spojrzeć na tę historię z długiej perspektywy, sztuczna inteligencja przestaje być zagrożeniem albo cudem. Staje się czymś bardziej ludzkim: długoterminowym projektem, którego efekty zaczynamy właśnie zbierać. I nic nie sugeruje, że projektem zakończonym.

Gotowi na podróż?

Neuron w komputerze

Warren McCulloch i Walter Pitts — McCulloch i Pitts

Inteligencja jest „sztuczna", bo usiłujemy odtworzyć ludzkie procesy myślowe poza ludzkim mózgiem. Jaki jest podstawowy proces myślowy? Coś prostszego niż mowa, coś prostszego od emocji. Decyzja tak/nie. Z tego założenia wyszli Warren McCulloch (neurobiolog) i Walter Pitts (logik) kiedy publikowali w 1943 roku swoją pracę naukową o „matematycznym neuronie".

Dwie rzeczy, które musisz wiedzieć o tamtych czasach, żeby ustawić sobie myślenie. Po pierwsze, świat naukowy przeżywa fascynację matematyką. Duża w tym zasługa Alana Turinga, który dziesięć lat wcześniej opracowuje koncept „maszyny Turinga". To protoplasta współczesnych komputerów i programowania. Turing twierdzi – i musisz mi uwierzyć na słowo lub doczytać w Wikipedii, bo to naprawdę skomplikowany pomysł – że każdy komputer u swoich podstaw składa się z trzech elementów:

nieskończona taśma zapisująca 0 lub 1 (to pamięć komputera);
głowica zapisująco odczytująca, która może poruszać się o jedną jednostkę w lewo lub prawo po taśmie oraz odczytywać i zapisywać zera i jedynki (to procesor komputera);
tabela reguł, która mówi na przykład: jeśli pod głowicą widzisz jedynkę, zmień ją na zero i przesuń się o jeden w prawo (to program komputerowy).

Dlaczego to było genialne? Do tej pory maszyny (nawet te obliczeniowe) były budowane do konkretnych zadań. Weźmy taką maszynę do pakowania pomidorów: potrafiła odliczyć 10 pomidorów i podstawić następne pudełko, ale… nie potrafiła niczego innego. Turing pokazał, że można stworzyć maszynę, która – po przeczytaniu algorytmu – będzie wykonywała dowolne obliczenia. McCulloch i Pitts próbują napisać algorytm, który na takiej maszynie Turinga będzie symulował sposób działania ludzkiego neuronu.

Druga rzecz, którą musisz wiedzieć o tamtych czasach: komputery, jakie znamy dziś, nie są jeszcze dostępne. ENIAC, uznawany za pierwszy komputer ogólnego przeznaczenia, powstanie dwa lata później. Turing opracowuje maszyny do łamania szyfrów, ale są dostępne jedynie dla wojskowych. Więc cała ta algorytmizacja odbywa się w dużej mierze na papierze i… nadal w tradycyjnym ludzkim mózgu. Praca naukowa McCullocha i Pittsa nie jest algorytmem komputerowym. Po prostu pokazuje matematyczny model podejmowania decyzji.

Od tego momentu naukowcy zaczęli patrzeć na myślenie jako na coś, co można policzyć.

Przełom tego modelu polega właśnie na symulacji neuronu: mamy wejścia, każde wejście ma przypisaną wagę, na końcu wagi są sumowane i neuron wypluwa z siebie zero lub jedynkę, tak albo nie. Bez odwoływania się do intuicji czy innych ludzkich czynników. Od tego momentu naukowcy zaczęli patrzeć na myślenie jako na coś, co można policzyć. A wraz z rozwojem maszyn liczących, będzie to można robić w komputerze.

Mamy zatem sztuczne neurony, najmniejsze klocuszki inteligencji. Żeby ze sztucznych neuronów zbudować sztuczną inteligencję, musimy wykonać jeszcze jedno zadanie. Zdefiniować sobie, czym ta inteligencja w ogóle jest. Tu znowu nie obejdzie się bez genialnego umysłu Alana Turinga.

Test Turinga. Do czego to służy?

Stworzenie modelu neronu jest łatwiejsze niż stworzenie modelu myślenia. Oczywiste i logiczne, prawda? Ale nie z powodu, o którym myślisz. Stworzenie modelu neuronu było łatwe, bo McCulloch był neurobiologiem i wiedział dokładnie co jest do zbudowania. Wiedział, jak wygląda neuron i jakie funkcje trzeba odtworzyć. A jak jest zbudowane myślenie? Jakie funkcje trzeba odtworzyć?

W połowie XX wieku badania nad „myślącymi maszynami" rozpoczęte przez umysły ścisłe zaczęły grzęznąć w sporach filozoficznych. Czym właściwie jest myślenie? Czy wymaga świadomości? Czy maszyna może naprawdę myśleć, skoro fundamenty, na których to myślenie budujemy są symulowane? Fascynujące pytania dla filozofów, mało użyteczne dla kogoś, kto ma projekt do zrealizowania.

Alan Turing zaproponował wyjście z tego impasu. Nie próbował odpowiedzieć na powyższe pytania, po prostu je obszedł. W 1950 roku pisze artykuł Computing Machinery and Intelligence, w którym odwraca kota ogonem. Pisze: zamiast pytać, czy maszyna myśli, zadajmy pytanie, czy my potrafimy to rozpoznać. Tak narodził się test Turinga. Który – nota bene – nie nazywał się „testem Turinga", sam Turing nazywa go imitation game, czyli „zabawą w udawanie".

Notka na boku

Imitation Game to także tytuł filmu o Alanie Turingu. Gdybyśmy byli ortodoksyjni, powinniśmy ten film w Polsce wyświetlać pod tytułem Test Turinga, ale nie. Polska szkoła tłumaczenia tytułów filmowych imienia Szklanej Pułapki maczała w tym palce i film u nas nazywa się Gra tajemnic.

W swojej klasycznej wersji test polegał na rozmowie, w której uczestniczy człowiek (sędzia) mający naprzeciwko siebie dwójkę rozmówców. Jeśli sędzia jest w stanie stwierdzić, który z jego rozmówców jest człowiekiem a który maszyną, maszyna oblewa test. To fundamentalne, ale subtelne przesunięcie: nie oceniamy tego, co jest w środku, ale to, jak system reaguje na bodźce zewnętrzne. Inteligencja staje się zespołem zachowań.

Turing wybrał język nieprzypadkowo – od zawsze rozmowę z kimś traktujemy jako wgląd w jego umysł. Jeśli ktoś sensownie odpowiada na pytanie, czy przyjąłby portfel z cielęcej skóry jako prezent urodzinowy zakładamy, że ma równo pod sufitem.

Konsekwencje przesunięcia ciężaru dyskusji były ogromne. Rozmowa o „myślących maszynach" przestała toczyć się wokół tego, czym jest myślenie a zaczęła skupiać się na tym, jak zaprojektować systemy, które zachowują się w sposób powszechnie uznawany za inteligentny. A to był moment, w którym filozofia ustąpiła miejsca inżynierii. Wiedzieliśmy już, co jest do zbudowania. A skoro tak, można taką budowę rozplanować. Jak projekt badawczy: z harmonogramem, budżetem, ambicjami i sposobami mierzenia postępu.

Aha, i dużą dawką hiperoptymizmu.

Dartmouth, lato 1956. Sztuczna inteligencja pojawia się po raz pierwszy

Znasz koncept krzywej Krugera-Dunninga? To krzywa, która pokazuje relację pomiędzy Twoim poziomem wiedzy a poziomem pewności siebie w danej dziedzinie. Ma bardzo ciekawy przebieg. Na początku, kiedy nic nie wiesz na dany temat, Twój poziom pewności siebie w dyskusjach (na przykład o sztucznej inteligencji) wynosi zero.

Notka na boku

Sprawdzić, czy badania były prowadzone na Polakach. Nie dotyczy polityki, sportu i medycyny.

Potem czytasz jedną książkę lub przekrojowy artykuł na ten temat. Twoja pewność siebie wystrzela w kosmos. Ale potem druga książka zaprzecza temu, o czym mówiła pierwsza. Dowiadujesz się, że temat jest bardziej zniuansowany. Twoja pewność siebie spada. Pojawia się tak zwana „dolina zwątpienia". Kolejne książki przekonują Cię, że nic nie wiesz do momentu, kiedy jednak coś się zmienia. W kolejnych książkach i artykułach znajdujesz potwierdzenie swojej dotychczasowej wiedzy i przemyśleń. Twoja pewność siebie rośnie. Choć nigdy nie osiąga tak wysokiego poziomu jak po tej pierwszej książce.

Lato 1956. Dartmouth College. Niewielka grupa naukowców spotyka się, by rozwiązać następujący problem: opisać każdy aspekt uczenia się i inteligencji na tyle precyzyjnie, by dało się go zasymulować maszynowo. No bo jeśli inteligencję można poznać po zewnętrznych oznakach (zachowaniach) a te zachowania da się testować, to oznacza, że taki inteligentny system da się zaprojektować, prawda? PRAWDA? To nie może być trudne. Ogarniemy to w jedno lato.

Nie żartuję. Największe umysły związane z badaniami nad komputerami wykoncypowały sobie, że cały ten problem „myślących maszyn" da się ogarnąć na jednym, góra dwóch letnich obozach dla nerdów. Dziś się z tego śmiejemy, ale pomyśl: komputery właśnie udowodniły swoją skuteczność w kryptografii, obliczeniach balistycznych i inżynierii. Potrafiły liczyć szybciej i bardziej precyzyjnie niż człowiek. Stąd tylko mały kroczek do rozumowania, prawda?

Naukowcy na konferencji w Dartmouth, 1956 — Konferencja w Dartmouth, lato 1956 — miejsce, w którym narodził się termin „sztuczna inteligencja".

W Dartmouth po raz pierwszy pojawił się termin „sztuczna inteligencja". Zaproponował go John McCarthy do opisania właśnie każdego aspektu uczenia się i myślenia. Inteligencja jawiła się jako zbiór reguł, heurystyk i procedur, które – odpowiednio zapisane – można uruchomić w maszynie. Niestety, „dolina zwątpienia" pojawiła się po Dartmouth dość szybko. Im dokładniej naukowcy próbowali opisać świat, tym szybciej wymykał się on stałemu zestawowi reguł.

Stało się jasne, że proces „myślenia" w tym całym podejmowaniu decyzji to nic innego jak uczenie się. A to oznaczało, że trzeba wrócić do deski kreślarskiej i poprawić podstawowy klocek, sztuczny neuron. Bo matematyczny model McCullocha i Pittsa miał wagi przypisane na stałe, co oznaczało, że nie może się uczyć. Tu zaczyna się historia perceptronu.

Perceptron. Sieć neuronowa, która się uczy

Dobra, muszę, bo się uduszę. Historia sztucznej inteligencji jest pełna szalonych naukowców (patrzę na Ciebie, Alanie Turingu), ale żaden nie śmiał zagrać przy Jankielu. To znaczy przy Franku Rosenblacie. Twórca pierwszej uczącej się sieci neuronowej (dojdziemy do tego, obiecuję) jest jednocześnie inżynierem i psychologiem. Pracuje na zlecenie Biura Badań Marynarki Wojennej USA a w swoim laboratorium dosłownie mieli szczury. W imię nauki, oczywiście.

Rosenblatt twierdzi, że pamięć da się transferować chemicznie pomiędzy organizmami. Uczy więc takiego szczura przechodzenia przez labirynt a potem mieli mu mózg, by wyekstrahować RNA. I wstrzykuje to RNA do kolejnego szczura licząc, że ten powie „Whoa, znam kung fu!" Najlepsza część? W latach 60 ubiegłego wieku to nie były niszowe badania. Cały świat naukowy żył ideą „pigułek wiedzy". Magazyn Life sugerował, że w przyszłości studenci – zamiast zarywać noce nad książkami – będą mogli połknąć dawkę chemii z wiedzą o historii starożytnej.

Tymczasem jesteśmy tutaj. Czytasz artykuł o początkach sztucznej inteligencji oczami. Jakbyśmy byli w średniowieczu.

W pachnącym mięsem laboratorium Franka Rosenblatta stoi maszyna. Nazywa się Perceptron Mark I. Waży niemal tonę, jest wyposażona w 512 silników – kiedy się włącza i pracuje, hałas jest nie do zniesienia. Co robi? Na wejściu jest „oko" – matryca składająca się z 400 fotokomórek. Pomyśl o tym jak o aparacie fotograficznym o szalonej rozdzielczości 20x20 pikseli. Cała ta aparatura potrafi się uczyć… odróżniać kwadraty od trójkątów.

Frank Rosenblatt przy Perceptronie Mark I — ważąca tonę maszyna z 512 silnikami, która uczyła się odróżniać kwadraty od trójkątów.

Mechanizm działania jest prosty i elegancki: perceptron otrzymuje sygnały wejściowe, z których każdy ma przypisaną wagę. Sygnały są sumowane i maszyna wydaje decyzję: kwadrat albo trójkąt. Jeśli decyzja jest błędna, system koryguje wagi przypisane do każdego neuronu. Do tego właśnie służy 512 silników – maszyna fizycznie przestawiała swoje dźwignie w każdym neuronie. Efekt jest spektakularny: po procesie uczenia maszyna „sama się programuje" do udzielania prawidłowej odpowiedzi.

Entuzjazm jest ogromny. W lipcu 1958 Marynarka Wojenna USA ogłasza narodziny „embriona komputera, który będzie w stanie chodzić, mówić, widzieć, pisać, powielać się i być świadomym swojego istnienia". Gazety oczywiście podchwytują temat i wałkują go. Wjeżdża pytanie: kiedy taka sztuczna inteligencja zabierze nam pracę. Zachwyt przekłada się na granty badawcze, sieci neuronowe w latach 60 stają się gwiazdami, oczkiem w głowie badaczy, wojskowych i mediów. To jest pierwszy moment, w którym AI trafia „pod strzechy". Przynajmniej w formie artykułów prasowych i dyskusji w mediach.

Z czasem okazuje się, że perceptron nadaje się do rozwiązywania bardzo konkretnego rodzaju problemów: takich, w których dane można rozdzielić prostą granicą. Jesteś kwadratem albo trójkątem. Lubisz Władcę pierścieni albo nie masz gustu. Matematycznie nazywa się to separacją liniową. Niestety, większość problemów w życiu nie da się rozwiązać tak prosto. Dolina zwątpienia znowu nadeszła. Miała postać… pizzy z ananasem. Ale zanim do niej dojdziemy, pozostaniemy jeszcze w ejajowym entuzjazmie.

Bo jesteśmy w okresie, kiedy mnóstwo ludzi zaczyna uważać, że komputery mają duszę i uczucia. Tak, te wielkie migające i wyjące szafy pełne tranzystorów. A wszystko za sprawą ELIZY.

ELIZA – pierwszy chatbot z „uczuciami"

„To, co uderzyło mnie najbardziej, to jak szybko ludzie, którzy mieli kontakt z programem, nawiązywali z nim silną więź emocjonalną i przypisywali mu niemal ludzkie cechy." Brzmi znajomo? Autorem cytatu jest Joseph Weizenbaum a pochodzi z książki Computer Power and Human Reason, która ukazała się… w 1976 roku. Nihil novi sub sole.

Weizenbaum był przeciwnikiem sposobu, w jaki Turing ominął pytanie o inteligencję w maszynie. Napisał skrypt, czatbota o nazwie ELIZA, który udawał terapeutę. Nie był inteligentny nawet w ówczesnym znaczeniu tego słowa – nie działał w oparciu o sieci neuronowe, nie miał bazy wiedzy. Po prostu dopasowywał odpowiedzi do wzorca. Czyli na przykład jeśli użytkownik wpisywał w okno zdanie zawierające słowo „matka", ELIZA odpowiadała „Opowiedz mi więcej o swojej rodzinie." A jeśli nie znajdowała żadnych wzorców, podrzucała generyczne odpowiedzi typu „Rozumiem. To bardzo interesujące. Opowiedz mi więcej. Nie przerywaj."

Efekt przerósł oczekiwania autora. Użytkownicy korzystający z ELIZY bardzo szybko zaczęli jej przypisywać empatię, intencje a nawet zrozumienie. Nazywamy to Efektem ELIZY. Jeden z najsłynniejszych przypadków to sekretarka Weizenbauma, która pewnego dnia wyprosiła go z gabinetu, ponieważ chciała porozmawiać z ELIZĄ na osobności o swoich prywatnych problemach. Choć dokładnie wiedziała, czym zajmuje się jej szef i jak działa ELIZA.

Weizenbaum był jednym z pierwszych, którzy twierdzili, że programowanie maszyn by symulowały empatię jest nieetyczne. To jest dyskusja, którą mamy dziś, prawda? Nihil novi sub sole.

Jeśli tak głupi mechanizm jak skrypt ELIZA potrafi nas skutecznie oszukać, to może wcale nie potrzebujemy sieci neuronowych, żeby symulować inteligencję? Świat wchodzi w epokę… pierwszej zimy AI.

Pizza z ananasem, problem XOR i zima AI

Thomas Jefferson w Hamiltonie powiedziałby: „czy możemy wrócić do matematyki?" Możemy. Ileż można o tych uczuciach i empatii.

Marvin Minsky i Seymour Papert — współautorzy książki Perceptrons, która wstrzymała badania nad sieciami neuronowymi na dekady.

Lubisz ananasa. Wniosek: ananas jest dobry. Lubisz pizzę. Wniosek: pizza jest dobra. Jeśli ananas jest dobry i pizza jest dobra, to pizza z ananasem też musi być dobra, prawda? Nieprawda. To jest zagadnienie logiczne, z którym spotykamy się na co dzień, ale rzadko nazywamy je po imieniu. A imię jego brzmi: problem XOR – alternatywa wykluczająca. Rozwiązanie jest dobre (albo prawdziwe) kiedy albo jedno, albo drugie jest dobre, ale nie kiedy oba są dobre. Pizza i ananas. Sandały i skarpetki. Rozumiesz, prawda?

W 1969 roku Marvin Minsky (który był jednym z uczestników konferencji w Dartmouth) i Seymour Papert pokazali obliczenia, w których precyzyjnie dowodzili, że sieci neuronowe takie jak Perceptron Mark I nie potrafią sobie radzić z problemami typu XOR. Ich książka nazywała się Perceptrons i była głosem w poprzek wielkiego hype'u, który AI zbierała w latach 60. Trafiła na bardzo podatny grunt.

Malcolm Gladwell w książce Odwet pisze o małych przyczynach wielkich kryzysów. Twierdzi, że kryzysy biorą się z tego, że kilka rzeczy perfekcyjnie się synchronizuje. W przypadku książki Perceptrons mieliśmy z jednej strony odwołanie do doskonale znanej medialnie historii – media „grzały" Perceptron jako nieuniknioną rewolucję. Z drugiej strony: ludzie się jej bali i jakikolwiek głos, który punktował wady Perceptronu był przez jego przeciwników odbierany jak błogosławieństwo. Po trzecie w końcu ludzie nie rozumieli matematyki, która stała za wnioskami z książki Minsky'ego i Paperta. Po prostu ślepo powtarzali coś, co wytłumaczył im ktoś, kto też wiele nie rozumiał. Każda epoka ma takiego dra Ziębę, na jakiego zasługuje.

Smaczku sytuacji dodaje fakt, że Minsky i Rosenblatt chodzili razem do liceum. Razem zajmowali się sztuczną inteligencją, ale reprezentowali różne podejścia – Rosenblatt wierzył, że AI powinna naśladować biologię i uczyć się na przykładach. Stąd inwestycja w sieci neuronowe. Papert wierzył, że AI to czysta logika i programowanie reguł „z góry". Do czasu ukazania się książki, świat pompował pieniądze w paradygmat sieci neuronowych. Po ukazaniu się Perceptrons sytuacja się odwróciła.

Smaczek numer dwa: Minsky i Papert już w momencie publikowania książki wiedzieli, że ich krytyka ma w sieciach neuronowych bardzo proste rozwiązanie. Problem XOR dotyczył tylko jednowarstwowych, stosunkowo prostych sieci neuronowych. Znikał przy bardziej skomplikowanych sieciach – a takie były już konstruowane w momencie ukazywania się książki.

Minsky i Papert udowodnili coś, co było prawdą dla bardzo małych sieci, ale przekonali wszystkich, że dotyczy to wszystkich sieci.
Geoffrey Hinton

Pieniądze na sieci neuronowe wysychały bardzo szybko. Dokąd szły? Do systemów, które się nie uczyły samodzielnie, ale potrafiły podejmować niezłe decyzje, bo miały skomplikowane zestawy reguł. Rozpoczyna się trwająca kilka dekad zima AI a my przyjrzymy się w tym czasie systemom eksperckim.

Zgrać zupę na dysk, czyli systemy eksperckie

System ekspercki Dendral — System DENDRAL

No dobrze, skoro maszyna nie potrafi się uczyć jak człowiek, to może da się jej chociaż wytłumaczyć, jak działa świat? Tak narodziła się era systemów eksperckich.

Ich obietnica jest niezwykle kusząca: zamiast zgadywać na podstawie danych, system miał korzystać z wiedzy najlepszych specjalistów. Jeśli ekspert potrafi podejmować trafne decyzje, to – w teorii – wystarczy spisać jego reguły w postaci drzewka decyzyjnego: JEŚLI - TO (IF – THEN) i po sprawie. Jeśli pacjent ma gorączkę i wysypkę, rozważ diagnozę ospy. Proste, nie?

Przez pewien czas to podejście rzeczywiście działało. Dwa najsłynniejsze przykłady? W latach 60 na Uniwersytecie Stanforda powstaje MYCIN, system do diagnozowania infekcji bakteryjnych krwi. Jest dobry, diagnozuje o wiele lepiej niż młodzi lekarze. Nigdy nie został wprowadzony do praktyki klinicznej ze względów etycznych i prawnych – to wtedy pojawiło się pytanie, kto będzie odpowiadał za błąd maszyny. MYCIN jako jeden z pierwszych wprowadził „współczynniki pewności" – nie mówił „to jest ta bakteria" tylko „jestem na 85% pewien, że to ta bakteria". Na jego odpowiedziach są wnioskowane praktycznie wszystkie komputery-asystenty w filmach sci-fi końca XX wieku. Te słynne podpowiedzi typu „Z moich obliczeń wynika, że szansa przeżycia wynosi poniżej 3%". System ekspercki: baza danych i zestaw reguł.

Drugim przykładem, tym razem z sukcesem komercyjnym, był DENDRAL. Pomagał chemikom identyfikować nieznane cząsteczki organiczne. To dosyć charakterystyczne dla systemów eksperckich: działały w bardzo wąskim, bardzo precyzyjnym zakresie.

Marketing systemów eksperckich obiecywał „sklonowanie geniuszu". To był czas, kiedy sztuczna inteligencja (według definicji z tamtych lat) wyszła z laboratoriów i trafiała na okładki Fortune czy Business Weeka. Case studies tego, jak komputery nareszcie stają się przydatne dla „przeciętnej korporacji" trafiały na łamy Wall Street Journal.

Skoro już przy Wall Street i wielkich pieniądzach jesteśmy: jednym z popularniejszych języków programowania systemów eksperckich był LISP. Opracowany przez Johna McCarthy'ego (tego samego, który ukuł termin „sztuczna inteligencja" w Dartmouth). Programowanie w LISP odbywało się na tzw. LISP-maszynach, komputerach stworzonych specjalnie pod programowanie w LISP. Były potwornie drogie, kosztowały około 100 tys. ówczesnych dolarów, czyli około 360 tys. dolarów dzisiaj. Dla wielu amerykańskich korporacji stanowiły symbol statusu.

Chcesz mój ulubiony case study rodem z Wall Street Journal? Jest sobie firma, nazywa się Campbell's Soup. Produkuje zupy w puszkach. Przez 44 lata w fabryce pracuje technik, nazywa się Aldo Cimino. Jest jedynym specjalistą, który zna na wylot system kotłów i rur biegnących w fabryce. Podobno potrafi go diagnozować „na słuch i po zapachu". Nic więc dziwnego, że kiedy Cimino zbliża się do wieku emerytalnego, na firmę pada blady strach.

Campbell's zatrudnia inżynierów wiedzy – to nowy zawód, którego popularność wybucha wraz z pojawieniem się systemów eksperckich. To ludzie, których zadaniem jest spędzać czas z ekspertami i zamieniać ich wiedzę w praktyczne drzewka decyzyjne w systemach eksperckich. Koszmarem dla ludzi w tym zawodzie są eksperci, którzy nie potrafią wyjaśnić, skąd wiedzą. W rozmowach mówią: „po prostu wiem." To zjawisko nazywa się „wąskim gardłem Feigenbauma" – na cześć Edwarda Feigenbauma, jednego z ojców systemów eksperckich.

W każdym razie, inżynierowie wiedzy z Texas Instruments tworzą dla Campbell's system, który nazywa się Aldo on a Disk – Aldo na dyskietce. Składa się z około 150 reguł, pytań typu „czy para uchodzi zaworem A", po czym stawia diagnozę usterki. Aldo jest reklamowany jako sukces systemów eksperckich, ale jego problem zaczyna się, kiedy nie tylko Aldo odchodzi na emeryturę, ale fabryka decyduje się zmodernizować swój system zaworów. Piramida reguł typu IF-THEN okazuje się krucha i niestabilna.

To była bolączka większości takich systemów. Po pierwsze, działały wyłącznie w środowiskach, w których wiedza była kompletna, spójna i możliwa do wypisania w całości. Czyli: bardzo rzadko. Do tego nie były odporne na zmianę. Im bardziej starano się taki system doprecyzować regułami, tym bardziej rzeczywistość wymykała się spod kontroli.

W rezultacie entuzjazm wokół systemów eksperckich zaczął słabnąć. Ich utrzymanie było kosztowne, aktualizacja wiedzy – żmudna, a skuteczność poza wąskimi domenami – rozczarowująca. AI znów stanęła przed tym samym problemem, tylko z innej strony: świat okazał się zbyt bogaty, by dało się go w całości opisać.

Gdy okazało się, że świata nie da się sensownie opisać kompletnym zestawem reguł, badania nad AI zaczęły przesuwać się w stronę podejścia znacznie mniej ambitnego, a jednocześnie bardziej skutecznego. Zamiast pytać, dlaczego coś działa, zaczęto pytać, gdzie przebiega granica, po której jednej stronie decyzja jest trafna, a po drugiej – nie.

To był zwrot od logiki do statystyki. Ale zanim tam wylądujemy, systemy eksperckie mają jeszcze jednego asa w rękawie. No dobra, króla.

Kasparow vs. IBM Deep Blue

Pal diabli test Turinga. Odkąd komputery zagościły pod strzechami za sprawą Spectrum, Atari i Commodore'ów tego świata, dla przeciętnego Kowalskiego istniał tylko jeden test tego, czy maszyna potrafi myśleć. Ma pokonać człowieka w Królewskiej Grze. W szachach. I to nie byle jakiego człowieka, tylko aktualnego arcymistrza świata.

Prób było wiele. Człowiek zawsze wychodził obronną ręką. Do 1996 roku.

Większość ludzi nie pamięta, ale mecze były dwa. Pierwszy w Filadelfii w 1996 roku. Gary Kasparow wygrał 4:2. Przegrał pierwszą partię (testował możliwości maszyny), ale ostatecznie zdominował komputer. Świat odetchnął z ulgą. „Ludzki geniusz wciąż górą" pisały gazety.

Drugi mecz odbył się w Nowym Jorku w 1997 roku. IBM pokazał tam nowy model Deep Blue, szachowego potwora. 30 procesorów ogólnego przeznaczenia i 480 (sic!) dedykowanych procesorów szachowych. Do tego potężna baza ruchów szachowych i algorytmy, które optymalizowały przeszukiwanie tej bazy. Efekt? Deep Blue analizował 200 milionów pozycji na sekundę. Wynik? Trzy partie dla maszyny, dwie dla człowieka, jeden remis. Ludzki umysł ustąpił przed brutalną mocą obliczeniową i… łutem szczęścia.

Bo jest jeszcze jedna rzecz, którą musisz wiedzieć o pojedynku w Nowym Jorku. W pierwszej partii Deep Blue wykonał ruch, który wydawał się kompletnie nielogiczny i genialny zarazem – poświęcił przewagę dla bliżej nieokreślonych korzyści pozycyjnych. Kasparow uznał, że komputer posiada „głęboką intuicję" albo że za kulisami pomaga mu ludzki arcymistrz (do moich szachowych nerdów: pomyślcie, gdzie Deep Blue musiał trzymać odbiornik…) Kasparow tak bardzo analizował to „genialne" posunięcie, że w kolejnych partiach grał zbyt ostrożnie, co doprowadziło go do porażki.

A prawda (opisana np. przez Nate'a Silvera, inżyniera odpowiedzialnego za oprogramowanie Deep Blue) była taka, że ten ruch był wynikiem błędu w kodzie. Maszyna nie potrafiła wybrać najlepszego ruchu z bazy więc… wybrała losowy. Wprawiając w osłupienie zarówno arcymistrza jak i ludzi, którzy Deep Blue programowali.

Deep Blue był szczytowym osiągnięciem systemów eksperckich. Potężna baza danych, optymalne algorytmy wyszukiwania oraz dedykowane procesory – to wszystko widzieliśmy na mniejszą skalę w fabrykach Campbella. Partia szachowa to wymarzone środowisko dla takiego systemu: reguły są jasne i wszystko jest pod kontrolą.

Deep Blue, paradoksalnie, uwidocznił więc granice podejścia, które doprowadziło go do zwycięstwa. Pokazał, że maszyna może przewyższyć człowieka w wąskiej, perfekcyjnie zdefiniowanej dziedzinie – i jednocześnie, że ta metoda nie skaluje się do rzeczywistości pełnej niepewności.

Myślenie nie zawsze jest potrzebne, jeśli problem daje się wystarczająco dobrze policzyć.

To był moment symboliczny, ale nie w tym sensie, w jakim często się go przedstawia. Nie był dowodem na to, że maszyny nauczyły się myśleć. Był dowodem na to, że myślenie nie zawsze jest potrzebne, jeśli problem daje się wystarczająco dobrze policzyć.

I właśnie ta konstatacja otworzyła drogę do kolejnego zwrotu. Skoro nie da się świata ani w pełni opisać regułami, ani przeszukać go do końca, pozostaje inne wyjście: zaakceptować niepewność i pracować na przybliżeniach. Zamiast wiedzieć – szacować. Zamiast rozumieć – oddzielać przypadki, które zwykle działają, od tych, które zwykle zawodzą.

Tak zaczyna się epoka algorytmów statystycznych – mniej spektakularna medialnie niż mecz Kasparowa z komputerem, ale znacznie bardziej użyteczna w świecie, który rzadko przypomina szachownicę.

Losowy las, czyli co dziś oglądamy

„Jeśli jedna osoba mówi ci, że masz ogon, możesz ją zignorować. Jeśli mówi ci to dziesiąta osoba, lepiej się obejrzyj."

Zastanawiasz się, który film z niemal nieskończonej oferty serwisów streamingowych obejrzeć dziś. Masz dwie opcje rozwiązania tego problemu. Po pierwsze, możesz napisać do swojego znajomego, który jest krytykiem filmowym. Znajomy zada Ci kilka pytań i poleci film na wieczór. Opcja druga: wrzucasz post na grupę na Facebooku. Komentujący zadają Ci po kilka pytań i rekomendują film. Ostatecznie wybierasz ten, który rekomendowało Ci najwięcej przypadkowych osób.

W której opcji wylądujesz z lepszym filmem? Albo inaczej zapytam: która opcja gwarantuje Ci lepsze rekomendacje za każdym razem, kiedy jej używasz?

Jeśli Twój znajomy krytyk ma gorszy dzień albo jest uprzedzony do Twojego plebejskiego gustu filmowego, dostaniesz słabsze rekomendacje. Kolejna sprawa: pojedynczy człowiek, nieważne jak wielkim fanem kina by nie był, obejrzał mniej filmów niż tysiąc przeciętnie ogarniętych kinomaniaków. Lepiej wyjdziesz na drugiej opcji, wierz mi. A druga opcja nazywa się Random Forest (losowy las).

Jej twórcą jest Leo Breiman z Uniwersytetu Berkeley. Metoda symbolizuje kierunek, w którym poszły „myślące maszyny" po tym, jak systemy eksperckie zaczęły się zawalać pod własnym ciężarem. Zamiast budować najlepsze drzewo decyzyjne, Breiman zasugerował, żeby wziąć tysiąc przeciętnych drzew decyzyjnych i zbudować z nich las. Trzeba tylko zwrócić uwagę na dwa warunki.

Bagging (Bootstrap Aggregating): każde drzewo w lesie powinno uczyć się na innym, losowym wycinku danych. Czyli różni ludzie z fejsbukowej grupy oglądają różne filmy na różnych serwisach streamingowych. To nie jest tak, że każdy ogląda całkowicie inny zestaw, ale nie może też być tak, żeby każdy oglądał dokładnie to samo.
Losowość cech: pytania, które członkowie grupy Ci zadają też są losowe. Czyli jeden pyta, czy lubisz Toma Cruise'a (cecha, na której się skupia to aktorzy), inny pyta czy lubisz komedie romantyczne (skupia się na gatunku filmowym) a jeszcze inny pyta, czy lubisz klasyki (skupia się na dacie produkcji).

Dzięki temu drzewa są niezależne – nawet jeśli jedno udzieli Ci złej rekomendacji, pozostali członkowie „leśnej demokracji" naprawią ten błąd w głosowaniu.

Random Forest używamy do dziś. Na przykład do wykrywania oszustw na Twoim koncie bankowym. Jeśli zdarzyło Ci się dostać SMS z banku z pytaniem, czy to Ty właśnie płacisz za kawę na drive-through o trzeciej nad ranem, za decyzją o wysłaniu SMS-a stał prawdopodobnie Las Losowy w banku. Ten algorytm doskonale radzi sobie z danymi tabelarycznymi (kwota, czas, miejsce) i małymi próbami. Sieci neuronowe nie miałyby tu szans. Plus, z punktu widzenia obliczeń to bardzo wydajny algorytm. Ma więc swoich zagorzałych fanów. Dlaczego nie jest uniwersalnie dobry?

Czy wiesz, że…

Algorytm Random Forest jest używany m.in. przez Netfliksa do rekomendacji filmów, przez banki do wykrywania fraudów i przez służby leśne (sic!) do przewidywania pożarów. Nazwa „losowy las" nie ma nic wspólnego z drzewami w naturze — pochodzi od „drzew decyzyjnych", które są podstawowym budulcem algorytmu.

Mała liczba punktów danych sprawia, że margines błędu jest spory. Random Forest nie jest zatem precyzyjny. No i ponieważ nie do końca wiemy, jak zachowają się poszczególne drzewa, zyskał sobie miano „czarnej skrzynki" – niby działa, ale nie do końca wiemy jak. Dla ludzi, którzy potrzebują precyzyjnej kontroli nad danymi może nie być wystarczający.

Dla nich jest arystokrata wśród algorytmów statystycznych, który przez długi czas królował wśród fanów sztucznej inteligencji. SVM.

Support Vector Machines, czyli o czym myśli ochroniarz na czerwonym dywanie?

Jesteś ochroniarzem na czerwonym dywanie festiwalu w Cannes. Twoje zadanie: ustawić barierkę rozdzielającą aktorów od gapiów. Haczyk: nie możesz nikogo przesuwać, możesz jedynie wyznaczyć linię między nimi. Jak się za to zabierzesz?

Nie masz mocy przerobowych na analizowanie i legitymowanie każdego. Jak sobie uprościć pracę? Po pierwsze: przyjmij, że ludzie w wieczorowych strojach na środku czerwonego dywanu z największym prawdopodobieństwem są aktorami, mają prawo tam się znaleźć. Po drugie: ludzie daleko poza czerwonym dywanem ubrani jak turyści też na pewno są gapiami, nie ma sensu skupiać się na nich. Najwięcej uwagi poświęcasz zatem ludziom na skraju czerwonego dywanu. Sprawdzasz, kto ma prawo na nim przebywać, przyglądasz się im dokładniej, legitymujesz kogo trzeba.

A potem prowadzisz linię w taki sposób, żeby zostawić jak największy margines pomiędzy wszystkimi punktami, w których aktor sąsiaduje z gapiem. To jest właśnie esencja algorytmu SVM (ang. Support Vector Machines). On nie próbuje zrozumieć danych ani modelować procesu decyzyjnego. Jego zadaniem jest znalezienie takiej granicy, która oddziela osoby z różnych grup. A kluczowe tu jest pojęcie marginesu. SVM nie szuka byle jakiej linii podziału, tylko modeluje taką, w której jest najwięcej „bezpiecznej przestrzeni" pomiędzy grupami.

SVM ma potężną przewagę nad sieciami neuronowymi, które poznaliśmy. Tam dane trzeba było oddzielić prostą linią. Tutaj – linia może mieć dowolny kształt. Który można policzyć – to potężna przewaga nad Losowym Lasem, który jest trochę dziką kartą. No i obliczenia są stosunkowo proste. Poza jednym przypadkiem, do którego uśmiecha się moje nerdowe serduszko. Nauczę Cię jednego z najbardziej sprytnych i jednego z najbardziej eleganckich rozwiązań w SVM. Pa tera!

Nadal jesteśmy w Cannes, nadal Twoim zadaniem jest oddzielenie gapiów od aktorów. Ale nie na czerwonym dywanie, tylko w hallu sali kinowej. O żadnej linii nie może być mowy – aktorzy są doskonale przemieszani z widzami. Więc Twoje zadanie to wręczenie czerwonej bransoletki aktorowi a zielonej – widzowi. Jak się za to bierzesz? Nie możesz już analizować pozycji, bo nie ma czerwonego dywanu. Nie możesz też analizować stroju – niektórzy aktorzy po sesji zdjęciowej się przebrali a niektórzy widzowie wprost przeciwnie – odstrzelili się na wieczorną premierę.

Możesz sortować dane „ręcznie", czyli legitymować każdą osobę, porównywać z listą zaproszonych gości i wręczać odpowiednią bransoletkę. Skuteczne, potwornie pracochłonne.

Możesz też podejść do każdego z gości i zapytać „Ile zarobiła pani w zeszłym roku?" Przyjmijmy przez chwilę założenie, że zawsze usłyszysz prawdziwą odpowiedź. Ponieważ aktorzy zarabiają więcej od gapiów, Twój sposób dystrybucji bransoletek będzie szybki i obarczony minimum błędu.

W SVM ten zabieg nazywa się kernel trick. Ponieważ dane w wymiarach, które masz na początku są nie do sortowania, dodajesz jeszcze jeden wymiar i na podstawie tego wymiaru kreślisz linię podziału. To oczywiście obrazowe uproszczenie, ale mam nadzieję, że pomogło Ci zrozumieć, jak działają metody statystyczne w sztucznej inteligencji.

Ponieważ dane w wymiarach, które masz na początku są nie do sortowania, dodajesz jeszcze jeden wymiar. W SVM ten zabieg nazywa się kernel trick.

Przewaga nad metodami eksperckimi? Odporność na chaos w danych. Szum, brakujące informacje, sprzeczności – wszystko to jest uśredniane przez statystykę. W praktyce właśnie dlatego SVM-y i lasy losowe przez lata dominowały w zastosowaniach przemysłowych: od analizy ryzyka przez marketing po algorytmy rekomendacyjne na Netfliksie.

Jednocześnie metody statystyczne mają wspólne, fundamentalne ograniczenie. Żeby działały dobrze, ktoś wcześniej musiał zdecydować, jak opisać dane. To nie ochroniarz wymyślił, żeby zapytać o zarobki – zrobił to ktoś, kto projektował algorytm. Zatem ktoś musiał z góry wiedzieć, jakie cechy uznać za istotne a co pominąć. Modele są zatem na tyle skuteczne, na ile uważni lub obdarzeni intuicją są ludzie którzy przygotowują dla nich dane.

Wybór cech, które algorytm ma brać pod uwagę przy analizowaniu danych nazywa się „reprezentacją". Zapamiętaj, przyda Ci się niedługo.

W miarę jak danych przybywało, a problemy stawały się coraz bardziej złożone, to ręczne projektowanie cech zaczęło być wąskim gardłem. Nie dlatego, że było błędne, lecz dlatego, że nie nadążało za skalą. Świat generował ich za dużo. Wróciło pytanie: a co, jeśli model mógłby sam nauczyć się reprezentacji, zamiast polegać na tych zaprojektowanych przez ludzi?

Backprop, czyli mało nas do pieczenia chleba

Pamiętasz, co mówiłem na samym początku o maszynie Turinga? Dała początek komputerom i programowaniu, bo za pomocą jednego, zmyślnego algorytmu pozwalała tworzyć maszyny, które policzą dowolną rzecz. Przed tym maszyny liczące były tworzone pod konkretne zastosowanie. Aha, i powstała w głowie dużo wcześniej, niż ktokolwiek był w stanie ją zbudować. To już pamiętasz. Zaraz nam się przyda. A teraz – do kuchni!

Wyobraź sobie, że pieczesz chleb. To będzie bardzo uproszczony przykład, więc jeśli zdarzyło Ci się piec chleb, uczestniczysz w jakichś chlebowych grupach internetowych – wstrzymaj konie. Mam do wytłumaczenia bardzo skomplikowany koncept, padło na pieczenie chleba.

No więc pieczesz chleb. Najpierw robisz ciasto, potem wstawiasz je do piekarnika. Wiem, że musi urosnąć. Co mówiłem o wstrzymywaniu koni?

Wyjmujesz chleb z piekarnika i jest czarny, spalony. Widzisz, że potrzebujesz zrobić to lepiej. Ale nie masz pojęcia o pieczeniu chlebów. Co masz do dyspozycji? Cztery „pokrętła" w przepisie. Dwa na piekarniku, dwa na ladzie. Te pokrętła to:

temperatura piekarnika;
czas w piekarniku;
ilość mąki;
ilość wody.

Zmniejszasz odrobinę ilość wody i pieczesz kolejny chleb. Mierzysz, czy wyszedł lepszy – mniej czarny i spalony. To samo robisz z mąką – zmieniasz odrobinę jej ilość i sprawdzasz, czy zmiany w chlebie idą w dobrym kierunku. Zmniejszasz czas piekarnika – teraz widzisz, że mała zmiana wywołała potężny efekt. Pieczesz kolejny, tym razem odrobinę zmniejszasz temperaturę. Sprawdzasz, powtarzasz.

To, co robimy w tej chwili, nazywa się backpropagation, czyli propagacja wsteczna. Wiedząc, jak bardzo nasz wynikowy chleb różni się od tego wymarzonego, jesteśmy w stanie „przepychać wstecz" parametry błędu. Dzięki temu na każdym etapie przepisu nie tylko wiemy, czy dane pokrętło poprawia czy pogarsza parametry. Jesteśmy w stanie wyliczyć, jak bardzo je pogarsza lub poprawia. Jeśli poprawia bardzo, przypisujemy mu dużą wagę. Jeśli nie ma wpływu – waga jest mała.

Chwileczkę, gdzieś już widzieliśmy wagi. W sieciach neuronowych! Silniki perceptronu modyfikowały wagi poszczególnych neuronów, żeby nauczyć urządzenie, jak odróżnić trójkąt od kwadratu. Ale sieci neuronowe okazały się porażką, świat poszedł w zupełnie innym kierunku, prawda?

Cóż, okazuje się, że nie cały świat poszedł w innym kierunku. Pozostało kilku badaczy, którzy wierzyli w potęgę sieci neuronowych i powoli, metodycznie, w cieniu, prowadzili nad nimi badania. Jednym z nich był Geoffrey Hinton. Ten sam, którego cytat krytykujący książkę Minsky'ego i Paperta przytaczałem w poprzednim rozdziale. Hinton nigdy nie porzucił wiary w sieci neuronowe. Co przez wiele lat czyniło go pariasem i dziwakiem świata naukowego. Nie przejmował się tym, od czasu do czasu nawet zdarzyło mu się opublikować coś w prestiżowych pismach naukowych.

Na przykład w październiku 1986 roku w Nature. Cztery strony naszpikowane wzorami matematycznymi, które dla ówczesnego biologa czy fizyka (głównych czytelników Nature) brzmiały jak czysta spekulacja. Artykuł miał tytuł: Learning representations by back-propagating errors (Nauka reprezentacji przez wsteczną propagację błędów). W skrócie mówił, że wielowarstwowe sieci neuronowe są w stanie samodzielnie nauczyć się reprezentacji (czyli: same są w stanie zdecydować, które cechy są ważne do wykonania zadania) właśnie dzięki mechanizmowi propagacji wstecznej.

Pomysł był przełomem na miarę maszyny Turinga. Pokazywał, że istnieje uniwersalna matematyka, dzięki której sieć neuronowa sama szkoli się do wykonania dowolnego zadania. Potrzebne są do tego dwie rzeczy: olbrzymie ilości danych treningowych oraz potężna moc obliczeniowa potrzebna do trenowania dużych, wielowarstwowych sieci neuronowych. Żadnego z tych elementów nie było w 1986 roku. Więc – jak w przypadku maszyny Turinga – propagacja wsteczna była pięknym, teoretycznym narzędziem.

Czy wiesz, że…

Geoffrey Hinton, Yann LeCun i Yoshua Bengio są nazywani „ojcami chrzestnymi deep learningu". W 2018 roku wspólnie otrzymali Nagrodę Turinga — informatyczny odpowiednik Nobla. Hinton w 2024 roku otrzymał również Nagrodę Nobla z fizyki za prace nad sieciami neuronowymi.

Hinton i jego współpracownicy – m.in. Yann LeCun i Yoshua Bengio – nie porzucili jednak tego kierunku. Zamiast próbować „przeskoczyć" ograniczenia, cierpliwie je obchodzili: lepsze inicjalizacje wag, warstwy pośrednie uczone bez nadzoru, architektury lepiej dopasowane do danych. To była praca pozbawiona medialnego blasku, ale systematyczna.

Pierwsze spektakularne efekty pojawiły się dopiero w 2012 roku.

AlexNet – sieci neuronowe powracają w chwale

Do pewnego momentu rozwój sieci neuronowych przypominał historię obiecującego pomysłu, który wciąż nie potrafi udowodnić swojej wartości w starciu z rzeczywistością. Backpropagation działał. Głębokie architektury istniały. Brakowało jednak jednego, bezlitosnego testu, który pokazałby, czy to podejście skaluje się poza laboratorium.

Takim testem okazał się ImageNet.

Co to jest ImageNet? To ogromny, ręcznie oznaczony zbiór danych – 14 milionów zdjęć przypisanych do 22 tysięcy kategorii. Jego twórczyni, Fei-Fei Li, wychodziła z bardzo prostej, ale radykalnej tezy: jeśli chcemy, by maszyny nauczyły się widzieć, musimy pokazać im świat w skali zbliżonej do tej, w jakiej widzą go ludzie.

Czy wiesz, że…

Fei-Fei Li zlecała oznaczanie zdjęć ImageNet za pośrednictwem Amazon Mechanical Turk. Przez kilka lat prawie 50 tysięcy pracowników z 167 krajów ręcznie przypisało etykiety do 14 milionów zdjęć. Koszt? Ułamek budżetu, jaki pochłonęłoby zatrudnienie profesjonalnych badaczy.

Wcześniej modele uczono na małych, sterylnych zbiorach danych. Kilka tysięcy obrazów. Kilkanaście kategorii. Świat uproszczony do tego stopnia, że wiele algorytmów radziło sobie z nim całkiem nieźle. ImageNet był inny. Był duży, brudny i pełen niejednoznaczności. Nie wybaczał chodzenia na skróty.

I na tym właśnie polu minowym odbywało się coroczne Wyzwanie ImageNet (oficjalnie: ImageNet Large Scale Visual Recognition Challenge): zespoły naukowców wystawiały swoje algorytmy, których zadaniem było przekopanie się przez 150 tysięcy zdjęć z olbrzymiego zbioru i nadanie im prawidłowych kategorii.

W 2010 roku najlepszy zespół miał ponad 28% błędnie oznaczonych obrazów. Ich algorytm pracował metodą SVM, reprezentacja była robiona ręcznie. Rok później wygrał algorytm, który mylił się w niemal 26% przypadków. Powolny, żmudny postęp.

W 2012 roku do konkursu staje zespół naszego znajomego, Geoffreya Hintona z Uniwersytetu w Toronto. W zespole jest też Alex Krizhevsky oraz Ilya Sutskever (jeden ze współzałożycieli OpenAI). Ich algorytm miażdży konkurencję – liczba błędów spada do 15%. Ich sekret? Sieci neuronowe doładowane trzema składnikami: mnóstwo danych (dzięki ImageNet sieć miała się na czym uczyć), backprop (mechanizm, o którym rozmawialiśmy nareszcie miał wystarczająco wiele warstw, by rozwinąć skrzydła) oraz wykorzystanie GPU. To był kluczowy „hack" – Krizhevsky napisał własny kod, by trenować sieć nie na standardowym procesorze, ale na karcie graficznej Nvidia GTX 580. Okazało się, że procesory kart graficznych są tysiące razy lepsze w trenowaniu AI niż tradycyjne procesory.

Przeszliśmy z ery machine learning do epoki deep learning — maszyny same uczą się tego, czego mają się uczyć.

Najważniejsza rzecz: ich algorytm (który nazwano potem AlexNet) sam nauczył się rozpoznawać elementy na zdjęciach. Przeszliśmy z ery machine learning (uczenie maszynowe, nadzorowane przez ludzi) do epoki deep learning (maszyny same uczą się tego, czego mają się uczyć).

W tym momencie pękło wąskie gardło, które przez lata ograniczało uczenie maszynowe. Człowiek przestał być projektantem cech, a stał się projektantem warunków uczenia. Jego rolą było dostarczyć dane, architekturę i moc obliczeniową. Resztę system robił sam.

Reakcja środowiska była natychmiastowa. W ciągu kilku lat niemal wszystkie czołowe zespoły biorące udział w wyzwaniu porzuciły klasyczne modele statystyczne na rzecz deep learningu. Ręcznie projektowane cechy zniknęły z tablicy wyników. To samo podejście zaczęło dominować w rozpoznawaniu mowy, analizie wideo i innych dziedzinach, które wcześniej opierały się sieciom neuronowym.

To był moment, w którym stało się jasne, że powrót neuronów nie jest chwilową modą ani akademicką ciekawostką. Jest nowym fundamentem. A skoro ten fundament zadziałał w widzeniu – najbardziej zmysłowym i intuicyjnym z ludzkich sposobów poznania – naturalne było pytanie, które miało paść jako następne.

Czy to samo da się zrobić z językiem?

LLM – język staje się kolejnym polem bitwy

Po ImageNecie trudno było już ignorować fakt, że sieci neuronowe potrafią nauczyć się złożonych reprezentacji – pod warunkiem, że dostaną wystarczająco dużo danych i mocy obliczeniowej. Widzieliśmy to w obrazach: od pikseli do obiektów, od chaosu do struktury. Naturalnym kolejnym pytaniem było więc nie czy, lecz gdzie dalej.

Odpowiedź wydawała się oczywista, choć przez lata pozostawała problematyczna: język.

Przetwarzanie języka naturalnego długo opierało się sieciom neuronowym. Nie dlatego, że brakowało danych – tekstu w internecie było aż nadto – lecz dlatego, że język ma właściwości, które czynią go wyjątkowo niewdzięcznym materiałem do uczenia. Jest dyskretny, a nie ciągły. Sens bywa rozciągnięty na wiele zdań. Jedno słowo potrafi zmienić znaczenie całej wypowiedzi. Ironia sprawia, że zdanie znaczy coś dokładnie odwrotnego niż sugerują słowa. A kontekst kulturowy powoduje, że to samo zdanie brzmi zupełnie inaczej na LinkedInie i w komentarzach pod filmem na YouTube.

Wczesne podejścia do NLP (ang. Natural Language Processing, przetwarzanie języka naturalnego) przypominały to, co wcześniej działo się w badaniach nad wizją komputerową. Ręcznie projektowane cechy, listy słów kluczowych, n-gramy, statystyki częstości. Klasyfikatory oparte na SVM radziły sobie nieźle w prostych zadaniach, takich jak analiza sentymentu (czyli: czy zdanie jest pozytywne, czy negatywne). Jeśli w tekście było dużo słów „świetny", „polecam" i „rewelacja", uznawaliśmy go za pozytywny. Jeśli pojawiało się „nigdy więcej", „porażka" i „oszustwo" – za negatywny. Działało… do momentu, w którym ktoś napisał: „Świetna obsługa. Szkoda tylko, że produkt zepsuł się po dwóch dniach".

Naukowcy próbowali też wykorzystywać sieci neuronowe. Problem z nimi polegał na tym, że koszt obliczeń rósł geometrycznie wraz ze wzrostem długości wypowiedzi. A ponieważ potrafimy konstrukować koszmarnie długie zdania, których kontekst bardzo ciężko odczytać, bo jest pogrzebany pomiędzy milionem wstawek, wyliczeń i figur retorycznych niby igła w stogu siana, co jest tym częstsze, im mądrzej osoba chce wyglądać przed swoimi odbiorcami (badania tego nie potwierdzają, BTW), nie wspominając już o wstawkach z innych języków czy – będąc już całkowicie au pair – błędów językowych, rozwiązania oparte o sieci neuronowe były kosztowne obliczeniowo i trudne do skalowania.

Uff.

Przełom przyszedł w 2017 roku wraz z artykułem, którego tytuł brzmiał niemal arogancko: Attention Is All You Need. Autorzy zaproponowali architekturę zwaną transformerem, która porzucała ideę sekwencyjnego czytania tekstu na rzecz mechanizmu uwagi – attention.

Intuicja była zaskakująco ludzka. Gdy czytamy zdanie, nie analizujemy słów po kolei jak maszyna licząca sylaby. Od razu wiemy, że w zdaniu „Nie sądzę, żeby ten pomysł był dobry" kluczowe nie jest słowo „dobry", tylko wszystko, co je skutecznie unieważnia. Mechanizm attention robi dokładnie to samo co my, ludzie, tylko bez refleksji i kawy. Każde słowo „patrzy" na inne słowa i uczy się, które z nich są dla niego ważne w danym kontekście.

Czy wiesz, że…

Artykuł Attention Is All You Need miał ośmioro autorów — wszystkich z Google. Sześciu z nich odeszło później, by założyć własne firmy AI, w tym twórców modeli takich jak Gemini (Google DeepMind), Cohere, Character.ai i Adept. Jeden artykuł naukowy zrodził całą branżę.

Transformery nie mają pamięci w ludzkim sensie. Nie rozumieją gramatyki ani semantyki. Ale potrafią bardzo skutecznie modelować zależności statystyczne między elementami tekstu, niezależnie od ich odległości w zdaniu czy akapicie. Co ważne, robią to w sposób, który świetnie skaluje się na GPU (procesorach graficznych) i pozwala trenować modele na miliardach przykładów.

Na tym fundamencie powstały modele językowe nowej generacji. Nazywamy je Large Language Models (LLM), Duże Modele Językowe. Ich zadanie jest z pozoru banalne: przewidzieć kolejne słowo które zostanie użyte. Na tym właśnie polega idea – czy też wrażenie – „rozumienia" języka.

Tak samo jak w ImageNecie nikt nie uczył sieci, czym jest kot, tak w modelach językowych nikt nie uczy ich, czym jest marka, narracja czy insight. Te pojęcia wyłaniają się jako stabilne punkty w przestrzeni statystycznych zależności. Model nie „rozumie" marki – ale wie, jakie słowa, metafory i konstrukcje zdaniowe zwykle pojawiają się w jej pobliżu.

Model nie „rozumie" marki — ale wie, jakie słowa, metafory i konstrukcje zdaniowe zwykle pojawiają się w jej pobliżu.

Z tej perspektywy generatywność nie jest celem samym w sobie, lecz efektem ubocznym. Jeśli potrafisz wiarygodnie przewidywać kolejne słowo, wystarczy pozwolić modelowi robić to wielokrotnie. Zdanie rodzi zdanie, akapit rodzi akapit, a po chwili masz tekst, który wygląda, jakby ktoś naprawdę wiedział, co pisze.

O technikaliach tego, jak działają modele językowe porozmawiamy sobie – w uproszczeniu, oczywiście – w następnym rozdziale.

Jak działają LLM-y? Tokenizacja, wektoryzacja, generacja

Model językowy nie rozumie języka. A przynajmniej nie tak, jak my go rozumiemy. Sprawia wrażenie, że rozumie. Zachowuje się tak, jakby rozumiał. Ale pod spodem jest potężna maszyna licząca. Zajrzyjmy pod maskę. Przy okazji nauczysz się lepiej promptować.

Tokenizacja, czyli zamiana języka na liczby

Ten element procesu jest bardzo prosty do wyjaśnienia.

[30720, 3577, 164251, 12637, 49755, 24762, 88, 621, 14962, 2067, 2259, 135779, 13, 220]

Dla Ciebie język składa się z liter, słów, zdań, akapitów okraszonych interpunkcją. Dla modelu językowego wszystko składa się z tokenów. Zdanie „Ten element procesu jest bardzo prosty do wyjaśnienia." zamieniony na tokeny wygląda jak ciąg liczb powyżej. Token to nie jest pojedyncze słowo – moje zdanie ma osiem słów, pięćdziesiąt pięć znaków i jest reprezentowany przez czternaście tokenów. Trzynaście, jeśli usunę spację po kropce. Jeśli chcesz samodzielnie się pobawić zamianą języka na tokeny, OpenAI oferuje narzędzie o nazwie Tokenizer.

Czego możesz się nauczyć z zabawy Tokenizerem?

Jeden token to mniej-więcej cztery litery. Choć – jak widać na powyższym przykładzie – język polski jest bardzo oszczędny. Jedynie słowo „wyjaśnienia" składa się więcej niż z jednego tokenu.
Te same słowa w różnych kontekstach mają różne tokeny. Zamek w drzwiach i zamek do spodni na przykład.
Znaki przestankowe, spacje czy znaki specjalne – takie jak prawidłowe cudzysłowy („") czy wielokropek (…) mają swoje tokeny. Model nie widzi zdań czy akapitów. Cały czas widzi ciągi liczb.

Tokenizacja sprawia, że model nie musi już więcej mieć do czynienia z elementami języka (słowa, zdania, akapity, litery, przecinki). Wszystko staje się liczbą. Myśl o tokenie jako o identyfikatorze liczbowym nadanym każdemu elementowi języka.

Wektoryzacja, czyli nadawanie znaczenia

To będzie bardzo ciekawe doświadczenie. Wyobraź sobie, że bierzemy słownik i go tokenizujemy. Czyli: nadajemy identyfikator liczbowy każdemu słowu, które tam znajdziemy. Bez kombinowania, po kolei, alfabetycznie. Dostajemy długą listę.

A teraz wyobraź sobie, że ta długa lista jest długą linią w przestrzeni. Matematycy powiedzieliby „wektorem". Ten wektor ma jeden wymiar – długość. Podając odpowiednią cyferkę lądujemy na konkretnej długości wektora i dostajemy słowo, które odpowiada tej cyferce na liście. Ponieważ ze świata abstrakcji przenieśliśmy się do świata geometrii, możemy zacząć rozmawiać o zależnościach między słowami. Niektóre słowa są blisko siebie, inne daleko.

Bardzo szybko okaże się, że alfabetyczny, arbitralny podział, który przyjęliśmy na początku, nie ma wiele sensu. Słowo „abażur" jest na naszym wektorze bliżej słowa „amnezja" (bo są na tę samą literę) niż słowa „lampa" (z którym jest logicznie powiązane). Więc może zastąpimy wektor alfabetyczny czymś bardziej sensownym? Ale czym?

Pomysł pierwszy: zróbmy wektor, na którym będziemy oznaczać „materialność" przedmiotu. Zatem z jednej strony będą słowa, które opisują przedmioty, które można dotknąć, kopnąć, zrzucić ze stołu. „Abażur" i „lampa" na przykład. Po drugiej stronie tej osi będą rzeczy, które nie mają fizycznych właściwości – jak „wojna" – a jeszcze dalej rzeczy całkowicie abstrakcyjne – choćby „nadzieja". W takim układzie „lampa" i „abażur" będą o wiele bliżej siebie niż „amnezji". Ma to sens, prawda?

Teraz pomyśl, że nie musimy się ograniczać do jednego wymiaru. Jeśli na jednej osi umieścisz wektor „materialność" a potem dodasz do tego wektor „pozytywność" (czy słowo jest używane w pozytywnym czy negatywnym kontekście), dostaniesz dwuwymiarową przestrzeń, w której słowa układają się w „plamy". Tu zaczynają nam się już przydawać tokeny. Bo kiedy myślę, gdzie na tej osi umieściłbym słowo „burak", to jego miejsce zależy od tego, czy myślę o bulwie (neutralne) czy człowieku (negatywne).

Patrz teraz:

burak (bulwa) [1; 0] – burak dostaje jedynkę na skali „materialność" i zero (połowa skali) na wektorze „pozytywność";
burak (człowiek) [1; -1] – burak jako określenie człowieka dostaje jedynkę na skali materialności i minus jeden na skali pozytywności;
wojna [-0,7; -1] – wojna nie jest materialna, ale ma początek i koniec, więc dajmy jej minus 0,7 na skali materialności i minus jeden na skali pozytywności.

W tym podziale słowa „lampa" i „abażur" zajmowałyby bardzo podobną przestrzeń: oba są materialne i oba są neutralne. A takich wymiarów może być więcej. Na przykład:

czy słowo oznacza coś ożywionego;
czy słowo jest współczesne;
czy słowo jest slangowe;
w jakim języku jest to słowo.

Im więcej parametrów, tym więcej „wymiarów zrozumienia" model przypisuje do pojedynczego słowa i tym precyzyjniejsze są przestrzenie, w których to słowo się układa. Współczesne modele, takie jak ChatGPT używają ponad 12 tysięcy (!) parametrów do opisania znaczenia pojedynczego tokenu. To jest coś, czego nasz mózg nie jest w stanie już ogarnąć. To tak, jakby każdy po poznaniu nowego słowa zadawał dwanaście tysięcy pytań ułatwiających zrozumienie tego słowa.

Czy wiesz, że…

GPT-4 ma ponad 1,8 biliona parametrów. Gdyby każdy parametr zapisać jako jedną cyfrę na kartce papieru, stos kartek sięgnąłby z Ziemi do Księżyca — i z powrotem. A to „tylko" wagi połączeń między sztucznymi neuronami.

Tak jak tokenizacja sprawiała, że zamiast słów mamy liczby, tak wektoryzacja sprawia, że te liczby układają się w przestrzeniach. Dlatego procesory graficzne są o wiele lepsze do pracy ze sztuczną inteligencją – one zostały stworzone do obliczania rzeczy w przestrzeni. A LLM nie widzi tabeli z liczbami, widzi wielowymiarową przestrzeń wektorową.

Transformer i uwaga – na co patrzeć, żeby miało sens?

Wektoryzacja sama w sobie niczego nie rozwiązuje. Ułatwia zrozumienie, ale sens pojawia się w trzecim kroku. Model patrzy na token i zadaje sobie pytanie: z którym tokenem powinno się go połączyć szczególnie silną więzią?

To bardzo przypomina rozbiór zdania, którym męczyli Cię w szkole poloniści. Spójrz na ten przykład: „Chłopiec, którego babcia przedwczoraj kupiła motocykl marki Harley-Davidson, jedzie na wzgórze do położonej tam szkoły."

Przed pracą Attention is all you need modele do rozpracowywania języka pracowały w oparciu o sąsiedztwo słów lub słowa kluczowe. Tylko że jeśli weźmiemy słowo „jedzie" i zaczniemy się zastanawiać kto jedzie, to – biorąc pod uwagę sąsiedztwo – mamy mocnego kandydata w postaci „motocykla", wcześniej jest „babcia" a na samym początku zdania „chłopiec".

Transformery – w dużym uproszczeniu – zamieniają to zdanie za pomocą silnych połączeń pomiędzy niektórymi częściami i słabych połączeń z innymi. Transformery widzą to zdanie następująco:

Chłopiec jedzie do szkoły – pierwszy zestaw silnych połączeń, źródłem jest „chłopiec"
Babcia kupiła motocykl – drugi zestaw silnych połączeń, źródłem jest „babcia"
Motocykl jest marki Harley-Davidson – źródłem tego zestawu jest „motocykl"

I tak dalej. Nie wszystkie słowa są równie ważne, nie wszystkie połączenia są równie silne. Transformer czyta zdanie tak jak robiłby to redaktor (zwracając uwagę na znaczenie) a nie jak stenotypista (czytając wszystko po kolei). A mechanizm uwagi pozwala ignorować językowy szum, łączyć zaimki z odpowiednimi rzeczownikami czy widzieć zależności na dużą odległość.

Rozkłady prawdopodobieństwa, czyli jesteśmy gotowi do przewidywania

Mamy tokeny, mamy wektory, mamy połączenia między nimi. W tym miejscu model jest gotowy, żeby przewidzieć, co będzie dalej. Tu jedna ważna uwaga: model nie wybiera kolejnego tokenu. Model liczy rozkład prawdopodobieństwa wystąpienia takiego czy innego tokenu.

Czyli na przykład mając zdanie: „Dobra kampania reklamowa to…" ma następujące przewidziane zakończenia:

…taka, która sprzedaje (28%)
…klucz do sukcesu (15%)
…inwestycja a nie koszt (12%)
…podstawa każdego biznesu (9%)

Wszystkie powyższe zdania mają sens, więc jeśli oceniałbym działanie modelu powiedziałbym, że „rozumie" język. W przewidywanych wynikach nie pojawiają się bzdury. Natomiast jeśli chciałbym, żeby model wygenerował tekst, muszę mu powiedzieć, którą z tych opcji preferuję. Bo nie zawsze będę potrzebował najbardziej prawdopodobnej odpowiedzi.

Tu wchodzą dwa kluczowe parametry:

Temperatura reguluje „odwagę" modelu. Niska temperatura oznacza, że tekst jest poprawny, ale nudny jak regulamin sklepu internetowego. Wysoka temperatura oznacza większą kreatywność – model częściej sięga po mniej oczywiste opcje. Wada? Rośnie ryzyko generowania bzdur. Ważne: temperatura nie dodaje modelowi kreatywności. Dodaje losowości do generowanych wyników (a tę losowość my sami interpretujemy jako kreatywność).
Top-p, czyli odcięcie. Ten parametr reguluje, jak głęboko może sięgać nawet ten „odważniejszy" model. Komenda mówi dosłownie: bierz tylko tokeny z tej części rozkładu, która sumuje się do 64% (taka jest suma procentów w moich zdaniach na górze). Odetnij resztę. Im wyżej ustawiamy top-p, tym częściej model uraczy nas w rozmowie jakąś egzotyczną opcją.

Ważne: w modelach dostępnych dla przeciętnego Kowalskiego nie mamy możliwości bezpośredniego grzebania przy suwakach temperatury czy top-p. Zamiast tego ChatGPT daje nam możliwość wybrania „osobowości". Albo dostajemy modele dostosowane do konkretnych zadań. Na przykład Gemini, z którym rozmawiamy w narzędziu NotebookLM jest nastawiony na niższą temperaturę, niż standardowy Gemini. Dlaczego? Bo NotebookLM to narzędzie, które ma wyciągać wiedzę z dostarczonych materiałów i nie zmyślać a standardowy Gemini jest często używany do kreatywnych zadań.

Co z tego wynika dla promptowania?

Kiedy zrozumiemy, że LLM nie „odpowiada", tylko dopowiada ciąg dalszy tekstu, promptowanie przestaje przypominać rozmowę, a zaczyna bardziej wyglądać jak ustawianie sceny w filmie. Jeśli wrzucisz model w próżnię i zapytasz „napisz strategię marki", to zrobi dokładnie to, co robi w próżni – sięgnie po najbardziej ogólną, bezpieczną wersję „strategii marki", jaką widział tysiące razy. Gdy jednak zaczniesz od „Jesteś strategiem marki pracującym z firmą B2B, która właśnie straciła 20% leadów po zmianie pozycjonowania", nagle rozkład prawdopodobieństwa przesuwa się w zupełnie inne rejony. Model nie staje się mądrzejszy – dostaje po prostu lepszy punkt startowy.

To samo dotyczy stylu. Model nie czyta między wierszami i nie wyczuwa nastroju autora. Jeśli nie powiesz mu, że ma pisać spokojnie, analitycznie, bez coachingu i bez „dynamicznie zmieniającego się rynku", to z bardzo dużym prawdopodobieństwem właśnie tam wyląduje. To nie złośliwość, tylko statystyka – takich tekstów w danych było po prostu dużo. Ale wystarczy dodać jedno zdanie w rodzaju: „ton: rzeczowy, ironiczny w tle, zero marketingowych klisz", by model przesunął się w zupełnie inny fragment przestrzeni językowej. Nie dlatego, że zrozumiał ironię, tylko dlatego, że widział tysiące tekstów, w których takie instrukcje prowadziły do innych form.

Temperatura nie dodaje modelowi kreatywności. Dodaje losowości do generowanych wyników — a tę losowość my sami interpretujemy jako kreatywność.

Najbardziej zdradliwy moment pojawia się wtedy, gdy model czegoś nie wie. LLM nie ma naturalnego mechanizmu podnoszenia ręki i mówienia „nie mam danych". Jeśli nie ustawisz mu granic, wygeneruje odpowiedź, która brzmi wiarygodnie. Może podać nieistniejące badania, przypisać cytat niewłaściwej osobie albo zmyślić definicję, która pasuje do reszty akapitu. To nie jest kłamstwo – to czysta kontynuacja języka. Dlatego prośby w rodzaju „jeśli nie masz danych, napisz wprost" albo „podaj źródła, a jeśli ich nie znasz, zaznacz to" są jednymi z najskuteczniejszych narzędzi promptowania. Zawężają przestrzeń zgadywania.

Dobra interakcja z LLM-em wygląda mniej jak zadawanie pytań, a bardziej jak redagowanie briefu dla bardzo dosłownego, bardzo pracowitego stażysty.

W praktyce dobra interakcja z LLM-em wygląda więc mniej jak zadawanie pytań, a bardziej jak redagowanie briefu dla bardzo dosłownego, bardzo pracowitego stażysty. Trzeba mu powiedzieć, kim jest, w jakiej sytuacji się znajduje, jakim językiem ma mówić i gdzie kończą się jego kompetencje. Gdy to zrobisz, model potrafi być zaskakująco użyteczny. Gdy tego nie zrobisz – dostaniesz poprawnie brzmiący tekst, który niczym się nie różni od setek innych poprawnie brzmiących tekstów.

To nie koniec historii – tylko kolejna warstwa

Gdy spojrzeć na drogę, którą przeszła sztuczna inteligencja, łatwo zauważyć coś, co umyka w codziennym szumie newsów i premier kolejnych narzędzi. Ta historia nie jest opowieścią o nagłym przebudzeniu maszyn. Jest opowieścią o cierpliwym oswajaniu złożoności. O kolejnych próbach zapisywania fragmentów świata w formie, którą da się policzyć, przetestować i poprawić.

Od prostych neuronów jako włączników, przez reguły IF–THEN, brute force Deep Blue, algorytmy statystyczne, backpropagation, ImageNet, aż po transformery i modele multimodalne – każdy etap coś obiecywał i coś zawodził. I każdy zostawiał po sobie narzędzia, które okazywały się bezcenne później, gdy technologia wreszcie do nich dojrzała. W AI bardzo rzadko coś się naprawdę wyrzuca. Częściej trafia na półkę „za wcześnie".

Współczesne modele językowe i multimodalne nie są kulminacją tej historii. Są raczej pierwszym momentem, w którym wiele starych pomysłów zaczęło działać jednocześnie. Skala danych spotkała się z architekturą, sprzęt dogonił algorytmy, a statystyka zaczęła przypominać kompetencję. To dlatego dzisiejsza AI wygląda tak przekonująco. Nie dlatego, że rozumie świat, lecz dlatego, że widziała go w danych w niewyobrażalnej liczbie wariantów.

To rozróżnienie jest kluczowe, zwłaszcza dla ludzi marketingu. AI nie jest nowym podmiotem w zespole. Nie ma intencji, ambicji ani wizji marki. Jest za to bardzo czułym instrumentem do wychwytywania wzorców – stylów, narracji, schematów argumentacji, językowych klisz i kulturowych skrótów. Potrafi przyspieszać pracę, poszerzać pole wariantów i zdejmować z ludzi ciężar mechanicznego pisania. Ale nie zastępuje decyzji. Nie wie, po co coś robimy.

Dlatego najbardziej sensowna zmiana, jaką przynosi AI, nie dotyczy zastępowania ludzi, lecz przesuwania granicy między myśleniem a wykonywaniem. Tam, gdzie wcześniej trzeba było ręcznie generować dziesiątki wersji, dziś wystarczy dobrze opisać problem. Tam, gdzie wcześniej traciło się czas na formę, dziś można skupić się na sensie. AI nie odbiera odpowiedzialności – ona ją uwypukla.

Jeśli coś w tej historii powinno zdejmować lęk, to właśnie jej ciągłość. AI nie pojawiła się nagle i nie działa wbrew znanym prawom. Jest kolejną generacją algorytmów, które robią to, co algorytmy robią najlepiej: porządkują złożoność przez uproszczenie. Czasem aż za bardzo. I właśnie dlatego nadal potrzebują ludzi, którzy wiedzą, co jest ważne, a co tylko dobrze brzmi.

Na końcu tej drogi nie czeka sztuczny umysł. Czeka coś znacznie bardziej przyziemnego, ale i bardziej użytecznego: statystyczne echo świata, który sami stworzyliśmy w danych, tekstach, obrazach i decyzjach. Echo, które potrafi odpowiedzieć – o ile zadamy mu sensowne pytanie i wiemy, jak słuchać odpowiedzi.

Czytaj dalej

Przewodnik po sztucznej inteligencji

Historia AI to jedna z wielu ścieżek przewodnika. Dowiedz się, jak AI działa w biznesie, poznaj narzędzia, naucz się promptować i odkryj, gdzie sztuczna inteligencja naprawdę pomaga.

Kompletny przewodnik po AI — od podstaw do agentów