AlphaZero, szachy i sztuczna inteligencja

Im więcej czytam na temat AlphaZero i sztucznej inteligencji, tym bardziej czuję się przerażony. Z dwóch powodów. Po pierwsze, jak ująć tak wielki temat w krótkim artykule, tak, aby był zarazem merytoryczny i zajmujący? Po drugie, jakie będą konsekwencje zastosowania sztucznej inteligencji w innych dziedzinach? Jednym słowem, po prostu nie da się przejść obojętnie wobec wydarzeń, jakie miały miejsce niedawno w siedzibie DeepMind (1) w Londynie. Wydarzeń, które w opinii wielu ekspertów, dowodzą, iż wkraczamy w nową erę postępu cywilizacyjnego.

Punktem wyjścia do całego tego zachwytu jest fakt, iż AlphaZero potrafiło w ciągu dziewięciu godzin w stopniu eksperckim opanować grę w szachy, rozgrywając w tym czasie miliony partii z sobą samym, podczas gdy człowiek doskonali swoje umiejętności szachowe od ponad 1000 lat i nadal uczy się czegoś nowego, ale też nadal popełnia błędy. Nawet arcymistrzom zdarzają się podstawki i przeoczenia wygrywających ruchów.

Co więcej, z komputerem nie mamy żadnych szans na zwycięstwo w szachy już od dawna. Smaczku jednak dodaje to, że w 2017 roku jeden z najlepszych silników szachowych, Stockfish, z którym żaden arcymistrz nie ma najmniejszych szans, poległ sromotnie w nierównej walce z AlphaGoZero, na 100 partii remisując 72 i przegrywając 28. W tym roku rozegrano kolejny mecz i znów triumf odniósł algorytm, tym razem w nowej wersji, AlphaZero.

Zadajmy sobie jednak pytanie, dlaczego rozgrywka między silnikiem szachowym a sztuczną inteligencją miałaby nas w ogóle zainteresować? Pomijając aspekt rozrywki i chwilowego zainteresowania mediów tym wydarzeniem, co tu się właściwie stało i jak duże to może mieć znaczenie dla przeciętnego mieszkańca naszej planety. Otóż okazuje się, że duże, i o tym między innymi będzie traktował ten artykuł.

DeepMind

Ale od początku. DeepMind to spółka technologiczna, założona w 2010 roku przez Demisa Hassabisa, Shane Legga i Mustafę Suleymana. Cztery lata później za pół miliarda dolarów kupuje ją Google, obecnie działający jako Alphabet. Trzeba wspomnieć, że to była bardzo nietypowa transakcja. Google posiada przecież swój własny dział sztucznej inteligencji. Przecież ich cały algorytm kryjący się za ich wyszukiwarką wykorzystuje od lat tę technologię. Mimo to zdecydowali się dokonać akwizycji spółki DeepMind, na której czele stoi nietuzinkowa postać, Demis Hassabis. W młodości był jednym z najlepszych szachistów na świecie wśród juniorów, wróżono mu wielką karierę w szachach.

Zdecydował się jednak wykorzystać swoje zdolności jako programista, najpierw pracując ponad 10 lat w branży gier komputerowych. To tam zaczął wdrażać algorytmy sztucznej inteligencji. Jego najbardziej znaną grą, jaką współtworzył, była Theme Park, która zresztą zapoczątkowała nowy nurt gier strategicznych, zwany management simulation games. Obecnie w DeepMind pracuje ponad 100 specjalistów z dziedziny sztucznej inteligencji. Trzeba przyznać, że Hassabis i jego współpracownicy postawili sobie bardzo ambitne zadanie. Mianowicie, ich celem jest w pierwszej kolejności rozwiązanie problemu inteligencji, a następnie rozwiązanie wszystkich innych problemów (w oryginale: „solve intelligence and then step two use it to solve everything else)”. Więcej na temat filozofii działania DeepMind i pobudkach Demisa Hassabisa znajdziecie w jego prezentacji:

Self-play, czyli uczenie maszynowe poprzez granie z samym sobą

Idea self-play, czyli rozgrywania przez komputer pojedynków z samym sobą, wydaje się rewolucyjna w dziedzinie sztucznej inteligencji. Takie przynajmniej wnioski można odnaleźć w większości artykułów prasowych podejmujących tę kwestię. Jednak co ciekawe, self-play wcale nie jest żadną nowością. Ba, pionier na polu sztucznej inteligencji, Arthur Samuel (2), już w 1956 roku zastosował identyczne podejście, „zmuszając” komputer (wtedy jeszcze wolny i z niewielką ilością pamięci) do rozgrywania ze sobą tysięcy partii w warcaby (3). Było to pierwsze zastosowanie uczenia maszynowego i już wtedy efekt był zaskakujący. Komputer nauczył się grać w warcaby na bardzo przyzwoitym poziomie. W 1956 roku!

Nie znaczy to jednak, że self-play w wersji zaprezentowanej przez DeepMind nie jest jednym wielkim wydarzeniem. Jak najbardziej jest.

Zanim rozwinę szerzej ten wątek, chciałbym na chwilę zatrzymać się przy ciekawym porównaniu, jakim posłużył się Nick Bostrom (4) w wykładzie na temat sztucznej inteligencji (5). Zestawiwszy ze sobą zdjęcia szympansa o imieniu Kenzi i naukowca Eda Wittena, zaczął snuć rozważania na temat tego, skąd wzięły się tak wielkie różnice, które widzimy dzisiaj między człowiekiem a innymi naczelnymi. W wyniku ewolucji, na przestrzeni ostatnich mniej 250 000 pokoleń, szympansy w znikomym stopniu rozwinęły swoje umiejętności i inteligencję. Natomiast my, ludzie, potrafimy dziś eksplorować kosmos czy skutecznie walczyć z nieuleczalnymi jeszcze niedawno chorobami. Co równie ciekawe, mimo że szympansy są znacznie od nas silniejsze fizycznie, ich los w dużej mierze zależy od człowieka. Cóż, rozwiązanie tej zagadki leży w mózgu. My posiadamy większe mózgi, posiadamy też obszary w mózgu, które u innych naczelnych nie występują.

Jednym słowem, w drodze ewolucji zmiany zachodziły bardzo wolno. Trwały kilka milionów lat i w efekcie jesteśmy teraz tacy a nie inni. Używajmy jeszcze innego, bardzo dosadnego porównania. Jeśli przyjmiemy, że wszechświat istnieje od roku, to ludzie jako gatunek zamieszkują Ziemię dopiero jedną minutę, a postęp technologiczny trwa już całe dwie sekundy! To bardzo obrazowo ukazuje, jak dużo musiało minąć czasu, zanim w wyniku ewolucji powstał homo sapiens. Dlaczego warto uważnie się wsłuchać w te argumenty i porównania? Ponieważ zastosowanie uczenia maszynowego prowadzi do sytuacji, gdy możemy przyspieszyć ewolucję! Tak, brzmi nieco górnolotnie i na wyrost, ale wydaje się całkiem możliwe.

W przypadku gier Go i szachów, AlphaZero w bardzo krótkim czasie, rozgrywając ze sobą miliony partii, potrafiło opanować jedną konkretną dziedzinę nie tylko na poziomie człowieka, lecz w zasadzie znacznie przewyższając umiejętności człowieka w każdej z tych gier. W przypadku szachów self-play trwało 9 godzin, w przypadku gry Go 34 godziny. Okazało się, że tylko tyle wystarczyło, by komputer zaczął grać lepiej niż najwięksi mistrzowie. Paradoksalnie, pisząc „najwięksi mistrzowie”, nie miałem już na myśli żadnego przedstawiciela naszego gatunku.

AlphaGoZero wygrało w grę Go z AlphaGo 100 do 0, a przypomnijmy, że AlphaGo pokonało w zeszłym roku w głośnym meczu mistrza świata, Lee Sedola, w stosunku 4 do 1. Z kolei w szachach AlphaGoZero pokonało jeden z najmocniejszych silników szachowych, Stockfisha, przetwarzając tylko 60 tysięcy pozycji na sekundę, podczas gdy Stockfish mielił aż 60 milionów pozycji w ciągu sekundy.

Dlaczego jest to tak ważne?

Bowiem po raz pierwszy w historii badań nad sztuczną inteligencją udało się stworzyć algorytm, który umożliwia komputerom zdobywanie wiedzy bez udziału człowieka.

Jeszcze niedawno szczytem możliwości sztucznej inteligencji było uczenie się na bazie danych dostarczanych przez programistów. Tym razem udało się stworzyć algorytm, który uczy się w tempie wykładniczym bez konieczności przetwarzania terabajtów danych. Najlepiej widać to na przykładzie AlphaGo i AlphaGoZero. Ten pierwszy najpierw uczył się na podstawie ogromnej bazy partii rozegranych między prawdziwymi szachistami. Dopiero później, na bazie zgromadzonej wiedzy, rozgrywał ze sobą miliony partii, doskonaląc nabyte wcześniej umiejętności.

W przypadku AlphaGoZero, i ostatnio AlphaZero, jedyne dane, jakie otrzymał program, to były zasady gry w szachy. Nic więcej. Będąc wyposażonym w tak skromne dane wejściowe, został w nim uruchomiony tryb self-play. Bez teorii debiutów, bez motywów szachowych, bez siatek matowych, bez bazy końcówek. Czyli bez wiedzy, którą człowiek akumulował przez ponad 100 lat. Mimo to po 9 godzinach grania ze sobą powstało szachowe monstrum. Supergracz.

Co dalej?

Dochodzimy do sedna sprawy. Otóż DeepMind, jak sądzi wielu obserwatorów i szachistów, nie ma w planach stworzenia jeszcze doskonalszego algorytmu do grania w szachy czy w Go. AlphaGo, a potem AlphaGoZero i AlphaZero, zostały stworzone tylko w jednym celu. Jest nim opracowanie uniwersalnego algorytmu sztucznej inteligencji, wykorzystującego ideę maszynowego uczenia się (ang. machine learning). Algorytmu uniwersalnego, czyli z możliwością zastosowania go w wielu, niespokrewnionych ze sobą branżach. To jest właśnie najciekawszy aspekt tego zagadnienia.

Jeszcze do niedawna sztuczna inteligencja znajdowała zastosowanie w bardzo wąskich specjalizacjach, a jej działanie opierało się na ogromnej ilości dostarczanych jej danych. Tutaj mamy do czynienia z inną sytuacją. Z jednej strony algorytm nie potrzebuje ogromnej ilości danych, wystarczy mu tylko zaserwować kompletny zestaw reguł i zasad obowiązujących w danej dziedzinie, a potem uruchomić tryb self-play i machine learning. Z drugiej strony, nie trzeba każdorazowo opracowywać nowego algorytmu, wystarczy jeden, uniwersalny, który można zaadaptować do nowej branży.

Nie są to jedynie plany i mrzonki. Algorytmy DeepMind są już wykorzystywane w medycynie przy diagnozowaniu schorzeń gałki ocznej (6) oraz przy tworzeniu trójwymiarowych reprezentacji protein, co może przyczynić się do opracowania lepszych leków przy takich chorobach jak Parkinson czy Alzheimer (7).

Zagrożenia i nadzieje

Sztuczna inteligencja to nie tylko jedno z największych osiągnięć ludzkości. To także gigantyczne zagrożenie. Mowa jednak o zagrożeniu, które mogłoby się pojawić, gdyby udało się w przyszłości opracować i wdrożyć tzw. Superinteligencję (8) lub tzw. Osobliwość (9). Obecnie mamy do czynienia z algorytmami sztucznej inteligencji, które są stosowane w wąskich dziedzinach. Superinteligencja byłaby jednak wszechstronna jak człowiek, a jej umiejętności i wiedza przekraczałaby wielokrotnie ludzkie możliwości.

Wbrew pozorom, według specjalistów z tej branży to wcale nie musi być odległa przyszłość. Ich zdaniem prawdopodobnie będzie to już możliwe około roku 2040. I to tylko dlatego, że hardware umożliwiający funkcjonowanie Superinteligencji powinien być dostępny około roku 2030. Czyli naukowcy mieliby całe 10 lat na wykorzystanie możliwości komputerów pod kątem algorytmów sztucznej inteligencji. Według niektórych, będzie to jednak możliwe nawet wcześniej. Mowa więc o niedalekiej przyszłości.

Co ciekawe, naukowcy z tej branży są doskonale świadomi ewentualnych zagrożeń. Największym z nich jest obawa, że sztuczna inteligencja wymknie się spod kontroli. Albo na skutek wadliwego oprogramowania, albo na skutek ludzkiego błędu, albo na skutek autonomicznych decyzji sztucznej inteligencji, które w konsekwencji okażą się groźne dla całego gatunku ludzkiego. Brzmi niewiarygodnie? Być może nie do końca, skoro już teraz zainicjowano Radę Etyki ds. Sztucznej Inteligencji (10), która ma zapobiegać niedozwolonym praktykom w tej dziedzinie. Z drugiej strony, część naukowców (11) zaproponowała wdrożenie tzw. Czerwonego Przycisku (ang. Red Button), który miałby umożliwiać ręczne wyłączenie oprogramowania działającego w oparciu o sztuczną inteligencję, gdyby zaszła taka konieczność.

Od 2012 roku branża sztucznej inteligencji zaczyna nabierać dynamicznego rozpędu. W tym czasie opracowano nowe, wydajniejsze algorytmy. A niewielka kiedyś firma, DeepMind, uzyskała dostęp do nieograniczonych zasobów serwerowych i finansowych ze strony technologicznego giganta, czyli Google. W efekcie wykorzystane sztucznej inteligencji w medycynie, fizyce i innych branżach może diametralnie i pozytywnie zmienić oblicze wielu aspektów naszej codzienności. Z drugiej strony istnieje uzasadniona obawa, że Superinteligencja może pewnego dnia wymknąć się nam spod kontroli. A może się tak stać, gdyż immanentną cechą algorytmów sztucznej inteligencji jest nieosiągalna dla ludzkiego umysłu szybkość, z jaką przyswajają nowe informacje. Uczenie odbywa się w trybie wykładniczym, co oznacza, że sprawy mogą potoczyć się szybciej, niż się można spodziewać.

Źródła i linki

(1) DeepMind – Wikipedia
https://pl.wikipedia.org/wiki/DeepMind

(2) Arthur Samuel – Wikipedia
https://en.wikipedia.org/wiki/Arthur_Samuel

(3) Notka o pierwszym projekcie uczenia maszynowego
https://www.sutori.com/item/1956-arthur-samuel-the-world-s-first-self-learning-program-machine-learning

(4) Nick Bostrom – Wikipedia
https://en.wikipedia.org/wiki/Nick_Bostrom

(5) Wykład Nicka Bostroma na konferencji TED – „What happens when our computers get smarter than we are?”
https://www.youtube.com/watch?v=MnT1xgZgkpk

(6) DeepMind i diagnozowanie schorzeń gałki ocznej
https://deepmind.com/blog/moorfields-major-milestone/

(7) DeepMind i tworzenie trójwymiarowych reprezentacji protein
https://deepmind.com/blog/alphafold/

(8) Superinteligencja
https://pl.wikipedia.org/wiki/Superinteligencja

(9) Osobliwość
https://pl.wikipedia.org/wiki/Technologiczna_osobliwo%C5%9B%C4%87

(10) Rada Etyki
https://deepmind.com/blog/why-we-launched-deepmind-ethics-society/

(11) Red Buttton
https://www.businessinsider.com/google-deepmind-develops-a-big-red-button-to-stop-dangerous-ais-causing-harm-2016-6?IR=T

Podczas pracy nad tym artykułem korzystałem też z następujących źródeł:

1. Artykuł w czasopiśmie naukowym „Nature” na temat AlphaGo autorstwa naukowców z Deep Mind:

Mastering the game of Go with deep neural networks and tree search

2. Artykuł w czasopiśmie naukowym „Nature” na temat AlphaGoZero autorstwa naukowców z Deep Mind:

Mastering the game of Go without human knowledge

3. Artykuł w czasopiśmie naukowym „Science” na temat AlphaZero autorstwa naukowców z Deep Mind:

A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play
By David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, Timothy Lillicrap, Karen Simonyan, Demis Hassabis
Science07 Dec 2018 : 1140-1144

W artykule wykorzystano darmową grafikę z serwisu AI, nowe technologie, szachy, sztuczna inteligencja , , , , , , , , ,

Wojciech Głąbiński