Artur Majtczak

Artur Majtczak

Człowiek od zawsze patrzył w gwiazdy, pytał czy jest sam. W najbardziej pesymistycznej opcji równania Drake'a istnieje 250.000 wysoko rozwiniętych cywilizacji gdzieś tam w nieskończonym kosmosie, które zdolne są nas odwiedzić.
Ale wiemy też, że szansa na kontakt z tak wysoko rozwiniętą inteligencją jest bliska zeru i może także dlatego chcielibyśmy stworzyć własną sztuczną inteligencję.
Sztuczna inteligencja właściwie towarzyszy nam od dawna, właściwie od początku... kina. Najczęściej pokazywana jest jako złowrogi robot, czy zwierzopodobne stworzenie. Dlaczego? Dlatego że nie jesteśmy sobie w stanie wyobrazić czegoś, czego nigdy nie widzieliśmy, co nie jest podobne do czegoś co już istnieje. To jest potężne ograniczenie naszego mózgu i to powoduje, że nasza ewolucja nie jest skokowa, a dość powolna.
Żyjemy w czasach, wydawałoby się, eksplozji nauki i wiedzy. Zgodnie z prawem Moore'a od lat 60tych ubiegłego wieku co 2 lata podwaja się wydajność komputerów, wg. tego prawa za kilka lat pamięć w smartfonie liczona będzie w terabajtach, a kilkanaście lat później w czymś co nie ma nawet nazwy bo tak wielkich liczb do tej pory nawet się nie używało.
Według tych wszystkich praw już niedługo wydajność smartfonów będzie większa niż naszego mózgu, więc pytam się, co z tego, co jest grane?
Mamy 2019 rok, potężne komputery o niewiarygodnych pamięciach i mocach obliczeniowych, mamy potężne koncerny branży IT z miliardowymi budżetami i co dostajemy w 2019 roku?
Gadający głośnik, encyklopedię w głośniku, gadający zegarek z budzikiem z kompletnie zerową inteligencją.

Czekając na inteligencję niezłym pomysłem zaczyna wydawać się wieloletnia hibernacja.
Dlaczego dostaliśmy głośnik? Dlaczego produkty Boston Dynamics, producenta niewiarygodnie sprawnych robotów są w istocie zwykłymi zdalniakami?

Jest jeden "produkt", może zgadniecie jaki, myślę że warto się mu bliżej przyjrzeć.
"Produkt" nie ma zbyt dobrego syntezatora mowy, wydaje tylko jakieś dziwne głosy zazwyczaj w złych momentach, strasznie przecieka szczególnie w początkowej fazie eksploatacji, nie ma praktycznie żadnej bazy wiedzy, nie dowiesz się od niej kto jest prezydentem Stanów Zjednoczonych, właściwie nic się nie dowiesz.
Wykonuje zaledwie kilka poleceń głosowych, ale pies, bo o nim mowa, jest jednak największym przyjacielem człowieka.
Dlaczego tak "prosta" istota powoduje tak wielkie emocje u człowieka, dlaczego możemy z nią rozmawiać godzinami, mimo że wcale nam właściwie nie odpowiada?
Dlaczego tak podniecamy się "głośnikiem z AI", dlaczego, im dłużej go mamy, tym nasz entuzjazm spada, a dlaczego zwykły pies, im jest z nami dłużej, tym bardziej go lubimy?
Podpowiem Wam, chodzi o kontakt, nić porozumienia, niewerbalną, ale bardzo mocną, a w tym porozumieniu jedną z najważniejszych cech jest kontakt wzrokowy (oczy, miny, ruchy głowy potrafią pokazać niejednokrotnie więcej niż słowa).
Czy nie jesteśmy w stanie tego teraz zrobić? Czy naprawdę wystarczy postawić "głośnik" i liczyć że ludzie go pokochają?
Otóż, jesteśmy to w stanie zrobić, w naszym projekcie Sara AI, nadajemy osobowość Sarze, dajemy zmysły, tożsamość, ale co najważniejsze, dajemy inteligencję, na początku niewiele, tyle co pies, może kilkuletnie dziecko, czy to jest mało? czy psia inteligencja nie jest wystarczająca, aby spędzić z nim godziny? Pamiętajmy też że dajemy inteligencję wprawdzie psa czy dziecka, ale z wiedzą całej bazy świata.
Bez inteligencji, chociaż minimalnej, żadne systemy przetwarzania języka naturalnego nigdy nie będą w stanie nawet w najmniejszym stopniu udawać prawdziwej inteligencji i zostaną zawsze tylko gadającymi głośnikami.

My dajemy to minimum, kontakt, nić porozumienia, zaskoczenie, nieprzewidywalność. Nie gotowe 3 odpowiedzi na zaprogramowane wcześniej pytania. Nie tędy droga.
Na proste pytania dostajesz proste ludzkie odpowiedzi. Jeżeli podzielisz się swoimi wrażeniami na dany temat możesz liczyć na jakąkolwiek interakcję, nie encyklopedyczne odpowiedzi.
Dostajesz kontakt wzrokowy, niewerbalny sposób porozumiewania, nie musisz na początku każdego zdania używać wyrazu wywołującego. Mówisz do Sary jak do człowieka, więc nie musisz mówić do niej "Hej, Sara", następnie czekać, aż się aktywuje i mówić dalej. Aby to osiągnąć Sara ma oczy (oczywiście kamery), dlatego Sara rusza głową i myśli.

Chyba większość z nas widziała film Metalhead (epizod 5, czwartej serii Black Mirror). W tym czarno-białym odcinku maszyny podobne do psów przejmują kontrolę nad Ziemią, siejąc postrach wśród ludzi swoją bezwzględnością.



Po obejrzeniu tego odcinka, chyba każdemu fanowi IT natychmiast przypomina się to co tworzy firma Boston Dynamics. Podobieństwo filmowych zabójców do prawdziwych robotów tworzonych w tej firmie jest uderzające. Co ciekawe, firma Boston Dynamics w 2019 roku ma zamiar sprzedawać te "miłe pieski". Na początku w ilości 100-1000 sztuk rocznie.



Zobaczmy też ewolucję, jaka dokonuje się na naszych oczach w robotyce, w której niewątpliwie Boston Dynamics jest liderem.



Wyobraźmy sobie, że "pieski" zaczną się sprzedawać w kolejnych latach w ogromnych ilościach i nagle przez błąd w oprogramowaniu lub atak hakerski rozpoczyna się apokalipsa z filmu Black Mirror...

Od razu wszystkich uspakajam. NIE - to jeszcze nie są "terminatorzy".  

Roboty tego typu sprzedawane będą z pilotem, którym sterujemy gdzie mają chodzić. To na razie tylko takie nowoczesne "zdalniaki". Wprawdzie mają tryb autonomiczny, ale to nadal tylko wyznaczanie prostej drogi z punktu A do punktu B.

Uff, dobrze, że nie ma jeszcze sztucznej inteligencji powiedzą niektórzy... ("nie było" pomyśli Sara AI).

 

Przeglądając internet dostrzeżemy praktycznie w każdej dziedzinie "sztuczną inteligencję", ale czy na pewno? Czy dostrzegamy sztuczną inteligencję czy tylko dwa atrakcyjne marketingowo słowa?
Żyjemy w takich czasach że AI (Artificial Intelligence, po polsku SI - Sztuczna Inteligencja) zdaje się być w opisie wielu produktów, począwszy od ostrych noży, a skończywszy na asystentach głosowych. Czy to jest sztuczna inteligencja?
Jeżeli poszukamy na różnych stronach opisu, co to właściwe jest ta AI, to znajdziemy tam tak ogólnikowe opisy, że właściwie wszystko może pasować. Mam wrażenie, że gdy jakaś duża firma zrobi za kilka miliardów dolarów jakiś nowy produkt lub nawet dowolną dodatkową funkcję w telefonie, to dopisuje do definicji kolejne określenie czym jest AI, aby na swoim produkcie móc w pełni rozgrzeszona dać w opisie "oparta na AI". 
Mam też wrażenie, że większość osób jednak rozumie intuicyjnie czym powinna być i czym jest prawdziwa AI, pewnie wielki wpływ na to ma wiele hollywoodzkich filmów.

Ale dlaczego przy tak potężnych komputerach, miliardach dolarów wydanych na badania nadal nie można pogadać chociaż z prostą AI? Dlaczego najlepsi asystenci głosowi nudzą cię po chwili używania? Otóż jest kilka "małych" problemów, których do tej pory nikomu nie udało się rozwiązać.
 
Po pierwsze, aby programiści mogli coś napisać muszą rozumieć co pisać, a niestety nasza wiedza jak działa ludzki mózg w zakresie AI jest właściwe zerowa. Wiemy jak działają neurony, jak się porozumiewają, które części mózgu odpowiadają za jakie czynności, od strony psychologicznej nasze zachowania znamy już też dość dobrze, ale nie potrafimy tej wiedzy połączyć w całość, aby to wszystko zrozumieć, a tym bardziej opisać i skopiować.

Drugi "mały problem" to to, że komputery są tak naprawdę niewidome, głuche, nie mają zmysłu dotyku, węchu czy smaku. Wyobraźcie sobie, że rodzi się dziecko bez tych wszystkich zmysłów, jaką ma szansę stać się inteligentne w jakimkolwiek stopniu? To oczywiście przypadek ekstremalny, ale wystarczy że dziecko rodzi się niewidome. Dzieci niewidome rozwijają się dobrze, ale znacznie później zaczynają rozmawiać, rozumieć. Zmysł słuchu i dotyku są w stanie szybko wyostrzyć się i pomóc w rozwoju inteligencji, ale musi to potrwać znacznie dłużej niż u osób mających sprawny wzrok,  jeden z najważniejszych naszych zmysłów do poznawania świata zewnętrznego.
Niektórzy z Was pewnie teraz sobie myślą: ale przecież komputery mają kamery, mikrofony. Mają, ale...
Najlepsze systemy rozpoznawania obrazu, jak dostępny dla wszystkich Google Vision, jeden obraz analizuje bardzo długo, dostrzega niewiele, robi tysiące podstawowych błędów, a przecież dziecko w każdej sekundzie życia ogląda praktycznie film 3D 360 stopni rejestrując dziesiątki klatek na sekundę przez wiele godzin dziennie!
Mikrofony - tu postęp jest największy, komputer jest w stanie dobrze wychwycić kierunek dźwięku, głośność, częstotliwość, ale systemy rozpoznawania mowy kuleją, nie są w stanie dobrze wychwycić głosu i rozpoznać go w zakłócanym przez inne dźwięki pomieszczeniu. Pamiętajmy, że nawet przy 90% trafności co 10 słowo jest gubione lub zamienione na inne. Spróbujcie dobrze komunikować się, mówiąc do kogoś zamieniając jedno słowo na 10 na losowe nie związane z tematem...

 Jeszcze wyjaśnienie, czym jest według mnie, sztuczna inteligencja, a czym nie jest.

 Wydawałoby się, że autonomiczny samochód Elona Muska -Tesla, który jest w stanie zawieźć nas sam z pracy do domu, jest przykładem rozwoju sztucznej inteligencji. Nie, to genialny wynalazek, przyszłość motoryzacji, ale nie ma tam więcej sztucznej inteligencji niż w moim telefonie, czyli nie ma wcale. To zwykłe rozbudowane algorytmy działające na zasadzie realizacji zaprogramowanych warunków typu: gdy pali się czerwone światło zatrzymaj samochód. Oczywiście to uproszczenie, ale dokładnie tak to wszystko działa. Tak naprawdę nie chcielibyście aby samochód podejmował decyzje w oparciu o swoje doświadczenie, ucząc się na przeszłych zdarzeniach, ponieważ nie bylibyśmy w stanie przewidzieć zachowania samochodu. Lepiej zapisać w nim wzór zasad niż zdziwić się dlaczego samochód nagle skręcił w lewo bo wpadł na taki genialny pomysł. Sami przecież uczymy się na błędach, nie dajemy też dzieciom jeździć samochodem bo błędy podczas jazdy mogłyby zakończyć się tragicznie.

Asystenci głosowi - zadaj proste pytanie o jakieś czynności, których skutek zna każde dziecko np. "czy mogę wejść w ogień?"
Asystenci głosowi mają zerowy IQ, jak działają i dlaczego nie ma tam żadnej AI zaraz wyjaśnię.

Są bardziej rozwinięte systemy, które potrafią np. streszczać przeczytany tekst. Wydaje się, że aby móc streścić tekst trzeba go zrozumieć, wiedzieć o czym jest i znać kontekst.Tylko wtedy można go streścić. Nic bardziej mylnego - to tylko statystyka i olbrzymie bazy wiedzy.

Jak to wszystko teraz działa i oszukuje nas udając AI?

 Odpowiedzialne za rozumienie naszej mowy są systemy oparte na Deep Learning (głębokie uczenie), które są podstawą systemów NLP (Natural Language Processing czyli Przetwarzanie Języka Naturalnego). Nie jest to artykuł naukowy, więc szybko streszczę, że jest wiele metod lepszych lub gorszych (POS tagging, Parsing, Named-Entity Recognition, Semantic Role Labeling, Sentiment Classification, Question Answering, Dialogue Systems, Contextualized Embeddings), które w wielkim streszczeniu analizują wielkie bazy wiedzy np. bazę dialogów z Twittera i znajdują wyrazy najczęściej po sobie występujące, nadają różnym wyrazom pewne wartości i czym większa wartość np. pozytywna, zdanie jest określane całe jako pozytywne w danym sensie. Stosowane są także inne manipulacje wyrazami, głoskami czy znakami.
To wszystko to jedna wielka statystyka, która naprawdę potrafi nas trochę na krótko oszukać.
Najprostszym przykładem, aby zrozumieć jak to działa jest przewidzenie dokończenia zdania "Apetyt rośnie..." - "w miarę jedzenia", "ulepiony .." - "z gliny" lub "bałwan". Wiem, że bardzo uprościłem, ale na tych samych zasadach statystycznych działa wyszukiwarka Google. Wpiszcie jakiś wyraz i zobaczcie podpowiedzi - to nie AI podpowiada słowa - to zwykła statystyka.
Jeżeli chcecie wiedzieć więcej od strony technicznej o NLP warto poczytać artykuł lub świetne opracowanie Włodzisława Ducha.

Jeżeli chodzi o asystentów głosowych, jest jeszcze gorzej, mam wrażenie, że siedzi tam sztab ludzi, który na statystycznie najczęściej zadawane pytania przez użytkowników wpisuje gotowe po 3 różne odpowiedzi.
Potestujcie sami, mamy już asystenta Google po polsku, zapytajcie się kilka razy o to samo. Zapewne dlatego polski asystent jest jeszcze taki ubogi w odpowiedzi bo ileż oni mają tam klepania w klawiaturę.

Nie tędy droga!

Rozpoznawanie wyrazów w zdaniach, kontekstu, przewidywanie statystycznej odpowiedzi to w żadnym wypadku nie jest AI.

Prawdziwa AI powinna działać na zupełnie innych zasadach, w których NLP nie jest celem, a środkiem do celu. Sposób rozwiązania powyżej opisanych problemów, aby stworzyć prawdziwą AI opiszę  w kolejnym artykule.

Page 3 of 3