User:VQuakr/Алфа - Го

АлфаГо е компютърна програма разработена от Гугъл „DeepMind“ в Лондон за да играе настолната игра Го. През октомври 2015 година, тя стана първата компютърна Го програма която победи професионален, човешки Го играч без хандикап на цяла 19х19 дъска. През март 2016 година, тя победи Лий Седол в двубой от пет игри, първия път компютърна Го програма побеждава 9- ти дан професионален играч без хандикап. Въпреки че изгуби четвъртата игра от Лий, Лий се предаде в последната игра, завършвайки с резултат 4 на 1 в полза на АлфаГо. Поради победата си на Лий Седол, АлфаГо беше наградена с почетен ранг, 9- ти дан от Корейската Бадук Асоциация.

История и състезания
Go се счита за много по-трудно печелим от компютър, в сравнение с други игри като например шах. Причината е много по-голeмия разклоняващ фактор, който прави прекалено трудна употрбата на традиционните методи AI като Алфа-бета резитба, Tree traversal и евристично търсене. [2] [5 ]

Почти две десетилетия след като компютърът на IBM Deep Blue победи световния шампион по шахмат Гари Каспаров в мача през 1997 г., най-силните програми Go, използващи техниките на изкуствен интелект, достигнаха едва любителско ниво 5-ти дан, [6] и все още не можеха да победят професионален Go играч без хендикап. [2] [3] [7] През 2012 г., софтуерната програма Zen, работещa на кластър състоящ се от 4 PC, победи Масаки Takemiya (9P) два пъти в игри с по пет и четири камъка хендикап. [8] През 2013 г., Crazy Stone победи Yoshio Ишида (9P) в игра с четири камъка хендикап. [9]

Според Дейвид Silver от AlphaGo, изследователския проект AlphaGo се е формирал около 2014 за да се тества до каква степен невронна мрежа може да се състезава на Go, използвайки “Дийп Лърнинг”. [10] AlphaGo показва значително подобрение при сравнение с предишните програми Go. В 500 мача срещу други налични програми Go, включително Crazy Stone и Дзен, [11] AlphaGo работещ на един компютър, печели всички освен един. [12] В подобен двубой, AlphaGo работещ на няколко компютъра, печели всичките 500 мача срещу други Go програми и 77% от игрите играни срещу AlphaGo работещи на един компютър. Разпространената версия през октомври 2015 г. използва 1202 централни процесорни единици и 176 графични процесорни единици. [6]

Мач срещу Фан Хуи
През октомври 2015 г., разпространената версия на AlphaGo победи Европейския Go шампион Fan Хуей, [13]професионалист 2 дан (от 9 възможни), пет на нула. [3] [14] Това е първият път, когато компютърна Gо програма бие професионален играч на пълен размер на борда, без хендикап. [15] Обявяването на новината се отлага за 27-ми януари 2016, за да съвпадне с публикуването на хартия в списание Nature [6], описващо използваните алгоритми. [3]

Мач срещу Лий Седол
АлфаГо игра срещу южнокорейския професионален Го играч Лий Седол, класиран като девети дан, един от най- добрите Го играчи, с пет игри провеждащи се в хотел „Пет Сезона“ в Сеул, Южна Корея на 9- ти, 10- ти, 12- ти, 13- ти и 15- ти март 2016, които се излъчваха на живо. Аджа Хуанг, член на екипа на „DeepMind“ и шести дан аматьор Го играч, поставяше камъни на дъската за АлфаГо, който използва облачните сървъри на Гугъл, намиращи се в САЩ. Мачът използваше китайските правила с 7,5- точкови коми и всяка страна имаше два часа време за мислене плюс три 60 секунди буоуоми периода. Версията на АлфаГо играеща срещу Лий Седол използва същата изчислителна мощност, която използва в мача срещу Фан Хуи. По време на играта, Лий Седол имаше втория най- голям брой победи в международни Го турнири. Въпреки че, няма един единствен официален метод за класиране на международен Го, някои източници класират Лий Седол като четвъртия най- добър играч в света по това време. АлфаГо не беше специално подготвен да се изправи срещу Лий. Първите три игри бяха спечелен от АлфаГо чрез оставка на Лий Седол. Въпреки това, Лий Седол победи АлфаГо в четвъртата игра, печелейки чрез оставка на 180- ти ход. АлфаГо след това продължи и постигна четвърта победа, побеждавайки в петата игра чрез оставка. Наградата беше един милион долара. След като АлфаГо победи в четири от петте игри и следователно турнира, наградата ще бъде дарена на различни благотворителни организации, включително и УНИЦЕФ. Лий Седол поучи 150 000 долара за участието си във всички пет игри и допълнителни 20 000 долара за победата си.

Хардуер
Ранна версия на АлфаГо беше тествана на хардуер с различен брой процесори и видео карти, работещи в асинхронен и разпределен режим. Времето позволено за мислене върху всеки ход беше 2 секунди. Получените ЕЛО рейтинги са показани отдолу. В мачовете с по- голямо време за ход се постигат по- големи рейтинги.

Алгоритъм
От 2016 г. AlphaGo алгоритъм използва комбинация от машинно обучение и техники за търсене в дърво, съчетани с интензивно обучение, както от човека така и компютъра игра. Той използва алгоритъма Монте Карло, като се ръководи от "стойност на мрежата" и "политиката на мрежата", и двете са имплементирани чрез използване на дълбоко невралната мрежова технология. Много малко количество от спецификациите на играта използват пред - процесор. Невронните връзки на системата бяха възбудени от човешкият опит в игрите. „AlphaGo” първоначално бе обучен да имитират човешка игра, като се опитва да съответства на движенията на експертни играчи от записани исторически игри, с помощта на база данни на около 30 милиона ходове. След като достигне определена степен на професионализъм, той е бил обучен допълнително, като е поставен да играе голям брой игри срещу други случаи на себе си, използвайки укрепващо обучение за подобряване на неговата игра. За да избегне „непочтителното" губене на време на своят опонент, програмата е специално програмирана да се предаде, ако шанса и за вероятна победа падне под определен праг. За мача през Март 2016 срещу Лий, прагът за предаване бе определен на 20%.

Стил на игра
Тоби Манинг, съдията на мач за AlphaGo vs. Fan Hui, е описал стила на програмата като "консервативен". По време на мач AlphaGo срещу Лий Sedol, корейските коментатори възкликнаха, че целия стил на игра силно наподобява този на легендарния играч Лий Changho.Тази прилика може да се дължи на факта, че както Lee Changho, стила за игра на AlphaGo също силно благоприятства по-голяма вероятност за победа с по-малко точки над по-малката вероятност за победа с повече точки.

Общността на изкуственият интелект
Победата на „AlphaGo“ през Март 2016 беше голямо постижение за проучването на изкуственият интелект. “GO” преди се е считала за голям проблем в обучението на машина заради което се е очаквало да бъде извън обсега на днешните технологии. Повечето експерти смятали програмата „Go” за много голяма, която е на разстояние пет години, други смятали, че ще отнеме поне още едно десетилетие преди компютри да могат да бият „Go” шампиони. Повечето наблюдатели на мачовете в началото на 2016г. Очаквали Lee да бие „AlphaGo”. Със игри като „Дама“(която е била кръстена от програмата „Chinook”),“Шах“, и сега „GO” спечелени от компютри, победителите в популярни настолни игри вече не могат да служат като основни постижения за изкуственият интелект, както те са свикнали. Мъри Къмбел от „Deep Blue” казал, че победата на „AlphaGo” e “края на една ера ... настолните игри са свършени и е време да ги оставим зад нас. В сравнение с „Deep Blue” или с „Watson”, основните алгоритми на „AlphaGo” са потенциално по-общо предназначени и може да бъде доказателство, че научната общност отбелязва напредък към изкуствената обща интелигентност. Някои коментатори смятат победата на „AlphaGo”, създава добра възможност за обществото да започне да обсъжда за евентуалното бъдещо въздействие на интелигентни машини с общо предназначение. Както беше отбелязано от предприемач Гай Сутер, „AlphaGo“ знае само как да играе „Go“, и не притежава общо предназначима интелигентност: „Тя не може просто да се събуди една сутрин и да реши, че иска да се научи как се използват оръжия". През Март 2016, изледователят на изкуственият интелект Стюар Ръсел посочва, че „Методите на изкуственият интелект напредват много по-бързо от очакваното, което повдига въпроса за дългосрочния резултат по-спешен“, като добави, че "за да се гарантира, че все по-мощни системи с изкуствен интелект, остават изцяло под властта на човека ... има много работа за вършене.". Някои учени като Стивън Хокинг, предупредиха(през Май 2015, преди мачовете), че някакво бъдещо самостоятелно подобряване на изкуственият интелект, биха могли да получат действителната обща интелигентност, което води до неочакванo поглъщане на изкуственият интелект; други учени не са съгласни: експертът по изкуствен интелект Жан-Габриел Ганасция вярва, че „Неща като" здрав разум "... никога не може да се възпроизведе“, и казва: “Аз не виждам защо ние ще говорим за страхове. Напротив, това поражда надежди в много области, като например изследване на здравето и пространство.". Компютърният учен Ричард Сутон „Не мисля, че хората трябва да се страхуват ... но аз мисля, че хората трябва да обръщат внимание“.

Go общество
Go е популярна игра в Китай, Япония и Корея, като мачовете през 2016та година са гледани от може би сто милиона души по целия свят. Много топ играчи на Go са определяли нестандартните отигравания на AlphaGo, като привидно съмнителни ходове, които първоначално са объркали наблюдателите, но в последствие придобили смисъл. Всички, с изключение на най- добрите Go играчи, изграждат стила си на игра, като имитират топ играчите. AlphaGo изглежда има изцяло оригинални ходове, които сама си създава. Тя е станала много по- силна, дори в сравнение със собствения си мач от октомври, 2015та година, когато компютър побеждава професионален Go играч за първи път в историята, без чужда помощ. В деня след първата победа над Лий, Жонг Еръм, водещ Go кореспондент за един от най- големите ежедневници на Южна Корея, казва "Миналата нощ беше много тъжа...много хора пиха алкохол...Корейската Baduk Асоциация, организация, изпълняваща надзор върху професионалистите по Go в Южна Корея, присъди на AlphaGo почетна титла 9ти дан за представяне на творчески умения и подпомагане за развитието на играта. Китаецът Ке Жие, 18-годишен, познат, като най- добрият Go играч в света, първоначално претендира, че ще може да победи AlphaGo, но в последствие отказва да играе с него от страх, че "ще му копира стила". С течение на времето и нарастване броят на мачовете, Ке Жие си променя позицията неколкократно, като посочва, че "е много вероятно да изгубя(евентуално)" след анализирането на първите три мача, но си връща увереността след като AlphaGo показва пропуски в четвъртия мач. Тоби Менинг, съдия на мача между AlphaGo и Фан Хуи, и Хажин Лий, главен секретар на Международната Go Федерация са заключили, че в бъдеще компютрите ще помагат на Go играчите да научават какви грешки са допуснали в игрите и ще подобряват уменията им. След втората игра Лий казва, че се чувства "безмълвен". "От самото начало на мача не можах да предвидя нито един ход напред. Това беше пълна победа за AlphaGo". Лий се извини за загубите си, като посочи след третата игра "Погрешно прецених възможностите на AlphaGo и се почуствах безпомощен" Той подчерта, че победата на компютъра е персонално над него (Лий-Си-Дол), а не над цялото човечество. Лий каза, че неговата евентуална загуба от компютър е била неизбежна, но посочи, че "Роботите никога няма да разберат красотата на играта по начина, по който хората я разбират." Лий нарича своята четвърта игра (победната) "Безценна победа, която не бих заменил за нищо."

Подобни системи
Facebook също работи над тяхна собствена Go-игрална система darkforest, също базирана на комбинацията от машинно обучение и търсене в дървесна структура. Макар да е силен противник срещу други компютърни Go програми, както в началото на 2016, тя все още не е побеждавала професионален човешки играч. darkforest загуби от CrazyStone и Zen и е прогнозирано, че е със същата сила, като тях. На първи март, "Deep Zen Go Project" бе анонсиран между разработчиците на компютърната Go програма Zen (Йохи Охима, Хидеки Като), телекомуникационната и медийна компания Dwango и екипът за задълбочени изследвания към Токийския университет (разработчиците на Ponanza- shogi Al, което победи всички хора- професионални играчи). Японската Go асоциация също обеща своята подкрепа. Тяхната цел е да победят AlphaGo в рамките на 6 месеца до 1 година.