АлфаГо
Тази статия съдържа списък с ползвана литература, препоръчана литература или външни препратки, но източниците ѝ остават неясни, защото липсва конкретно посочване на източници за отделните твърдения. |
Тази статия се нуждае от вниманието на редактор с по-задълбочени познания по IT и/или го. Ако смятате, че имате необходимите знания, подобрете тази страница. |
АлфаГо е компютърна програма, разработена от дъщерната компания на Гугъл „DeepMind Technologies“ в Лондон за настолната игра го.
През октомври 2015 година АлфаГо става първата компютърна Го програма, която побеждава професионален, човешки Го играч без хандикап на цяла 19х19 дъска. През март 2016 година, тя побеждава И Седол в двубой от пет игри – първият път, в който компютърна програма побеждава професионален играч от 9-и дан без хандикап. Въпреки че печели четвъртата игра, в последната, пета игра, И се предава, завършвайки с резултат 4 на 1 в полза на АлфаГо. Поради победата си над И Седол, АлфаГо е наградена с почетен ранг, 9-и дан от Корейската бадук асоциация.
История и състезания
[редактиране | редактиране на кода]Го се счита за много по-трудно печелима от компютър, в сравнение с други игри, като например шах. Причината е много по-големият разклоняващ фактор, който прави прекалено трудна употребата на традиционните методи на изкуствения интелект като алфа-бета резитба, прекосяване на дървесна структура и евристично търсене.
Почти две десетилетия след като компютърът на IBM Deep Blue побеждава световния шампион по шахмат Гари Каспаров в мач от 1997 г., най-силните програми за го, използващи техниките на изкуствения интелект, достигат едва любителско ниво 5-и дан, и все още не могат да победят професионален го играч без хендикап. През 2012 г. софтуерната програма Дзен, работеща на клъстър, състоящ се от 4 компютъра, побеждава Масаки Tекмия (9P) два пъти в игри с по пет и четири камъка хендикап. През 2013 г. програмата Crazy Stone победи Йошино Ишида (9P) в игра с четири камъка хендикап.
Според Дейвид Силвър от АлфаГо, изследователският проект АлфаГо се е формирал около 2014 г., за да тества до каква степен изкуствена невронна мрежа може да се състезава на го, използвайки метода на дълбоко обучение. АлфаГо показва значително подобрение спрямо предходни програми за игра на го. В 500 мача срещу други съществуващи го програми, включително Crazy Stone и Дзен, АлфаГо, работещ на един компютър, печели всички освен един. В подобен двубой, АлфаГо, работещ на няколко компютъра, печели всичките 500 мача срещу други Го програми и 77% от игрите, играни срещу АлфаГо, работещи на един компютър. Версията, разпространена през октомври 2015 г., използва 1202 централни процесорни единици и 176 графични процесорни единици.
Мач срещу Фан Хуи
[редактиране | редактиране на кода]През октомври 2015 г. разпространената версия на АлфаГо побеждава европейския шампион по го Фан Хуи, професионалист 2-ри дан (от 9 възможни), с резултат пет на нула. Това е първият път, когато компютърна го програма бие професионален играч на пълен размер на борда, без хендикап. Обявяването на новината се отлага за 27 януари 2016 г., за да съвпадне с публикуването на хартия в списание „Нейчър“, описващо използваните алгоритми.
Мач срещу И Седол
[редактиране | редактиране на кода]АлфаГо играе срещу южнокорейския професионален го играч И Седол, 9-и дан, един от най-добрите го играчи към момента, с пет игри, провели се в хотел „Фор Сийзънс“ в Сеул, Южна Корея на 9, 10, 12, 13 и 15 март 2016 г. Игрите се излъчват на живо. Аджа Хуанг, член на екипа на „DeepMind“ и аматьор го играч, 6-и дан, поставя камъни на дъската от името на АлфаГо, който използва облачните сървъри на Гугъл, намиращи се в САЩ. Мачът използва китайските правила със 7,5-точкови коми и всяка страна има два часа време за мислене плюс три 60 секундни биойоми паузи. Версията на АлфаГо, играеща срещу И Седол, използва същата изчислителна мощност, която използва в мача срещу Фан Хуи.
Към датата на игрите И Седол има втория най-голям брой победи в международни турнири по го, след южнокорейския играч И Чанхо. Тъй като няма един-единствен официален метод за класиране на международните играчи на го, някои източници класират И Седол като четвъртия най-добър играч в света по това време. АлфаГо не е специално подготвена да се изправи срещу него или срещу друг конкретен играч.
Първите три игри са спечелен от АлфаГо, като И Седол се предава. Той побеждава АлфаГо в четвъртата игра, като програмата се „предава“ на 180-ия ход. В петата игра АлфаГо продължава и постига четвърта победа.
Наградата е един милион долара. След като АлфаГо побеждава в четири от петте игри и следователно турнира, наградата е дарена на различни благотворителни организации, включително и УНИЦЕФ. И Седол получава 150 000 долара за участието си във всички пет игри и допълнителни 20 000 долара за победата си в четвъртата.
Хардуер
[редактиране | редактиране на кода]Ранна версия на АлфаГо e тествана на хардуер с различен брой процесори и видео карти, работещи в асинхронен и разпределен режим. Времето за мислене върху всеки ход e 2 секунди. Получените ЕЛО рейтинги са показани долу. В мачовете с по-голямо време за ход се постигат по-високи рейтинги.
Конфигурация | Брой нишки | Брой процесори |
Брой графични карти |
ЕЛО рейтинг |
---|---|---|---|---|
Единичен | 40 | 48 | 1 | 2151 |
Единичен | 40 | 48 | 2 | 2738 |
Единичен | 40 | 48 | 4 | 2850 |
Единичен | 40 | 48 | 8 | 2890 |
Разпределен | 12 | 428 | 64 | 2937 |
Разпределен | 24 | 764 | 112 | 3079 |
Разпределен | 40 | 1202 | 176 | 3140 |
Разпределен | 64 | 1920 | 280 | 3168 |
Алгоритъм
[редактиране | редактиране на кода]От 2016 г. АлфаГо алгоритъмът използва комбинация от машинно самообучение и техники за търсене в дърво, съчетани с интензивно обучение, както от човека, така и компютъра игра. Програмата използва алгоритъма Монте Карло, като се ръководи от „стойност на мрежата“ и „политиката на мрежата“, и двете имплементирани чрез използване на дълбоко невралната мрежова технология. Много малко количество от спецификациите на играта използват пред-процесор.
Невронните връзки на системата са възбудени от човешкия опит в игрите. АлфаГо първоначално е обучена да имитира човешка игра, като се опитва да съответства на движенията на експертни играчи от записани исторически игри, с помощта на база данни на около 30 милиона ходове. След като достига определена степен на професионализъм, програмата е обучена допълнително, като е поставена да играе голям брой игри срещу други случаи на себе си, използвайки метода обучение с утвърждение на неговата игра. За да избегне „непочтителното“ губене на време на своя опонент, програмата е специално програмирана да се предаде, ако шансът ѝ за победа падне под определен праг. За мача през март 2016 срещу И Седол прагът за предаване е определен на 20%.
Стил на игра
[редактиране | редактиране на кода]Тоби Манинг, съдията на мач за АлфаГо vs. Фан Хуи, е описал стила на програмата като „консервативен“. По време на мач АлфаГо срещу И Седол, корейските коментатори възкликнаха, че целия стил на игра силно наподобява този на легендарния играч И Чанхо. Тази прилика може да се дължи на факта, че както И Чанхо, стила за игра на АлфаГо също силно благоприятства по-голяма вероятност за победа с по-малко точки над по-малката вероятност за победа с повече точки.
Мнения за победата срещу И Седол (2016)
[редактиране | редактиране на кода]Общността на изкуствения интелект
[редактиране | редактиране на кода]Победата на АлфаГо през март 2016 е голямо постижение за проучването на изкуствения интелект. Преди това го е считана за голям проблем в машинното обучение и се е очаквало да бъде извън обсега на тогавашните технологии. Повечето експерти смятат, че създаването на програма като АлфаГо ще отнеме още поне 5 години, а някои считат, че ще е нужно цяло десетилетие преди компютрите да могат да бият хора – шампиони по го. Повечето наблюдатели на мачовете в началото на 2016 г. очакват И Седол да бие АлфаГо.
С игри като дама (която е „решена“ от програмата Chinook), шах, а вече и го, спечелени от компютри, победителите в популярни настолни игри вече не могат да служат като основни постижения за изкуствения интелект, както те са свикнали. Мъри Кемпбъл от Deep Blue казва, че победата на АлфаГо e „краят на една ера ... настолните игри са свършени и е време да ги оставим зад нас“.
В сравнение с Deep Blue или с IBM Watson, основните алгоритми на АлфаГо са потенциално по-общо предназначени и може да бъдат доказателство, че научната общност отбелязва напредък към изкуствената обща интелигентност. Някои коментатори смятат, че победата на АлфаГо създава добра възможност за обществото да започне да обсъжда евентуалното бъдещо въздействие на интелигентни машини с общо предназначение. Както отбелязва предприемачът Гай Сутер, АлфаГо знае само как да играе го и не притежава общо предназначима интелигентност: „Тя не може просто да се събуди една сутрин и да реши, че иска да се научи как се използват оръжия“. През март 2016 г. изследователят на изкуствения интелект Стюарт Ръсел посочва, че „Методите на изкуствения интелект напредват много по-бързо от очакваното, което прави въпроса за дългосрочния резултат по-спешен“, като добавя, че „за да се гарантира, че все по-мощни системи с изкуствен интелект, остават изцяло под властта на човека ... има много работа за вършене“. Някои учени като Стивън Хокинг, предупреждават през май 2015, преди мачова с И Седол, че някакво бъдещо самостоятелно подобряване на изкуствения интелект, би могло да получат действителната обща интелигентност, което води до неочаквано поглъщане на изкуствения интелект; други учени не са съгласни: експертът по изкуствен интелект Жан-Габриел Ганасция вярва, че „Нещо като „здрав разум“ ... никога не може да се възпроизведе“, и казва: „Не виждам защо ще говорим за страхове. Напротив, това поражда надежди в много области, като например изследване на здравето и пространство“. Компютърният учен Ричард Сътън посочва: „Не мисля, че хората трябва да се страхуват ... но мисля, че трябва да обръщат внимание“.
Го общество
[редактиране | редактиране на кода]Го е популярна игра в Китай, Япония и Корея. Много топ играчи на го са определяли нестандартните отигравания на АлфаГо като привидно съмнителни ходове, които първоначално са объркали наблюдателите, но впоследствие придобиват смисъл. Всички, с изключение на най-добрите го играчи, изграждат стила си на игра, като имитират топ играчите. АлфаГо изглежда има изцяло оригинални ходове, които сама си създава. Тя е станала много по-силна дори в сравнение със собствения си мач от октомври 2015 година, когато за първи път в историята компютър побеждава професионален го играч без външна помощ. В деня след първата победа над И Седол, Жонг Арам, водещ Го кореспондент за един от най-големите ежедневници на Южна Корея, казва „Миналата нощ беше много тъжа... Много хора пиха алкохол...“ Корейската бадук асоциация, организацията, осъществяваща надзор върху професионалистите по го в Южна Корея, присъжда на АлфаГо почетна титла 9-и дан за представяне на творчески умения и подпомагане на развитието на играта.
Китаецът Ке Жие, 18-годишен, признат за най-добрият играч на го в света към 2016 г., първоначално претендира, че ще може да победи АлфаГо, но впоследствие отказва да играе поради опасения, че програмата „ще копира стила му“. С течение на времето и нарастване броят на мачовете, Ке Жие си променя позицията неколкократно, като посочва, че „е много вероятно да изгубя“ след анализирането на първите три мача, но си връща увереността след като АлфаГо показва пропуски в четвъртия мач.
Тоби Менинг, съдия на мача между АлфаГо и Фан Хуи, и Хажин Лий, главен секретар на Международната го федерация, заключават, че в бъдеще компютрите ще помагат на го играчите да анализират грешките си и ще подобряват уменията им.
След втората игра И Седол казва, че се чувствал „безмълвен“: „От самото начало на мача не можах да предвидя нито един ход напред. Това беше пълна победа за АлфаГо“. Той се извинява за загубите си, като след третата игра посочва: „Погрешно прецених възможностите на АлфаГо и се почувствах безпомощен“. Той подчертава, че победата на компютъра е персонално над него, а не над цялото човечество. И Седол казва, че в крайна сметка неговата загуба от компютър е била неизбежна, но посочва, че „Роботите никога няма да разберат красотата на играта по начина, по който хората я разбират.“ Той нарича своята четвърта игра (победната) „Безценна победа, която не бих заменил за нищо.“
Подобни системи
[редактиране | редактиране на кода]Facebook също работи над своя собствена система за игра на го, наречена darkforest, също базирана на комбинацията от машинно обучение и търсене в дървесна структура. Макар да е силен противник срещу други компютърни го програми, към началото на 2016 darkforest все още не е побеждавала професионален човешки играч. darkforest губи от CrazyStone и Зен и се счита за равностойна по сила на тях.
През ноември 2016 г. DeepZenGo, система, развита с подкрепата на платформата за споделяне на видео съдържание Дуанго и Токийския университет, губи с резултат 2–1 от майстора на го Чо Чикун, който държи рекорда, за най-много титли от турнири по го в Япония.
Източници
[редактиране | редактиране на кода]- deepmind.com Архив на оригинала от 2016-05-13 в Wayback Machine.
- www.bbc.com
- www.variational-bayes.org
- www.nature.com
Външни препратки
[редактиране | редактиране на кода]- Официален сайт Архив на оригинала от 2016-05-05 в Wayback Machine.