Хочете навчити ШІ боротися з умовами, яких він раніше не бачив? Почніть з Монополії

Дослідники з Інституту інформаційних наук Інституту інформаційних наук Школи Вітербі (ISI) співпрацюють з Університетом Пердю для участі у програмі, що фінансується в галузі оборонних дослідницьких проектів (DARPA), яка прагне розвивати науку, яка дозволить системам ШІ адаптуватися до новизни або нові умови, яких раніше не було.

Візьміть AI, який був навчений грати в стандартну гру Monopoly. Що робити, якщо змінити правила, щоб можна було придбати будинки та готелі, не отримавши попередньо монополії? Що робити, якщо гра буде закінчена через 100 оборотів, а не чекати банкрутств? Це обидві новинки, які впливатимуть на оптимальну стратегію перемоги.

І все ж, як додав Майанк Кейріваль, головний дослідник проекту та доцент із наукових досліджень у Вітербі USC, навіть сьогодні найсучасніші ШІ не готові боротися з подібними новинками.

"Незважаючи на те, що в ШІ було багато прогресу, вони дуже специфічні для завдання", — сказав Кейріваль. "Щойно ви вносите зміни, які AI не спеціально обладнані для обробки, вам потрібно повернутися і перевчити програму. Немає загального ШІ, що може адаптуватись до нових ситуацій. наука про новизну ».

"У цьому полягає значення цього проекту", — додав він. "Справа не лише в удосконаленні якогось конкретного модуля ШІ. Розвиваючи науку про новинку, ми закладаємо фундамент для майбутніх поколінь ШІ".

Програма «Наука штучного інтелекту та навчання для новизни відкритого світу» (SAIL-ON) або програма SAIL-ON розпочалася в листопаді 2019 року і триватиме до 2023 року. В кінці програми Міністерство оборони сподівається використати дослідження в широкий спектр застосувань — від автономних роботів з ліквідації наслідків катастроф і до самостійних водіння військових машин. Команді спільної роботи USC та Purdue було виділено 1,2 млн. Доларів від DARPA, і, швидше за все, отримає більше у міру продовження програми.

Деяким чином ШІ вже перевершив людські можливості. Кейрівал наводив AlphaZero як приклад — комп'ютерна програма, яка використовує машинне навчання для гри в настільні ігри, такі як шахи та Go, тепер може обіграти навіть найдосконаліших гравців людини.

На жаль, через неможливість управління новинкою, найбільш успішні програми AI, такі як AlphaZero, обмежуються завданнями з фіксованими правилами та завданнями.

Якщо ми хочемо, щоб системи AI успішно працювали в реальних умовах, нам потрібні, щоб вони обробляли речі, яких раніше не бачили, додав Кейріваль; реальний світ сповнений нових ситуацій.

"COVID-19 — ідеальний приклад новинки", — сказав Кейріваль. "Це не так, як ми навчені боротися з цим, але ми це зрозуміли і адаптували. ШІ не знав би, що робити".

Як приклад, він розповів про систему безпеки AI, метою якої було захистити інтернет-рітейлера від різних типів кібератак. Коли пандемія змусила людей панічно купувати туалетний папір у роздрібної торгівлі, AI побачила більше таких запитів, ніж будь-коли раніше. Не розуміючи впливу пандемії, система припустила, що вона атакується, і заблокувала всі дійсні запити. Зіткнувшись з цією новою ситуацією, ШІ не змогла адаптуватися.

У реальному середовищі існує нескінченно багато можливостей, сказав Кейріваль, а це означає, що ШІ не може передбачити все, що може статися. "Якщо не передбачити кожної можливості, як ви насправді навчитеся поводитися з новинкою так само, як це робить людина?" запитав він. "У цьому проекті ми хочемо встановити цілу парадигму для цього, яка наразі не існує."

Хоча програма спрямована на розробку загальних рішень для обробки новинок у багатьох сферах, кожна група обрала для тестування конкретні домени. Дослідники ISI працюють у сфері настільних ігор, зокрема Monopoly, тоді як їх колеги в Purdue зосереджуються на обміні їздою.

У контексті Монополії, як і в реальному світі, існує нескінченно багато способів впровадження новизни.

Крім згаданих раніше можливих змін правил, Кейріваль пояснив, що ви можете додати більше кісток, вибрати різні шляхи, змінити цілі гри або навіть ввести стимули для командної роботи.

"ШІ повинен пристосуватися до всього цього, і він заздалегідь не знає, які види новинок можуть статися", — сказав він.

Так само для системи AI, яка керує додатком для спільного користування, існує стільки можливих змін у режимі реального часу, що немає можливості їх врахувати окремо. Ванет Аггарвал, доцент кафедри Пердю та один із керівників проекту, розповів про важливість адаптації для ШІ в цій галузі.

"Ми хочемо, щоб алгоритми були масштабованими до різних речей, що відбуваються навколо нас", — сказав він. "Він повинен адаптуватися до різних країн, різних міст, різних правил, а також до будь-яких несподіваних подій, як перекриття доріг".

Аггарвал додав, що основна наука про новинку, розроблена в проекті, буде корисна для набагато більше, ніж просто їзди на спільний доступ або ігор. "Це було б застосовано в будь-якому місці, де прийняття рішень має відбуватися в невизначених умовах", — сказав він.

Facebook Comments