До моделі машинного навчання, яка може міркувати про повсякденні дії

Здатність абстрактно міркувати про події, коли вони розгортаються, є визначальною рисою людського інтелекту. Ми інстинктивно знаємо, що плач і письмо є засобом спілкування, і що панда, що падає з дерева, і посадка літака — це різновиди спуску.

Організація світу в абстрактні категорії нелегко підходить до комп’ютерів, але в останні роки дослідники наблизилися, навчаючи моделям машинного навчання словам та зображенням, наповненим структурною інформацією про світ, а також те, як об’єкти, тварини та дії пов’язані. У своєму новому дослідженні на Європейській конференції з комп'ютерного зору цього місяця дослідники розкрили гібридну модель мовного бачення, яка може порівнювати та протиставляти набір динамічних подій, зафіксованих на відео, щоб дратувати концепції високого рівня, що їх з'єднують.

Їхня модель виконувала два або більше зусиль, ніж люди, у двох типах завдань візуального міркування — підбираючи відео, яке концептуально найкраще завершує набір, і підбираючи відео, яке не підходить. Показані відео, як собака гавкає і чоловік виє поруч із собакою, наприклад, модель завершила сет, вибравши плачучу дитину з набору з п’яти відео. Дослідники відтворили свої результати на двох наборах даних для навчання систем штучного інтелекту в розпізнаванні дій: Multi-Moments in Time від DeepMind і Kinetics.

"Ми показуємо, що ви можете вбудувати абстракцію в систему штучного інтелекту для виконання звичайних завдань візуального міркування, близьких до людського рівня", — говорить старший автор дослідження Оуд Оліва, старший науковий співробітник MIT, співдиректор MIT Quest for Intelligence, та директор MIT MIT-IBM Watson AI Lab. "Модель, яка може розпізнавати абстрактні події, дасть точніші, логічні прогнози та буде більш корисною для прийняття рішень".

Оскільки глибокі нейронні мережі стають експертами з розпізнавання об’єктів та дій на фотографіях та відео, дослідники прицілилися до наступної віхи: абстракції та навчальних моделей, щоб міркувати про те, що вони бачать. В одному підході дослідники об’єднали силу глибоких мереж, що відповідає шаблону, з логікою символічних програм, щоб навчити модель інтерпретувати складні взаємозв’язки об’єктів у сцені. Тут, в іншому підході, дослідники використовують капіталовкладення відносин, закладених у значеннях слів, щоб надати своїй моделі візуальних міркувань.

"Мовні подання дозволяють інтегрувати контекстну інформацію, отриману з текстових баз даних, у наші візуальні моделі", — говорить співавтор дослідження Метью Монфорт, науковий співробітник лабораторії комп'ютерних наук та штучного інтелекту MIT (CSAIL). "Такі слова, як" біг "," підйом "та" бокс ", мають спільні характеристики, які роблять їх більш тісними з поняттям" вправи ", наприклад, ніж" водіння ".

Використовуючи WordNet, базу даних значень слів, дослідники відобразили зв'язок кожної мітки класу дій у Moments and Kinetics з іншими мітками в обох наборах даних. Такі слова, як "ліплення", "різьблення" та "різання", наприклад, були пов'язані з такими поняттями вищого рівня, як "виготовлення ремесел", "виготовлення мистецтва" та "приготування їжі". Тепер, коли модель розпізнає таку діяльність, як ліплення, вона може вибрати концептуально подібні дії в наборі даних.

Цей реляційний графік абстрактних класів використовується для навчання моделі виконанню двох основних завдань. Враховуючи набір відео, модель створює числове представлення для кожного відео, яке узгоджується із поданням слів дій, показаних у відео. Потім модуль абстракції поєднує подання, згенеровані для кожного відео в наборі, щоб створити нове подання набору, яке використовується для ідентифікації абстракції, спільного для всіх відео в наборі.

Щоб побачити, як буде працювати модель у порівнянні з людьми, дослідники попросили суб'єктів-людей виконувати той самий набір завдань візуального міркування в Інтернеті. На їх подив, модель виступала так само, як і люди, у багатьох сценаріях, іноді з несподіваними результатами. Як варіант виконання поставленого завдання, після перегляду відео, на якому хтось загортає подарунок і закриває предмет стрічкою, модель запропонувала відео, на якому хтось на пляжі закопує когось іншого в пісок.

"Це фактично" охоплює ", але сильно відрізняється від візуальних особливостей інших кліпів", — говорить Каміло Фоско, докторант MIT, який є співавтором дослідження разом із докторантом Алексом Андоняном. "Концептуально це відповідає, але мені довелося про це подумати".

Обмеження моделі включають тенденцію до надмірного підкреслення деяких особливостей. В одному випадку він пропонував доповнити набір спортивних відеороликів відеозаписом дитини та м’яча, мабуть, пов’язуючи м’ячі з фізичними вправами та змаганнями.

Модель глибокого навчання, яку можна навчити більш абстрактно мислити, може бути здатною навчатись із меншою кількістю даних, стверджують дослідники. Абстракція також прокладає шлях до міркувань вищого рівня, більш схожих на людину.

"Однією з ознак людського пізнання є наша здатність описувати щось стосовно чогось іншого — порівнювати і протиставляти", — каже Оліва. "Це багатий та ефективний спосіб навчання, який з часом може призвести до моделей машинного навчання, які можуть розуміти аналогії та набагато ближче до інтелектуального спілкування з нами".

Facebook Comments