Звуки дії: Використання вух, а не лише очей, покращує сприйняття роботів

Люди рідко використовують лише одне почуття, щоб зрозуміти світ, але роботи, як правило, покладаються лише на зір і, все частіше, на дотик. Дослідники університету Карнегі Меллон виявляють, що сприйняття роботів може помітно покращитися, додавши ще один сенс: слух.

Як вони кажуть, це перше масштабне дослідження взаємодії звуку та роботизованих дій, дослідники Інституту робототехніки КМУ виявили, що звуки можуть допомогти роботові розмежувати об'єкти, такі як металева викрутка та металевий гайковий ключ. Слух також може допомогти роботам визначити, який тип дії викликав звук, і допоможе їм використовувати звуки для прогнозування фізичних властивостей нових об'єктів.

"Багато попередньої роботи в інших сферах показали, що звук може бути корисним, але не було зрозуміло, наскільки це було б корисно в робототехніці", — сказав Леррел Пінто, який нещодавно здобув ступінь доктора філософії. з робототехніки в КМУ і восени приєднається до факультету Нью-Йоркського університету. Він і його колеги визнали досить високим показник продуктивності, і роботи, які використовували звук, успішно класифікували об'єкти в 76 відсотках часу.

Результати були настільки обнадійливими, додав він, що може виявитися корисним оснастити майбутніх роботів інструментальними очеретами, що дасть їм змогу натискати на об'єкти, які вони хочуть ідентифікувати.

Свої висновки дослідники презентували минулого місяця під час віртуальної конференції з питань робототехніки. Серед інших членів команди були доцент професора робототехніки Абхінав Гупта та Дхірадж Ганді, колишній студент магістра, який зараз є науковим співробітником у піттсбурській лабораторії дослідження штучного інтелекту Facebook.

Щоб виконати своє дослідження, дослідники створили великий набір даних, одночасно записуючи відео та аудіо 60 звичайних предметів — таких, як іграшкові блоки, ручні інструменти, взуття, яблука та тенісні м’ячі — коли вони ковзали або котилися навколо лотка і врізалися в його сторони . З тих пір вони випустили цей набір даних, каталогізуючи 15 000 взаємодій, для використання іншими дослідниками.

Команда зафіксувала ці взаємодії за допомогою експериментального апарату, який вони назвали Tilt-Bot — квадратний лоток, прикріплений до руки робота Сойєра. Це був ефективний спосіб побудувати великий набір даних; вони могли розмістити предмет у лотку і дозволити Сойєру витратити кілька годин на переміщення лотка у випадкових напрямках з різним рівнем нахилу, оскільки камери та мікрофони фіксували кожну дію.

Вони також збирали деякі дані за межі лотка, використовуючи Сойєра для виштовхування предметів на поверхні.

Хоча розмір цього набору даних є безпрецедентним, інші дослідники також вивчали, як розумні агенти можуть отримувати інформацію зі звуку. Наприклад, Олівер Кроммер, доцент кафедри робототехніки, очолив дослідження використання звуку для оцінки кількості зернистих матеріалів, таких як рис або макарони, шляхом струшування контейнера або оцінки потоку цих матеріалів із совки.

Пінто сказав, що корисність звуку для роботів не дивна, хоча він і інші були здивовані тим, наскільки корисним він виявився. Наприклад, вони виявили, що робот може використовувати те, що він дізнався про звук одного набору об'єктів, щоб передбачити фізичні властивості раніше небачених об'єктів.

"Я думаю, що насправді хвилювало те, що коли він не вдасться, він зазнає невдач у тих речах, на які ви очікуєте, що він вийде з ладу", — сказав він. Наприклад, робот не міг використовувати звук, щоб визначити різницю між червоним або зеленим блоком. "Але якщо це був інший об'єкт, наприклад, блок проти чашки, це могло б з'ясувати це".

Facebook Comments