Вивчення взаємодії звуку, дії та зору в робототехніці

В останні роки дослідники розробили все більшу кількість обчислювальної техніки, щоб забезпечити людиноподібні можливості роботів. Більшість методик, розроблених до цього часу, лише зосереджуються на штучному відтворенні почуттів зору та дотику, ігноруванні інших органів чуття, таких як слухове сприйняття.

Нещодавно дослідницька група з університету Карнегі Меллона (КМУ) провела дослідження, що вивчає можливість використання звуку для розробки роботів з більш розвиненими можливостями зондування. Їхній документ, опублікований в Роботика: Наука та системи, представляє найбільший на сьогоднішній день набір даних про бачення звукових дій, який був зібраний у вигляді робототехнічної платформи під назвою Tilt-Bot і взаємодів із великою кількістю різноманітних об'єктів.

"У навчанні на роботах ми часто використовуємо лише візуальні входи для сприйняття, але люди мають більше сенсорних модальностей, ніж просто зір", — сказав для TechXplore один з дослідників, які проводили дослідження Леррель Пінто. "Звук — це ключовий компонент навчання та розуміння нашого фізичного середовища. Отже, ми задали питання: Що може звучати у нас в робототехніці? Щоб відповісти на це запитання, ми створили Tilt-Bot, робота, який може взаємодіяти з об'єктами і збирати масштабний аудіовізуальний набір даних про взаємодії ".

По суті, Tilt-Bot — це робот-лоток, який нахиляє предмети, поки не потрапив на одну зі стінок лотка. Пінто та його колеги розмістили контактні мікрофони на стінах робототехнічного лотка для запису звуків, що видаються, коли предмети вдаряються об стіну, та використовували накладну камеру, щоб візуально фіксувати рухи кожного об’єкта.

Дослідники зібрали візуальні та аудіодані для понад 15 000 взаємодій Tilt-Bot із 60 різними об'єктами. Це дозволило їм скласти новий набір даних із зображеннями та аудіо, який міг би допомогти навчити роботів робити асоціації між діями, зображеннями та звуками.

У своїй роботі Пінто та його колеги використовували цей набір даних, щоб дослідити взаємозв’язок між звуком та дією в робототехнічних програмах, зібравши ряд цікавих висновків. По-перше, вони виявили, що аналіз звукозаписів предметів, що рухаються та наносять удари, може дозволяти машинам розрізняти різні об'єкти, наприклад, розрізняти металеву викрутку та металевий гайковий ключ.

"Одним із захоплюючих попередніх результатів нашого дослідження було те, що тільки по звуку можна розпізнати тип об'єкта з точністю до 80%", — пояснив Пінто. "Ми також показали, що машина може вивчати аудіо уявлення предметів, які можуть допомогти вирішити роботизовані завдання пізніше. Наприклад, розпізнаючи звук порожнього склянки для вина, робот може зрозуміти, що для маніпулювання ним потрібні інші дії, ніж ті, це виконується під час повної келиху вина ".

Цікаво, що Пінто та його колеги показали, що звукозаписи іноді можуть надати більш цінну інформацію, ніж візуальні зображення для вирішення задач з робототехніки, оскільки вони також можуть бути використані для ефективного прогнозування майбутніх рухів об’єкта. У серії експериментів із використанням об'єктів, з якими робот не стикався під час навчання, вони виявили, що звукові вбудовування, зібрані під час взаємодії їх робота з цими об'єктами, можуть передбачати моделі вперед (тобто, як найкраще маніпулювати об'єктом у майбутньому) на 24% краще ніж пасивні візуальні вкладення.

Набір даних, складений цією групою дослідників, в кінцевому рахунку може допомогти розробити роботів, які можуть вибирати свої дії та стратегії маніпулювання об'єктами на основі як аудіозаписів, так і зображень, зібраних у їх оточенні. Пінто та його колеги зараз планують подальші дослідження, вивчаючи потенціал звукового аналізу для створення роботів з більш розвиненими можливостями.

"Ця робота є лише першим кроком до цілісної інтеграції звуку в робототехніку", — сказав Пінто. "У нашій майбутній роботі ми розглянемо більш практичні програми звучання та дії".

Facebook Comments