Інструмент перетворює фотографії всесвітньої пам’ятки у 4-денний досвід

Використовуючи загальнодоступні туристичні фотографії світових визначних пам'яток, таких як Фонтан Треві в Римі або Вершина скелі в Нью-Йорку, дослідники Корнелла розробили метод створення маневрених тривимірних зображень, які демонструють зміни зовнішнього вигляду з часом.

Метод, який використовує глибоке навчання для поглинання та синтезування десятків тисяч в основному нетазованих і недатованих фотографій, вирішує проблему, яка протягом шести десятиліть ухиляється від фахівців з комп’ютерного зору.

"Це новий спосіб моделювання сцен, який не тільки дозволяє рухати головою і бачити, скажімо, фонтан з різних точок зору, але і дає вам контроль за зміною часу", — сказав Ной Снейлі, доцент кафедри інформатики Корнелла Технолог і старший автор "Натовпу функціонування пленоптичної функції", представленої на Європейській конференції з питань комп’ютерного бачення, що відбулася 23-28 серпня.

"Якби ви справді їхали до фонтану Треві у відпустку, то, як це виглядатиме, залежатиме від того, в який час ви їдете — вночі він буде освітлений прожекторами знизу. Вдень він буде освітлений сонцем, якщо тільки ти пішов у похмурий день, — сказав Снейлі. "Ми дізналися весь спектр виступів, виходячи з часу доби та погоди, з цих неорганізованих колекцій фотографій, щоб можна було вивчити весь діапазон і одночасно переміщатися по сцені".

Представлення місця фотореалістичним способом є складним завданням для традиційного комп’ютерного зору, частково через велику кількість текстур, що відтворюються. "Реальний світ настільки різноманітний за своїм зовнішнім виглядом і має різні види матеріалів — блискучі речі, воду, тонкі структури", — сказав Снейлі.

Ще одна проблема — невідповідність наявних даних. Опис того, як щось виглядає з усієї можливої ​​точки зору в просторі та часі — відомий як пленоптична функція — було б керованим завданням із сотнями веб-камер, встановлених навколо сцени, записуючи дані день і ніч. Але оскільки це не практично, дослідникам довелося розробити спосіб компенсації.

"Можливо, у наборі даних не буде фотографії, зробленої о 16:00 з цієї точної точки зору. Отже, ми маємо вчитися на фотографії, зробленій о 21 годині в одному місці, а також про фотографії, зробленій о 4:03 з іншого місця", — Snavely сказав. "І ми не знаємо детальності, коли ці фотографії були зроблені. Але за допомогою глибокого вивчення ми можемо зробити висновок про те, як виглядала би сцена в будь-який час і місце".

Дослідники представили нове зображення сцени під назвою Deep Multiplane Images, щоб інтерполювати зовнішній вигляд у чотирьох вимірах — 3-D, плюс зміни з часом. Їх метод частково натхненний класичною анімаційною технікою, розробленою компанією Walt Disney в 1930-х роках, яка використовує шари прозорості для створення тривимірного ефекту, не перемальовуючи кожен аспект сцени.

"Ми використовуємо ту саму ідею, придуману для створення тривимірних ефектів у 2-D анімації для створення тривимірних ефектів на сценах реального світу, для створення цього глибокого багатошарового зображення, підлаштовуючи його під усі ці нерівномірні вимірювання з фотографій туристів, — сказав Снейлі. "Цікаво, що вона походить від цієї дуже старої, класичної техніки, яка використовується в анімації".

У ході дослідження вони показали, що цю модель можна навчити створювати сцену, використовуючи близько 50 000 публічно доступних зображень, знайдених на таких сайтах, як Flickr та Instagram. Метод має наслідки для вивчення комп’ютерного зору, а також для віртуального туризму — особливо корисний у той час, коли мало хто може подорожувати особисто.

"Ви можете отримати відчуття того, що ви справді перебуваєте там", — сказав Снейлі. "Це працює напрочуд добре для різних сцен".

Facebook Comments