Армія просуває можливості навчання безпілотників

Армійські дослідники розробили підхід для посилення навчання, який дозволить роям безпілотних літальних та наземних апаратів оптимально виконувати різні завдання, мінімізуючи невизначеність виконання.

Рой — метод операцій, коли кілька автономних систем виступають як згуртований підрозділ, активно координуючи свої дії.

Армійські дослідники заявили, що майбутні багатодоменні бої потребуватимуть роїв динамічно з'єднаних, скоординованих неоднорідних мобільних платформ для перевиконання можливостей противника та загроз, спрямованих на американські сили.

Армія шукає нові технології, щоб виконувати трудомісткі або небезпечні завдання, — сказав доктор Джемін Джордж із дослідницької лабораторії розвитку військових командувань США.

"Пошук оптимальної політики керівництва для цих ройових транспортних засобів в режимі реального часу є ключовою вимогою для підвищення тактичної поінформованості військових, що дозволяє американській армії домінувати у суперечливих умовах", — сказав Джордж.

Навчання підсилення забезпечує спосіб оптимального контролю невизначених агентів для досягнення багатоцільових цілей, коли точна модель агента недоступна; однак існуючі схеми навчального підкріплення можуть застосовуватися лише централізовано, що вимагає об'єднання інформації про стан цілого рою у центрального учня. Це різко збільшує складність обчислювальної техніки та вимоги до спілкування, що призводить до необґрунтованого часу на навчання, зазначив Джордж.

Щоб вирішити цю проблему, Джордж у співпраці з проф. Аранією Чакраборті з Державного університету Північної Кароліни та професором Хе Баєм з Державного університету штату Оклахома Джордж створив дослідницькі зусилля для вирішення широкомасштабної навчальної проблеми з підсиленням багатьох агентів. Армія фінансувала ці зусилля за допомогою директора Наукова премія за зовнішню спільну ініціативу, лабораторну програму стимулювання та підтримки нових та інноваційних досліджень у співпраці із зовнішніми партнерами.

Основна мета цих зусиль — розробити теоретичну основу для управління оптимальним керуванням даними для широкомасштабних ройових мереж, де керуючі дії будуть вживатися на основі низькомірних даних вимірювань замість динамічних моделей.

Сучасний підхід називається ієрархічним навчальним підкріпленням або HRL, і він розкладає цілі глобального управління на кілька ієрархій, а саме: багаторазове мікроскопічне управління на малому рівні та широке макроскопічне управління на рівні рою.

"Кожна ієрархія має свій цикл навчання з відповідними локальними та глобальними функціями винагороди", — сказав Джордж. "Ми змогли значно скоротити час навчання, запустивши ці петлі навчання паралельно."

За словами Джорджа, управління навчанням в Інтернеті через рій зводиться до вирішення масштабного рівняння алгебраїчної матриці Ріккаті за допомогою системних даних або рою вхідно-вихідних даних.

Первісний підхід дослідників до розв'язання цього масштабного матричного рівняння Ріккаті полягав у тому, щоб розділити рій на кілька менших груп та паралельно реалізувати навчання на місцевому рівні підкріплення на рівні групи, одночасно виконуючи глобальне навчання підкріплення на менший розмірний стислий стан від кожної групи.

Їх нинішня схема HRL використовує механізм розв'язування, який дозволяє команді ієрархічно наближати рішення до масштабного матричного рівняння, спочатку вирішуючи локальну задачу навчання підкріплення, а потім синтезуючи глобальний контроль з локальних контролерів (шляхом вирішення проблеми мінімум квадратів). управління глобальним навчанням підкріплення на агрегованому стані. Це ще більше скорочує час навчання.

Експерименти показали, що порівняно з централізованим підходом HRL змогла скоротити час навчання на 80%, обмеживши при цьому втрату оптимальності на 5%.

"Наші нинішні зусилля HRL дозволять нам розробити політику контролю над роями безпілотних літальних і наземних транспортних засобів, щоб вони могли оптимально виконувати різні завдання місії, навіть якщо індивідуальна динаміка для ройових агентів невідома", — сказав Джордж.

Джордж заявив, що впевнений, що це дослідження вплине на майбутнє поле битви, і це стало можливим завдяки інноваційній співпраці, яка відбулася.

"Основна мета науково-технічного співтовариства ARL — створення та використання наукових знань для трансформаційного перебігу", — сказав Джордж. "Залучаючи зовнішні дослідження за допомогою ІСІ та інших механізмів спільної роботи, ми сподіваємося провести зривні фундаментальні дослідження, які призведуть до модернізації армії, слугуючи основним спільним співробітництвом армії зі світовим науковим співтовариством".

В даний час команда працює над подальшим вдосконаленням схеми контролю за HRL, розглядаючи оптимальне групування агентів у рої, щоб мінімізувати обчислення та складність зв'язку, обмежуючи розрив оптимальності.

Вони також досліджують використання глибоких періодичних нейронних мереж для вивчення та прогнозування найкращих моделей групування та застосування розроблених методик оптимальної координації автономних повітряних та наземних транспортних засобів у багатодоменних операціях у щільній міській місцевості.

Джордж, разом з партнерами ECI, нещодавно організував та очолив запрошену віртуальну сесію з питань багатоагентного зміцнення навчання на Американській конференції з контролю 2020, де вони представили свої результати досліджень.

Facebook Comments