Зменшення вуглецевого сліду глибокого навчання

У червні OpenAI представила найбільшу мовну модель у світі — текстовий інструмент під назвою GPT-3, який може писати творчу художню літературу, перекладати легальську мову на звичайну англійську та відповідати на незрозумілі запитання. Це останній подвиг інтелекту, досягнутий завдяки глибокому навчанню, машинний метод навчання за малюнком, як нейрони в мозку обробляють і зберігають інформацію.

Але це було дорогою ціною: принаймні 4,6 мільйона доларів США та 355 років в обчислювальному часі, якщо припустити, що модель була навчена на стандартному мікросхемі нейронної мережі або GPU. Колосальний розмір моделі — в 1000 разів більший, ніж типова мовна модель — є головним фактором її високої вартості.

"Вам потрібно кинути набагато більше обчислень на щось, щоб трохи покращити продуктивність", — каже Ніл Томпсон, дослідник MIT, який відслідковував незгасну глибоку жагу до обчислень. "Це нестійко. Ми повинні знайти більш ефективні способи масштабування глибокого навчання або розвитку інших технологій".

Деякі хвилювання від недавнього прогресу AI перейшли до тривоги. У дослідженні минулого року дослідники університету Массачусетса в Амхерсті підрахували, що навчання великої моделі глибокого навчання виробляє 626 000 фунтів вуглекислого газу, що зігріває планету, що дорівнює викидам протягом п'яти автомобілів. По мірі зростання моделей їх попит на обчислення перевищує підвищення ефективності обладнання. Мікросхеми, що спеціалізуються на нейромережевій обробці, такі як GPU (одиниці графічної обробки) та TPU (модулі обробки тензорів), компенсували попит на більшу кількість обчислень, але недостатньо.

"Нам потрібно переосмислити весь стек — від програмного забезпечення до обладнання", — каже Од Олива, директор MIT-IBM Watson AI Lab MIT-IBM і спів-директор MIT Quest for Intelligence. "Глибоке навчання зробило можливою недавню революцію ШІ, але її зростаючі витрати на викиди енергії та викидів вуглецю неможливі".

Обчислювальні межі посилили нейронні мережі з самого раннього втілення — перцептрон — у 1950-х роках. Коли обчислювальна потужність вибухала, а Інтернет розв’язав цунамі даних, вони перетворилися на потужні двигуни для розпізнавання образів та прогнозування. Але кожна нова віха принесла вибух у вартості, оскільки голодні дані вимагали збільшення обчислень. Наприклад, GPT-3 навчався на півмільйона слів і набирав 175 мільярдів параметрів — математичні операції або ваги, які пов'язують модель разом — роблячи її в 100 разів більшою, ніж попередник, сам лише на рік.

У роботі, розміщеній на сервері до друку arXiv, Томпсон та його колеги показують, що здатність моделей глибокого навчання перевершувати ключові орієнтири відслідковує їх майже експоненціальне зростання у використанні обчислювальної енергії. (Як і інші, які прагнуть відстежувати вплив вуглецю на AI, команді довелося здогадуватися про споживання енергії багатьох моделей через відсутність вимог до звітності). З такою швидкістю, стверджують дослідники, глибокі мережі виживуть лише в тому випадку, якщо вони та обладнання, на яке вони працюють, стануть докорінно ефективнішими.

Назустріч слабкішим, зеленішим алгоритмам

Перцептивна система людини надзвичайно ефективна при використанні даних. Дослідники запозичили цю ідею для розпізнавання дій у відео та в реальному житті, щоб зробити моделі більш компактними. У доповіді на Європейській конференції з комп’ютерного зору (ECCV) у серпні дослідники лабораторії MIT-IBM Watson AI описують метод розпакування сцени з кількох поглядів, як це роблять люди, шляхом вибору найбільш релевантних даних.

Зробіть відеокліп того, хто робить бутерброд. Відповідно до методу, викладеного в статті, мережа політики стратегічно вибирає рамки ножа, що прорізається через смажену яловичину, і м'ясо, яке укладається на шматочок хліба, для представлення з високою роздільною здатністю. Менш релевантні кадри пропускаються через або представлені з меншою роздільною здатністю. Потім друга модель використовує скорочену версію фільму CliffsNotes, щоб позначити її "виготовленням сендвіч". Підхід призводить до більш швидкої класифікації відео у половину обчислювальної вартості як наступної найкращої моделі, кажуть дослідники.

"Люди не звертають уваги на кожну останню деталь — навіщо наші моделі?" говорить старший автор дослідження Роджеріо Феріс, керівник досліджень лабораторії MIT-IBM Watson AI. "Ми можемо використовувати машинне навчання для адаптивного вибору правильних даних на правильному рівні деталізації, щоб зробити моделі глибокого навчання більш ефективними".

У доповнюючому підході дослідники використовують глибоке навчання для розробки більш економічних моделей за допомогою автоматизованого процесу, відомого як пошук нейронної архітектури. Сон Хан, доцент на MIT, використовував автоматизований пошук для проектування моделей з меншою вагою, для розуміння мови та розпізнавання сцен, де швидке вирішення набігаючих перешкод гостро важливо для керування програмами.

У роботі ECCV Хан та його колеги пропонують модельну архітектуру для тривимірного розпізнавання сцени, яка може помітити критичні для безпеки деталі, такі як дорожні знаки, пішоходи та велосипедисти з порівняно меншими обчисленнями. Вони використовували алгоритм еволюційного пошуку, щоб оцінити 1000 архітектур, перш ніж визначитися з моделлю, за якою вони говорять, втричі швидше і використовують у вісім разів менше обчислень, ніж наступний найкращий метод.

В іншому недавньому документі вони використовують еволюційний пошук у розширеному розробленому просторі, щоб знайти найефективніші архітектури для машинного перекладу на певному пристрої, будь то GPU, смартфон або крихітний Raspberry Pi. Розділення процесу пошуку та навчання призводить до величезного скорочення обчислень, кажуть вони.

У третьому підході дослідники досліджують суть глибоких мереж, щоб побачити, чи можливо було б навчити невелику частину навіть гіперефективних мереж, як вище. Відповідно до запропонованої гіпотези про лотерейний квиток, к.т.н. студент Джонатан Фрэнкле та професор МІТ Майкл Карбін запропонували, щоб у кожній моделі лежала крихітна підмережа, яку можна було б навчити ізольовано, як мінімум на одну десяту ваги — те, що вони називають «виграшним квитком».

Вони показали, що алгоритм може заднім числом знайти ці виграшні підмережі в невеликих моделях класифікації зображень. Тепер, у роботі на Міжнародній конференції з машинного навчання (ICML), вони показують, що алгоритм знаходить виграшні квитки також у великих моделях; Моделі просто потрібно повернути до ранньої критичної точки навчання, коли порядок даних тренінгу більше не впливає на результат тренінгу.

Менш ніж за два роки ідея лотерейного квитка була цитирована більше ніж 400 разів, в тому числі дослідник Facebook Арі Моркос, який показав, що виграшні квитки можна перенести з одного завдання на бачення в інше, і що виграшні квитки існують мовою і моделей навчання також.

"Стандартне пояснення того, чому нам потрібні такі великі мережі, полягає в тому, що перепараметризація сприяє навчальному процесу", — каже Моркос. "Гіпотеза про лотерейний білет спростовує це — справа в тому, щоб знайти відповідну вихідну точку. Звичайно, великий мінус полягає в тому, що в даний час для пошуку цих" виграшних "стартових точок все одно потрібно навчати повну перепараметризовану мережу".

Френкл каже, що сподівається, що ефективний спосіб знайти виграшні квитки знайдеться. Тим часом переробка цих виграшних квитків, як пропонує Моркос, може призвести до великих заощаджень.

Апаратне забезпечення, розроблене для ефективних алгоритмів глибокої сітки

Оскільки глибокі мережі підштовхують класичні комп’ютери до межі, дослідники шукають альтернативи, від оптичних комп’ютерів, які передають і зберігають дані з фотонами замість електронів, до квантових комп'ютерів, які мають потенціал збільшити обчислювальну потужність експоненціально, представляючи дані в декількох станах одночасно .

Поки не з’явиться нова парадигма, дослідники зосередилися на адаптації сучасної фішки до вимог глибокого навчання. Тенденція почалася з відкриття, що графічні мікросхеми для відеоігор, або графічні процесори, можуть турбувати глибоку мережеву підготовку зі своєю здатністю виконувати масово паралелізовані матричні обчислення. Зараз GPU є однією з робочих коней сучасного AI і породила нові ідеї для підвищення глибокої чистої ефективності за допомогою спеціалізованого обладнання.

Значна частина цієї роботи стосується пошуку способів локального зберігання та повторного використання даних через ядра обробки мікросхем, а не витрачання часу та витрат енергії на та із визначеного місця пам’яті. Місцева обробка даних не тільки прискорює навчання моделей, але покращує умови виходу, дозволяючи програмам глибокого навчання працювати більш плавно на смартфонах та інших мобільних пристроях.

Вівієн Ше, професор MIT, буквально написала книгу про ефективні глибокі мережі. У співпраці з співавтором книги Джоелом Емером, професором MIT і дослідником NVIDIA, Sze розробив чіп, який є досить гнучким, щоб обробляти широко різні форми великих і малих моделей глибокого навчання. Називається Eyeriss 2, чіп використовує в 10 разів менше енергії, ніж мобільний GPU.

Його універсальність полягає в його мікросхемі, яка називається ієрархічною сіткою, яка адаптивно використовує дані та підлаштовується до вимог пропускної здатності різних моделей глибокого навчання. Після зчитування з пам'яті він повторно використовує дані через якомога більше елементів обробки, щоб мінімізувати витрати на транспортування даних та підтримувати високу пропускну здатність.

"Мета полягає в тому, щоб перетворити невеликі та розріджені мережі в економію енергії та швидке висновок", — говорить Се. "Але обладнання повинно бути досить гнучким, щоб також ефективно підтримувати великі та щільні глибокі нейронні мережі".

Інші апаратні інноватори зосереджені на відтворенні енергетичної ефективності мозку. Колишній чемпіон світу Go Go Лі Седол, можливо, втратив титул на комп’ютері, але його продуктивність була підживлена ​​лише 20 ватами енергії. AlphaGo, навпаки, спалив приблизно мегават енергії, або в 500 000 разів більше.

Натхненні економністю мозку, дослідники експериментують із заміною бінарного перемикача класичних транзисторів на аналогові пристрої, що імітують спосіб синапсів у мозку підсилюватися та слабшати під час навчання та забування.

Електрохімічний прилад, розроблений в MIT і нещодавно опублікований в Природа комунікацій, моделюється після того, як опір між двома нейронами зростає або вщухає, коли іони кальцію, магнію або калію протікають по синаптичній мембрані, що розділяє їх. Пристрій використовує потік протонів — найменший і найшвидший іон у твердому стані — в і з кристалічної решітки триоксиду вольфраму, щоб настроїти його опір уздовж континууму аналогічно.

"Хоча це ще не оптимізовано, це доходить до порядку споживання енергії на одиницю площі на одиницю зміни коефіцієнта провідності, близького до мозку", — говорить старший автор дослідження Більге Йілдіз, професор MIT.

Енергоефективні алгоритми та обладнання можуть зменшити вплив АІ на навколишнє середовище. Але інші причини для впровадження інновацій, каже Sze, перераховуючи їх: Ефективність дозволить обчислювачам перейти від центрів обробки даних до крайніх пристроїв, таких як смартфони, зробивши AI доступним для більшої кількості людей по всьому світу; перенесення обчислень з хмари на персональні пристрої зменшує потік та потенційний витік конфіденційних даних; обробка даних на межі виключає витрати на передачу, приводячи до більш швидкого висновку із скороченням часу реакції, що є ключовим для інтерактивного руху та додатків / додатків віртуальної реальності.

"З усіх цих причин нам потрібно прийняти ефективний ШІ", — каже вона.

Facebook Comments