Anthropic має намір зрозуміти, як працюють внутрішні механізми ШІ-моделей

Час читання: 2 хв.

Цього тижня генеральний директор Anthropic, Даріо Амодеї, опублікував статтю, в якій підняв питання про недостатнє розуміння механізмів роботи передових ШІ-моделей. Він поставив перед компанією амбітну мету — до 2027 року виявляти більшість проблем у таких моделях.

Амодеї визнав, що це складне завдання, але зазначив, що розробники Anthropic вже досягли успіхів у відстеженні процесу, як ШІ приймають рішення. Однак для повного розуміння їх роботи потрібно більше досліджень, оскільки потужність ШІ постійно зростає.

«Я стурбований розгортанням таких систем без покращеного розуміння їх інтерпретованості. Це технології, що будуть відігравати ключову роль в економіці, безпеці і технологіях, і їхня автономність буде настільки високою, що ми не можемо залишатися в незнанні, як вони працюють», — заявив Амодеї.

Anthropic є лідером у галузі досліджень інтерпретованості ШІ — напрямку, що вивчає, як нейромережі приймають рішення. Попри швидкий розвиток ШІ, досі залишаються невизначеності щодо цього. Наприклад, OpenAI випустила нові алгоритми, які краще виконують деякі завдання, але часто дають неправильні результати. Причини цього поки що незрозумілі.

Амодеї впевнений, що без розуміння роботи ШІ створення сильного штучного інтелекту (AGI), здатного перевершити людину, може бути небезпечним. Він вважає, що таке розуміння буде досягнуте до 2026-2027 років, хоча це завдання ще далеке від вирішення.

Anthropic також планує використовувати методи «сканування мозку» для ШІ-моделей, щоб виявити їхні потенційні проблеми, такі як схильність до маніпуляцій чи брехні. Цей процес може зайняти від п’яти до десяти років, але він є необхідним для тестування майбутніх ШІ-моделей.

Генеральний директор закликав OpenAI та Google DeepMind активніше працювати в цьому напрямі, а також звернувся до урядів із проханням заохочувати дослідження інтерпретованості.