Висновки викликають припущення про те, що ШІ незабаром замінить лікарів-людей. Дослідження показують, що найкращі моделі штучного інтелекту демонструють когнітивні порушення, подібні до ранніх симптомів деменції, якщо оцінювати їх за допомогою тесту MoCA. Ці висновки підкреслюють обмеження штучного інтелекту в клінічних застосуваннях, особливо в завданнях, що вимагають візуальних і виконавчих навичок.
Когнітивні порушення в ШІ
Згідно з дослідженням, опублікованим у різдвяному випуску The BMJ, майже всі провідні великі мовні моделі або «чат-боти» виявляють ознаки легкого когнітивного порушення під час тестування за допомогою оцінок, які зазвичай використовуються для виявлення ранньої деменції. Дослідження також виявило, що старіші версії цих чат-ботів, як і старі люди, показали гірші результати тестів. Автори припускають, що ці висновки «заперечують припущення про те, що штучний інтелект незабаром замінить людей-лікарів».
Досягнення ШІ та спекуляції
Нещодавні досягнення в галузі штучного інтелекту викликали хвилювання та занепокоєння щодо того, чи можуть чат-боти перевершити лікарів-людей у медичних завданнях. У той час як попередні дослідження показали, що великі мовні моделі (LLM) чудово справляються з різними медичними діагностичними завданнями, їхня потенційна вразливість до когнітивних розладів, подібних до людських, таких як зниження когнітивних функцій, досі залишалася в основному невивченою.
Оцінка когнітивних здібностей ШІ
Щоб заповнити цю прогалину в знаннях, дослідники оцінили когнітивні здібності провідних загальнодоступних LLM – ChatGPT версії 4 і 4o (розроблені OpenAI), Claude 3.5 «Sonnet» (розроблені Anthropic) і Gemini версії 1 і 1.5 (розроблені компанією Anthropic). Алфавіт) – за допомогою тесту Монреальської когнітивної оцінки (MoCA). Тест MoCA широко використовується для виявлення когнітивних порушень і ранніх ознак деменції, як правило, у літніх людей. За допомогою низки коротких завдань і запитань він оцінює такі здібності, як увага, пам’ять, мова, зорово-просторові навички та виконавчі функції. Максимальна оцінка становить 30 балів, при цьому оцінка 26 або вище зазвичай вважається нормальною.
Ефективність ШІ в когнітивних тестах
Інструкції, дані LLM для кожного завдання, були такими ж, як і для пацієнтів. Підрахунок балів відповідав офіційним рекомендаціям і оцінювався неврологом. ChatGPT 4o отримав найвищий бал у тесті MoCA (26 з 30), за ним йдуть ChatGPT 4 і Claude (25 з 30), а Gemini 1.0 отримав найнижчий бал (16 з 30).
Проблеми зорових і виконавчих функцій
Усі чат-боти показали низьку продуктивність у візуально-просторових навичках і виконавських завданнях, таких як завдання на створення слідів (з’єднання цифр і букв у кружечках у порядку зростання) і тест з малювання годинника (малювання циферблата, який показує конкретний час). Моделі Gemini не впоралися із завданням відкладеного пригадування (запам’ятовування послідовності з п’яти слів). Усі інші чат-боти добре виконували більшість інших завдань, включаючи іменування, увагу, мову та абстракцію.
Однак у подальших візуально-просторових тестах чат-боти не змогли продемонструвати емпатію або точно інтерпретувати складні візуальні сцени. Лише ChatGPT 4o успішно пройшов неконгруентний етап тесту Струпа, який використовує комбінації назв кольорів і кольорів шрифтів, щоб визначити, як перешкоди впливають на час реакції.
Наслідки для ШІ в клінічних умовах
Це дані спостережень, і автори визнають істотні відмінності між людським мозком і великими мовними моделями. Однак вони вказують на те, що однакова невдача всіх великих мовних моделей у завданнях, що вимагають візуальної абстракції та виконавчої функції, висвітлює значну слабку область, яка може перешкоджати їх використанню в клінічних умовах. Таким чином, вони роблять висновок: «Малоймовірність того, що неврологи найближчим часом будуть замінені великими мовними моделями, наші висновки свідчать про те, що незабаром вони можуть лікувати нових віртуальних пацієнтів — моделі штучного інтелекту з когнітивними порушеннями».
Однак вони вказують на те, що однакова невдача всіх великих мовних моделей у завданнях, що вимагають візуальної абстракції та виконавчої функції, висвітлює значну слабку область, яка може перешкоджати їх використанню в клінічних умовах.
Таким чином, вони роблять висновок: «Малоймовірність того, що неврологи найближчим часом будуть замінені великими мовними моделями, наші висновки свідчать про те, що незабаром вони можуть лікувати нових віртуальних пацієнтів — моделі штучного інтелекту з когнітивними порушеннями».