Моделі o3 і o4-mini потужні та… схильні до помилок

Нові мовні моделі OpenAI - o3 і o4-mini - демонструють парадоксальне поєднання підвищеної продуктивності з погіршенням точності інформації, що викликає занепокоєння серед дослідників штучного інтелекту.

by @tapati2528
Несподіваний зворот у розвитку технологій
OpenAI представила свої нові мовні моделі штучного інтелекту o3 і o4-mini цього тижня. Моделі продемонстрували значне покращення в математичних обчисленнях та програмуванні. Проте вони частіше генерують недостовірну інформацію порівняно з попередніми версіями. Ця тенденція суперечить усталеному шляху розвитку штучного інтелекту, де кожна нова версія зазвичай ставала надійнішою.

Згідно з офіційним звітом компанії, внутрішні тести виявили тривожну статистику. У тесті PersonQA, що оцінює знання про людей, модель o3 надавала неправдиві відповіді у 33% випадків. Це майже вдвічі більше порівняно з моделлю o1 (16%) та o3-mini (14,8%). Ситуація з моделлю o4-mini ще гірша – вона помилялася у 48% випадків.
Прояви "галюцинацій" у штучному інтелекті
Незалежний тест Transluce виявив, що модель o3 вигадувала дії, які вона фізично не могла виконувати. Наприклад, вона стверджувала, що запускала код на MacBook Pro поза межами ChatGPT. Також моделі часто додають у код посилання на неіснуючі веб-сайти та ресурси. Такі "галюцинації" — термін, що використовується для опису генерації недостовірної інформації штучним інтелектом — робить нові моделі менш корисними для практичного застосування.

"Необхідні додаткові дослідження",

– зазначається у звіті OpenAI щодо причин збільшення кількості помилок. Компанія припускає, що одним із можливих чинників є використовуваний тип навчання з підкріпленням. У минулому цей метод допомагав зменшувати кількість галюцинацій, але з серією "o" ситуація могла змінитися у протилежний бік.
Пошук рішень проблеми недостовірності
Підключення моделей до інтернету може стати одним із потенційних способів зниження кількості галюцинацій. GPT-4o, що має доступ до веб-пошуку, продемонструвала 90% точних відповідей у тесті SimpleQA. Це значно кращий показник порівняно з автономними моделями. Усунення галюцинацій залишається пріоритетним напрямком досліджень компанії OpenAI.

Незважаючи на покращену продуктивність у програмуванні та логічних завданнях, проблема достовірності інформації ставить під сумнів практичну цінність нових моделей. Експерти галузі відзначають, що підвищення потужності за рахунок точності може бути небезпечним трендом у розвитку штучного інтелекту. Баланс між інноваціями та надійністю залишається ключовим викликом для розробників.

Джерело: Cikavosti.com