Додати свою новину Відкрити/Закрити ФільтриСкинути

Глобальні, Суспільство, Технології

ШІ не склав українське ЗНО: Результати тестування

17.07.2025Глобальні, Суспільство, Технології

Найбільші труднощі викликали візуально-текстові завдання. Як показали результати тестування, навіть найсучасніші моделі штучного інтелекту стикаються зі значними викликами при спробі скласти українське зовнішнє незалежне оцінювання (ЗНО).

ChatGPT та інші ШІ-моделі не склали українське ЗНО / колаж УНІАН, фото ua.depositphotos.com

Хоча штучний інтелект уже давно обганяє людей у швидкості обробки даних і точності обчислень, його логічне мислення та аналітичний підхід, як і раніше, залишає бажати кращого. Ба більше, ChatGPT і інші популярні моделі ШІ не склали б українського ЗНО, що є важливим показником їхньої поточної спроможності в освітньому контексті.

Як пише Dev.ua, команда українських дослідників представила ZNOVision – перший багатоформатний тест для ШІ, що перевіряє знання з 13 предметів ЗНО українською мовою. Цей комплексний тест розроблений спеціально для оцінки того, наскільки добре сучасні штучні інтелекти розуміють українську мову та специфіку освітніх програм.

До тестування залучили шість великих мовних моделей різних розробників, включаючи OpenAI, Google та Claude. Кожна з цих моделей є лідером у галузі штучного інтелекту, тому їхня продуктивність у такому тесті має велике значення для розуміння прогресу в цій сфері. Тестування українського ЗНО стало своєрідним викликом для глобальних розробників.

Бенчмарк ZNOVision складається з більш ніж 4300 питань і охоплює 12 академічних дисциплін, включаючи математику, фізику, хімію та гуманітарні науки. Важливою особливістю тесту є те, що більше половини завдань містять візуальний компонент – схеми, діаграми, малюнки, що вимагає від ШІ не лише текстового, але й візуального сприйняття інформації. Крім того, частина питань потребує логічного виведення (reasoning), а інша – точної інтерпретації інструкцій, сформульованих українською мовою, що додає складності.

Результати тесту показали, що штучному інтелекту загалом не вдалось подолати поріг у 70% правильних відповідей, який є мінімально прохідним для багатьох освітніх програм. Найкращий бал серед протестованих моделей – 67,5% у Gemini Pro від Google, за ним іде Claude 3.5 з результатом 64,3%. Натомість GPT-4o від OpenAI, який вважається однією з найпотужніших моделей, набрав лише 47%. Для порівняння, вибір навмання дав би приблизно 22%, що свідчить про те, що навіть найгірші результати ШІ все ж перевищують випадковість, але значно поступаються людським.

За словами дослідників, найбільші труднощі для ШІ викликали саме візуально-текстові завдання. Моделі часто не розпізнавали українські слова на зображеннях, плутали одиниці виміру, некоректно інтерпретували схеми або просто ігнорували частину формулювання завдання, особливо коли воно містило візуальні елементи. Це підкреслює прогалини у мультимодальних можливостях сучасних ШІ.

У спеціальному наборі VQAUA (візуальні запитання українською), який був розроблений для детальнішої перевірки мультимодальних здібностей, показники були ще нижчими: Claude показав 26,7%, а GPT-4o – 29%. Це майже вдвічі гірше, ніж середні результати для аналогічних англомовних тестів (які часто перевищують 60%+). Це яскраво демонструє слабку підтримку української мови на рівні мультимодальних представлень і обробки візуальної інформації.

Читайте також:

Штучний інтелект уже змінює світ, але ми цього не помічаємо, - Axios

Учені почали ховати у своїх статтях промпти для ChatGPT, щоб ШІ хвалив їхні роботи

Результати тестування штучного інтелекту українського ЗНО є важливим сигналом для розробників. Вони вказують на необхідність подальшого вдосконалення моделей, особливо в частині обробки багатомодальної інформації та підтримки різних мовних культур. Ці дослідження також можуть допомогти українським освітнім установам краще розуміти можливості та обмеження ШІ при його інтеграції в навчальний процес.

Нагадаємо, днями компанія Ілона Маска xAI представила четверту версію чат-бота Grok. За словами самого Маска, це “найрозумніший ШІ в історії людства”, який “докладе всіх зусиль для пошуку правди”. OpenAI цього літа обіцяє випустити нову ШІ-модель, яку буде важко відрізнити від людини. GPT-5 з’єднає в собі найкращі напрацювання попередніх ШІ-моделей. Попри ці обіцянки, результати українського ЗНО показують, що до повної імітації людського розуміння, особливо у складних україномовних контекстах, ще далеко.

9-20 Гаряча лінія Олександра Поворознюка 068 802 3551

П

РАВДОРУБ

Глобальні, Суспільство, Технології

ШІ не склав українське ЗНО: Результати тестування

Вас також можуть зацікавити новини:

Зареєструватися, щоб коментувати

Глобальні, Суспільство, Технології

ШІ не склав українське ЗНО: Результати тестування

Вас також можуть зацікавити новини:

Увійти, щоб коментувати

Зареєструватися, щоб коментувати

Відбій тривоги: Офіційне повідомлення!

Творчість та Внутрішня Сила: Гармонія через Мистецтво

Новорічний стіл 2024: Ціни, меню та економія