Глобальні, Суспільство, Технології
ШІ не склав українське ЗНО: Результати тестування
Найбільші труднощі викликали візуально-текстові завдання. Як показали результати тестування, навіть найсучасніші моделі штучного інтелекту стикаються зі значними викликами при спробі скласти українське зовнішнє незалежне оцінювання (ЗНО).
Хоча штучний інтелект уже давно обганяє людей у швидкості обробки даних і точності обчислень, його логічне мислення та аналітичний підхід, як і раніше, залишає бажати кращого. Ба більше, ChatGPT і інші популярні моделі ШІ не склали б українського ЗНО, що є важливим показником їхньої поточної спроможності в освітньому контексті.
Як пише Dev.ua, команда українських дослідників представила ZNOVision – перший багатоформатний тест для ШІ, що перевіряє знання з 13 предметів ЗНО українською мовою. Цей комплексний тест розроблений спеціально для оцінки того, наскільки добре сучасні штучні інтелекти розуміють українську мову та специфіку освітніх програм.
До тестування залучили шість великих мовних моделей різних розробників, включаючи OpenAI, Google та Claude. Кожна з цих моделей є лідером у галузі штучного інтелекту, тому їхня продуктивність у такому тесті має велике значення для розуміння прогресу в цій сфері. Тестування українського ЗНО стало своєрідним викликом для глобальних розробників.
Бенчмарк ZNOVision складається з більш ніж 4300 питань і охоплює 12 академічних дисциплін, включаючи математику, фізику, хімію та гуманітарні науки. Важливою особливістю тесту є те, що більше половини завдань містять візуальний компонент – схеми, діаграми, малюнки, що вимагає від ШІ не лише текстового, але й візуального сприйняття інформації. Крім того, частина питань потребує логічного виведення (reasoning), а інша – точної інтерпретації інструкцій, сформульованих українською мовою, що додає складності.
Результати тесту показали, що штучному інтелекту загалом не вдалось подолати поріг у 70% правильних відповідей, який є мінімально прохідним для багатьох освітніх програм. Найкращий бал серед протестованих моделей – 67,5% у Gemini Pro від Google, за ним іде Claude 3.5 з результатом 64,3%. Натомість GPT-4o від OpenAI, який вважається однією з найпотужніших моделей, набрав лише 47%. Для порівняння, вибір навмання дав би приблизно 22%, що свідчить про те, що навіть найгірші результати ШІ все ж перевищують випадковість, але значно поступаються людським.
За словами дослідників, найбільші труднощі для ШІ викликали саме візуально-текстові завдання. Моделі часто не розпізнавали українські слова на зображеннях, плутали одиниці виміру, некоректно інтерпретували схеми або просто ігнорували частину формулювання завдання, особливо коли воно містило візуальні елементи. Це підкреслює прогалини у мультимодальних можливостях сучасних ШІ.
У спеціальному наборі VQAUA (візуальні запитання українською), який був розроблений для детальнішої перевірки мультимодальних здібностей, показники були ще нижчими: Claude показав 26,7%, а GPT-4o – 29%. Це майже вдвічі гірше, ніж середні результати для аналогічних англомовних тестів (які часто перевищують 60%+). Це яскраво демонструє слабку підтримку української мови на рівні мультимодальних представлень і обробки візуальної інформації.
Результати тестування штучного інтелекту українського ЗНО є важливим сигналом для розробників. Вони вказують на необхідність подальшого вдосконалення моделей, особливо в частині обробки багатомодальної інформації та підтримки різних мовних культур. Ці дослідження також можуть допомогти українським освітнім установам краще розуміти можливості та обмеження ШІ при його інтеграції в навчальний процес.
Нагадаємо, днями компанія Ілона Маска xAI представила четверту версію чат-бота Grok. За словами самого Маска, це “найрозумніший ШІ в історії людства”, який “докладе всіх зусиль для пошуку правди”. OpenAI цього літа обіцяє випустити нову ШІ-модель, яку буде важко відрізнити від людини. GPT-5 з’єднає в собі найкращі напрацювання попередніх ШІ-моделей. Попри ці обіцянки, результати українського ЗНО показують, що до повної імітації людського розуміння, особливо у складних україномовних контекстах, ще далеко.


