👥 Команда дослідників представила BrainBench, бенчмарк для порівняння ефективності LLM та людей-нейробіологів у прогнозуванні результатів нейронаукових досліджень.
BrainBench об'єднує набір реальних анотацій досліджень з модифікованими версіями, у яких методи та умови залишаються незмінними, а от остаточні результати змінюються на правдоподібні, але все ж хибні висновки.
👉 15 мовних моделей та 171 експерт взяли участь у тестуванні, протягом якого намагалися відібрати саме реальні анотації.
Як не дивно, машини значно перевершили людей, досягнувши 81% точності (63% в середньому у нейробіологів).
Це підкреслює потенціал LLM у розпізнаванні закономірностей у великих наукових текстах і прогнозуванні результатів експериментів.
💡 Учасник команди, професор Бредлі Лав припускає, що вже незабаром АІ допомагатиме науковцям підібрати найбільш ефективні підходи для обґрунтування їхніх припущень.
До речі, кому раптом цікаво, ось пейпер використаний на зображенні 👀