Kali Novskaya @rybolos_channel Channel on Telegram

Kali Novskaya

@rybolos_channel


Нейросети, искусство, мысли. Поехали!

Разрабатываю LLM и веду команды
chatGPT, GPT-3, GPT-4

Kali Novskaya (Russian)

Добро пожаловать в канал Kali Novskaya! Здесь вы найдете увлекательные обсуждения о нейросетях, искусстве и мыслях. Если вас интересует разработка LLM и управление командами, то вы попали по адресу. Наш канал предлагает обсуждение таких тем, как chatGPT, GPT-3 и даже GPT-4. У нас собрались люди, увлеченные искусством и технологиями, желающие поделиться своими знаниями и опытом. Присоединяйтесь к нам и начните увлекательное путешествие в мир нейросетей и инноваций! Поехали!

Kali Novskaya

01 Dec, 11:55


Сегодня в рубрике #female_vocals — Green Apelsin, дарк-фолк из Якутии!

🟣https://youtu.be/qVP1g54RMUI?si=-WCQiWvfoXx_9Qku

Kali Novskaya

27 Nov, 10:00


🌸Стартапы и СССР🌸
#не_про_nlp

Вещи, которые случаются и в Силиконовой долине, и в СССР:

🟣делаешь предзаказ на машину, ждешь год, после заказа понимаешь, что это какое-то говно
🟣слышишь обещания о том, что скоро все полетят на Марс, а сам каждый день работаешь в две смены
🟣таксовать после работы — нормально
🟣живешь в одной квартире с пятью коллегами
🟣надо проходить полит тренинг на работе
🟣если облажались, то все равно упаковываете это как победу
🟣даже не планируете использовать рыночные механизмы: либо работаете с отдельными крупными корпоратами, либо строите монополию
🟣почему-то иногда приезжает Генри Киссинджер😛

Kali Novskaya

22 Nov, 09:32


Сегодня пятница! Давайте мемотред #шитпост

Kali Novskaya

21 Nov, 09:31


🌸LLM vs Бенчмарки: кто прав, а кто виноват?🌸
#nlp #про_nlp #nlp_papers

Прогресс неостановим, работать все равно ничего не будет
Как оценивать качество LLM, когда вроде и улучшения не явные, и бенчмарки вызывают вопросы?

Ещё два года назад мы радовались генерализующим оценкам LLM — BigBench, HELM, BigGen — сегодня же про это дружно все забыли, и рапортуют state-of-the-art на бенчмарках в 100 вопросов (я не шучу, Claude 3.5 репортует sota на tau bench, а там 115 и 50 вопросов).

Но я ничего не забываю! И коплю академическую злобу.

Поэтому сегодня мы поговорим про лучшие практики, без которых сравнивать модели, сохраняя серьёзное лицо, нельзя.
Итак, что же делает оценку модели на бенчмарке хорошей?

🟣Монотонность при обучении

Качество задачи можно отслеживать сразу во время обучения — смотреть не только на лосс, а на метрики непосредственно бенчмарка.
Если модель реально учится решать какую-то задачу, то вы увидите монотонно возрастающий график от одной сотник шагов к другой. Если график показывает нестабильность, то и метрика в конце обучения будет случайным результатом.
HF вообще заменяют ранговую корреляцию Спирмена между шагов обучения и результатом, чтобы оценить монотонность, даже если она нелинейная.
Если монотонности не наблюдается, черрипикать чекпоинт с лучшим результатом не имеет смысла.

🟣Разброс результатов

Std, доверительные интервалы должны быть включены в процедуру оценки. В идеале тест должен проводиться 5-10 раз, чтобы оценить уровень шума в результатах модели.
У разных моделей на лидерборде будут разные доверительные интервалы, и при сравнении моделей это нужно принимать во внимание.

🟣Нескомпрометированность

Доказательства того, что авторы модели не учились на тесте, ложится на авторов моделей!
Уже её раз фиксировалось, что MMLU, TruthfulQA, и другие бенчмарки утекли в трейн.
Особенно важно публиковать проверку на контаминацию, если у бенчмарка нет приватного/секретного теста.
Если приватный тест есть, это хоть какая-то гарантия, и ориентироваться надо на него.

🟣Несатурированность

Если в бенчмарке уже очень много публичных результатов с очень высоким результатом (см SuperGLUE), и разница в полпроцента становится решающей для получения 1го или 10го места, то бенчмарк можно считать решенным, результаты сатурированными, и двигаться дальше.
В противном случае малейшие изменения в модели или процедуре оценки кардинально меняют ранжирование лидерборда!
См Benchmark Lottery

🟣Сонаправленность с другими бенчмарками

Ваша задача — сделать модель, улучшенную сразу со стороны многих способностей.
Некоторые способности и бенчмарки, безусловно, могут быть отрицательно скоррелированы. Но если отрицательно скоррелированы два бенчмарка, тестирующие примерно одно и то же, например, SWE bench и Live code bench, то возможно пробоема в вас нужно разбираться, почему.

К сожалению, очень много "лучших практик" существует вокруг хакинга метрик, обучения на тесте, манипуляций с погрешностью.

В конечном счете, цель у создателей моделей и бенчмарков одна — направить развитие моделей в нужную сторону.
Мои посты по теме:
🟣Оценка LLM в 2023 году
🟣Оценка LLM в 2024 году

Kali Novskaya

14 Nov, 12:48


🌸Человек vs Компьютер: 1953🌸
#не_про_nlp

Как давно пошла традиция сравнивать в бенчмарках результаты человека и алгоритма? А затем делать из этого промо материал: так было с вопросно-ответными системами, машинным переводом, распознаванием речи...

Мне попался исторический пример подобной маркетинговой публикации — аж 1953 года!

На рекламных фото General Electric ниже — Конни Ходжсон, одна из 6 участниц соревнования, в котором профессионалы сравнивали свои  навыки умножения с Office of Air Research Automatic Computer (OARAC) General Electric.

Задача была одна — быстрее всех коррректно возвести в квадрат число 8 645 392 175.
Ответ 74 742 805 859 551 230 625.

Ни один из участников-людей не дал правильный ответ, и ни один из ответов не совпал. Ходжсон оказалась ближе всех к правильному ответу, и на фото она указывает на место, где она забыла перенести 1, из-за чего ее окончательный ответ оказался на "всего лишь" триллион меньше.

Людям потребовалось от 4 до 8 минут, чтобы получить неправильный ответ. OARAC был намного быстрее, обрабатывая числа примерно за 4 мс.

Компьютер был сделан по заказу ВВС США, и отправился к закачику после такой "промоакции".

Kali Novskaya

14 Nov, 12:23


Сейчас будет пост из загашника

Kali Novskaya

14 Nov, 12:23


Ребята, хочется много сюда запостить, но я работаю по 12-14 часов и оставшиеся 10 сплю. Вот такая работа в FAANG, это тоже правда 😫

Kali Novskaya

07 Nov, 11:02


🌸Больше языков для LLM🌸
#nlp #про_nlp

Huggingface в поиске контрибьюторов носителей языков!
Корпус FineWeb на 15 трлн токенов теперь ждёт большое расширение на 1000+ языков 🎉

🟣Сколько языков сейчас представлены в практике моделирования языка?

Если считать, что в целом живых языков 6-7 тысяч,
— в базе Ethnologue 7164
— суммарно во всех LLM работах упоминается примерно 1500 языков (в основном за счет работ NLLB и Towards MT for next 1000 languages)
— у звучащей речи чуть лучше: 4000 языков, но у 70% из них меньше чем 2 часа записей (за счет XEUS)

🟣Бутылочное горлышко валидации
Все ресурсы, которые так или иначе языки описывают, можно расположить на 2 осях координат: их качество и их пригодность для ML-применений. Окажется, что наиболее доступные и пригодные для предобучения моделей корпуса (CommonCrawl, его вариации) в то же время оказываются и наименее качественными.

Причина тому — автоматическое определение языка (см fasttext)  невозможность ручной валидации. Автоматические быстрые классификаторы как правило могут с высоким уровнем надежности определить не более 200 языков, тогда как большинство языков оказывается в большой куче "мусора"  — наименее надежно атрибутированных данных.

Бутылочное горлышко для того, чтобы побороть валидацию на большом объеме данных — это наличие сообщества носителей языков, которые бы активно контрибьютили и помогали улучшить как классификаторы, так и способы оценки качества получаемых языковых моделей.

Я уже несколько раз рассказывала про ситуацию с многоязычными данными, и даже несколько раз за этот год меняла слайды — так быстро меняется ситуация! И сегодня даже в лучшую сторону.

🟣Инициатива HuggingFace

Помимо расширения корпуса FineWeb, HuggingFace ищет волонтеров и носителей языка, чтобы расширить именно процедуру многоязычной оценки языковых моделей.
Новая инициатива — FineTasks — объединяет 4 стандартных бенчмарк-формата:

— Машинное чтение: Понимание предоставленного контекста и ответы на вопросы на его основе.
— Общие знания: Ответы на вопросы о фактах из различных областей без дополнительного контекста.
— Понимание естественного языка (NLU): Понимание семантики предоставленного ввода.
— Рассуждения на основе здравого смысла: Демонстрация способности выполнять простые рассуждения, требующие воплощенных знаний.
— Генеративные задачи: Умение генерировать корректный текст на целевом языке.

Авторы уже собрали 185 задач для 9 языков: поддерживаются
китайский, французский, арабский, русский, тайский, хинди, турецкий, суахили и телугу.


Цель для полного бенчмарка — как минимум 50 языков из разных семей, ареалов и с разной письменностью.

Ну и... ждём большой новый многоязычный корпус с открытой лицензией!

Куда контрибьютить?
🟣 Контрибьютить новые задания и языки можно здесь в шаблоне
🟣Мини-гайд
🟣Блог HF

Kali Novskaya

05 Nov, 10:15


Не часто что-то репощу и тем более не рекламирую, но сделали подборку из всех каналов, которые я реально читаю в течение недели, так что делюсь с вами, они интересные и оригинальные

Kali Novskaya

05 Nov, 10:06


Подборка каналов об искусственном интеллекте и машинном обучении от издания «Системный Блокъ»

Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML

— @ai_newz — эйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте

— @seeallochnaya — Сиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории

— @gonzo_ML — gonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны

— @boris_again — Борис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM

— @rybolos_channel — Kali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности

— @tech_priestess — Техножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении

— @dealerAI — DealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей

— @sysblok — Системный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках