КиберОлег 🦄🤖🙌

@cyberoleg


Привет, я Олег - ml engineer и основатель в tatradev.com и https://insomnia.land. В канале пишу простыми словами об искусственном интеллекте и стартапах. Welcome!

По вопросам сотрудничества:
t.me/cyber_oleg

КиберОлег 🦄🤖🙌

15 Oct, 11:32


Денис Шилов обнаружил, что есть весьма элегантный джейлбрейк gpt4o, надо попросить отвечать как API в определенном формате и можно попросить рецепт наркотиков )) Мне кажется, это может быть связано с тем что много тюнили отвечать в правильных форматах и это сильнее чем другие правила

https://x.com/mixedenn/status/1845939748235628564

КиберОлег 🦄🤖🙌

13 Oct, 12:42


С Димой @gaydmi заняли 2ое место в хакатоне Mistral x Alan в finetune треке по медицинским вопросам👾

1/ спарсили 2к статей с NHS и Mayo
2/ Нагенерили хорошей синтетики с Mistral large по каждой статье отдельно - вопрос / варианты ответов, всего 100k
3/ Поскорили синтетику с mistral large, чтоб вычистить плохие вопросы аналогично с FineWeb
4/ файнтюнили маленькую Mistral-7b, 2 модельки на грязной и чистой синтетике
5/ В итоге поднимает скор в 5 раз (хотя у маленькой там все равно 5%)

Предполагаем, что подход работает для large модели тоже 💯, но потренить ещё не успели

Синтетические данные выложил на hf (cyberoleg) 40к и ещё долю сегодня 100к и скоры, возможно пригодится если занимаетесь медицинскими ллм, в целом подход кажется может неплохо скейлится если ещё статей по разным лекарствам и более сложным топикам 🙌

КиберОлег 🦄🤖🙌

05 Oct, 12:58


Там если что уже подвели итоги, но проверить свои скиллы все равно интересно

КиберОлег 🦄🤖🙌

05 Oct, 12:57


На конференции AiConf Ваня Четвериков сделал бота, который хранит пароль в секрете внутри системного промпта. Это наш ответ некогда знаменитой игре "Гэндальф". Открыть пароль третьего уровня смогли всего пара игроков. Попробуйте и вы: предлагаем сыграть в эту замечательную игру с подбором промпт-инъекций.

Первые три человека, которые в комментариях под этим постом пройдут все уровни, получат призы от Raft. Не пишите свои промпт-инъекции в чат, чтобы не спойлерить другим.

Играть здесь: https://t.me/raft_password_bot

КиберОлег 🦄🤖🙌

05 Oct, 12:57


Застрял на втором уровне 😭 хреновый из меня промпт инженер

КиберОлег 🦄🤖🙌

04 Oct, 16:59


Ещё вот от юзера инсомнии, мне немного страшно

КиберОлег 🦄🤖🙌

04 Oct, 16:50


Флакс про и будущие кажется подкинет работы стартапам по верификации документов 👀

КиберОлег 🦄🤖🙌

04 Oct, 00:06


Добавили FLUX 1.1 PRO
в https://insomnia.land/#/image

Оказывается в него можно вбить промпт IMG_207818.CR2

Выбрать размер 768х1152 и получать бесконечное число рандомных реалистичных фоток

(кстати если добавить скажем IMG_20788_canon_sunset.CR2 тоже неплохо работает)

🚀🚀🚀

КиберОлег 🦄🤖🙌

03 Oct, 18:03


Flux 1.1[pro]: А вот и официальный релиз

Моделька уже доступна по API.

Из интересного,
- Flux 1.1 pro в 3 раза быстрее чем Flux 1.0, хоть и лучше ее по качеству генерации.
- Flux 1.0 pro ускорили в 2 раза.

За счёт чего приходит ускорение – пока не понятно, ведь мы даже не знаем, на скольки GPU запускались модели до этого и сейчас. Если качество осталось тем же у 1.0, то скорее всего это low-level оптимизации, разумная квантизация, хитрый семплер и тд.

А 1.1, наверное, имеет архитектуру поменьше, и, возможно, использует меньшее число шагов.

Блог

@ai_newz

КиберОлег 🦄🤖🙌

29 Sep, 14:45


Попробовать демо Молмо можно по ссылке

https://molmo.allenai.org

Я попробовал посчитать Львов из любимого мема, Молмо ставит розовые указатели на все что распознал, всех посчитал?

Шутку на русском не смог объяснить (говорит шрамов тут нет)

КиберОлег 🦄🤖🙌

29 Sep, 14:31


Ребята из Университета Вашингтона обучили VLM модель, которая бьёт gpt-4o

https://huggingface.co/allenai/Molmo-7B-D-0924


Оказывается нужно всего лишь...

1/ Разобраться, а что не так с датасетами и текущими лавами
2/ Собрать естественной разметки от людей до миллиона примеров (голосом)
3/ не брать лишние синтетические данные
4/ собирать качественные данные с полным описанием (но осмысленным)

👀

КиберОлег 🦄🤖🙌

29 Sep, 07:04


На eccv в Милане 👍
(конфа по компьютерному зрению)

Пишите если тоже

КиберОлег 🦄🤖🙌

21 Sep, 16:18


🔥 Новые модели Vikhr: Приближаемся к локальной gpt-4o-mini, собственный метод алайнмента и Grounded RAG

Мы выпускаем в релиз свои лучшие модели и тулкит алайнмента. который использовался для их тренировки.

Итак, наш флагман - Vikhr-Nemo-12B-Instruct-R-21-09-24 (карточка на HF)

12B модель на основе Mistral-Nemo, с качеством на русском языке в некоторых задачах не хуже gpt-4o-mini и имеет 128к токенов контекста, была специально заалайнена под решение широкого спектра задач на реальных и синтетических вопросах пользователей, включая код, математику, суммаризацию, ризонинг, ответы в специальном формате (JSON/HTML и тд) и многие другие.

Модель получила винрейт 79.8 (относительно gpt-3.5-turbo) на оффлайн бенчмарке Ru-General-Arena, что лучше любой текущей опенсорс модели до 30В для русского языка.

Для достижения такого качества мы собрали большой инструктивный датасет со втроенным CoT, что позволило сильно прочкать ризонинг модели, далее обучили Reward модель, сделали Rejection Sampling и применили собственный метод SMPO (вариация DPO) для выполнения преференс-тюнинга.

Вторая модель - Vikhrmodels/Vikhr-Llama3.1-8B-Instruct-R-21-09-24 (карточка на HF)

Так же обучена Llama-3,1-8B и имеет аналогичный размер контекста в 128k токенов. Винрейт на Ru-Arena-General - 63.9, что делает ее одной из лучших 8B моделей дла русского языка.

Модели обучены работать с RAG

Обе модели имеют уникальную особенность - они заалайнены для работы с RAG, т.е. используя системный промпт и спец. роль documents, вы сможете подавать ей документы в стандартизированной форме (JSON). При этом сам текст каждого документа может быть грязным чанком HTML, Markdown или Plain text формата до 4к символов каждый.

Модели умеют выделять информацию из предоставленных документов самостоятельно, реализуя таким образом "реранкер" на уровне LLM. Это сделано за счет двух-этапного ответа. Первый ответ модели представляет из себя JSON со списокм релевантных идентификаторов документов, а второй, если юзер его запросит, будет уже текстовым ответом модели на вопрос пользователя.

Благодаря такому обучению, на нашем бенчмарке для RAG (судья gpt-4o) Vikhr-Nemo показала качество в RAG задачах даже лучше, чем gpt-4o-mini (цифры в карточках моделей)

SMPO - Simple Margin Preference Optimization

Наш собственный метод выравнивания, разработанный для стабилизации прцоесса PO. Этот метод во многом заимствует идеи IPO, SimPO, C-RLFT, а также содержит собственную функцию потерь для разделения выбранных и отклоненных пар, отказываясь от классической сигмойды.

Основная идея метода заключается в стремлении плавно достичь желаемого уровня margin, не заставляя модель переобучаться, в том числе с помощью добавления балансирующего SFT лосса для выбранных и отклоненных вариантов одновременно.

Тулкит на Github - effective_llm_alignment

Репозиторий содержит скрипты и конфиги которые использовались для всех этапов обучения моделей. он позволяет удобно работать с основными методами алайнмента для LLM, включая наш SMPO.

Больше подробностей о моделях, как с ними работать, бенчмарках, процедуре обучения, вы можете найти в их карточках на HF.

Поиграться с Vikhr-Nemo-12B можно в tg bot_e (@vikhrbot), Gradio инференс