КиберОлег 🦄🤖🙌 @cyberoleg Channel on Telegram

КиберОлег 🦄🤖🙌

15 Oct, 11:32

Денис Шилов обнаружил, что есть весьма элегантный джейлбрейк gpt4o, надо попросить отвечать как API в определенном формате и можно попросить рецепт наркотиков )) Мне кажется, это может быть связано с тем что много тюнили отвечать в правильных форматах и это сильнее чем другие правила

https://x.com/mixedenn/status/1845939748235628564

432

КиберОлег 🦄🤖🙌

13 Oct, 12:42

С Димой @gaydmi заняли 2ое место в хакатоне Mistral x Alan в finetune треке по медицинским вопросам👾

1/ спарсили 2к статей с NHS и Mayo
2/ Нагенерили хорошей синтетики с Mistral large по каждой статье отдельно - вопрос / варианты ответов, всего 100k
3/ Поскорили синтетику с mistral large, чтоб вычистить плохие вопросы аналогично с FineWeb
4/ файнтюнили маленькую Mistral-7b, 2 модельки на грязной и чистой синтетике
5/ В итоге поднимает скор в 5 раз (хотя у маленькой там все равно 5%)

Предполагаем, что подход работает для large модели тоже 💯, но потренить ещё не успели

Синтетические данные выложил на hf (cyberoleg) 40к и ещё долю сегодня 100к и скоры, возможно пригодится если занимаетесь медицинскими ллм, в целом подход кажется может неплохо скейлится если ещё статей по разным лекарствам и более сложным топикам 🙌

453

КиберОлег 🦄🤖🙌

05 Oct, 12:58

Там если что уже подвели итоги, но проверить свои скиллы все равно интересно

668

КиберОлег 🦄🤖🙌

05 Oct, 12:57

На конференции AiConf Ваня Четвериков сделал бота, который хранит пароль в секрете внутри системного промпта. Это наш ответ некогда знаменитой игре "Гэндальф". Открыть пароль третьего уровня смогли всего пара игроков. Попробуйте и вы: предлагаем сыграть в эту замечательную игру с подбором промпт-инъекций.

Первые три человека, которые в комментариях под этим постом пройдут все уровни, получат призы от Raft. Не пишите свои промпт-инъекции в чат, чтобы не спойлерить другим.

Играть здесь: https://t.me/raft_password_bot

639

КиберОлег 🦄🤖🙌

05 Oct, 12:57

Застрял на втором уровне 😭 хреновый из меня промпт инженер

612

КиберОлег 🦄🤖🙌

04 Oct, 16:59

Ещё вот от юзера инсомнии, мне немного страшно

531

КиберОлег 🦄🤖🙌

04 Oct, 16:50

Флакс про и будущие кажется подкинет работы стартапам по верификации документов 👀

572

КиберОлег 🦄🤖🙌

04 Oct, 00:06

Добавили FLUX 1.1 PRO
в https://insomnia.land/#/image

Оказывается в него можно вбить промпт IMG_207818.CR2

Выбрать размер 768х1152 и получать бесконечное число рандомных реалистичных фоток

(кстати если добавить скажем IMG_20788_canon_sunset.CR2 тоже неплохо работает)

🚀🚀🚀

637

КиберОлег 🦄🤖🙌

03 Oct, 18:03

Flux 1.1[pro]: А вот и официальный релиз

Моделька уже доступна по API.

Из интересного,
- Flux 1.1 pro в 3 раза быстрее чем Flux 1.0, хоть и лучше ее по качеству генерации.
- Flux 1.0 pro ускорили в 2 раза.

За счёт чего приходит ускорение – пока не понятно, ведь мы даже не знаем, на скольки GPU запускались модели до этого и сейчас. Если качество осталось тем же у 1.0, то скорее всего это low-level оптимизации, разумная квантизация, хитрый семплер и тд.

А 1.1, наверное, имеет архитектуру поменьше, и, возможно, использует меньшее число шагов.

Блог

@ai_newz

396

КиберОлег 🦄🤖🙌

29 Sep, 14:45

Попробовать демо Молмо можно по ссылке

https://molmo.allenai.org

Я попробовал посчитать Львов из любимого мема, Молмо ставит розовые указатели на все что распознал, всех посчитал?

Шутку на русском не смог объяснить (говорит шрамов тут нет)

724

КиберОлег 🦄🤖🙌

29 Sep, 14:31

Ребята из Университета Вашингтона обучили VLM модель, которая бьёт gpt-4o

https://huggingface.co/allenai/Molmo-7B-D-0924

Оказывается нужно всего лишь...

1/ Разобраться, а что не так с датасетами и текущими лавами
2/ Собрать естественной разметки от людей до миллиона примеров (голосом)
3/ не брать лишние синтетические данные
4/ собирать качественные данные с полным описанием (но осмысленным)

👀

708

КиберОлег 🦄🤖🙌

29 Sep, 07:04

На eccv в Милане 👍
(конфа по компьютерному зрению)

Пишите если тоже

571

КиберОлег 🦄🤖🙌

21 Sep, 16:18

🔥

Новые модели Vikhr: Приближаемся к локальной gpt-4o-mini, собственный метод алайнмента и Grounded RAG

Мы выпускаем в релиз свои лучшие модели и тулкит алайнмента. который использовался для их тренировки.

Итак, наш флагман - Vikhr-Nemo-12B-Instruct-R-21-09-24 (карточка на HF)

12B модель на основе Mistral-Nemo, с качеством на русском языке в некоторых задачах не хуже gpt-4o-mini и имеет 128к токенов контекста, была специально заалайнена под решение широкого спектра задач на реальных и синтетических вопросах пользователей, включая код, математику, суммаризацию, ризонинг, ответы в специальном формате (JSON/HTML и тд) и многие другие.

Модель получила винрейт 79.8 (относительно gpt-3.5-turbo) на оффлайн бенчмарке Ru-General-Arena, что лучше любой текущей опенсорс модели до 30В для русского языка.

Для достижения такого качества мы собрали большой инструктивный датасет со втроенным CoT, что позволило сильно прочкать ризонинг модели, далее обучили Reward модель, сделали Rejection Sampling и применили собственный метод SMPO (вариация DPO) для выполнения преференс-тюнинга.

Вторая модель - Vikhrmodels/Vikhr-Llama3.1-8B-Instruct-R-21-09-24 (карточка на HF)

Так же обучена Llama-3,1-8B и имеет аналогичный размер контекста в 128k токенов. Винрейт на Ru-Arena-General - 63.9, что делает ее одной из лучших 8B моделей дла русского языка.

Модели обучены работать с RAG

Обе модели имеют уникальную особенность - они заалайнены для работы с RAG, т.е. используя системный промпт и спец. роль documents, вы сможете подавать ей документы в стандартизированной форме (JSON). При этом сам текст каждого документа может быть грязным чанком HTML, Markdown или Plain text формата до 4к символов каждый.

Модели умеют выделять информацию из предоставленных документов самостоятельно, реализуя таким образом "реранкер" на уровне LLM. Это сделано за счет двух-этапного ответа. Первый ответ модели представляет из себя JSON со списокм релевантных идентификаторов документов, а второй, если юзер его запросит, будет уже текстовым ответом модели на вопрос пользователя.

Благодаря такому обучению, на нашем бенчмарке для RAG (судья gpt-4o) Vikhr-Nemo показала качество в RAG задачах даже лучше, чем gpt-4o-mini (цифры в карточках моделей)

SMPO - Simple Margin Preference Optimization

Наш собственный метод выравнивания, разработанный для стабилизации прцоесса PO. Этот метод во многом заимствует идеи IPO, SimPO, C-RLFT, а также содержит собственную функцию потерь для разделения выбранных и отклоненных пар, отказываясь от классической сигмойды.

Основная идея метода заключается в стремлении плавно достичь желаемого уровня margin, не заставляя модель переобучаться, в том числе с помощью добавления балансирующего SFT лосса для выбранных и отклоненных вариантов одновременно.

Тулкит на Github - effective_llm_alignment

Репозиторий содержит скрипты и конфиги которые использовались для всех этапов обучения моделей. он позволяет удобно работать с основными методами алайнмента для LLM, включая наш SMPO.

Больше подробностей о моделях, как с ними работать, бенчмарках, процедуре обучения, вы можете найти в их карточках на HF.

Поиграться с Vikhr-Nemo-12B можно в tg bot_e (@vikhrbot), Gradio инференс

759

КиберОлег 🦄🤖🙌

КиберОлег 🦄🤖🙌

КиберОлег 🦄🤖🙌

КиберОлег 🦄🤖🙌

КиберОлег 🦄🤖🙌

КиберОлег 🦄🤖🙌

КиберОлег 🦄🤖🙌

КиберОлег 🦄🤖🙌

КиберОлег 🦄🤖🙌

КиберОлег 🦄🤖🙌

КиберОлег 🦄🤖🙌

КиберОлег 🦄🤖🙌

КиберОлег 🦄🤖🙌

КиберОлег 🦄🤖🙌

1,850

495

90

Best Similar Channel

Random Similar Channel