Роман с данными @roma_toloka Channel on Telegram

Роман с данными

@roma_toloka


Все о данных, ML, AI
Founder LLM Arena
Ex-CEO & Ex-Founder TrainingData.Pro
7 лет занимаюсь сбором и разметкой данных
Контакты: @roman_kucev

Роман с данными (Russian)

Вы когда-нибудь задумывались о том, как данные преображают наш мир? Если да, то канал "Роман с данными" в Telegram - это для вас! Здесь вы найдете все об увлекательном мире данных, машинного обучения и искусственного интеллекта.

Ведущий канала - основатель и генеральный директор TrainingData.Pro, который уже 7 лет занимается сбором и разметкой данных. Он делится своими знаниями, опытом и лучшими практиками в области data science.

Подписывайтесь на канал, чтобы быть в курсе всех последних тенденций и инноваций в мире данных. Общайтесь с единомышленниками, делитесь своими впечатлениями и задавайте вопросы.

Не упустите возможность погрузиться в увлекательный мир данных вместе с каналом "Роман с данными"! Для связи и контактов обращайтесь к @roman_kucev.

Роман с данными

10 Jan, 06:28


Записал подкаст с двумя ИИ предпринимателями, которые находятся в гуще событий.

Парни работают с крупным бизнесом и рассказывают, как реально заработать на ИИ в России, сколько стоит внедрение, и где искать первых клиентов.
Обсудили конкретные кейсы и поделились историями успеха – от первой сделки до оборота в сотни миллионов.

В этом видео мы старались излагать мысли с минимумом технарской терминологии.

Надеюсь записать следующий подкаст уже с технарским погружением.

➡️Задавайте парням вопросы в комментариях. Попрошу их ответить или тут, или как раз в новом подкасте.

Приятного просмотра!

Ссылки:
Ютуб
Рутуб

Контакты:

Роман Куцев, основатель компании по разметке данных с оборотом 500 млн рублей, создатель LLM-Arena https://t.me/Roma_Data

Валерий Ковальский, создатель компании по внедрению корпоративных ИИ-решений https://t.me/neuraldeep

Коренев Александр, ведущий подкаста, эксперт по внедрению ИИ в банковском секторе https://t.me/korenev_ai

Роман с данными

10 Jan, 06:28


Конференция CONVERSATIONS 2024 прошла просто замечательно.
Помимо крутых фоток (новая аватарка как раз оттуда), и выигранной номинации “лучший доклад техно-трека”, было крутое автопати, на котором познакомился с огромным количеством интересных людей.

Одним из них оказался Валерий Ковальский, CEO NDT by r_m_r. За разговором мы выяснили, что я уже давно подписан на его канал Neural Deep | NDT, а он на мой канал LLM Arena.

Поняв, что Валерий эксперт в теме ИИ, создает продукты, выступает, решил пригласить его в наш клуб Акулы.

А Александр Коренев, создатель клуба, предложил нам записать общий подкаст на тему развития LLM, и мы с Валерием с радостью согласились.
Всем приятного просмотра!

Роман с данными

06 Jan, 13:43


Интересный слайд о том, в каких задачах выгодно применять разметку от LLM.

Взято у Германа Ганус (Яндекс Крауд) из доклада "Как GPT помогает обучать модели?". Ссылка на всю презентацию тут.

Роман с данными

31 Dec, 10:07


И конечно же хочу поделиться итогами по LLM Arena!
Прежде чем начну, расскажу о том, как же пришла в голову идея создать арену.

Последние 8 лет я плотно занимаюсь данными, и их просто обожаю (думаю, по названию канала это и так понятно😀). Еще в 2018 году, когда выигрывал хакатоны, я усвоил, что без хорошей валидации нереально строить ИИ продукт. Если тест сета нет - то ты как слепой котенок: что-то улучшаешь, файтюнишь. А стало ли лучше - непонятно.

И даже когда мой основной бизнес стал сбором, разметкой и модерацией данных для обучения ИИ, оценка качества ML алгоритмов всегда оставалась любимой задачей.

Поэтому, когда новые LLMки начали появляться как грибы после дождя, я понял, что с одной стороны, у пользователей есть большая потребность понимать, как LLM соотносятся по качеству между собой. А с другой, что у меня есть экспертиза, команда, и понимание, как сделать качественный и хороший бенчмарк.

Почему мы пошли по пути LMSYS Chatbot Arena
На это было несколько причин:
1. Уже была MERA. Летом я познакомился с Аленой Феногеновой, понял, что у нее сильная команда, хорошие бюджеты, пиар, и посчитал, что делать еще один тестовый бенчмарк сейчас нет необходимости.
2. С 2018 года я плотно занимаюсь краудсорсингом, был сертифицированным партнером Толоки, преподавателем крауда в ВШЭ и ШАДе. Так что нагонять кучу людей для сбора оценок, выявлять фродеров, управлять толпой - это то, что я люблю и умею.
3. Было видно, что помимо бенчмарков в виде теста, разработчикам нужны бенчи на основе человеческого фидбека
4. Весной за рубежом LMSYS хайповала, казалось, что это самый популярный бенчмарк

А так как российским LLM моделям трудно попасть на зарубежную арену, мы запустили свою llmarena.ru 🎉

Чего добились за эти полгода:
• Добавили на лидерборд 44 модели
• Выстроили репутацию, что даже ЦБ о нас пишет
• Получили огромную огласку в СМИ
• Запустили мини-app LLM Arena в Telegram
• Опубликовали на Habr более 25 статей об оценке RAG и LLM моделей
• В рамках llmarena.team пошли в заказную разработку, оценку LLM и RAG систем, Red Teaming LLM, нащупали маркет фит, получили первую выручку
• Познакомились с кучей интересных людей, занимающихся развитием ЛЛМ в РФ
• Сплотились в дружную команду из 8 человек
• Собрали более 50 000 оценок от юзеров
• Наш доклад "Почему бенчмарки лгут?" выиграл номинацию “лучший доклад техно-трека” на конференции conversations

Как и в AI Роман, в следующем году нашу команду ждут новые вызовы и свершения. Поэтому подписывайтесь и следите за нашими достижениями!

Роман с данными

29 Dec, 16:05


Ну что, пора подводить итоги года. Начну с самого интересного и авантюрного для меня проекта AI Роман.

Год назад, листая ленту инстаграмма, я наткнулся на рилс моего давнего знакомого Василия Рязанова о AI модели, которая зарабатывает более 10к$ в месяц. Курьезность этого видео была в том, что об этом рассказывал не сам Вася, а его цифровой аватар, круг замкнулся 😀

И понеслось! 8 января я сделал своего первого цифрового аватара. Только взгляните с какого ужасного качества я начинал, и какой аватар сейчас.

Кстати, цели и планы, которые я поставил по проекту год назад, полностью реализовались! Это я к тому, как важно прописывать планы, строить роадмапы и работать с целеполаганием.

За этот год (даже за 7 месяцев, так как полноценная команда появилась с июня):
• Мы выложили более 350 рилс
• Собрали 2 крутых инфокурса по обучению нейросетям и созданию собственного аватара
• Получили более 1м просмотров для десятков роликов (как вам новогодний рилс с Гарри Поттером?)
А всратый рилс с бегемотом набрал 10 миллионов просмотров и завирусился на весь мир
• Разместили кучу контента в ТГ, инсте, TikTok, Shorts, Дзене, Yappy, VK
• Запустили марафон по работе с нейросетями
• Познакомился с огромным количеством интересных людей, попал в закрытый ИИ клуб “Акулы”
• Чуть лучше стал понимать нишу и̶ф̶о̶ц̶и̶г̶а̶н̶ инфоблогеров, механики пиара и способы привлечения аудитории

Из неудач: пока не вышли на самоокупаемость, долго топтались на месте с одним маркетологом, трудности с поиском хорошего маркетолога (вакансия открыта).

Уверен, что мы находимся только в начале нашего пути, и в следующем году нашу команду ждут новые вызовы и свершения. Поэтому подписывайтесь и следите за нашими достижениями!

Роман с данными

20 Dec, 12:00


Второй момент с конференции aij.ru

Александр Потемкин, директор tagme.ru для своего выступления Способы оптимизации разметки данных взял большую часть материала из моего доклада Автоматизация разметки данных с помощью ML-моделей. Да, картинки, несколько кейсов и оформление они взяли свои, но суть, идеи, тренды - многое взято под копирку.

Вы можете сказать: "А у Александра еще про LLM есть, а у тебя нет".
Согласен, но и тут вышло забавно: блок про LLM был позаимствован у Дмитрия Антипова с AI Conf 2024 😀.

Вот так и создаются доклады для международной конференции по ИИ.
Но как говориться, заимствуют у лучших. Так что это одно из подтверждений, что я для вас создаю качественный контент, который даже Сбер использует.

Роман с данными

20 Dec, 08:06


Недавно завершилась конференция aij.ru от Сбера
Офлайн попасть было практически нереально, и нужно было быть со связями либо особенным, чтобы получить приглашение на нее (так что я не попал и смотрел онлайн 🙃). Как всегда, Сбер сделал кучу анонсов, с которыми можно ознакомиться тут.

Мне запомнились 2 интересных и забавных момента с конференции:
Первый
AI Journey считается одной из крупнейших конференций по искусственному интеллекту. На ней Сбер представляет свои новые LLM модели, например в прошлом году они анонсировали новую модель гигачата.

Похоже ребята из Т-Банка подумали, что и в этом году на AIJ Сбер будет презентовать новую модель. Поэтому ночью за день до релиза они засабмитили и утром анонсировали модели T-Lite и T-Pro, с гордостью указав, что они #2 модель после gpt-4o на бенчмарке MERA.

Но как говорят, "Великие умы мыслят одинаково". Той же ночью, и с такой же задумкой MTS AI решил тоже засабмитить свою модель Cotype. Модель оказалась на 0.004 балла лучше T-pro-it-1.0 и случайно (либо нет?) была выложена прямо после того как Тбанк сделал анонс, что "T-Pro заняла второе место по бенчмарку MERA среди всех моделей, включая проприетарные" - и все, кто перешли проверить, увидели на месте T-pro модель от MTS AI . Хороший и бесплатный пиар у MTS AI получился😀

Роман с данными

20 Dec, 08:05


Channel photo updated

Роман с данными

30 Nov, 14:53


Посмотрел доклад от Дмитрия Антипова про разметку в Сбере.
https://youtu.be/iInF3zKfEgY

Что для себя подметил интересного:
- Нарастает тенденция на мультимодальную разметку
- Сбер выделяет следующие типы разметчиков:
1) AI тренера
2) Краудсорсинг
3) Эксперты в узких областях (сильно увеличился спрос на них)
4) LLMки (угадайте куда ведет домен ллм.рф)
- LLMки размечают данные с качеством среднего разметчика, позволяют быстрее проводить эксперименты и итерации по разметке, дешевле разметчиков.

Доклад получилсяинтересный, рекомендую к просмотру.

А уже во вторник я, Дмитрий Антипов, Александр Капитанов, Евгений Россинский,
Евгений Макаров, Дмитрий Пименов встретимся на конференции HighLoad++ 2024 и проведем панельную дискуссию на тему Искусственный vs естественный интеллект в задачах разметки. Если вы тоже будете на конференции, заходите послушать!

Роман с данными

14 Nov, 13:34


А 6-го декабря буду выступать на конференции CONVERSATIONS 2024 с докладом
"Почему бенчмарки лгут? Как правильно оценить LLM для ваших бизнес-задач"

Кто тоже будет на конференции - ставьте 👍.
Готов со всеми пересечься и обсудить разметку и LLM.

Роман с данными

14 Nov, 13:31


На нас уже Центральный Банк Российской Федерации в своих тендерах ссылается.
Приятное достижение для проекта, которому 4 месяца.

P.S: Голосуйте активнее, чтобы мы уже добавили на лидерборд GigaChat Max.

Роман с данными

14 Oct, 10:14


Год назад, когда выбирал название для своего проекта @TonGPT, зарегестрировал множество названий TG ботов, таких как @Turbo_Gptbot, @tongpt4bot и т.д.

Сейчас подумал, а почему они у меня просто лежат, давай я их подключу, чтобы с них трафик в основной @TonGPT_bot лить.

Задача простая: задеплоить 15 ботов, чтобы на любое сообщение они отвечали “Переходи в @TonGPT_bot”

Так как уже несколько лет практически ничего самостоятельно руками не пишу, а делегирую, то с этой задачкой пошел на kwork. Каково же было мое удивление, что за эту задачу получил оценку в 5-8к руб от нескольких исполнителей.

Из принципа закинул это же ТЗ в O1, получил код, залил на сервак. Запустил - работает! На всё про всё ушло 25 мин.

Вы там на kwork с дубу рухнули? Либо цену снижайте, либо совсем без работы останетесь.

Роман с данными

13 Sep, 09:59


Добавили на llmarena.ru шеринг диалогов, чтобы можно было скидывать друзьям/коллегам свои любимые переписки с LLMками.

Вчера встал вопрос: а какую длину ссылки делать?
Если сделать слишком длинную - неудобно будет делиться.
Если сделать слишком короткую - могут появиться коллизии.

На помощь пришел новый o1 и буквально за минуту раскромсал задачу.
Я ВМК МГУ окончил, сам бы смог решить, но ушло бы минут 30-40.
Чувствую как с каждым выходом новой модельки моя производительность повышается на 15-20% процентов)

P.S Ни YandexGPT Experimental, ни T-lite эту задачку не решил.
Пруф: https://llmarena.ru/?s=baa8e203

Роман с данными

21 Aug, 13:16


И первая новость в обновленном канале следующая:
Мы с командой запустили свою российскую LLM Aрену.

Это такой сайт (идею скопировали у LMSYS), на котором обычные люди могут использовать разные LLM бесплатно, но взамен должны определять лучшую модель.
А мы на основе фидбека пользователей составляем рейтинг LLM и рассчитываем какая модель работает лучше всех на русском языке.

Мы попали прям в боль ML сообщества: кол-во LLM в России растет как на дрожжах, уже помимо YandexGPT, Гигачата есть и T-lite, и Вихрь, и Сайга. Новые LLM появляются каждую неделю и возникает потребность их сравнивать.

За последний месяц посещаемость проекта увеличилась в 6 раз, цитируемость бенчмарка возросла в разы, о нас написали Коммерсантъ, ITZine, Machinelearning, Tproger, ХАЙТЕК, RSpectr, hi-tech, газета.ru, Хабр, Lenta.ru.

Заходите на llmarena.ru и выбирайте лучшую модель!

Роман с данными

21 Aug, 09:43


На канале 1000 подписчиков!
И знаете что это значит?
Я решил снова провести ребрендинг и делаю канал с личным позиционированием.
Как-то не откликается мне Лебоски, которого макают в сартир на аватарке😬

Да и судя по статистике, личный авторский контент лучше разлетается и заходит подписчикам.
Долго думал как назвать, и решил: пусть будет "Роман с данными".

Логика такова:
- Я Роман? - Роман
- Занимаюсь сбором и разметкой данных уже 7 лет? - Занимаюсь
- У меня роман с данными? - Даже если не роман, то симпатия точно есть

Так что буду тут чаще делиться новостями/инсайтами/своим мнением о все что связано с данными, ML и ЛЛМками. Если вы поддерживаете ребрендинг - ставьте ❤️

Роман с данными

03 Jul, 08:45


Всем привет! На связи Роман Куцев.
Много интересных проектов запускаю в последнее время. И об одном проекте я сегодня хочу вам рассказать)

Месяц назад я создал своего цифрового аватара, чтобы они вел соц сети вместо меня.
Тематику и миссию проекта выбрал следующую: освещать передовые события в сфере AI, нейростетей и показывать людям, как с помощью новых технологий оптимизировать свою работу.

Первый месяц прошел успешно. Завирусились видео и в ТикТоке, и в инсте, и на ютюбе.
Цель: 10к подписчиков до конца лета.
Так что призываю всех следить за моим цифровым аватаром и ставить лайки!)

Роман с данными

20 May, 12:15


Всем привет, Роман Куцев на связи!

Продолжаю делиться своими выступлениями, которые накопились за прошедший год.
В этом докладе я решил осветить важную тему:
Как же можно достигать высокое качество при разметке данных.
Хоть правила и советы крайне простые, но внедрение их в ваш пайплайн разметки даст сильный прирост качества (проверено на Training Data)

Ссылка на видео 👇🏻
https://youtu.be/mdQqRh-IPD8

Роман с данными

26 Apr, 11:11


Всем привет, Роман Куцев на связи!

Прошлой осенью заезжал в гости к Евгению Никитину, автору канала Варим МЛ, и заодно вместе с ним выступил на ML конференции TechTrain.

И вот, спустя почти год организаторы выложили видео с докладов в открытый доступ.
Если вам интересно как с помощью ML оптимизировать разметку, и какие тренды по разметке ждут нас в будущем, ссылка на видео 👇🏻
https://youtu.be/KFWCN4_sEGg

Роман с данными

11 Apr, 11:40


🔍 Благодаря сбору данных клиент улучшил биометрическую систему по распознаванию лиц и голосов на 21%. Как мы это сделали?

Подводя итоги нашей недели про сбор данных, хотели поделиться интересным кейсом из нашего опыта.

Клиенту нужно было собрать данные для улучшения системы распознавания лиц и речи. Техническое задание заказчика подразумевало уникальный сбор данных (фото, видео) оффлайн, строгие критерии к звуку и формату съемки. Также важно было собрать 1000 участников для съемки. Клиент не мог организовать сбор данных в таком объеме и формате, поэтому обратился к Training Data

В результате сбора:

Клиент улучшил биометрическую систему по распознаванию лиц и голосов на 21%

Собрали уникальный датасет с более чем 400'000 единицами данных от 1000 офлайн участников

Как нам удалось добиться таких результатов? Рассказали в нашем кейсе по ссылке:

https://trainingdata.ru/cases/face-and-speech-recognition

#где_кейсы_лебовски

Роман с данными

11 Apr, 11:38


Ручной сбор данных: 5 лайфхаков 💪🏻

Нас часто спрашивают, как собирать данные вручную и на что важно обращать внимание в процессе? На самом деле в ручном сборе данных есть несколько главных параметров, от которых и зависит качество данных.

Определяемся с условиями: как их прописать?

Первое — это условия съемки. Определяемся, снимаем мы на улице или в помещении. Проводить сбор данных в офисе проще, однако сейчас видеоаналитика применяется в том числе к действиям на улице, в помещении воссоздать такие условия не получится. Начинаем мы с бэкграунда: это офис, улица, парк? Какой уровень освещённости нам нужен: темно или светло, естественный свет или искусственный? Стоит учитывать время суток и время года.

Как правильно снимать людей?

Также в самой съемке людей есть много важных моментов. Нужно определить длительность нахождения и местоположение человека в кадре. Часто бывает необходимо сделать видео одного и того же человека в похожих условиях, но с отличным фоном. Влияет также устройство, на которое мы снимаем.

Как составить инструкции?

Главный совет — сделать процесс максимально понятным для исполнителя. К примеру, во время съемки в офисе или на улице можно отметить места, где человек будет находиться.

Также очень помогает составление инструкции, где все действия для актера прописываются детально и с изображениями. Лучше всего напечатать эти инструкции, к тому же такая памятка помогает и менеджеру. Для удаленного же сбора лучше сначала снять данные самостоятельно и эти примеры отправить как приложение к текстовой инструкции.

Атрибуты: что нужно для съемки?

Помимо всего, надо решить, в какой одежде будет актер, нужны ли головные уборы или атрибуты: усы, очки, капюшон, макияж. Должно быть понятно, сколько нужно мужчин и женщин. То есть важно все то, что может повлиять на восприятие лица. От возраста тоже зависит способность нейросети распознавать людей. Легче всего нейросеть различает ребёнка и пожилого человека. Но вот меньшую разницу в возрасте заметить уже сложнее.

Как менеджеру подготовиться к сбору?

Очень важный пункт — менеджер обязательно должен поучаствовать в съемках и самостоятельно пройти этот процесс. Только после этого можно понять, какие требования предъявлять статистам и как их лучше донести.

#где_сбор_лебовски

Роман с данными

05 Apr, 08:12


А если вам нечем заняться пятничным вечером, то мы оставим вам подкаст Dwarkesh Patel с двумя гостями из LLM. Trenton Bricken благодаря бэкграунду максимально погружен в связь между машинным обучением и нейросаенсом, а Sholto Douglas из DeepMind считают одним из перспективных молодых специалистов в сфере.

Один из комментаторов написал, что этот подкаст легко мог бы быть курсом за 1000 долларов, и мы полностью с ним согласны.

О чем рассказывают:

🧬Intelligence is just associations
🧬Intelligence explosion & great researchers
🧬Superposition & secret communication
🧬Agents & true reasoning
🧬How Sholto & Trenton got into AI research
🧬Are feature spaces the wrong way to think about intelligence?
🧬Will interp actually work on superhuman models

https://youtu.be/UTuuTTnjxMQ?si=eUstFg23rNqtDewQ

А если вы уже смотрели, то пишите свой фидбэк в комментариях.

Роман с данными

05 Apr, 07:59


Краудсорсинг

Конечно, все знают про такой метод сбора данных, а вот пользоваться им как следует умеют далеко не все.

Самый простой метод для краудсорсинга — опубликовать задания в интернете, к примеру, на Толоке или Amazon MTurk. Это хороший вариант, когда нужно что-то простое: исполнителей можно попросить сфотографироваться на различном фоне, дома или на улице.

А еще так вы получаете доступ к большому количеству людей из разных стран. К примеру, вам нужен сбор данных исполнителей с разным цветом кожи. Тогда этот вариант идеален для вас.

Но проблема краудсорсинга состоит в том, что таким образом не получится снять что-то сложное, что требует реквизита или несколько этапов работы. Так что главное в таких проектах — разработать четкую инструкцию для исполнителей и приложить примеры необходимых данных.

Однако бывают задачи, которые невозможно решить только лишь с помощью данных из интернета, уже существующих или даже собранных оттуда. К примеру, для создания технологии liveness (способность нейросети отличать живое лицо от его неживых аналогов) нам нужно лицо человека и картонная маска или другой инвентарь.

А как же собрать данные вручную?

Читайте в нашем следующем посте.

И поставьте любую реакцию, если вам интересна тема сбора, чтобы мы больше о ней писали.

Роман с данными

05 Apr, 07:57


Интернет, краудсорсинг или ручной сбор данных. Что подходит вам?

Итак, вам нужно собрать данные. Какой способ лучше всего подходит под ваши задачи? Мы с командой составили небольшой пост для тех, кто хочет разобраться во всем вот этом вот.

Интернет
Самой простой способ сбора данных — это спарсить с подходящих сайтов в поисковике. Еще для изображений и видео можно найти открытые данные – например, в YouTube, где можно делать скриншоты или сохранять видео для последующей обработки.

Если это звуковые данные, их можно доставать из опубликованных телефонных диалогов или взять из звуковых дорожек кинофильмов. Аудио вообще часто легче сгенерировать или найти, чем изображения и видео.

Какие еще есть варианты?

Роман с данными

02 Apr, 14:51


🛠 Главные ошибки в сборе данных: как не провалиться в процессе?

Итак, вы планируете организовать сбор данных. Давайте обсудим, на что важно обратить внимание во время организации? На самом деле для успешного сбора достаточно соблюдать 3 правила подготовки, про них расскажем в сегодняшнем посте.

Провести пробный сбор данных и проверить технику

До самого сбора необходимо написать техническое задание и в первую неделю провести пилот, а также проверить технику и реквизит, чтобы процесс сбора данных был отлажен и чтобы минимизировать возникновение ошибок во время съемок. Что-то может случиться с камерами, которые работают по скрипту. Если что-то пойдет не так уже во время записи, то впустую тратится и время команды, и бюджет на статистов.

Подготовиться к поиску статистов

Поиск людей для ручного сбора данных часто создает сложности. Придумать реквизит и фон не так трудно, хотя это и занимает время.

Существенно сложнее найти статистов. Многие пугаются и отказываются от работы, так как не понимают, как их данные будут использоваться. Особенно заметно это стало в последние годы, так как сейчас в СМИ много говорят про персональные данные и биометрию, часто упоминая утечки данных в сфере.
Кроме того, часто бывают трудности в разнообразии статистов. Чаще всего во время сбора нужны статисты различного пола, возраста или расы, чтобы нейросеть могла хорошо работать на разных людях.

Расписать действия

Здесь есть много нюансов: с какого ракурса и в каких позах нужно выполнять действие, на каком расстоянии от камеры нужно находиться, какое количество фонов должно быть, учитывая условия, в которых будет работать нейронная сеть.

#где_сбор_лебовски

Роман с данными

29 Mar, 09:04


Всем привет!

Так как в последнее время и в моей жизни, и в индустрии происходит много изменений, настало время перемен и для Рома ♥️ Толоку.

Чтобы больше не пропадать и регулярно делиться актуальным контентом, я решил подключить к каналу команду Training Data. Теперь мы будем писать обо всем: от разметки до Data Mining и ML, от трендов и технической литературы до кейсов и карьерных историй, а со временем запустим и вебинары. Еще у канала появится новое имя, так что не теряйте.

Спасибо всем, кто принял участие в опросе про контент: мы вместе прочли и учли ваши мнения, поэтому обязательно следите за новыми постами.

Спасибо вам, что остаетесь с нами
Ваш Роман Куцев ♥️

Роман с данными

28 Mar, 14:49


А еще оставляю презентацию с конференции для тех, кому интереснее ознакомиться подробнее ⬆️

Роман с данными

28 Mar, 14:45


И небольшой бонус: инструменты, благодаря которым можно генерировать любые типы данных.

Роман с данными

28 Mar, 14:38


Как синтетические данные применяются для реальных задач? Так ли синтетика эффективна?

Продолжая тему синтетики и ее использования для задач, можем вспомнить кейс Microsoft Research, где они обучали модель Phi-1 и Phi-2 на текстах, сгенерированых Chat GPT 3.5.

Если у вас есть большая LLM и вы хотите сделать легкую под конкретный домен, то можно сгенерировать синтетические данные на большой и на них обучать более легкую LLM, и одна будет давать хорошее качество в узких доменных областях. Обычно компании тратят огромные средства, чтобы сделать разметку для LLM, а с помощью синтетики можно сделать разметку дешевле и быстрее.

Модерация
Тут может быть интересен подход Open AI. Они придумали, как обучать модель на синтетических данных, полученных с помощью LLM. Предположим, что у вас уже есть контрольная размеченная выборка, и есть инструкция для модераторов.

Тогда вы берете инструкцию, вставляете в промпт LLM модели и анализируете качество, которое получилось на контрольной выборке. Находите ошибки и редактируете инструкцию так, чтобы LLM работала лучше. Через 3-4 итерации вы получите промпт, который позволяет размечать ваши данные действительно качественно. Но проблема в том, что Chat GPT — довольно дорогая и медленная модель для продакшена на больших объемах. Open AI предлагает генерировать с помощью LLM синтетический датасет и обучать легковесную модель, которую вы будете использовать в задачах.

Интересно, что уже сейчас качество данных, выдаваемых LLM, колеблется между тем, что может выдать эксперт и обычный человек. А всего два года назад она вообще не могла соперничать с людьми.

Но есть проблема:
Синтетические данные часто отличаются от обычных данных, поэтому, когда мы обучаем алгоритм на синтетику, он переобучается на нее и показывает хороший результат только на синтетике, а на обычных данных работает нестабильно.

Однако мы видим и огромный прогресс: за последний год качество генерации синтетики стало на порядок выше. Когда качество генерации будет сопоставимо с качеством данных из реального мира, уже не будет возникать проблем с переобучением на синтетику, поэтому она станет более популярной.

И уже сейчас понятно, что в 2030 году больше половины данных для обучения будут сгенерированы, а настоящие данные будут отходить на второй план.

Роман с данными

27 Mar, 14:28


Для начала, почему вообще используются синтетические данные?

Для этого есть четыре основные причины:

1) Экономия денег и времени
2) Получение редких данных
3) Решение проблем с конфиденциальностью
4) Упрощение работы с разметкой и контролем качества

Давайте про каждую подробнее:
Когда мы говорим про ML направление, чем быстрее вы внедряете в продакшн новую модель, тем быстрее захватываете рынок. С синтетикой сделать это можно намного быстрее и дешевле.

Другой важный момент: с синтетикой можно генерировать редкие данные. К примеру, если в медицине в каком-то случае 99% не имеют патологии и только 1% она встречается, то есть таких данных очень мало, то сейчас именно с помощью синтетики пытаются решать эту проблему, генерируя сложные кейсы.

Еще одна причина — так проще всего избежать проблем с хранением и использованием данных. В Европе уже вступил закон GDPR, в США действует Калифорнийский закон о защите прав потребителей (CCPA), а в России вводят уголовную ответственность для тех, кто неправильно хранит персональные данные. В этом случае синтетика снимает эти боли: так как эти данные не настоящие, вы можете проще хранить и обрабатывать их.

Алгоритмы генерации могут работать 24/7 и со стабильными результатами. В отличие от людей, которые отдыхают или могут совершать ошибки. Если у вас есть уже выстроенный pipeline в синтетике, то это проще и быстрее контролировать и допускать меньше ошибок в генерации датасетов.

Роман с данными

27 Mar, 14:25


Конференция OpenTalks за 3 дня до начала была отменена.

В чем же дело? — спросите вы
Если кратко - в политике.
А если вам интересны детали, рекомендую посмотреть видео организатора конференции Игоря Пивоварова.

Несмотря на отмену, большая часть людей все-равно приехала, и ночные бары Тбилиси наполнились MLщиками. Рад был увидеть множество знакомых лиц, пообщаться и провести хорошо время в окружении коллег. Да и выступить с докладом получилось.

Ниже прикладываю важные моменты с моего выступления "Обзор методов и инструментов для генерации. синтетических датасетов"

Роман с данными

26 Feb, 10:13


Спасибо всем, кто поучаствовал в опросе!
Уже нашел несколько инсайтов в ответах, и совсем скоро будет ребрендинг канала.

Сейчас фокус своего внимания сконцентрировал на синтетических данных, с интересом и вдохновлением погружаюсь в эту тему. Генеративный AI врывается в нашу жизнь, один только пример с SORA показывает, как мультимодальные модели кардинально поменяют наш мир.

Уверен, что за синтетическими и сгенерированными данными будущее)
7 марта я буду выступать на конференции OpenTalks.ai c докладом "Обзор методов и инструментов для генерации синтетических датасетов", расскажу на нем, чем же меня синтетика так зацепила.

Кто тоже планирует посетить конференцию OpenTalks?
Пишите, с радостью с вами встречусь!

Видео с докладом и слайды выложу в канале после выступления.