Роман с данными @roma_toloka Channel on Telegram

Роман с данными

@roma_toloka


Все о данных, ML, AI
Founder & CEO TrainingData.Pro
7 лет занимаюсь сбором и разметкой данных
Контакты: @roman_kucev

Роман с данными (Russian)

Вы когда-нибудь задумывались о том, как данные преображают наш мир? Если да, то канал "Роман с данными" в Telegram - это для вас! Здесь вы найдете все об увлекательном мире данных, машинного обучения и искусственного интеллекта. nnВедущий канала - основатель и генеральный директор TrainingData.Pro, который уже 7 лет занимается сбором и разметкой данных. Он делится своими знаниями, опытом и лучшими практиками в области data science. nnПодписывайтесь на канал, чтобы быть в курсе всех последних тенденций и инноваций в мире данных. Общайтесь с единомышленниками, делитесь своими впечатлениями и задавайте вопросы. nnНе упустите возможность погрузиться в увлекательный мир данных вместе с каналом "Роман с данными"! Для связи и контактов обращайтесь к @roman_kucev.

Роман с данными

14 Nov, 13:34


А 6-го декабря буду выступать на конференции CONVERSATIONS 2024 с докладом
"Почему бенчмарки лгут? Как правильно оценить LLM для ваших бизнес-задач"

Кто тоже будет на конференции - ставьте 👍.
Готов со всеми пересечься и обсудить разметку и LLM.

Роман с данными

14 Nov, 13:31


На нас уже Центральный Банк Российской Федерации в своих тендерах ссылается.
Приятное достижение для проекта, которому 4 месяца.

P.S: Голосуйте активнее, чтобы мы уже добавили на лидерборд GigaChat Max.

Роман с данными

14 Oct, 10:14


Год назад, когда выбирал название для своего проекта @TonGPT, зарегестрировал множество названий TG ботов, таких как @Turbo_Gptbot, @tongpt4bot и т.д.

Сейчас подумал, а почему они у меня просто лежат, давай я их подключу, чтобы с них трафик в основной @TonGPT_bot лить.

Задача простая: задеплоить 15 ботов, чтобы на любое сообщение они отвечали “Переходи в @TonGPT_bot”

Так как уже несколько лет практически ничего самостоятельно руками не пишу, а делегирую, то с этой задачкой пошел на kwork. Каково же было мое удивление, что за эту задачу получил оценку в 5-8к руб от нескольких исполнителей.

Из принципа закинул это же ТЗ в O1, получил код, залил на сервак. Запустил - работает! На всё про всё ушло 25 мин.

Вы там на kwork с дубу рухнули? Либо цену снижайте, либо совсем без работы останетесь.

Роман с данными

13 Sep, 09:59


Добавили на llmarena.ru шеринг диалогов, чтобы можно было скидывать друзьям/коллегам свои любимые переписки с LLMками.

Вчера встал вопрос: а какую длину ссылки делать?
Если сделать слишком длинную - неудобно будет делиться.
Если сделать слишком короткую - могут появиться коллизии.

На помощь пришел новый o1 и буквально за минуту раскромсал задачу.
Я ВМК МГУ окончил, сам бы смог решить, но ушло бы минут 30-40.
Чувствую как с каждым выходом новой модельки моя производительность повышается на 15-20% процентов)

P.S Ни YandexGPT Experimental, ни T-lite эту задачку не решил.
Пруф: https://llmarena.ru/?s=baa8e203

Роман с данными

21 Aug, 13:16


И первая новость в обновленном канале следующая:
Мы с командой запустили свою российскую LLM Aрену.

Это такой сайт (идею скопировали у LMSYS), на котором обычные люди могут использовать разные LLM бесплатно, но взамен должны определять лучшую модель.
А мы на основе фидбека пользователей составляем рейтинг LLM и рассчитываем какая модель работает лучше всех на русском языке.

Мы попали прям в боль ML сообщества: кол-во LLM в России растет как на дрожжах, уже помимо YandexGPT, Гигачата есть и T-lite, и Вихрь, и Сайга. Новые LLM появляются каждую неделю и возникает потребность их сравнивать.

За последний месяц посещаемость проекта увеличилась в 6 раз, цитируемость бенчмарка возросла в разы, о нас написали Коммерсантъ, ITZine, Machinelearning, Tproger, ХАЙТЕК, RSpectr, hi-tech, газета.ru, Хабр, Lenta.ru.

Заходите на llmarena.ru и выбирайте лучшую модель!

Роман с данными

21 Aug, 09:43


На канале 1000 подписчиков!
И знаете что это значит?
Я решил снова провести ребрендинг и делаю канал с личным позиционированием.
Как-то не откликается мне Лебоски, которого макают в сартир на аватарке😬

Да и судя по статистике, личный авторский контент лучше разлетается и заходит подписчикам.
Долго думал как назвать, и решил: пусть будет "Роман с данными".

Логика такова:
- Я Роман? - Роман
- Занимаюсь сбором и разметкой данных уже 7 лет? - Занимаюсь
- У меня роман с данными? - Даже если не роман, то симпатия точно есть

Так что буду тут чаще делиться новостями/инсайтами/своим мнением о все что связано с данными, ML и ЛЛМками. Если вы поддерживаете ребрендинг - ставьте ❤️

Роман с данными

03 Jul, 08:45


Всем привет! На связи Роман Куцев.
Много интересных проектов запускаю в последнее время. И об одном проекте я сегодня хочу вам рассказать)

Месяц назад я создал своего цифрового аватара, чтобы они вел соц сети вместо меня.
Тематику и миссию проекта выбрал следующую: освещать передовые события в сфере AI, нейростетей и показывать людям, как с помощью новых технологий оптимизировать свою работу.

Первый месяц прошел успешно. Завирусились видео и в ТикТоке, и в инсте, и на ютюбе.
Цель: 10к подписчиков до конца лета.
Так что призываю всех следить за моим цифровым аватаром и ставить лайки!)

Роман с данными

20 May, 12:15


Всем привет, Роман Куцев на связи!

Продолжаю делиться своими выступлениями, которые накопились за прошедший год.
В этом докладе я решил осветить важную тему:
Как же можно достигать высокое качество при разметке данных.
Хоть правила и советы крайне простые, но внедрение их в ваш пайплайн разметки даст сильный прирост качества (проверено на Training Data)

Ссылка на видео 👇🏻
https://youtu.be/mdQqRh-IPD8

Роман с данными

26 Apr, 11:11


Всем привет, Роман Куцев на связи!

Прошлой осенью заезжал в гости к Евгению Никитину, автору канала Варим МЛ, и заодно вместе с ним выступил на ML конференции TechTrain.

И вот, спустя почти год организаторы выложили видео с докладов в открытый доступ.
Если вам интересно как с помощью ML оптимизировать разметку, и какие тренды по разметке ждут нас в будущем, ссылка на видео 👇🏻
https://youtu.be/KFWCN4_sEGg

Роман с данными

11 Apr, 11:40


🔍 Благодаря сбору данных клиент улучшил биометрическую систему по распознаванию лиц и голосов на 21%. Как мы это сделали?

Подводя итоги нашей недели про сбор данных, хотели поделиться интересным кейсом из нашего опыта.

Клиенту нужно было собрать данные для улучшения системы распознавания лиц и речи. Техническое задание заказчика подразумевало уникальный сбор данных (фото, видео) оффлайн, строгие критерии к звуку и формату съемки. Также важно было собрать 1000 участников для съемки. Клиент не мог организовать сбор данных в таком объеме и формате, поэтому обратился к Training Data

В результате сбора:

Клиент улучшил биометрическую систему по распознаванию лиц и голосов на 21%

Собрали уникальный датасет с более чем 400'000 единицами данных от 1000 офлайн участников

Как нам удалось добиться таких результатов? Рассказали в нашем кейсе по ссылке:

https://trainingdata.ru/cases/face-and-speech-recognition

#где_кейсы_лебовски

Роман с данными

11 Apr, 11:38


Ручной сбор данных: 5 лайфхаков 💪🏻

Нас часто спрашивают, как собирать данные вручную и на что важно обращать внимание в процессе? На самом деле в ручном сборе данных есть несколько главных параметров, от которых и зависит качество данных.

Определяемся с условиями: как их прописать?

Первое — это условия съемки. Определяемся, снимаем мы на улице или в помещении. Проводить сбор данных в офисе проще, однако сейчас видеоаналитика применяется в том числе к действиям на улице, в помещении воссоздать такие условия не получится. Начинаем мы с бэкграунда: это офис, улица, парк? Какой уровень освещённости нам нужен: темно или светло, естественный свет или искусственный? Стоит учитывать время суток и время года.

Как правильно снимать людей?

Также в самой съемке людей есть много важных моментов. Нужно определить длительность нахождения и местоположение человека в кадре. Часто бывает необходимо сделать видео одного и того же человека в похожих условиях, но с отличным фоном. Влияет также устройство, на которое мы снимаем.

Как составить инструкции?

Главный совет — сделать процесс максимально понятным для исполнителя. К примеру, во время съемки в офисе или на улице можно отметить места, где человек будет находиться.

Также очень помогает составление инструкции, где все действия для актера прописываются детально и с изображениями. Лучше всего напечатать эти инструкции, к тому же такая памятка помогает и менеджеру. Для удаленного же сбора лучше сначала снять данные самостоятельно и эти примеры отправить как приложение к текстовой инструкции.

Атрибуты: что нужно для съемки?

Помимо всего, надо решить, в какой одежде будет актер, нужны ли головные уборы или атрибуты: усы, очки, капюшон, макияж. Должно быть понятно, сколько нужно мужчин и женщин. То есть важно все то, что может повлиять на восприятие лица. От возраста тоже зависит способность нейросети распознавать людей. Легче всего нейросеть различает ребёнка и пожилого человека. Но вот меньшую разницу в возрасте заметить уже сложнее.

Как менеджеру подготовиться к сбору?

Очень важный пункт — менеджер обязательно должен поучаствовать в съемках и самостоятельно пройти этот процесс. Только после этого можно понять, какие требования предъявлять статистам и как их лучше донести.

#где_сбор_лебовски

Роман с данными

05 Apr, 08:12


А если вам нечем заняться пятничным вечером, то мы оставим вам подкаст Dwarkesh Patel с двумя гостями из LLM. Trenton Bricken благодаря бэкграунду максимально погружен в связь между машинным обучением и нейросаенсом, а Sholto Douglas из DeepMind считают одним из перспективных молодых специалистов в сфере.

Один из комментаторов написал, что этот подкаст легко мог бы быть курсом за 1000 долларов, и мы полностью с ним согласны.

О чем рассказывают:

🧬Intelligence is just associations
🧬Intelligence explosion & great researchers
🧬Superposition & secret communication
🧬Agents & true reasoning
🧬How Sholto & Trenton got into AI research
🧬Are feature spaces the wrong way to think about intelligence?
🧬Will interp actually work on superhuman models

https://youtu.be/UTuuTTnjxMQ?si=eUstFg23rNqtDewQ

А если вы уже смотрели, то пишите свой фидбэк в комментариях.

Роман с данными

05 Apr, 07:59


Краудсорсинг

Конечно, все знают про такой метод сбора данных, а вот пользоваться им как следует умеют далеко не все.

Самый простой метод для краудсорсинга — опубликовать задания в интернете, к примеру, на Толоке или Amazon MTurk. Это хороший вариант, когда нужно что-то простое: исполнителей можно попросить сфотографироваться на различном фоне, дома или на улице.

А еще так вы получаете доступ к большому количеству людей из разных стран. К примеру, вам нужен сбор данных исполнителей с разным цветом кожи. Тогда этот вариант идеален для вас.

Но проблема краудсорсинга состоит в том, что таким образом не получится снять что-то сложное, что требует реквизита или несколько этапов работы. Так что главное в таких проектах — разработать четкую инструкцию для исполнителей и приложить примеры необходимых данных.

Однако бывают задачи, которые невозможно решить только лишь с помощью данных из интернета, уже существующих или даже собранных оттуда. К примеру, для создания технологии liveness (способность нейросети отличать живое лицо от его неживых аналогов) нам нужно лицо человека и картонная маска или другой инвентарь.

А как же собрать данные вручную?

Читайте в нашем следующем посте.

И поставьте любую реакцию, если вам интересна тема сбора, чтобы мы больше о ней писали.

Роман с данными

05 Apr, 07:57


Интернет, краудсорсинг или ручной сбор данных. Что подходит вам?

Итак, вам нужно собрать данные. Какой способ лучше всего подходит под ваши задачи? Мы с командой составили небольшой пост для тех, кто хочет разобраться во всем вот этом вот.

Интернет
Самой простой способ сбора данных — это спарсить с подходящих сайтов в поисковике. Еще для изображений и видео можно найти открытые данные – например, в YouTube, где можно делать скриншоты или сохранять видео для последующей обработки.

Если это звуковые данные, их можно доставать из опубликованных телефонных диалогов или взять из звуковых дорожек кинофильмов. Аудио вообще часто легче сгенерировать или найти, чем изображения и видео.

Какие еще есть варианты?

Роман с данными

02 Apr, 14:51


🛠 Главные ошибки в сборе данных: как не провалиться в процессе?

Итак, вы планируете организовать сбор данных. Давайте обсудим, на что важно обратить внимание во время организации? На самом деле для успешного сбора достаточно соблюдать 3 правила подготовки, про них расскажем в сегодняшнем посте.

Провести пробный сбор данных и проверить технику

До самого сбора необходимо написать техническое задание и в первую неделю провести пилот, а также проверить технику и реквизит, чтобы процесс сбора данных был отлажен и чтобы минимизировать возникновение ошибок во время съемок. Что-то может случиться с камерами, которые работают по скрипту. Если что-то пойдет не так уже во время записи, то впустую тратится и время команды, и бюджет на статистов.

Подготовиться к поиску статистов

Поиск людей для ручного сбора данных часто создает сложности. Придумать реквизит и фон не так трудно, хотя это и занимает время.

Существенно сложнее найти статистов. Многие пугаются и отказываются от работы, так как не понимают, как их данные будут использоваться. Особенно заметно это стало в последние годы, так как сейчас в СМИ много говорят про персональные данные и биометрию, часто упоминая утечки данных в сфере.
Кроме того, часто бывают трудности в разнообразии статистов. Чаще всего во время сбора нужны статисты различного пола, возраста или расы, чтобы нейросеть могла хорошо работать на разных людях.

Расписать действия

Здесь есть много нюансов: с какого ракурса и в каких позах нужно выполнять действие, на каком расстоянии от камеры нужно находиться, какое количество фонов должно быть, учитывая условия, в которых будет работать нейронная сеть.

#где_сбор_лебовски

Роман с данными

29 Mar, 09:04


Всем привет!

Так как в последнее время и в моей жизни, и в индустрии происходит много изменений, настало время перемен и для Рома ♥️ Толоку.

Чтобы больше не пропадать и регулярно делиться актуальным контентом, я решил подключить к каналу команду Training Data. Теперь мы будем писать обо всем: от разметки до Data Mining и ML, от трендов и технической литературы до кейсов и карьерных историй, а со временем запустим и вебинары. Еще у канала появится новое имя, так что не теряйте.

Спасибо всем, кто принял участие в опросе про контент: мы вместе прочли и учли ваши мнения, поэтому обязательно следите за новыми постами.

Спасибо вам, что остаетесь с нами
Ваш Роман Куцев ♥️

Роман с данными

28 Mar, 14:49


А еще оставляю презентацию с конференции для тех, кому интереснее ознакомиться подробнее ⬆️

Роман с данными

28 Mar, 14:45


И небольшой бонус: инструменты, благодаря которым можно генерировать любые типы данных.

Роман с данными

28 Mar, 14:38


Как синтетические данные применяются для реальных задач? Так ли синтетика эффективна?

Продолжая тему синтетики и ее использования для задач, можем вспомнить кейс Microsoft Research, где они обучали модель Phi-1 и Phi-2 на текстах, сгенерированых Chat GPT 3.5.

Если у вас есть большая LLM и вы хотите сделать легкую под конкретный домен, то можно сгенерировать синтетические данные на большой и на них обучать более легкую LLM, и одна будет давать хорошее качество в узких доменных областях. Обычно компании тратят огромные средства, чтобы сделать разметку для LLM, а с помощью синтетики можно сделать разметку дешевле и быстрее.

Модерация
Тут может быть интересен подход Open AI. Они придумали, как обучать модель на синтетических данных, полученных с помощью LLM. Предположим, что у вас уже есть контрольная размеченная выборка, и есть инструкция для модераторов.

Тогда вы берете инструкцию, вставляете в промпт LLM модели и анализируете качество, которое получилось на контрольной выборке. Находите ошибки и редактируете инструкцию так, чтобы LLM работала лучше. Через 3-4 итерации вы получите промпт, который позволяет размечать ваши данные действительно качественно. Но проблема в том, что Chat GPT — довольно дорогая и медленная модель для продакшена на больших объемах. Open AI предлагает генерировать с помощью LLM синтетический датасет и обучать легковесную модель, которую вы будете использовать в задачах.

Интересно, что уже сейчас качество данных, выдаваемых LLM, колеблется между тем, что может выдать эксперт и обычный человек. А всего два года назад она вообще не могла соперничать с людьми.

Но есть проблема:
Синтетические данные часто отличаются от обычных данных, поэтому, когда мы обучаем алгоритм на синтетику, он переобучается на нее и показывает хороший результат только на синтетике, а на обычных данных работает нестабильно.

Однако мы видим и огромный прогресс: за последний год качество генерации синтетики стало на порядок выше. Когда качество генерации будет сопоставимо с качеством данных из реального мира, уже не будет возникать проблем с переобучением на синтетику, поэтому она станет более популярной.

И уже сейчас понятно, что в 2030 году больше половины данных для обучения будут сгенерированы, а настоящие данные будут отходить на второй план.

Роман с данными

27 Mar, 14:28


Для начала, почему вообще используются синтетические данные?

Для этого есть четыре основные причины:

1) Экономия денег и времени
2) Получение редких данных
3) Решение проблем с конфиденциальностью
4) Упрощение работы с разметкой и контролем качества

Давайте про каждую подробнее:
Когда мы говорим про ML направление, чем быстрее вы внедряете в продакшн новую модель, тем быстрее захватываете рынок. С синтетикой сделать это можно намного быстрее и дешевле.

Другой важный момент: с синтетикой можно генерировать редкие данные. К примеру, если в медицине в каком-то случае 99% не имеют патологии и только 1% она встречается, то есть таких данных очень мало, то сейчас именно с помощью синтетики пытаются решать эту проблему, генерируя сложные кейсы.

Еще одна причина — так проще всего избежать проблем с хранением и использованием данных. В Европе уже вступил закон GDPR, в США действует Калифорнийский закон о защите прав потребителей (CCPA), а в России вводят уголовную ответственность для тех, кто неправильно хранит персональные данные. В этом случае синтетика снимает эти боли: так как эти данные не настоящие, вы можете проще хранить и обрабатывать их.

Алгоритмы генерации могут работать 24/7 и со стабильными результатами. В отличие от людей, которые отдыхают или могут совершать ошибки. Если у вас есть уже выстроенный pipeline в синтетике, то это проще и быстрее контролировать и допускать меньше ошибок в генерации датасетов.