Voice stuff @voicestuff Channel on Telegram

Voice stuff

@voicestuff


Канал про голосовые технологии.

Чат группы @voice_stuff_chat

Здесь говорят про свежие подходы и решения в областях распознавания и синтеза речи, голосовой биометрии и про машинное обучение в целом.
Контакт: @frappuccino_o

Voice stuff (Russian)

Канал Voice stuff - это место, где вы найдете все о голосовых технологиях. Мы обсуждаем свежие подходы и решения в областях распознавания и синтеза речи, голосовой биометрии и машинного обучения в целом. Если вас интересует новейшая информация в этой области, то наш канал - идеальное место для вас. Присоединяйтесь к чату группы @voice_stuff_chat, чтобы обсуждать темы с единомышленниками. Для связи с нами, обращайтесь к @frappuccino_o. Присоединяйтесь к Voice stuff и будьте в курсе последних тенденций в голосовых технологиях!

Voice stuff

15 Feb, 03:10


Text to Audio моделька от Stability.AI. 44.1kHz и 30 секунд.

https://huggingface.co/declare-lab/TangoFlux

Voice stuff

13 Feb, 08:46


Goku - генерация видео с очень внушительными показателями качества

https://github.com/Saiyan-World/goku

Demo page: https://saiyan-world.github.io/goku/

Voice stuff

12 Feb, 15:27


Довольно подробное описание архитектуры от @max_dot_sh. Если вы знаете каналы, похожие на такой - пишите в комментарии. Мне такие нужны :)

Voice stuff

10 Feb, 18:10


Scale

Самый надёжный способ чтобы сделать хорошую нейросетевую модель сегодня - это увеличить количество данных, которое использутеся в open source решении примерно в 10 раз.

Второй способ, тоже не требующий размышлений, и тоже связанный с данными, это улучшить качество данных для обучения. Почистить ошибочки, сузить домен. Как правило, это годится для второго этапа обучения.

Оба эти способа хороши тем что результаты намного более предсказуемы, по сравнению с традиционным поиском архитектуры. Архитектура может быть хорошей, может не хорошей, пробовать её дорого и промежуточные результаты только в головах исследователей. А с данными даже если их увеличить их количество на чуть-чуть, можно получить прирост по качеству тоже на чуть-чуть.

Что-то невозможно решить данными. Например, нет таких данных, которые позволят SDXL писать тексты на синтетических картинках. Но тут надо понимать что вам тогда нужно: качество или фичи. Но чтобы это обучить, всё равно понадобятся данные. Короче, датка рулит пока что.

Voice stuff

10 Feb, 15:33


Channel photo updated

Voice stuff

08 Feb, 17:25


Твой шанс найти работу!

Если вы в поиске работы или сами нанимаете, делитесь здесь! Оставляйте своё резюме или пишите об открытых позициях прямо в комментариях под этим постом.

Также можно в комментариях подбадривать “ничего себе, ты реально работал в гугле!?”

Можете писать абсолютно не формально, думаю все детали будут обсуждаться на месте.

Удачи в поисках!

P.S. Сам я не нанимаю и не ищу работу сейчас – просто поддерживаю тех, кто в этом нуждается.

Voice stuff

07 Feb, 15:12


Представляете насколько быстро работает leChat от Mistral? Уверен, нет. Это не ускоренное видео.

Voice stuff

06 Feb, 15:37


Чтобы пользоваться сайтом deepseek.com из Америки, нужен VPN. В ЮАР работало без проблем.

На видео я открываю сайт и жду загрузки. Потом показываю работает ли интернет вообще и открываю гугл. Потом открываю приложение - там всё работает.

Это печально, потому что придётся платить за чатгпт((

Voice stuff

05 Feb, 16:03


Рубрика #изипизи: гармоническая функция потерь

Наткнулся на забавный трюк, что можно ускорить обучение модели, заменив кросс-энтропию на гармоническую функцию потерь.

Трюк простенький. Сами метрики может и не улучшит, но зато модель учится быстрее. Плюс, для картинок, лучше интерпретируемость. Вторая картинка — пример сети на весов MNIST.

Статья: https://arxiv.org/abs/2502.01628
Хвиттер: https://x.com/dbaek__/status/1886781418115862544

Voice stuff

02 Feb, 09:25


Запустить прямо сейчас 🤩

https://github.com/ToTheBeginning/PuLID - Копирует лицо по одной фотографии. На картинке как раз халк с моим лицом, которого я получил через FLUX + PuLID в comfyUI. Если не охота заморачиваться, вот spaces https://huggingface.co/spaces/yanze/PuLID-FLUX

https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B - Моделька по генерации изображений от DeepSeek. По качеству ей до FLUX далеко, но зато полноценная LLM с изображениями как на вход, так и на выход. Отсюда промпты Вышла вот-вот на днях совсем.

https://huggingface.co/spaces/srinivasbilla/llasa-3b-tts - большая модель для синтеза речи с 1, 3 и 8B параметров от HKUST. Вышла на днях буквально. Код открыт на пол шишечки. Звучит неплохо, есть клонирование. Сама модель вот тут. https://huggingface.co/HKUSTAudio/Llasa-3B

Voice stuff

01 Feb, 18:21


AI Distillation Race: From $450 Berkeley Experiment to Industry Disruption

In a fascinating turn of events in AI development, UC Berkeley doctoral students demonstrated that advanced AI capabilities can be replicated for just $450 in computing costs.

This comes amid industry buzz about #DeepSeek's R1 model, which allegedly used similar distillation techniques to replicate OpenAI's reasoning capabilities.

The Berkeley breakthrough:

- Used Alibaba's Qwen model to generate 17,000 training examples
- Focused on math and coding problems with verifiable answers
- Their model outperformed OpenAI's first reasoning model on several benchmarks

The bigger picture:
- OpenAI claims Chinese quant fund DeepSeek used distillation to replicate their o1 reasoning model
- While OpenAI tries to hide their models' thought processes, DeepSeek took an open approach with R1
- This transparency means other developers could potentially replicate R1's capabilities

The Berkeley case and DeepSeek's R1 show that AI innovation can be democratized. While tech giants invest billions in AI development, smaller teams can achieve impressive results through clever engineering and efficient training methods.

Voice stuff

30 Jan, 12:22


Опенсорс Suno🤡🤡🤡

Наконец-то в опенсорс генераторах музыки сподвижки. Угадайте, кто? Правильно, китайцы YuE — по-русски йе! Yeah, ну или просто 乐. По звуку похоже скорее на Suno v2, но и это уже очень хорошо. Примеры в видосе и полные треки в комментариях.

К сожалению, какого-то демо не нашёл, поэтому своих тестов нет. Пейпер обещают скоро, а вот раскатить модельку у себя уже можно. Потребуется только 24 GB VRAM, то есть 4090 может осилить.

Ждём, когда оптимизируют и понаделают всякие финтифлюшки, по типу звуковых IP-адаптеров и контролнетов. :)

Модели на HF
Project page
GitHub

@ai_newz

Voice stuff

28 Jan, 16:48


Прикиньте, если пропустить любой MMDIT/DIT блок кроме крайних трёх в диффузионных моделях, то результат почти не изменится.

На основе этой информации даже выпущена моделька, которая на четверть меньше оригинальной. 8B против 12B.

https://ostris.com/2024/09/07/skipping-flux-1-dev-blocks/

https://huggingface.co/Freepik/flux.1-lite-8B

Voice stuff

27 Jan, 10:33


Лицо Сэма Альтмана представили?

Voice stuff

22 Jan, 11:54


Telegram Apps Developer

Привет! Ищу разработчика телеграм ботов/приложений, особенно интересует экпертиза в том чтобы сделать оплату и интеграцию с самим API TG Apps. Нанимаю лично я.

Требования:
- Python
- Немного Web stack
- Docker
- Проекты с Telegram в портфолио

Оплата: сдельная. Опишу ТЗ и примерные сроки. Нужно будет оценить, разработать и предоставить поддержку решения. На всё где-то месяца два. Если всё получится - найму в штат на оклад. Скорость в приоритете. Бюджет небольшой.

Пишите на @frappuccino_o. Если нет резюме - присылайте портфолио и текстом рассказ об экспертизе.

Voice stuff

21 Jan, 16:57


Недавно влез в две похожие дискуссии про то, как злой AI украдет всю работу у программистов, когда LLM окончательно начнут писать код лучше нас (хаха, the bar is too low).
TL;DR: думаю, что сильно волноваться не надо.

1. Software engineering больше, чем просто писать код или даже возиться с инфрой (see also).
2. "Не надо бежать быстрее медведя, надо бежать быстрее геолога". Точнее, быстрее луддитов, который даже copilot не освоили и не хотят (see also).
3. Наконец, серьезный аргумент. Допустим, умные инструменты увеличат нашу производительность на порядок, скептики задаются вопросом, нужно ли миру на порядок больше софта. Но правильный вопрос звучит скорее как "нужно ли миру в X раз больше софта, если его стоимость снизится в X раз?".

Кажется, что да - есть длинный хвост задач, которые пока не решаются по экономическим причинам. В любом бэклоге хватает идей формата «вообще перспективно, но риски большие / expected value ниже, чем у альтернативных фичей». Не говоря уже о всякой мелочи, которая сейчас делается в экселе; а должна автоматизироваться - например, вносить налоговый вычет для купленного мной ноутбука должен AI agent, а пока что это делает специально обученный человек, тыкающий мышкой, копируя номер инвойса в декларацию. Женя @j_links подсказал, что эти мои диванные рассуждения вообще-то называются парадоксом Джевонса.

При всем этом, конечно, индустрия не может не измениться, старые карьерные пути инвалидируются, но будут какие-то новые. What a time to be alive!

Voice stuff

20 Jan, 16:12


Test Driven LLM Development

Я в какой-то момент пришёл к тому что LLM не имеют нормальной обратной связи при написании кода, поэтому разработка через тестирование - это хороший способ организации кода.

Мой опыт такой:

Я как-то искал ошибки в том, что ЛЛМка написала и нашёл что чаще всего проблема в недопонимании задачи. Если просить модель писать docstring, для каждого класса и функции и сверять что она там задумала, то получается отловить много ошибок.

Разработка через тестирование даже с ЛЛМ под рукой - это довольно большая избыточность. Но когда проект растёт - будто бы без этого тяжело становится двигаться. Настолько тяжело, что я сам добровольно прочитал книгу по тестированию, когда в кодбазе всё начало трещать по швам, а поиск ошибок стал занимать дни вместо минут.

Какие у вас есть трюки при разработке в 2025? Используете курсор? Пишете тесты? Пишете что “You are an experienced Python Engineer who makes no mistakes in code” в промпте? Рассказывайте ваши секреты.

https://blog.yfzhou.fyi/posts/tdd-llm/ - для вдохновения.

Voice stuff

17 Jan, 16:22


Моделирование дискретной диффузии

Увидел у @teraspace_news новость, что он завёл синтез речи на дискретной диффузии. Начал гуглить как это вообще реализовано. Наткнулся на вот такую статью. Прошу обратить внимание на примеры генерации, которые авторы приводят. Это довольно сильное улучшение по связности текста!

https://arxiv.org/abs/2310.16834

Voice stuff

16 Jan, 16:09


FLUX

Кто-нибудь может мне рассказать почему FLUX настолько хорош?

Вот что именно было сделано при обучении, что получилось такое качество? Pic related.

Компании 2 месяца (они все выходцы из Stability.ai) и они выпускают модель, которая делает фотореалистичные фотографии, не ломается на пальцах и стилистически обскакивает всё что есть. На ровном месте, без бренд истории, FLUX становится самой популярной моделью по генерации изображений в мире.

При этом сама Stability, выпустив и SD3 и SD3.5, так и не догнала ни по фотореалистичности ни по качеству FLUX. При этом, как я понимаю, архитектурно SD3.5 будет чуть более нова.

Мне нужно знать их секреты 🤔 Пишите и в комментарии, и на @frappuccino_o

Voice stuff

15 Jan, 16:52


Зачем использовать дискретные единицы в синтезе речи

Новый блогпост от Николая Шмырёва, который, как минимум, убедил меня что распределение длин фонем - это не гауссово распределение. Это очень смелая и крутая идея.

Сами доклады, указанные в статье, разумеется про вообще дискретные представления речи, чем про длительности, но я заинтригован именно длинами фонем. Как человек ковырявший duration predictorы, могу подтвердить что гауссианы плохо ложатся на распределение длинн.

Ждём примеров, Николай!

https://alphacephei.com/nsh/2025/01/12/discrete-units.html

Voice stuff

15 Jan, 11:04


Расскажите какие применения вы нашли новому режиму "задач" у ChatGPT. Я пока что будильник не стал бы доверять. Не до конца понимаю вообще сферу применения.

Voice stuff

14 Jan, 16:36


Titans: Learning to Memorize at Test Time

We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information.

Очень подробная и понятная статья от Google на тему того как сделать контекст в рекуррентных сетях намного длиннее, чем он сейчас. По их тестам, результаты очень хорошие. Сравнивают чаще всего с мамбой.

Я ещё не дочитал. Если у кого будут обзоры - пишите в комментариях.

https://arxiv.org/abs/2501.00663v1

Voice stuff

13 Jan, 16:26


Спам в телеграме

По итогам эксперимента, с момента как я включил “Агрессивный анти-спам” в телеграме, у меня было ровно 0 новых спам-комментариев. Прошёл где-то месяц. До этого было где-то по парочке в неделю.

Поэтому, не вижу причин не включать его в настройках.

Как включить:
С телефона заходим в настроки группы -> Администраторы -> Агрессивный Анти-Спам.
Важно зайти с телефона. В приложении для Mac кнопки я не нашёл.

Voice stuff

11 Jan, 14:16


Аудио семплы интригующие

https://x.com/reach_vb/status/1877773277571014882/mediaviewer

Заявлено что можно обучать всего на 80 часах голоса.

80М параметров

https://huggingface.co/hexgrad/Kokoro-82M

Voice stuff

10 Jan, 20:59


Это был missing semester и моего университета 😅

Schedule
1/13/20
: Course overview + the shell
1/14/20: Shell Tools and Scripting
1/15/20: Editors (Vim)
1/16/20: Data Wrangling
1/21/20: Command-line Environment
1/22/20: Version Control (Git)
1/23/20: Debugging and Profiling
1/27/20: Metaprogramming
1/28/20: Security and Cryptography
1/29/20: Potpourri
1/30/20: Q&A


https://missing.csail.mit.edu

Voice stuff

08 Jan, 16:42


ДЕКАБРЬ 2024

🎄Audio 🎄
1. Transformer-based audio autoencoder
2. Gemini сделали эмоциональный контекстуальный audio output
3. Streaming TTS CozyVoice
4. FishAudio 1.5
5. kits.ai singing voice conversion

🎄NLP🎄
1. Byte-latent transformer
2. Large Concept Model от meta
3. ModernBert
4. Маленький курс от HF про маленькие llmки и их использование

🎄Другое🎄
1. Монография для reinforcement learning
2. Классный список техник advanced DL
3. Куча ресурсов для foundation models

Voice stuff

07 Jan, 12:39


Nvidia news
Наконец-то вышла 5090.

32гб оперативки
~в 2 раза быстрее 4090
Стоит $2000. Релиз 30 января.

https://www.nvidia.com/en-us/geforce/graphics-cards/50-series/rtx-5090/

И это был бы уже хороший анонс, но в самом конце выступления

https://www.youtube.com/live/k82RwXqZHY8?si=bvn_kwLWpjtBvBxy

Представили мини-пк с 20 ядрами и 128Гб смешанной памяти и кучей, целым 1PetaFLOPS fp4 компьюта. Сам Дженсен называет его суперкомпьютером и обещает что новый комп будет поддерживать весь стек Nvidia DGX - можно легко объединять несколько таких компьютеров в вычислительный кластер.

Назвали Nvidia Project Digits и просят всего $3000 за такую радость. Релиз в Мае.

https://www.nvidia.com/en-us/project-digits/

У меня осталось впечатление будто Project Digits будет мощнее чем 5090 для AI вычислений. По крайней мере, у него будет больше памяти для них.

Если всё так хорошо, как это обещает Хуанг, то кажется новой машинкой для потребительского AI станет не 5090, а как раз этот маленький кирпичик.

Voice stuff

04 Jan, 10:24


Plots Unlock Time-Series Understanding in Multimodal Models (3 Oct 2024)
arxiv | blog

TL;DR
Гугл на серьёзных щщах выпустил “rigorous empirical evaluation” того, что мультимодальные LLM умеют в reasoning про временные ряды - если представить ряды графиками и рассуждать про заметные на глаз параметры. И чем больше модель, тем лучше она справляется с таким reasoning (сравнивались GPT-4o vs GPT-4o-mini vs Gemini Pro 1.5 vs Gemini Flash 1.5).

Важность представления данных
Фишка статьи в том, что используются достаточно простые фичи вроде тренда и сезональности, а входные данные подаются в модель как картинки (графики). По сравнению с представлением рядов в виде текста (CSV), представление в виде картинок даёт заметный прирост точности ризонинга модели для этих заметных на глаз параметров. “Заметность на глаз” здесь важна, так как люди придумали графики именно для того, чтобы делать эти параметры видными на глаз. Хорошо, что это работает так же и для LLM, но единственный вывод из этого - чем нагляднее мы представляем фичи входных данных, тем проще модели про них рассуждать. Очевидный следующий шаг - “а как нам наглядно представлять больше важных фич?” - в статье не упоминается 😐

Важность экономии токенов при работе с рядами
Кроме этого, в статье обсуждается ещё один важный аргумент в пользу использования специализированного энкодера для временных рядов - экономия на токенах. D реальной жизни ряды обычно длинные и широкие (т.е. многоразмерные), и на токенизацию их текстового представления уходит десятки и сотни тысяч токенов. Это создаёт проблему не только со стоимостью, но и с ограничениями длины контекста модели. Использование отдельного энкодера позволяет представлять ряд любой длины в виде набора эмбеддингов существенно меньшей, а то и фиксированной длины.

Voice stuff

31 Dec, 16:27


Как вы там, подвели уже 🔠🔠🔠🔠🔠 🔠🔠🔠🔠?

Присылайте фотку своего новогоднего стола в комментарии.

Voice stuff

28 Dec, 16:45


Короче нет в Китае никакого социального рейтинга. А камеры они понатыкали потому что всего 5 лет назад мелкая преступность была через край. Аккумуляторы в мотоциклах крали чаще всего.

Помню все бухтят на то что из-за (несуществующего) социального рейтинга нельзя дорогу переходить в неположенном месте иначе тебе отключат оплату в приложении и нельзя будет из дома выходить. Ну какой сюр.

Рассказываю. Между мной и таксистом забор в аэропорту. Он мне показывает мол "перелезай". Я перелез.

Еду ночью в такси 120км/ч по пустой дороге где 60км/ч. Нас обгоняет BMW.

По городу машину постоянно подрезают китайцы на скутерах, потому что им не нужны права. Скутеристы могут ехать прямо ночью по встречке через шоссе, потому что так короче. Азия.

Когда закончилась парковка, мы припарковали машину на каком-то тротуаре в тупике. На следующий день там поставили конусы. Конусы мы убрали и припарковались ещё раз.

Утром мы переходим дорогу прямо сквозь машины чтобы зайти в кафешку.

Перед великой китайской стено везде таблички "на дронах не летать". Мы зарегистрировали мой дрон в реестре и спокойно полетали.

Люди всё-таки везде люди. И камеры тут ни при чём.

Voice stuff

23 Dec, 15:30


Наткнулся на пост Top Python libraries of 2024, и набор библиотек в очередной раз затрагивает давно наболевшие топики:

1) несовершенство языка и пакетного менеджера (uv вместо pip, Whenever как лучший datetime, streamable как альтернатива встроенным коллекциям, очередной генератор/валидатор типов...);
2) все низкоуровневые штуки продолжают переписывать на rust;
3) главная проблема и в LLM-driven мире осталась все той же - перегонять данные из формата в формат, только к привычным HTML/JSON/markdown/датаклассам добавляются попытки сделать LLM-native форматы (BAML), LLM-native датаклассы (PydanticAI) etc.

Правда, из всего списка сколько-то массовый адопшен случился пока только у uv.

Voice stuff

18 Dec, 11:01


Видео модель от гугла

Поиграться тут

https://deepmind.google/technologies/veo/veo-2/

Voice stuff

17 Dec, 11:10


Помните Gemini? Теперь их модели занимают первое место в LMSYS LLM Arena. Отдельное почтение за понимание картинок. Это первая модель, которая стабильно отличает крупный кадр от общего кадра.

Voice stuff

16 Dec, 09:15


Вышла Phi-4 от Microsoft

Метрики обещают выше крыши

https://techcommunity.microsoft.com/blog/aiplatformblog/introducing-phi-4-microsoft%e2%80%99s-newest-small-language-model-specializing-in-comple/4357090

Voice stuff

14 Dec, 10:47


Трейдер с личными убытками в ~$1,2 млн за этот год ищет на Reddit для заключения долгого и счастливого брака кого-то с доходами от трейдинга >$1 млн за этот же год, чтобы уменьшить налогооблагаемую базу и разделить выгоду.

@buzko_hub

Voice stuff

12 Dec, 13:23


Text to video от Tencent (Hunyuan)

Моделька с очень и очень внушительным качеством генерации. В комментарии приложу схему архитектуры.

В твиттере говорят что она разносит Сору в щепки по качеству, при том опен сорсная. В то же время, пока ребята выпустили модель, OpenAI уже выпустили целый продукт с платящими клиентами и хайпом во всех возможных соцсетях. Так что тут не так очевидно кто на самом деле впереди.

https://github.com/Tencent/HunyuanVideo

Voice stuff

11 Dec, 13:01


🆕 [HF Models] nvidia - nvidia/mel-codec-44khz


https://huggingface.co/nvidia/mel-codec-44khz


🆕 [HF Models] nvidia - nvidia/mel-codec-22khz


https://huggingface.co/nvidia/mel-codec-22khz


🆕 [HF Models] nvidia - nvidia/audio-codec-44khz


https://huggingface.co/nvidia/audio-codec-44khz

Voice stuff

10 Dec, 08:49


Sora запустили!

Ура! Пока что войти в аккаунт у меня не получилось, но видимо скоро получится.

Под капотом там редактор видео, который позволяет связывать разные видео друг с другом переходами и генерировать новые. Он же подсказывает промпт для новых видео. Такой довольно полноценный тул для создания контента.

Сора сразу генерит по несколько видео чтобы можно было выбирать более подходящие.

Обещают генерить по 20 секунд видео в 1080p. Что очень много относительно конкуренции! Ориентации и вертикальная и горизонтальная и квадрат.

Кстати, для кино вам почти не нужны сцены длинее 20 секунд. Но нужно чтобы они были связными как-то.

По анонсу мне нравится что у коней и мамонтов по 4 ноги и они довольно стабильны в генерации не улетают из реальности сильно.

Доступ по подписке. Подписка за $20 даёт доступ к 50 генерациям, а за $200 к неограниченным, из которых 500 будут быстрые.

Анонс:
https://www.youtube.com/live/2jKVx2vyZOY?si=NXlVcveArUfms9gc

сайт:
sora.com

Voice stuff

09 Dec, 13:49


Оптимизация генеративных нейросетей - это просто!

Держите курсы, которые я собираюсь прочитать, прослушать и пролистать в ближайшем будущем

Видеокурсы:
https://geometry.cs.ucl.ac.uk/courses/diffusion4ContentCreation_sigg24/

https://mhsung.github.io/kaist-cs492d-fall-2024/


Блогпосты:
https://yang-song.net/blog/2021/score/

https://lilianweng.github.io/posts/2021-07-11-diffusion-models/

Архив:

https://arxiv.org/abs/2406.08929

https://arxiv.org/abs/2208.11970

https://arxiv.org/abs/2403.18103

Voice stuff

09 Dec, 11:59


Датасеты для обучения TTS на русском языке

Чистые данные:
Natasha (https://sova.ai/dataset/)
Ruslan
Russian Libri Speech https://www.openslr.org/96/
CSS10 https://github.com/Kyubyong/css10

Средне-чистые данные:
https://github.com/GeorgeFedoseev/DeepSpeech
https://github.com/ishine/open_tts

Сырые данные. Обычно подходят для распознавания речи
https://commonvoice.mozilla.org/ru/datasets
https://huggingface.co/datasets/SberDevices/Golos
https://github.com/snakers4/open_stt (overlaps with open_tts data)

Это не исчерпывающий список. Если вы знаете какие-то ещё датасеты - напишите, пожалуйста о них в комментариях. Я добавлю их в пост.

Подсказали в комментариях:
https://huggingface.co/Rootreck

Voice stuff

04 Dec, 13:34


Датасет, на котором обучена F5-TTS. Правда, они использовали только английский и китайский. Я редко вижу датасеты такого объёма в одной упаковке, размеченные и чистые. Пользуйтесь на здоровье.

https://huggingface.co/datasets/amphion/Emilia-Dataset/

Voice stuff

03 Dec, 23:50


Indic Parler-TTS is a multilingual Indic extension of Parler-TTS Mini.

It is a fine-tuned version of Indic Parler-TTS Pretrained, trained on a 1,806 hours multilingual Indic and English dataset.

Indic Parler-TTS Mini can officially speak in 20 Indic languages, making it comprehensive for regional language technologies, and in English. The 21 languages supported are: Assamese, Bengali, Bodo, Dogri, English, Gujarati, Hindi, Kannada, Konkani, Maithili, Malayalam, Manipuri, Marathi, Nepali, Odia, Sanskrit, Santali, Sindhi, Tamil, Telugu, and Urdu.

Thanks to its better prompt tokenizer, it can easily be extended to other languages. This tokenizer has a larger vocabulary and handles byte fallback, which simplifies multilingual training.

https://huggingface.co/ai4bharat/indic-parler-tts

Voice stuff

03 Dec, 06:38


Кто знает какие есть удачные открытые модели для перевода текстов? Хочется по качеству чтобы было как deepl/google translate. Надеюсь я не слишком многого хочу.

Нужно чтобы были веса. Ограничения на размер - должно влезть на 24Гб карточку. Но скидывайте всё подряд, я разберусь что потянет, а что нет.

Из того что я пробовал - Seamless M4T. Очень слабый.

И чтобы два раза не ходить. Модели для липсинка тоже посоветуйте пожалуйста. Очень нужны. Сервисы с API тоже подойдут.

Voice stuff

28 Nov, 13:50


Black Forest Labs привлекают $200M по оценке более чем в $1B

Такая оценка неудивительна - посмотрите на сравнение популярности FLUX.1 с разными версиями Stable Diffusion, у последних версий которой большие проблемы.

Вообще оцените темп - парни ушли из Stability в марте, в августе уже релизнули первую модельку, попутно зарейзив $31M на Seed. Сейчас в процессе рейза $200M по оценке $1B. Достигли единорога за 4 месяца c запуска первой модели в начале Августа! 🦄

Пацаны вообще ребята!

@ai_newz

Voice stuff

26 Nov, 05:58


Паблики фейсбука тоже открыли для себя txt2vid технологии ☕️

Voice stuff

24 Nov, 02:31


Я настолько увлекся разными Coding Copilots, что решил создать отдельный awesome list на GitHub, чтобы и вы были в курсе: https://github.com/ifokeev/awesome-copilots

Voice stuff

22 Nov, 03:30


🆕 [HF Models] black-forest-labs - black-forest-labs/FLUX.1-Depth-dev-lora


https://huggingface.co/black-forest-labs/FLUX.1-Depth-dev-lora


🆕 [HF Models] black-forest-labs - black-forest-labs/FLUX.1-Canny-dev-lora


https://huggingface.co/black-forest-labs/FLUX.1-Canny-dev-lora


🆕 [HF Models] black-forest-labs - black-forest-labs/FLUX.1-Depth-dev


https://huggingface.co/black-forest-labs/FLUX.1-Depth-dev


🆕 [HF Models] black-forest-labs - black-forest-labs/FLUX.1-Canny-dev


https://huggingface.co/black-forest-labs/FLUX.1-Canny-dev


🆕 [HF Models] black-forest-labs - black-forest-labs/FLUX.1-Redux-dev


https://huggingface.co/black-forest-labs/FLUX.1-Redux-dev


🆕 [HF Models] black-forest-labs - black-forest-labs/FLUX.1-Fill-dev


https://huggingface.co/black-forest-labs/FLUX.1-Fill-dev

Voice stuff

21 Nov, 09:18


📰 HuggingFace - From Files to Chunks: Improving Hugging Face Storage Efficiency


https://huggingface.co/blog/from-files-to-chunks

Voice stuff

19 Nov, 03:44


Pixtral Large 🔥🔥🔥

Новая моделька от Mistral на 124B параметров является мультимодальным расширением Mistral Large 2, но с обновлённым системным промптом и улучшенным пониманием длинного контекста в 128K токенов. На мультимодальных бенчах показывает себя очень хорошо, по заявлениям чуть ли не SOTA.

Но Mistral часто убирает неудобные бенчи или модели из своих анонсов. Конкретно тут непонятно с какими версиями моделей сравнивают, плюс как-то очень удобно "забыли" про мультимодального Qwen2-VL и Molmo. Я добавил таблицу с ними тоже. По сути Pixtral Large даже слегка хуже чем Qwen.

Также можно потыкаться в Le Chat. Он, кстати, тоже мощно обновился. Добавили веб-поиск с ссылками на цитаты. Canvas для редактирования аутпута inline, не переписывая всё заново, как это недавно сделали в ChatGPT. Ещё прикрутили Flux Pro прямо в чат.

Веса уже лежат на Hugging Face
Le Chat
Или подключиться по API
Подробнее

@ai_newz

Voice stuff

16 Nov, 14:40


Good morning

Voice stuff

13 Nov, 15:40


Первая полностью открытая модель для генерации разговорного аудио - Hertz-dev (8.5B параметров). Слушайте образцы ниже, там очень клево. Это все либо сгенерировано AI, либо в диалоге с AI.

Направлена на создание естественных и плавных аудиосообщений. Состоит из трех основных компонентов: hertz-codec, hertz-lm и hertz-vae.

Hertz-codec — это аудиокодек, который преобразует аудио в необходимое представление, что позволяет экономить ресурсы без потери качества. Hertz-lm — языковая модель, обученная на 20 миллионах часов аудиоданных, может генерировать текстовые репрезентации звука и обладает контекстом до 4,5 минут. Модель доступна в двух версиях: с предобучением на текстовых данных и исключительно на аудиоданных.
Hertz-vae — мощная модель, которая отвечает за восстановление семантики речи с высокой точностью.

Модель полностью открытая и она никак еще не настроена на инструкции, не файнтюнена, поэтому ее можно поднастроить под ЛЮБУЮ аудиозадачу, от классификации эмоций до перевода в реальном времени.
Обещают, что задержка в 2 раза ниже всего имеющегося на рынке, на RTX 4090 - 120 мс.

Подробнее: https://si.inc/hertz-dev/
Код: https://github.com/Standard-Intelligence/hertz-dev/tree/main

Voice stuff

12 Nov, 15:30


Mochi
Появляется всё больше и больше доступных генераторов видео. Вот этот полностью опенсорсный, с хорошей квантизацией и даже с приличным качеством.

Моделька с 10Б параметров запускается в fp16 на RTX4090.

Прислал @Mr_fries1111

https://huggingface.co/genmo/mochi-1-preview

Присылайте в комменты ваши генерации 🙏

Voice stuff

11 Nov, 15:35


У fishaudio вышло ещё одно обновление.


https://github.com/fishaudio/fish-speech

Voice stuff

04 Nov, 13:18


Опубликована открытая AI-модель hertz-dev для полнодуплексного голосового общения https://opennet.ru/62170/

Voice stuff

02 Nov, 20:09


Spam is a scam
Зачем перекладывать подозрительную почту из одного ящика в другой если ненужная почта оседает в обоих ящиках, а второй ящик всё равно нужно проверять?

И главное, нигде не нашёл чтобы эта функция выключалась. Тут особняком стоит gmail, где спам фильтр хотя бы работает.

Voice stuff

25 Oct, 15:33


Вышла SD 3.5 😍

https://stability.ai/news/introducing-stable-diffusion-3-5

Смотрите какие результаты она выдаёт по запросу
A business woman counting her fingers

Voice stuff

23 Oct, 14:31


Книга о том как обучать LLMs

https://arxiv.org/abs/2408.13296

Voice stuff

22 Oct, 16:08


Computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku (🔥 Score: 178+ in 57 minutes)

Link: https://readhacker.news/s/6gFKX
Comments: https://readhacker.news/c/6gFKX

Voice stuff

20 Oct, 17:16


В ВК сейчас есть грантовая программа по созданию каналов. Может кто-то хочет со мной побрейнштормить идею видео проекта? Как вы помните, я верю в контент и очень люблю это.

Это может быть что-то, что вы хотели бы видеть на вк/ютюбе, не обязательно что-то, в чём вы хотите участвовать.

Идеи присылайте на @frappuccino_o

https://vkvideo.vkgrants.ru/

Voice stuff

18 Oct, 22:11


After spending some hours on F5, I found passion to finalize this small post. I'm telling this for quite some time already though.

https://alphacephei.com/nsh/2024/10/18/tts-design.html

Voice stuff

18 Oct, 14:35


Nvidia выпустила какую-то очень крутую модель для генерации изображений. Я ещё не игрался, но вы просто почитайте аннотацию.

https://nvlabs.github.io/Sana/

Voice stuff

12 Oct, 18:56


Из реализации FLUX в diffusers

Voice stuff

11 Oct, 14:45


Модель, которая позволяет не только сказать что звуковое событие было, но и сказать в какой промежуток времени оно случилось. При этом, модель обучается без этой самой разметки на таймкоды событий.

https://github.com/Audio-WestlakeU/audiossl

Voice stuff

10 Oct, 17:53


Еще одну SOTA мультимодальную зарелизили. Бьет много каких моделей.

https://huggingface.co/rhymes-ai/Aria

Voice stuff

09 Oct, 19:04


https://github.com/SWivid/F5-TTS

A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching

This paper introduces F5-TTS, a fully non-autoregressive text-to-speech system based on flow matching with Diffusion Transformer (DiT). Without requiring complex designs such as duration model, text encoder, and phoneme alignment, the text input is simply padded with filler tokens to the same length as input speech, and then the denoising is performed for speech generation, which was originally proved feasible by E2 TTS. However, the original design of E2 TTS makes it hard to follow due to its slow convergence and low robustness. To address these issues, we first model the input with ConvNeXt to refine the text representation, making it easy to align with the speech. We further propose an inference-time Sway Sampling strategy, which significantly improves our model’s performance and efficiency. This sampling strategy for flow step can be easily applied to existing flow matching based models without retraining. Our design allows faster training and achieves an inference RTF of 0.15, which is greatly improved compared to state-of-the-art diffusion-based TTS models. Trained on a public 100K hours multilingual dataset, our Fairytaler Fakes Fluent and Faithful speech with Flow matching (F5-TTS) exhibits highly natural and expressive zero-shot ability, seamless code-switching capability, and speed control efficiency. Demo samples can be found at https://SWivid.github.io/F5-TTS. We will release all code and checkpoints to promote community development.

Voice stuff

09 Oct, 19:04


Sound examples are greatest I’ve ever heard.

Voice stuff

09 Oct, 15:14


Почему модели генерации изображений не умели генерировать тексты?

Я всегда думал что это просто недостаточный обучающий сет, либо задача слишком сложная, либо разрешение латентов недостаточное. И у меня даже был план обучить SDXL на текстах и сгенерировать датасет для этого (картинка прилагается. Но там всё неправильно)

Оказалось что просто CLIP энкодер слабоват. Генерация изображений нормально работает только с хорошим энкодером текстов. Во ВСЕХ работах, где заменяли CLIP на T5 или на что-то подобное, тексты генерируются хорошо.

Причём, можно выбросить вообще оба CLIP энкодера из SDXL и оставить только один T5 и всё равно будет лучше типография.

Ключевая статья:
https://arxiv.org/html/2403.09622v1

Другие примеры помимо FLUX и SD3:
https://github.com/deep-floyd/IF
https://github.com/TencentQQGYLab/ELLA

Voice stuff

07 Oct, 19:43


Сколько человек сказало вам нет?

Всем стартаперам посвещается:

1. Если есть отказы — то ты хоть что-то сделал, а если их нет, то ты нихера не делал.

2. Если нет отказов — значит, ты не пробовал продать. Даже 1к рублей наликом продать за 100 рублей на улице очень сложно. Надо получить явный отказ — это показатель, что ты наконец-то начал искать реальную ценность.

3. Один чел ко мне три раза приходил с ботом для аватарок. Я рассказал, что можно улучшить, и на этом диалог кончился. Но с меня не попросили денег, не попросили пошерить друзьям. Не получили ЯВНЫЙ ОТКАЗ.

4. У тебя конверсия 2-3% в продажу в лучшем случае, поэтому тебе надо получить 97 РЕАЛЬНЫХ отказов, чтобы заработать.

5. Ща будет сексизм, сори, может так вы лучше поймете:

Подошел на дискотеке, потанцевал в клубе рядом с девушками, ни с одной не поговорил, не предложил поехать к тебе и считаешь, что сделал пикап подход?

Но это не подход, а херня, ты просто потратил денег на вход и коктейли.
Wake up, Neo! 🐇


Автор: @scrnsht

Voice stuff

07 Oct, 15:54


</openai>

Voice stuff

07 Oct, 15:54


🤯 Энтузиаст дропнул запрос, который помогает Claude 3.5 Sonnet превзойти OpenAI o1 в рассуждениях! Промпт запускает целую цепочку мыслей из 20-50 шагов перед тем, как выдать ответ.

В некоторых тестах такой подход позволил Claude 3.5 Sonnet достичь уровня GPT-4 и o1. Запрос будет работать не только в Claude, но и во многих других LLM, чтобы поднять их эффективность на максимум.

Сохраняйте, чтобы попробовать — тут.

_______
Источник | #notboring_tech
@F_S_C_P

Стань спонсором!

Voice stuff

03 Oct, 21:33


Were RNNs All We Needed?

Статья о minLSTM и minGRU. Исследователи проделали хорошую работу и изучили чем именно хороши трансформеры и мамба. Покумекали и решили что главная беда LSTM в том, что backpropagation там идёт через токены по времени и из-за этого они медленные капец. Убрали зависимость от предыдущих токенов и назвали minGRU. Напомню, что трансформеры параллельные и обучаются на всей последоватеьности за один такт видеокарты, закрывая токены маской.

Автор этого канала читает только abstract и картинки, поэтому в том как устроена minGRU он до конца не разобрался. Но приглашает вас нарисовать свою схемку в комментариях и всё пояснить.

https://arxiv.org/pdf/2410.01201

Voice stuff

02 Oct, 15:03


Единственный рабочий Text Inversion для SDXL, который я нашёл.

https://github.com/oss-roettger/XL-Textual-Inversion

Voice stuff

30 Sep, 18:12


New Whisper model large v3 turbo

https://github.com/openai/whisper/pull/2361