DeSTA2 - descriptive speech-text alignment approach
link
Все очень громко и приторно, а методики не такие сложные.
SLM - Speech Language Model - модель, которая по входу аудио может дать ответ и при этом может описать, что происходит. SLM ≠ ASR. Главное отличие - описание. Например, From the 5-second audio clip, I can hear a female English speaker says “The food is really good” in a happy tone. Все не в кавычках - способности LLM. Однако необходимо как-то понять, а что именно звучит. Так есть новые бенчи, например, AIR-Bench
Из (по сути уже известных) находок:
0️⃣ LLM хороши в форматировании, поэтому всю важную информацию добавим через паттерн ”[00:00:00-00:00:03] How are you? (Gender: Female, Emotion: Happy...)”.. Это необходимо при создании датасета. Это мы итак знаем в NLP, но в том же Prompt-TTS на такое не сильно обращали внимание.
1️⃣ Как взять описания? Нужно получить описания речи (аля мужчина, семьянин, 40 лет) Вместо того, чтобы тянуть 10 больших моделей для этого давайте возьмем одну. Qformer как просто адаптер поставим на speech, чтобы получить speech features с intermediate layers и вставим их как seed prompt в LLM и будем учиться их правильно аггрегировать. То есть: мы просто создали одну модель, которая декодирует несколько параметров сразу и при этом делает это не как лейбл, а просто как текст.
#grokaem_audio