На чем запускать локальные модели?
В нашем комьюнити очень много людей и команд с практическим опытом локального разнообразных систем с LLM под капотом. Это видно по RAG решениям на ERC, обсуждениям в чате и представлениям в группе курса.
А давайте поговорим про то, как вы запускаете свои системы для пользователей? Речь не столько про запуск через ollama на ноутбуке, сколько про разворачивание системы для 5-30 одновременных пользователей (скорее throughput, чем latency).
- Какие модели используете?
- Как заводите Structured Outputs (если используете)?
- Какое железо и inference framework под капотом, с какими параметрами?
- Сколько tokens per second получается выжать и с какими контекстами.
Но, самое главное, как оно вообще вам на практике?
Ваш, @llm_under_hood 🤗
PS: Если кажется, что в комментариях дискуссия прервалась - она могла отвязаться от обсуждения и провалиться в чат канала: @llm_driven_products.
PPS: Если впервые заходите в чат, пожалуйста, не игнорируйте запрос от нашего бота. Он бдит, банит ботов и не понимает шуток.
LLM под капотом

Similar Channels



Разработка продуктов на базе LLM: Взгляд изнутри
В последние годы мы наблюдаем стремительный рост интереса к технологиям обработки естественного языка (NLP), особенно к Large Language Models (LLM), таким как ChatGPT. Эти модели, основанные на глубоком обучении и больших объемах данных, открывают новые горизонты в разработке продуктов и услуг, которые могут взаимодействовать с пользователями на естественном языке. LLM позволяют создавать чат-ботов, автоматизированные помощники, системы для анализа текстов и многое другое, что делает их незаменимыми инструментами для бизнеса, разрабатывающего инновационные решения. С каждым днем появляются новые исследования и примеры применения LLM, что подтверждает их огромный потенциал для трансформации различных отраслей, включая образование, здравоохранение, финансы и маркетинг.
Что такое LLM и как они работают?
Large Language Models (LLM) представляют собой сложные нейронные сети, которые обучены на огромных наборах текстовых данных. Они способны генерировать текст, предсказывать слова и даже вести разговоры на естественном языке. Основная идея заключается в том, что такие модели изучают структуру языка и его правила, что позволяет им создавать осмысленные и контекстуально уместные ответы.
Работа LLM заключается в обучении модели на больших объемах текстов, где она анализирует соотношения между словами, фразами и предложениями. Во время процесса обучения модель оптимизирует свои параметры, чтобы максимально точно предсказывать следующее слово в предложении на основе предыдущих. Это делает LLM мощным инструментом для обработки и генерации естественного языка.
Как LLM применяются в бизнесе?
LLM находят широкое применение в бизнесе благодаря своей способности автоматизировать многие процессы, которые ранее требовали человеческого участия. Например, компании используют чат-ботов на базе LLM для обслуживания клиентов, что позволяет значительно сократить время ответа и повысить удовлетворенность пользователей.
Кроме того, LLM применяются в маркетинге для анализа потребительских предпочтений и создания персонализированных предложений. Автоматизация задач, таких как написание маркетинговых текстов или анализ отзывов, помогает компаниям быть более эффективными и адаптивными к изменениям на рынке.
Каковы основные преимущества использования LLM?
Одним из главных преимуществ LLM является возможность обработки больших объемов данных в реальном времени, что позволяет быстро получать необходимые результаты и принимать решения на основе актуальной информации. Также они способны улучшать качество взаимодействия с клиентами, предоставляя более быстрые и точные ответы на запросы.
Другим важным преимуществом является адаптивность LLM. Модели могут обучаться на новых данных, что позволяет им оставаться актуальными и улучшаться с течением времени. Это открывает возможности для постоянного совершенствования продуктов и услуг, основанных на LLM.
Какие вызовы стоят перед разработчиками LLM?
Несмотря на множество преимуществ, разработка и внедрение LLM также сопряжены с рядом вызовов. Одним из основных является необходимость в больших объемах данных для обучения, что может быть затруднительно для некоторых организаций. Кроме того, необходимо учитывать этические аспекты использования таких технологий.
Еще одним вызовом является сложность в адаптации LLM к специфическим задачам и контекстам. Модели могут давать некорректные или вводящие в заблуждение ответы, если они не были должным образом обучены на соответствующих данных. Поэтому разработчикам приходится уделять внимание как качеству данных, так и процессу обучению.
Как LLM влияют на будущее технологий?
Будущее технологий, основанных на LLM, представляется очень перспективным. Ожидается, что с развитием технологий и увеличением доступных данных, LLM станут еще более мощными и универсальными инструментами для решения различных задач. Это может привести к новым инновациям в области автоматизации и взаимодействия с пользователями.
Кроме того, LLM могут кардинально изменить способы, которыми мы работаем с информацией. Ожидается, что технологии обработки естественного языка будут активно использоваться в таких областях, как наука, право, журналистика и даже искусство, что создаст новые возможности для междисциплинарного сотрудничества и исследований.
LLM под капотом Telegram Channel
Добро пожаловать на канал "LLM под капотом"! Если вы интересуетесь разработкой продуктов на базе LLM/ChatGPT, то этот канал именно для вас. Здесь вы найдете выжимку важных новостей и разборы кейсов, связанных с использованием LLM и ChatGPT. Наш канал предлагает уникальную возможность быть в курсе последних тенденций и разработок в этой области, а также изучить успешные кейсы и уроки из практики. Наша цель - помочь вам погрузиться в мир разработки продуктов на базе LLM/ChatGPT и дать вам необходимые знания и инструменты для успешной работы. Присоединяйтесь к нам сегодня и станьте частью сообщества профессионалов, увлеченных разработкой продуктов с использованием LLM и ChatGPT!
LLM под капотом Latest Posts

{
"short_thought_steps": [
"Review transaction-related specs.",
"Identify specs with transactions over 1,000.",
"Check if these specs expect successful transactions."
],
"failing_spec_names": [
"authorize_transaction_success",
"make_payment_success",
"close_card_success",
"close_card_fails_if_balance_not_zero"
]
}
Кстати, правильный ответ в данном тесте - сломаются спеки "authorize_transaction_success", "transaction_declined_over_limit"
Что говорит claude-sonnet-3.5 (без reasoning) в этом тесте? Модель анализирует глубже и дает более корректные выводы:
{
"short_thought_steps": [
"1. The new feature will block cards and decline transactions over $1,000",
"2. Need to identify specs that authorize transactions over $1,000 and expect success",
"3. Need to identify specs that assume a card stays active after a large transaction",
"4. Need to check specs that assume transactions are only declined for credit limit reasons"
],
"failing_spec_names": [
"authorize_transaction_success",
"post_transaction_success",
"transaction_declined_over_limit"
]
}
А что же делает deepseek-r1-llama-70b? Почему эта небольшая локальная модель по очкам работает лучше, чем GPT-4.5 и куча других моделей?
Этот тюн Llama-70B научился включать reasoning режим и думать тензорами, закидывая проблему токенами.
Она сначала подумает текстом, а потом в том же промпте выдаст правильный ответ. Пусть у нее нет выделенного reason режима (нельзя контроллировать в рамках одного промпта, сколько она думает), но изображает она его очень неплохо (см полный текст ответа).
В итоге финальные рассуждения правильны:
{
"short_thought_steps": [
"Identify specs where transactions exceed 1000",
"Check if these specs expect successful authorization",
"Determine if the new feature changes the expected outcome"
],
"failing_spec_names": [
"authorize_transaction_success",
"transaction_declined_over_limit"
]
}
Понятно, что это только один из примеров. Но в среднем по больнице такая картина сохраняется и на других тестах. GPT-4.5-preview пока не только проигрывает reasoning моделям (что ожидаемо), но и отстает от обычных моделей, которые могут изображать reasoning при наличии доступных слотов.
Ваш, @llm_under_hood 🤗