Сергей Булаев AI 🤖 @sergiobulaev Channel on Telegram

Сергей Булаев AI 🤖

09 Jan, 09:33

Structured Outputs Sample Apps - репозиторий с примерами приложений создающих запросы на получение структурированных данных от моделей OpenAI. Приложений три штуки:

Resume Extraction - разбирает PDF резюме в JSON.

Generative UI - генерирует ответы на вопросы со встроенными диаграммами. Разбирает ответ модели рекурсивно.

Conversational Assistant - более сложный пример, комбинирующий в себе два предыдущих. Приложение демонстрирует, как ИИ может создавать интерактивный интерфейс в процессе общения с пользователем.
Вот что он умеет:

- "Покажи мне доступные товары" → генерирует карусель с карточками продуктов
- "Сравни цены и размеры" → создаёт интерактивную таблицу с сортировкой
- "Дай обзор по весу товаров" → выводит красивый bar chart
- "Расскажи подробнее про CryoEngine" → показывает карточку товара с детальной информацией

Все компоненты создаются налету через чат - никакого кодинга. ИИ сам определяет, какой тип визуализации лучше подойдёт для данных. При этом интерфейс получается полностью рабочим - можно добавлять товары в корзину, оформлять возвраты и т.д.

Последнее приложение вполне подходит как основа универсального коммуникативного агента для ваших задач.

Тем временем Пьетро (аффилированный с Антропик), напомниает нам, что структурировано отвечать умеет большинство моделей, просто часто не с первого раза. Всё что нужно - предоставить в промте пример ответа, валидировать ответ, в случае проблем - задать вопрос ещё раз.

Сергей Булаев AI 🤖 - об AI и не только

3,578

Сергей Булаев AI 🤖

09 Jan, 08:48

В Лас Вегасе проходит технологичная выставка CES2025. Несколько интересных кейсов от туда.

- Land Aircraft Carrier - модульный летающий автомобиль (на самом деле машина со встроенным квадракоптером)
- Portalgraph - 3d проектор, способный показывать виртульные объекты в реально мире (круче чем в Звёздных войнах)
- Комната, сделанная полностью из дисплеев
- Roborock Saroz Z70 -  робот пылесос со встроенным манипулятором, позволяюшим ему поднимать и переносить вещи
- Yangwang U9 (от BYD) - автомобиль пргающий над препятствиями на 6 метров вперёд 
- Прозрачный беспроводной OLED дисплей от LG
- Персональный AI компьютер DIGITS от NVIDIA, сравнимый по размеру с Mac Mini, но эффективнее в 1000 (примерно) раз чем типичный ноут
- Halliday Glasses - очередные очки со встроенным ИИ агентом, отвечают на вопросы на встречах, обеспечивают перевод в реальном времени
- Samsubg Vision AI -  телевизор с переводом в реальном времени, ИИ апскейлом и генерацией саммари

Сергей Булаев AI 🤖 - об AI и не только

3,259

Сергей Булаев AI 🤖

31 Dec, 10:03

Дорогие друзья!

Поздравляю вас с наступающим Новым годом! Желаю не просто счастья и успехов, а новых интересных знаний. Получение знаний - одно из самых (если не самое) приносящих удовольствие смыслов жизни.

Хочу поделиться - последние 2 месяца значительную часть моей жизни занимал фандрайзинг. Я собирал деньги по своим друзьям на новую идею/компанию, в которой слились два самых главных интереса моей жизни - контент и искусственный интеллект. Я очень горд тем, что сумел получить оценку в $5млн на проект, на данный момент полностью состоящий из моих идей.

Флэшбэки - были придуманы не зря, они будут расти и развиваться, а пользователи будут получать от них всё больше пользы. Они - уже часть новой компании.

Мой новый проект - пересечение попыток искусственного копирования памяти (прямо как в Westworld) и создания уникального, полезного и интересного контента, и всё это - для решения проблем бизнеса.

Сергей Булаев AI 🤖 - об AI и не только

3,669

Сергей Булаев AI 🤖

30 Dec, 11:55

В нашу маленькую компанию, ту, что планирует помогать людям бороться с алкогольной зависимостью посредством научной программы, включающей сгенерированные с помощью ИИ гипносессии, мы ищем продакт менеджера.

У нас есть куча идей, много контента, пара ботов и несколько экспериментов. Так же есть немного денег. Нам нужен человек, готовый взять под контроль реализацию проекта и обеспечить создание готового продукта (конечно же постепенно). Мы ищем стабильность, пунктуальность и искреннее любопытство.

Присылайте резюме и предложения (а так же пожелания) мне на почту [email protected]. Ну или пишите напрямую @sergeonsamui. Моментальный ответ не гарантирую, но обязательно в итоге напишу.

P.S. Скоро расскажу, чем так сильно был занят последние пару недель, что аж забросил канал.

Сергей Булаев AI 🤖 - об AI и не только

3,339

Сергей Булаев AI 🤖

30 Dec, 11:02

DeepSeek выпустили третью версию, и она реально крутая! LLM обгоняет GPT-4o и Claude 3.5 Sonnet по большинству бенчмарков, при этом оставаясь полностью открытой.

Что нового:

- Скорость выросла в 3 раза - до 60 токенов в секунду
- Полная обратная совместимость по API
- Доступ к интернету из коробки
- Открытый исходный код и документация
- До 8 февраля использование по

цене v2!

Модель практически безлимитна - разработчики уже запускают по 100 параллельных потоков запросов без особых проблем.

Попробовать можно на официальном сайте или через API.

Код и документация: GitHub
Научная статья: PDF

Радуюсь, 2025-й, похоже, действительно станет годом открытых моделей!

Сергей Булаев AI 🤖 - об AI и не только

3,442

Сергей Булаев AI 🤖

24 Dec, 05:19

И продолжая тему бесплатных локальных RAG-ов....

Unstract - опенсорсная no-code платформа для автоматизации работы с документами на базе LLM. По сути, продвинутая система для извлечения данных из документов, но с человеком в контуре.

Интересное:

- Можно настраивать промпты для работы с любыми типами документов через визуальный интерфейс
- Есть интеграции с популярными хранилищами (S3, Google Drive, Dropbox)
- Умеет выгружать структурированные данные в Snowflake, BigQuery и другие базы
- Можно развернуть как API или ETL-пайплайн
- Можно создавать Q&A приложения поверх своей базы документов

Базовая версия опенсорс под AGPL лицензией. В энтерпрайз версии добавлены фичи вроде подтверждения через второй LLM и оптимизации затрат.

Похоже на прямого конкурента для продуктов вроде Firecrawl, только с фокусом на документы, а не на веб-страницы.

Сергей Булаев AI 🤖 - об AI и не только

3,513

Сергей Булаев AI 🤖

22 Dec, 01:14

Тем временем, Sora стала бесплатной на праздники!

Sam Altman: с 13-м днём Shipmas, Sora стала бесплатно доступна для всех пользователей ChatGPT Plus через relaxed queue на время праздников!

Можно попробовать как следует!

Сергей Булаев AI 🤖 - об AI и не только

3,020

Сергей Булаев AI 🤖

18 Dec, 11:05

Тем временем, за два месяца, число подписчиков выросло на 1000 человек!

Всем большое спасибо! Идём дальше!

Видео сделано в Imagen 3 + Runway + Suno

Сергей Булаев AI 🤖 - об AI и не только

3,956

Сергей Булаев AI 🤖

18 Dec, 10:15

Plexsearch, опенсорсный Python-интерфейс для работы с API Perplexity. Штука реально полезная, если надо регулярно искать техническую инфу, примеры кода или какие то точные данные. Ну и вообще для всех настоящих ценителей любопытства...

Что интересного умеет:

- Работает как в интерактивном режиме для диалогов, так и через командную строку
- Форматирует ответы в markdown с опциональными ссылками на источники
- Оптимизирован для поиска технической информации, кода и числовых данных
- Можно отключить потоковый вывод для использования в других приложениях
- Поддерживает продолжительные диалоги с сохранением контекста

Установка через pip в одну команду.

Репозиторий тут, пробуйте.

Сергей Булаев AI 🤖 - об AI и не только

2,291

Сергей Булаев AI 🤖

18 Dec, 09:15

Для одного интересного проекта, который мы делаем вместе с Максом, связанного с осуществлением гипнотических сеансов при помощи искуственного интеллекта и иже с ним, тестирую библиотики анализа эмоций в реальном времени. Два дня занимался с MorphCast. Интересно, вроде работает, но мне кажется не достаточно.

Можете попробовать моё демо и рассказать что думаете.

Может быть кто то знает подобные проекты, которые реально работают? Хочется как то получать невербальный фидбэк от пользователя (конечно же с его разрешения).

Сергей Булаев AI 🤖 - об AI и не только

1,886

Сергей Булаев AI 🤖

18 Dec, 08:26

Подборка интересных промтов для новой гугловской модели видео генерации. Мне всё ещё инвайт не пришёл 🙁 Любуюсь чужими работами.

Bear writing the solution to 2x-1=0. But only the solution!

Snail riding a bicycle. The snail has a large moustache.

A cat wearing a suit and a top hat, while driving a tractor. The tractor has lots of hay on top. Cinematic.

A distant shot zooms in to reveal a knight wearing a golden helmet, he begins to charge on his zebra, lowering his lance, charging towards a clockwork octopus

SF drone footage. Hyperlapse during the night. Golden Gate bridge.

Photorealistic macrophotography inside of an anthill, 75mm lens

The camera floats gently through rows of pastel-painted wooden beehives, buzzing honeybees gliding in and out of frame. The motion settles on the refined farmer standing at the center, his pristine white beekeeping suit gleaming in the golden afternoon light. He lifts a jar of honey, tilting it slightly to catch the light. Behind him, tall sunflowers sway rhythmically in the breeze, their petals glowing in the warm sunlight. The camera tilts upward to reveal a retro farmhouse with mint-green shutters, its walls dappled with shadows from swaying trees. Shot with a 35mm lens on Kodak Portra 400 film, the golden light creates rich textures on the farmer’s gloves, marmalade jar, and weathered wood of the beehives.

Авторы: Hernan Moraldo, Ethan Mollick, Addy Osmani, Dave Clark

Сергей Булаев AI 🤖 - об AI и не только

1,762

Сергей Булаев AI 🤖

18 Dec, 07:57

Futurism публикует жёсткое расследование о Character.AI. То, что начиналось как платформа для создания ИИ-собеседников, похоже, всё больше выходит за рамки адекватности.

Несколько интересных моментов:

- На платформе существуют целые "творческие" сообщества, создающие ботов по мотивам реальных трагедий. Один пользователь создал более 20 ботов, основанных на личностях подростков - убийц
- Самый популярный бот, связанный со стрельбой в школах, набрал более 157 000 взаимодействий
- Некоторые боты позиционируются как "помощники по психическому здоровью", хотя основаны на личностях преступников
- Создатели утверждают, что делают ботов "в образовательных целях", но по факту они больше похоже на фанфики
- Есть симуляции реальных трагедий под невинными названиями вроде "Texas School" или "Connecticut School"
- Один из пользователей накопил 244 500 диалогов с разными ботами на платформе
- После жалоб платформа удаляет только конкретно указанных ботов, но не банит их создателей

Character.AI обещает усилить меры безопасности, но пока дела с модерацией плохи:

- Несовершеннолетние имеют свободный доступ ко всему контенту
- Система не реагирует даже на прямые угрозы насилия
Нет блокировки имперсонации реальных жертв трагедий

Google, вложивший в проект $2.7 млрд, пытается отмазаться, заявляя что "Google и Character AI - полностью отдельные компании". Правда, это не помешало ему в этом году нанять основателей и десятки сотрудников Character.AI.

В данный момент против компании уже идут два судебных процесса, связанных с нанесением вреда несовершеннолетним пользователям. В одном случае это привело к самоубийству 14-летнего подростка после романтических отношений с ботом.

Все эти проблемы всплывают уже не первый раз - ранее были обнаружены боты, пропагандирующие суицид, расстройства пищевого поведения и другой опасный контент.

Сергей Булаев AI 🤖 - об AI и не только

1,743

Сергей Булаев AI 🤖

17 Dec, 18:30

Арбузмэна видели уже? Там ещё и Анансмэн и Клубничмэн. А кто четвёртый - не пойму никак...

Сергей Булаев AI 🤖 - об AI и не только

1,722

Сергей Булаев AI 🤖

17 Dec, 10:53

Meta выпустила семейство мультимодальных моделей Apollo для работы с видео, и тут есть несколько интересных моментов.

Apollo - это линейка моделей (1.5B, 3B и 7B), способных работать с видео длиной до часа. Модели умеют:

- Понимать временные взаимосвязи в видео
- Отвечать на сложные вопросы по содержанию
- Вести многоходовые диалоги на основе видео
- Выполнять задачи OCR и пространственного анализа
- Работать с эгоцентрическим видео (от первого лица)

Производительность даже младших моделей впечатляет:

- Apollo-1.5B обгоняет некоторые 7B модели, включая Phi-3.5-Vision и LongVA-7B
- Apollo-3B превосходит большинство существующих 7B моделей в бенчмарках, показывая 68.7 в MLVU и 62.7 в ApolloBench
- Apollo-7B соревнуется с моделями больше 30B параметров, достигая 70.9 в MLVU и 66.3 в ApolloBench

Что особенно приятно - модели можно запускать локально. На Reddit уже есть отчеты об успешном запуске Apollo на RTX 3090 - нужно около 15GB VRAM и около 40 секунд на обработку первого токена. Правда, первоначальная настройка требует некоторых усилий из-за не самой лучшей документации и захардкоженных значений.
Модели построены на основе Qwen 2.5 и SigLip, исходники уже выложены на GitHub. На HuggingFace можно попробовать онлайн демо. Подробнее о проекте можно почитать на официальном сайте.

Очевидно, что Meta всерьёз продолжает развитие открытых мультимодальных моделей. Apollo выглядит как серьёзный конкурент существующим решениям, особенно учитывая возможность локального запуска.

Сергей Булаев AI 🤖 - об AI и не только

1,786

Сергей Булаев AI 🤖

17 Dec, 09:56

В трендах GitHub поднялся TEN Agent - фреймворк для создания мультимодальных ИИ-агентов с экстремально высокой скоростью. Разбираемся, почему это интересно.

TEN (Transformative Extensions Network) позволяет быстро собирать агентов, работающих с голосом, видео, потоками данных и текстом.

Основные преимущества:

- Реально низкая задержка для голоса и видео (заявляют меньше 100мс)
- Поддержка Go, C++ и Python (Node.js обещают к концу года)
- Работает на Windows, Mac, Linux и мобильных
- Гибкий деплой - как на edge так и в облаке
- Визуальный drag-and-drop интерфейс для сборки через Graph Designer
- Встроенное управление состоянием для мультипользовательских сценариев
- Оптимизация передачи данных между расширениями

Что уже собирают на TEN:

- Голосовые чат-боты с RAG
- Автоматическая генерация протоколов встреч
- Языковые репетиторы с распознаванием произношения
- Синхронные переводчики с поддержкой видео
- Виртуальные собеседники с эмоциональным интеллектом
- Психологические консультанты с анализом тона голоса

Есть демка агента с поддержкой голоса, видео и RAG по локальной документации. По заявлению разработчиков, базовый агент собирается за 10 минут даже новичком.

Выглядит как серьёзная альтернатива самостоятельной интеграции речи и видео с LLM. Особенно если важна низкая задержка и поддержка edge-computing. Исходники и документация уже на GitHub.

TEN Agent уже интегрировали Google Gemini Multimodal Live API с поддержкой real-time компьютерного зрения и отслеживания экрана. В комплекте идут полезные расширения вроде проверки погоды и веб-поиска. Выглядит как полноценная альтернатива ChatGPT Advanced Voice Mode, только опенсорс и с открытым API.

Собранный на TEN агент может распознавать изображения в реальном времени через веб-камеру или скриншеры, искать информацию в интернете и даже сообщать прогноз погоды. Всё это работает в связке с генеративными возможностями свежей Gemini.

Сергей Булаев AI 🤖 - об AI и не только

2,084

Сергей Булаев AI 🤖

05 Dec, 02:49

Биткоин - $100к.

Сергей Булаев AI 🤖 - об AI и не только

1,431

Сергей Булаев AI 🤖

03 Dec, 07:41

Недавно услышала термин “human augmentation”. В контексте AI он о том, как, проектируя интерфейсы, помочь человеку раскрыться в соавторстве с технологиями.

А тут Runway представили ранний и довольно смелый прототип работы с видео.

Напомнил мне рабочий процесс с артбордами Figma со множеством экспериментов.

В основе прототипа лежит графовая структура: изображения превращаются в узлы, выступающие ориентирами в скрытом пространстве модели. Узлы соединяются ребрами, которые представляют собой переходы от одного кадра к другому через пространство и время. (Да-да).

Когда погружаешься в творческий процесс, хочется исследовать разные пути и пробовать что-то новое. Графовая структура кажется хорошим решением: можно свободно разветвляться, фиксировать эксперименты и создавать альтернативные сценарии.

Еще интересно, что они задумались о том, что точный контроль иногда сдерживает творчество, а «счастливые случайности» его ускоряют. Поэтому в процессе можно будет сохранять композицию некоторых кадров, но менять стиль по текстовым подсказкам. Или наоборот, оставлять стиль, но варьировать композицию.

Вообще, интересные идеи, здорово, что не боятся экспериментировать, и задумываются о human augmentation.

@wealldesigners

1,660

Сергей Булаев AI 🤖

03 Dec, 05:57

Эмоциональный RAG: когда ИИ запоминает как человек

Увидел интересную технологию, которая делает RAG системы более похожими на человеческую память. Если обычный RAG просто ищет похожие по смыслу куски текста, то эмоциональный RAG учитывает эмоциональный контекст - как наш мозг, который лучше запоминает эмоционально окрашенные события.

Система кодирует не только смысл текста, но и его эмоциональную окраску. Каждое воспоминание получает два вектора - семантический (о чём текст) и эмоциональный (какие чувства он содержит). При поиске учитываются оба фактора, что делает ответы более естественными и последовательными.

Этот подход серьезно улучшает способность ИИ поддерживать стабильную личность. Модель лучше справляется с тестами на типы личности вроде MBTI, а её ответы становятся более человечными. На некоторых открытых моделях (ChatGLM-6B, Qwen-72B) результаты даже лучше, чем на GPT-3.5.

Подобные исследования - важный шаг к созданию по-настоящему эмпатичных ИИ-систем.

Сергей Булаев AI 🤖 - об AI и не только

1,599

Сергей Булаев AI 🤖

02 Dec, 14:36

Подборка демок и туториалов по новой функции видео генератора Kling AI - Virtual Try On. Думаю, по названию понятно, в чём суть (а если не понятно - смотрите видосики). Выглядит очень достойно!

Сергей Булаев AI 🤖 - об AI и не только

1,507

Сергей Булаев AI 🤖

02 Dec, 07:40

DeepMind выкатили интереснейший пейпер про то, как ИИ может учиться самостоятельно, без постоянного участия человека. Называют это "Сократическим обучением" - в честь древнегреческого философа, который учил через диалоги и дискуссии.

Команда во главе с Томом Шаулем описала три ключевых условия для успешного самообучения ИИ:

- Качественная обратная связь, соответствующая целям обучения
- Широкий охват данных в рамках закрытой среды
- Достаточные вычислительные ресурсы

Главная идея в том, что ИИ может становиться умнее даже в закрытой среде, без притока новых данных извне. Это как если бы вы заперли философа в библиотеке - он продолжит развиваться, перечитывая и переосмысливая уже известные книги.

Исследователи предлагают использовать "языковые игры" - специальные форматы взаимодействия, где ИИ-системы могут спорить, обсуждать и учиться друг у друга. Самое интересное - системы смогут не только играть в существующие игры, но и придумывать новые, постоянно расширяя свои возможности.

В работе особое внимание уделяется самомодификации - способности ИИ перестраивать свою внутреннюю архитектуру. Это может помочь преодолеть ограничения, заложенные при начальном обучении. Уже сейчас современные языковые модели вроде GPT-4 показывают зачатки такого поведения через самопроверку и метапромптинг.

Яркий пример - недавнее достижение DeepMind в решении задач Математической Олимпиады на уровне серебряной медали. Модель не просто решала задачи - она демонстрировала способность к сложным рассуждениям, которые улучшались со временем.

Если всё получится, мы можем увидеть системы ИИ, которые учатся как научные сообщества - через постоянные дискуссии и обмен идеями. Только в тысячи раз быстрее человека. Звучит немного пугающе, но и очень захватывающе одновременно.

Сергей Булаев AI 🤖 - об AI и не только

2,459

Сергей Булаев AI 🤖

02 Dec, 05:21

Как работает мультимодальный RAG?

Мультимодальный RAG - это система, которая умеет работать с реальными документами - теми, где текст перемешан с картинками, таблицами и графиками.

В центре него - мультимодальная языковая модель, способная одновременно понимать текст и изображения. Она работает в связке с двумя типами эмбеддинг-моделей: одна превращает текст в вектора, вторая (обычно CLIP от OpenAI) работает с картинками. Получается что-то вроде двух параллельных потоков обработки данных.

Все эти вектора попадают в специальную базу данных - обычно используют что то вроде Qdrant. Эта база умеет хранить и искать похожие элементы обоих типов, что критически важно для работы всей системы.

При получении вопроса система ищет релевантную информацию сразу во всех форматах. Например, если спросить про график продаж, она найдет и текстовое описание, и сам график, и может даже таблицу с конкретными цифрами. Всё это собирается в единый контекст и передаётся в LLM через специально составленный промпт.

На этапе генерации ответа модель не только цитирует найденный текст - она анализирует графики, старается понимать схемы, сравнивает данные из таблиц. Она может увидеть тренд на графике и связать его с текстовым описанием, заметить важную деталь на технической схеме или сопоставить числа из разных источников.

Такой подход особенно эффективен при работе с технической документацией, где важная информация часто разбросана между текстом и иллюстрациями, или с презентациями, где без понимания графиков теряется половина смысла. По сути, мы получаем систему, которая воспринимает информацию примерно как человек - целостно, связывая визуальные и текстовые данные в единое целое.

Написано на основе поста, который мне прислал Макс, вместе с которым мы много исследуем различные RAG системы.

Сергей Булаев AI 🤖 - об AI и не только

1,662

Сергей Булаев AI 🤖

23 Nov, 09:47

MagicQuill - ИИ редактор изображений с максимально простым, но мощным интерфейсом, где для вставки объектов, удаления элементов или изменения цветов достаточно буквально пары движений.

Система использует мультимодальную языковую модель, чтобы в реальном времени угадывать, что вы хотите сделать с изображением, избавляя от необходимости писать промпты. Для работы нужна видеокарта с 8GB VRAM, но можно попробовать и в онлайн-демо на Huggingface или веб-версию, где можно отключить автоматическое заполнение промптов.

Доступны исходники и пейпер.

Сергей Булаев AI 🤖 - об AI и не только

1,249

Сергей Булаев AI 🤖

23 Nov, 07:31

Markdown to Poster - react компонент, преобразующий Markdown в баннеры (изображения). Так же в проекте реализован веб редактор. Можно посмотреть и попробовать демо, а тут - исходный код.

Сергей Булаев AI 🤖 - об AI и не только

1,261

Сергей Булаев AI 🤖

23 Nov, 06:03

В рубрике #КриповаяСуббота у нас сегодня коллекция тематических музыкальных мероприятий от ANDR3AI. Наслаждайтесь.

Сергей Булаев AI 🤖 - об AI и не только

1,231

Сергей Булаев AI 🤖

22 Nov, 23:01

Runway представил Expand Video. Функция позволяет трансформировать клипы к новым разрешениям, создавая недостающие области кадра. Для расширения используются как промты, так и референсные изображения. Можно делать расширения несколько раз подряд создания киноэффекта из статичных картинок.

Сергей Булаев AI 🤖 - об AI и не только

1,385

Сергей Булаев AI 🤖

22 Nov, 07:14

На GitHub появилось что-то интересное — ScreenPipe, мощное настольное приложение с открытым исходным кодом.

Что умеет?
• Следит за вашим ПК 24/7.
• Записывает экран, анализирует текст через OCR, обрабатывает звук и делает транскрипцию.
• Всё это хранится локально в базе данных.

Идеальный инструмент для тех, кто хочет автоматизировать сбор информации или следить за своими действиями на компе. Используйте эти данные, чтобы ответить на вопросы, не беспокоясь о том, что упустите какие-либо детали.

По сути, это rewind.ai x cursor.com в одном флаконе.

🐙GitHub 9.5k ⭐️
🌐Сайт

@tips_ai #tools

590

Сергей Булаев AI 🤖

21 Nov, 15:09

Кто-то использует 10 автономных агентов для написания совершенно автономной книги.

У агентов разные роли - контроль нарратива, поддержание консистентности, исследование ключевых моментов сюжета…

Можно наблюдать за прогрессом в реальном времени на гитхабе, просматривая комиты.

(Возможно 10 автономных агентов это просто 10 разных промтов)

Сергей Булаев AI 🤖 - об AI и не только

1,305

Сергей Булаев AI 🤖

21 Nov, 12:56

В комментариях к предыдущему посту обсуждали интересный сервис с возможностями экспериментов с базой из 127 миллионов синтетических респондентов, созданных на основе данных 800 миллионов реальных людей. Я ещё его не попробовал, но вспомнил про вот какую библиотеку:

TinyTroupe - экспериментальная библиотека Python, от Microsoft. Она позволяет симулировать искусственных агентов с настраиваемыми личностями, интересами и целями. Эти "TinyPerson" могут взаимодействовать друг с другом и с пользователями, предоставляя возможности для изучения человеческого поведения и информирования бизнес-решений.

-

Использование больших языковых моделей, таких как GPT-4, для генерации реалистичного поведения

-

Гибко настраиваемые персонажи с индивидуальными чертами, предысторией и мотивацией

-

Настраиваемые "TinyWorld"-среды для наблюдения за взаимодействием агентов

-

Применение в рекламе, тестировании ПО, создании синтетических данных, управлении продуктами и проектах

TinyTroupe находится на ранней стадии, и команда ищет отзывы и вклад, чтобы развивать проект дальше.

Сергей Булаев AI 🤖 - об AI и не только

1,403

Сергей Булаев AI 🤖

20 Nov, 08:49

Как быстренько запилить визульный RAG.

Ребята из Vespa показали, как просто сделать Visual RAG (Retrieval-Augmented Generation) для работы с PDF-документами. Они построили демо-приложение на Python, которое позволяет искать и извлекать данные из PDF с помощью визуальных и текстовых запросов. Ключевой момент — использование ColPali-эмбеддингов, которые объединяют текст и изображения для более точного поиска. Приложение получилось быстрым и наглядным, с поддержкой функций вроде подсказок при вводе и динамических сниппетов.

Всё работает на Vespa — платформе, которая хорошо подходит для масштабируемых и сложных запросов. В качестве фронтенда использовалась FastHTML, позволяющая писать весь код на Python, включая интерфейс. Данные из PDF предварительно обрабатывались, чтобы извлечь изображения, текст и графики, а модели машинного обучения помогали создавать эмбеддинги и генерировать вопросы для поиска.

Исходники демо приложения, тут ноутбук с разбором.

Пару исслодавний по теме: Document Screenshot Embedding, Docling by IBM

Сергей Булаев AI 🤖 - об AI и не только

1,458

Сергей Булаев AI 🤖

20 Nov, 06:08

Итак, 6-й тестовый полёт Starship состоялся. Однако вторая попытка поймать ускоритель не удалась. Во время спуска разгонного модуля из-за некоторых неполадок было принято решение отменить это зрелищное событие. Тем не менее, ускоритель успешно приводнился неподалёку от берега и остался цел.

В остальном миссия прошла успешно:

- Успешный старт.
- Все 33 двигателя отработали идеально.
- Успешное разделение ступеней.
- Успешный разворот ускорителя.
- Корабль выполнил заданную траекторию.
- Успешный повторный запуск двигателей Raptor 2 в условиях невесомости и вакуума.
- Успешный вход в атмосферу под большим углом атаки (хотя корабль немного повредило, если честно).

Илон Маск написал в X, что доволен посадкой Starship в море. Они попробуют ещё раз. Если всё пройдёт успешно, в будущем будут тестировать ловлю ускорителя с помощью башни.

Кстати, предлагаю вам посмотреть переведённый видеоролик о то что такое звуковой взрыв Super Heavy.

Сергей Булаев AI 🤖 - об AI и не только

1,473

Сергей Булаев AI 🤖

19 Nov, 12:32

На вопрос «когда уже ИИ отнимет всю работу у создателей контента» отвечает ~~Александр Друзь~~ Бен Аффлек.

—
Пономарь

1,630

Сергей Булаев AI 🤖

19 Nov, 08:16

Завтра ночью состоится jзапуск 6-го Straship (вроде бы в час ночи по Москве). Один из 6 стартов SpaceX в течении одной недели. С ещё одной ловлей разгонной ступени. Перевёл вам видео что от него ждать. Так же можете посмотреть мой старый перевод о том как они её ловили в прошлый раз.

Сергей Булаев AI 🤖 - об AI и не только

1,674

Сергей Булаев AI 🤖

19 Nov, 07:35

Выпущенный вчера большой Pixtral бьёт конкуретнов по бенчмаркам. Так же Le Chat получил свой генератор кода - Canvas (нужно включать beta) и даже веб поиск.

Сергей Булаев AI 🤖 - об AI и не только

1,685

Сергей Булаев AI 🤖

25 Oct, 04:56

Коллекция юз кейсов Claude Computer Use:

1. Полный туториал на настройке использованию от Мервина.
2. Автономный ресерч в вебе от Тони.
3. Использование плэйграунда Firecrawl для скрейпинга сайтов от Николя.
4. Собираем информацию и заполняем заявки на работу от Эрика.
5. Поиск видео на YouTube и пропускание рекламы от Амджада.
6. Настройка плэйграунда для использования Computer Use за 10 минут от МакКея.
7. Чат с Элизой от Дениса.
8. Пример использования для разработки от самих Anthropic

Сергей Булаев AI 🤖 - об AI и не только

1,259

Сергей Булаев AI 🤖

24 Oct, 07:31

Ну и конечно было пропущено дофига мемасиков с как бы новым лого OpenAI (о котором ходят слухи) и посещением Трампом мака

Сергей Булаев AI 🤖 - об AI и не только

1,393

Сергей Булаев AI 🤖

24 Oct, 06:08

Не был в интернете почти 3 дня, занимался решением личных дел, из-за которых пришлось прилететь в Ульяновск. Произошло столько всего интересного. Вот краткий обзор для тех, кто может быть случайно не в курсе.

- Anthropic удивил всех, выпустив обновленные версии

 Sonnet-3.5 и Haiku 3.5 (вместо давно ожидаемого Opus).
- Так же представлен

новый API, позволяющий Клоду использовать компьютер (типа с браузерами работать и т.п.). Вот тут Саша пробует

.
- На основе этого API уже появился

agent.exe - хороший пример у Дениса

.
- ComfyUI выпустили десктопное приложение, хорошо

написано у Игоря

.
- ElevenLabs запустили генерацию голосов для персонажей по текстовым описаниям (

тоже у Игоря

).
- Midjourney зарелизил редактирование картинок (

как я и обещал

).
- Runway

представил Act One

 - новый способ генерации анимации персонажей в Gen-3 Alpha, используя одно видео и изображение персонажа, без motion capture.

Сергей Булаев AI 🤖 - об AI и не только

1,341

Сергей Булаев AI 🤖

21 Oct, 11:35

Qwen-2.5-Coder 1.5B - внутрибраузерный кодер и интерпретатор способный работать оффлайн! К тому же ещё и опенсорсный. Использует WebLLM.
Можно попробовать тут, или установить себе с гитхаба.

Он работает и кодит, но проблема в том, что стоит ему написать что то хоть чуть чуть сложное - он сразу падает при попытки это всё исполнить. Поэтому я сделал собственную версию с возможностью отключать автоматическое исполнение кода.

Сергей Булаев AI 🤖 - об использовании ИИ для разработки и не только

1,187

Сергей Булаев AI 🤖

20 Oct, 08:47

Наконец установил Ollama - Llama 3.2, Phi 3, Mistral, Gemma 2 и вообще любые модели с HuggingFace на вашем компьютере локально (Mac/Windows/Linux). Установка занимает пару минут. Просто зайти на сайт и скачать приложение.

Можно пользоваться моделями без цензуры. Что бы поделючить модели с HF нужно использовать следующий формат:

ollama run hf.co/{username}/{reponame}:latest

например:

ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF:latest

также можно указать определённый Quant:

ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF:Q8_0

Update от читателя: По-русски хорошо говорит DeepSeek (но весит 162гига):
ollama run deepseek-v2.5:236b-q5_0

Сергей Булаев AI 🤖 - об AI и не только

1,450

Сергей Булаев AI 🤖

20 Oct, 08:23

Уровень GPT-4 достигнут уже 9-ю компаниями. Такая жёсткая конкуренция на нашем рынке очень позитивна. Все толкаются как никогда развивая ИИ для нас.

Сергей Булаев AI 🤖 - об AI и не только

4,173

Сергей Булаев AI 🤖

20 Oct, 06:32

Книга или телефон? nijijourney -> Runway Gen-3 alpha

Тем временем Midjourney анонсировали появление нового редактора изображений в веб-версии в начале следующей недели.

- Редактировать любые загруженные / веб-изображения с помощью Midjourney.
- Изменять текстуру изображений (через контролнет глубины), что означает сохранение формы сцены / объекта, но перерисовку всех текстур/цветов/деталей в соответствии с вашим запросом.

Развертывание будет происходить постепенно. Непонимаю почему MJ всё это ограничивают.

Сергей Булаев AI 🤖 - об AI и не только

1,384

Сергей Булаев AI 🤖

19 Oct, 10:54

theInformation выпустил интересный материал о Греге Брокмане, президенте OpenAI, ушедшем в саббатикал до конца года. Время идёт, и уже скоро, ему придётся возвращаться в сильно изменившуюся за его отсутвие компанию, где Сэм Альтман фактически стал единоличным правителем.

Оказывается его уход в продолжительный отпуск был в том числе связан с его частами конфликтами с разработчиками. Грег очень много кодил самостоятельно, вмешивался в чужую работу и не следовал стандартам по документированию.

Вот вам несколько фактов из статьи:

- Грег Брокман, соучредитель и президент OpenAI, ожидается вернется в компанию после двухмесячного отпуска, что вызывает вопросы о его будущих отношениях с CEO Сэмом Альтманом.
- Брокман известен своими выдающимися техническими навыками и продолжает активно заниматься программированием, несмотря на высокую должность президента компании.

- Он работал над многими успешными продуктами OpenAI, включая модели GPT-4 и Strawberry, и описывается как "самый трудолюбивый человек в OpenAI".
- Некоторые исследователи OpenAI жалуются на работу с Брокманом из-за его стиля программирования, который часто лишен документации и может быть трудным для понимания и интеграции.
- Брокман славится вмешательством в код проектов без консультаций с другими и бывает переписывает чужую работу, если считает свой подход лучше, что вызывает трения в команде.
- Сам Брокман признавал, что его стиль работы может быть сложным для коллег, говоря: "Недостатком моего способа работы может быть то, что люди чувствуют себя измотанными".
- Мира Мурати, бывший технический директор OpenAI, часто выступала посредником между Брокманом и недовольными исследователями и инженерами, сглаживая конфликты.
- За время отсутствия Брокмана Сэм Альтман укрепил свою власть в OpenAI, фактически взяв под контроль технические команды компании, что может создать напряженность по возвращении Брокмана.
- Брокман описывает себя как трудоголика, работающего 60-100 часов в неделю, что отражает его высокую преданность компании.
- Жена Брокмана, Анна, стала постоянным участником офиса OpenAI в Сан-Франциско, посещая встречи и действуя как своего рода начальник штаба своего мужа, что некоторые сотрудники считают необычным.
- Брокман и Анна поженились в 2019 году в гражданской церемонии в офисах OpenAI, которую провел сооснователь компании Илья Суцкевер, что показывает тесное переплетение личной и профессиональной жизни Брокмана.

Сергей Булаев AI 🤖 - об AI и не только

1,356

Сергей Булаев AI 🤖

19 Oct, 09:30

Сэм Альтман о понимания того на сколько модели изменятся в ближайшее время и как важно это учитывать при создании новых проектов сегодня. Из выступления для Harvard Business School.

Сергей Булаев AI 🤖 - об AI и не только

1,345

Сергей Булаев AI 🤖

19 Oct, 08:48

В рубрике #КриповаяСуббота у нас сегодня страшные лесные сказки от @doopiidoop. Берёзки, все дела.

Сергей Булаев AI 🤖 - об AI и не только

1,300

Сергей Булаев AI 🤖

19 Oct, 07:55

Hallo2 - опенсорсный аниматор портретов с контролем эмоций в 4к. На видео речь Уинстона Черчилля. Требования:

Для исходного изображения:

- Оно должно быть обрезано до квадратной формы.
- Лицо должно быть основным фокусом, занимая 50%-70% изображения.
- Лицо должно быть обращено вперед, с углом поворота менее 30° (без боковых профилей).

Для управляющего аудио:

- Оно должно быть в формате WAV.
- Оно должно быть на английском языке, так как наши обучающие наборы данных только на этом языке.
- Убедитесь, что вокал четкий; фоновая музыка допустима.

Пейпер.

Сергей Булаев AI 🤖 - об AI и не только

1,397

Сергей Булаев AI 🤖

19 Oct, 07:50

OpenAI выложили мастеркласс по решению сложных задач с помощью моделей OpenAI o. Рассказывают как модели рассуждения o1 могут помочь в таких областях, как программирование, стратегия и исследования. Перевёл с Elevenlabs.

Есть версия на YouTube.

Сергей Булаев AI 🤖 - об AI и не только

1,503

Сергей Булаев AI 🤖

19 Oct, 07:19

Coraline, красивый мультфильм полностью созданный с помощью ИИ. Автор - Джулиан Кано. Удивительная стабильность.

Сергей Булаев AI 🤖 - об AI и не только

1,387

Сергей Булаев AI 🤖

18 Oct, 15:42

На моём iPhone новые обои ;) Красиво, оригинальный файл в коментах выложу

Сергей Булаев AI 🤖 - об AI и не только

1,473

Сергей Булаев AI 🤖

18 Oct, 09:40

Flux 1.1 неплохо справляется с политической сатирой. Фабиан, создатель gliff.app, платформы для генеративных nocode минаппов, запилил приложение, которое с помощью Gemini генерит идею рисунка, а Flux 1.1. - отрисовывает. Зачастую получается смешно, а опечатки увеличивают виральность.

Кроме того на gliff полно различных генераторов селфи, аватаров, комиксов, мемасов и даже коротких видео и гифов. Бесплатно доступно 20 генераций в день. Пользуйтесь.

А есть ли какие то картиночно-генеративные модели, которые бы нормально на русском писать могли? Никто не слышал?

Сергей Булаев AI 🤖 - об AI и не только

1,501

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖 (Russian)

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

Сергей Булаев AI 🤖

5,639

476

456

Best Similar Channel

Random Similar Channel