☕️ ☕️ Утро субботы, чашка кофе и возможность спокойно написать заметку.
Наряду с нетривиальными событиями типа покушения на Трампа или глобального сбоя на инфраструктуре Майкрософт, главными героями становятся компании выпускающие новые LLM. 👀
📋 Если начну перечислять, все что вышло на неделю, точно утомлю вас. Так что коротко.
👏 Порадовали Mistral – мои любимцы в open source, много и часто использую их модели. Выпустили сразу три (!) модели за неделю: MathΣtral (специализируется на математических задачах), Codestral Mamba (использовлаи свежее архитектурное решение под капотом) и Mistral NeMo 12В 128К. Вот последнюю точно беру в работу. Из преимуществ, хорошо работает (по слухам) в квантизации 8 бит и помещается на карты 3090/4090 25Gb. Вернусь с результатами тестов.
😮💨 Из прочего, Apple пытается войти в игру и выпустила open source модель на 7В параметров. Ну такое… хотя по их метрикам вроде как ничего. Но контекстное окно в 2048 токенов все портит. Были интересные модели для агентов и прочего любопытного, но пока только посмотреть ).
🔥 А вот главное событие вы уже, наверное, слышали, выход GPT-4o-mini. Это просто взрыв мозга! 🤯 При относительно не сильно просевших способностях (будем смотреть), имеет контекстное окно 128К токенов и стоит…. $0.15/$0.6 долл. за миллион входящих/исходящих токенов! Почти даром. Обожаю конкуренцию! Так как сейчас для несложных проектов использовали модели в основном по цене 1 долл. за миллион токенов (например, мой любимец Claude Haiku $0.25/$1.25). Но тут многим поставщикам придется пересмотреть свое ценообразование.
🫧 Многие считают, что пузырь ИИ сдуется, но мне кажется, мы еще только в начале горки и нас ждет много увлекательного! 🍿
⏱ Жалко не всегда хватает времени пощупать весь этот зоопарк новинок. Но обязательно буду делиться результатами.