💙DeepSeek — очередной квантовый скачок в развитии AI
Пока скептики в области ИИ продолжают размышлять о том, что ИИ никогда не обретёт сознание и останется лишь имитатором интернета, небольшая китайская компания совершила прорыв. Они создали думающую модель всего за $6 млн (меньше, чем зарплата некоторых инженеров ИИ в Кремниевой долине, и 2% от стоимости ближайшего конкурента), которая не уступает OpenAI GPT-4, являясь при этом открытой и доступной по цене.
💙Сравните:
💙ChatGPT — $2,50 за обработку миллиона токенов в самой дорогой модели.
💙DeepSeek — $0,14 за тот же объём.
Доступ к API не требует VPN и других сложностей, а стоимость в разы ниже. Мы уже переключили часть проектов с других моделей на DeepSeek.
Попробуйте сами — эта модель настолько хороша, что, вероятно, превзойдёт в способности размышлять многих читателей этой статьи.
💙Что произошло?
Пока американские гиганты, вроде Google, тратили миллиарды (как и компании в Европе и у нас, кстати), DeepSeek добилась успеха, оптимизируя железо и позволив модели обучать себя самостоятельно.
Этот скачок вызвал настоящую истерику в Кремниевой долине. Корпорации экстренно собирают совещания, ведь Китай неожиданно вышел в лидеры, обойдя санкции США. Гонка ИИ теперь в самом разгаре.
США не могут позволить Китаю доминировать в ИИ. Учитывая, что нынешнее правительство США состоит из технократов вроде Маска, стоит ждать ответа, аналогичного запуску Спутника в СССР — триллионы долларов будут вложены в эту гонку.
💙Что известно о DeepSeek?
Акт 1. Ботаники, случайно накопившие гору GPU
История начинается не в гараже Кремниевой долины, а в мире финансов — где математики печатают деньги, пока мы спорим о биткоинах.
High-Flyer Quant, китайский хедж-фонд, основанный в 2015 году Ляном Вэньфэном, в 2021-м (до санкций США) закупил GPU «на всякий случай». Их использовали для анализа рынка, но большую часть времени мощности простаивали. Лян решил занять их чем-то интересным.
К 2021-му у High-Flyer было 10 000 GPU — достаточно для съемок «Трансформеров» в реальной жизни. Говорят, глава NVIDIA прислал Ляну открытку с надписью: «Спасибо за яхту». Но вместо прогнозирования мемных акций Лян решил построить AGI (искусственный общий интеллект).
В 2023-м High-Flyer выделил ИИ-направление в DeepSeek. Акционеры недоумевали:
«Простите, мы вместо зарабатывания денег на новую яхту занимаемся чем???111»
Но Лян настаивал:
«Представьте ChatGPT, но дешевле… созданный теми, кто не уходит из офиса даже чтобы поспать».
Ранние дни DeepSeek — мастер-класс по хаосу:
Офисная культура: сотрудники кодили по 18 часов в сутки, подпитываясь только bubble-tea и экзистенциальным страхом.
Найм сотрудников: «У вас есть PhD? Отлично. А Вы знаете, что такое work-life balance? Печально».
Финансирование: полностью за счет прибыли High-Flyer. Ничто так не кричит «стратегия», как ставка на AGI на деньги хедж-фонда.
Акт 2. Инженерная магия: как обойти санкции
Пока США спорили об этике AI, DeepSeek избрала подход «Подержите мой смузи»:
Прорыв в архитектуре: Multi-head Latent Attention (MLA) — метод, сокративший стоимость обучения на 90% за счет игнорирования 95% данных. Гениально или лениво?
Модели MoE: DeepSeek-V2 с 236 млрд параметров обошёлся дешевле, чем сезон Stranger Things. Инженеры отметили это покупкой новых GPU (дядя Илон одобряет такой уровень упоротости).
Обучение с подкреплением: Модели серии R1 учили математику методом проб и ошибок, как дети с PhD. Результат? Уровень GPT-4, но на 95% дешевле.
В мае 2024-го DeepSeek шокировала ценами на API: 2 юаня за миллион токенов. Перевод: «Мы разорим ваш стартап за стоимость упаковки соевого молока».
💙Последствия:
Alibaba и Tencent режут цены быстрее, чем уличные торговцы убегают от проверок.
В Кремниевой долине — паника. OpenAI уже объявил, что o3 mini будет включен в бесплатную подписку и тихо обновляет прайсы, бормоча «Это нечестно».
Цукерберг выложил ответ на сайте своей экстремистской организации, от том что компания планирует сделать, учитывая что DeepSeek превосходит LLama в тестах.
#DeepSeek