Ребята переосмыслили подходы к обучению и использованию ИИ.
1. Сократили стоимость обучения моделей с $100 миллионов до $5 миллионов, используя меньшее количество GPU (с 100 000 до 2 000). На секунду, это просто катастрофа для компаний типа Nvidia. Ну и категорически противоречит логике последних изменений, когда даже простое банковское приложение жрет все больше и больше ресурсов с каждым обновлением.
2. Используют 8-битные вычисления вместо 32-битных.
Это как если бы для любой, даже маленькой, заметки использовали бы целую тетрадь на 32 листа, а теперь перешли на 8. А ещё их система "мульти-токенов" позволяет обрабатывать данные в два раза быстрее.
3. Самое уникальное. Вместо одной универсальной модели, DeepSeek использует специализированных "экспертов", которые включаются только при необходимости. Снизили количество активных параметров с 1,8 триллиона до 37 миллиардов. Представьте, что раньше, чтобы вскипятить чайник вам приходилось ещё просить всех соседей вскипятить свои, так как не знаете точно в каком налита вода. А теперь точно знаете и кипятите только его.
4. Открытый исходный код! Даже добавить нечего.
5. DeepSeek позволяет использовать обычные GPU вместо дорогостоящих серверных. График акцийи(в треде) очень показателен.
6. Мое личное мнение: это прорыв. Логика работы ИИ стала ещё чуть ближе к тому, как устроен наш мозг.