Дозвольте мені пояснити простими словами, чому інновації DeepSeek в галузі штучного інтелекту вражають уяву людей (і, можливо, загрожують ринковій капіталізації Nvidia у розмірі $2 трлн):
джерело - https://threadreaderapp.com/thread/1883686164336709661.html
1/ Спочатку трохи контексту: зараз навчання найкращих моделей ШІ коштує БЕЗУМНО дорого. OpenAI, Anthropic та інші витрачають понад $100 млн лише на обчислення. Їм потрібні величезні центри обробки даних із тисячами графічних процесорів по $40 тис. за чіп. Це ніби для роботи заводу була потрібна ціла електростанція.
2/ DeepSeek просто з'явилися і сказали: «А що якщо ми натомість зробимо це за $5 млн?» І вони не просто сказали – вони справді ЗРОБИЛИ це. Їхні моделі відповідають або перевершують GPT-4 і Claude за багатьма параметрами.
3/ Як? Вони переосмислили все з нуля. Традиційний ШІ - це як записувати кожне число з 32 знаками після коми. DeepSeek подумав: а що, як ми просто візьмемо просто 8 знаків? Це все одно буде досить точно! Бум - потрібно на 75% менше пам'яті.
4/ А ще є їхня система «багатотокенів». Звичайний ШІ читає як першокласник: The... cat... sat... DeepSeek читає цілі фрази відразу. Вдвічі швидше, на 90% точніше. Коли ви обробляєте мільярди слів, це важливо.
5/ Але ось що справді розумно: вони створили «експертну систему». Замість одного величезного ШІ, який намагається знати все (наприклад, коли одна людина була б лікарем, юристом та інженером одночасно), у них є спеціалізовані експерти, які прокидаються лише за необхідності.
6/ Традиційні моделі? Всі 1,8 трильйона параметрів активні ВЕСЬ ЧАС. DeepSeek? Усього 671 млрд, але тільки 37 млрд активні одночасно. Це як мати величезну команду, але викликати лише тих експертів, які вам справді потрібні для кожного завдання.
7/ Результати просто приголомшують:
Вартість навчання: $100 млн → $5 млн
Необхідна кількість графічних процесорів: 100 000 → 2 000
Вартість API: на 95% дешевше
Може працювати на ігрових графічних процесорах замість обладнання центрів обробки даних
8/ «Але зачекайте», - можете сказати ви, - «має бути каверза!» Ось у чому дикість - все це з відкритим вихідним кодом. Будь-хто може перевірити їхню роботу. Код є загальнодоступним. Технічні документи все пояснюють. Це не магія, а просто неймовірно розумна інженерія.
9/ Чому це важливо? Тому що це ламає модель "тільки великі технологічні компанії можуть грати в ШІ". Вам більше не потрібний центр обробки даних вартістю $1 млрд. Декілька хороших графічних процесорів можуть це зробити.
10/ Для Nvidia це страшно. Вся їхня бізнес-модель побудована на продажі супердорогих GPU з 90% маржою. Якщо всі раптом зможуть робити ШІ на звичайних ігрових GPU... (прим: тоді AMD з'їсть частку ринку NVDA 🤣)
11/ І ось у чому фішка: DeepSeek зробив це з командою з <200 чоловік. Тим часом у Meta є команди, де тільки зарплати перевищують весь бюджет DeepSeek на навчання... і їхні моделі не такі гарні.
12/ Це класична історія прориву: компанії, що діють, оптимізують існуючі процеси, а проривні компанії переосмислюють фундаментальний підхід. DeepSeek запитав: "А що, якщо ми просто зробимо це розумнішим, замість того, щоб вкладати в це більше обладнання?"
13/ Наслідки величезні:
Розробка ШІ стає більш доступною
Конкуренція різко зростає
«Рви» великих технологічних компаній стають більше схожі на калюжі.
Вимоги до обладнання (і витрати) різко падають
14/ Звичайно, такі гіганти, як OpenAI та Anthropic, не стоятимуть на місці. Ймовірно, вони вже запроваджують ці інновації. Але джин ефективності вже випущений з пляшки - немає повернення до підходу "просто дайте йому більше GPU".
15/ Заключна думка: це схоже на один з тих моментів, які ми згадуватимемо як переломний момент. Як колись ПК зробили мейнфрейми менш актуальними, або коли хмарні обчислення змінили все.
ШІ скоро стане набагато доступнішим і набагато менш дорогим. Питання не в тому, чи це зачепить поточних гравців, а в тому, як швидко це станеться.