Jak to zrobili? Przez całkowite przemyślenie dotychczasowych założeń i procesów.
Tradycyjne trenowanie modeli AI to koszmar pod względem kosztów. OpenAI czy Anthropic wydają ponad 100 milionów dolarów tylko na moc obliczeniową, wykorzystując ogromne centra danych z tysiącami drogich procesorów graficznych (GPU).
Tymczasem DeepSeek udowodnił, że można to zrobić za jedyne 5 milionów dolarów.
Kluczowe innowacje DeepSeek:
- Efektywne zarządzanie pamięcią:
Tradycyjne modele AI przechowują dane na 32bitach, co wymaga ogromnych zasobów pamięci. DeepSeek zapytał: "Ale dlaczego 32? W zupełności wystarczy 8", pozwoliło to na zmniejszenie wymagań pamięci o 75%.
- System „multi-token”:
Zamiast przetwarzać tekst słowo po słowie jak klasyczne LLM "Wróbel... siedział... na...", DeepSeek analizuje całe frazy na raz. To sprawia, że proces jest dwa razy szybszy przy zachowaniu 90% dokładności.
- System ekspertów (MoE - Mixture of Experts):
Zamiast jednego ogromnego modelu uruchomionego CAŁY CZAS, DeepSeek wprowadził system wyspecjalizowanych modeli. Każdy z nich uruchamiany jest tylko wtedy, gdy jest potrzebny, co drastycznie zmniejsza ilość aktywnych parametrów (671 miliardów ale tylko 37 miliardów aktywnych na raz). Nie jest po pomysł nowy (używany wcześniej między innymi w modelach Mixtral) ale pierwszy raz zastosowany w tej skali
Rezultaty?
- Koszt trenowania spadł z 100 milionów do 5 milionów dolarów.
- Liczba potrzebnych GPU zmniejszyła się z 100 000 do 2 000.
- Koszty API są niższe o 95%.
- Modele mogą być uruchamiane na standardowych GPU dla graczy zamiast drogich GPU serwerowych.
Co ważne, DeepSeek postawił na otwartość. Kod i dokumentacja są publicznie dostępne, co otwiera drzwi dla mniejszych firm i indywidualnych innowatorów.
Dlaczego to ma znaczenie?
Demokratyzacja AI
Dotychczas tylko najwięksi gracze z ogromnymi budżetami mogli trenować zaawansowane modele. Teraz proces ten staje się dostępny dla mniejszych podmiotów.
Zagrożenie dla dużych firm
Nvidia, dominujący dostawca GPU, może odczuć konsekwencje, gdyż ich model biznesowy opiera się na sprzedaży drogich procesorów z ogromną marżą.
Nowa fala innowacji
Mniejsze wymagania sprzętowe i finansowe oznaczają większą konkurencję, co może przyspieszyć rozwój całej branży.
Podsumowując, DeepSeek zadał pytanie: „Co, jeśli zamiast rzucać coraz więcej sprzętu, po prostu zoptymalizujemy proces?”
Odpowiedzią są przełomowe wyniki, spadek kursu NVIDIA na giełdzie i PANIKA w meta i OpenAI
#zajebaneztwittera #llm #sztucznainteligencja #nvidia

