Kto stoi za start-upem, którego model językowy wywołał wstrząs w Dolinie Krzemowej? Co wiemy o nieznanym wcześniej szerokiej publiczności laboratorium AI DeepSeek, finansującym go funduszu hedingowym High-Flyer i ich założycielu Liangu Wenfengu?


Do pierwszego szeregu firm działających w obszarze sztucznej inteligencją przebojem wdarło się chińskie laboratorium DeepSeek, które wydało w ostatnich dniach swojego asystenta AI o nazwie R1. Oprogramowanie typu open source (co wyróżnia je np. na tle ChatGPT) osiąga wyniki porównywalne a w niektórych benchmarkach nawet przewyższające algorytmy zachodnich firm, działając przy znacznie niższych kosztach operacyjnych.
Dostępny za darmo DeepSeek R1 (kolejny atut chińskiego modelu - za dostęp do ChatGPT o1-plus trzeba płacić 20 dolarów miesięcznie) w ostatni weekend znalazł się na szczycie listy pobrań w sklepie z aplikacjami Apple Store. Tajemnicze chińskie laboratorium pojawiło się na ustach całej Ameryki, a rynki akcji wpadły w popłoch, wskazując na kluczową przewagę modelu DeepSeek. Tym, jak twierdzą twórcy modelu, jest cena jego wytrenowania, która miała stanowić ułamek kwoty zainwestowanej w rozwój technologii OpenAI.
Meta Marka Zuckerberga zaplanowała w budżecie na 2025 r. wydanie 60 mld dolarów na rozbudowę infrastruktury AI. Jeszcze więcej wydzielił na ten cel Microsoft, w przypadku którego mówi się o 80 mld dolarów. Lwia część budżetów firm technologicznych planowanych na rozwój AI trafia do Nvidii - głównego producenta najbardziej zaawansowanych chipów wykorzystywanych do trenowania dużych modeli językowych.
DeepSeek ogłaszające osiągnięcie podobnych efektów do czołówki Doliny Krzemowej przy znacznie mniejszych wydatkach, podważyło wiarę inwestorów w ciągły wzrost spółki przewodzącej aktualnej hossie. Podczas poniedziałkowej sesji notowania Nvidii straciły 16,86 proc., a z kapitalizacji rynkowej spółki wyparowało tego dnia prawie 600 mld dolarów, co stanowi rekord Wall Street.


Fundusz hedgingowy Lianga Wenfenga
Pomimo wcześniejszego braku medialnego szumu, sukces DeepSeek nie wziął się znikąd, notując stopniowe postępy w tworzeniu modeli sztucznej inteligencji na przestrzeni ostatnich dwóch lat. Laboratorium AI zostało założone przez Lianga Wenfenga, który urodził się w 1985 roku w chińskim Zhanjiang i ukończył studia informatyczne na Uniwersytecie Zhejiang w Hangzhou.
Zgodnie z oficjalną biografią przedsiębiorcy po ukończeniu studiów przeprowadził się do Chengdu w prowincji Syczuan, gdzie miał eksperymentować z wdrożeniami sztucznej inteligencji w rozmaitych dziedzinach. Sukces przyniosło mu zaangażowanie w sektorze finansowym.
W 2015 r. wraz z dwoma kolegami ze studiów Wenfeng założył fundusz hedgingowy High-Flyer Capital Management, który opierał swoje strategie inwestycyjne na analizie ilościowej i algorytmicznym tradingu. Według chińskich mediów do 2019 roku zarządzał on aktywami o wartości 10 mld juanów (ok 1,4 mld dolarów).
W 2019 r. High-Flyer powołał oddzielną spółkę High-Flyer AI, zajmującą się badaniami nad sztuczną inteligencją. W 2020 r. powstał jej superkomputer Fire-Flyer I, stworzony do trenowania algorytmów AI. W 2021 r. zastąpił go Fire-Flyer II, którego budowa pochłonęła 1 mld juanów (140 mln dolarów). W skład nowego klastra wchodziło 10 000 mikroprocesorów Nvidia A100.
W marcu 2023 r. Wefeng ogłosił, że podejmuje kolejne wyzwanie, jakim ma być budowa laboratorium badawczego, które postawi sobie za cel rozwój generalnej sztucznej inteligencji (AGI) - termin ten oznacza model językowy, który przewyższy pod każdym względem ludzką inteligencję. To właśnie wtedy z organizacji wydzielono laboratorium DeepSeek.
DeepSeek founder Liang Wenfeng attended and spoke at a symposium hosted by Chinese Premier Li Qiang on January 20th.
— Asia Tech (@asiatechwire) January 27, 2025
On the day of the meeting, DeepSeek released the DeepSeek-R1 model, with performance benchmarked against the full version of OpenAI’s o1 reasoning model. pic.twitter.com/5wBAL7rQ2Y
Szybkie nadrabianie dystansu
Pierwszy model językowy DeepSeek Code został zaprezentował w listopadzie 2023 r. W maju 2024 r. powstał model V2, a w grudniu zaprezentowano V3. Na wyszkolenie ostatniego z wymienionych wydano podobno 5,6 mln dolarów, co stanowiło około 10 razy mniejszy koszt niż w przypadku modelu spółki Meta.
Na podstawie modelu V3 w styczniu 2025 r. wydano asystenta AI DeepSeek-R1. Zdaniem chińskiego laboratorium, nowy produkt przewyższył w niektórych zadaniach model o1 OpenAI. Według Wall Street Journal chiński model poddany serii testów okazał się ustępować amerykańskiemu, chociaż jak podkreślono start-upy z Państwa Środka wykazują oznaki, że doganiają wiodące firmy AI z USA zdecydowanie szybciej, niż spodziewało się wielu przedstawicieli branży.
Aktualna liczba chipów AI posiadanych przez High-Flyer i DeepSeek pozostaje tajemnicą, choć według Alexandra Wanga dyrektora generalnego firmy Scale, jest to 50 000 najnowocześniejszych układów Nvidii. Wang powiedział o tym w wywiadzie dla CNBC, ale nie przedstawił dowodów, dodając, że DeepSeek będzie utrzymywało ten fakt w tajemnicy, nie chcąc sprowadzić na siebie gniewu Waszyngtonu, który objął te układy ograniczeniami eksportowymi.
Nie taki przełom straszny?
Pośród ostrej reakcji rynków i spadku notowań spółek technologicznych, ze szczególnym uwzględnieniem akcji Nvidii, niektórzy analitycy ogłosili przełom i koniec amerykańskiej hossy AI, podczas gdy inni studzą nastroje. Nie brakuje także spostrzeżeń dotyczących ułomności modelu, do których należy cenzura według partyjnej linii ChRL.
Zapytałem DeepSeeka (nowe chińskie AI) o 10 strasznych rzeczy, jakie robią Chiny. Podał je ...a potem się ocenzurował. Na szczęście wszystko nagrałem.
— Niebezpiecznik (@niebezpiecznik) January 27, 2025
/pk pic.twitter.com/IhpkfImOt3
- Krótko mówiąc, uważamy, że 1) DeepSeek NIE "zbudował OpenAI za 5 milionów dolarów"; 2) modele wyglądają fantastycznie, ale nie sądzimy, aby były cudami; i 3) panika, która wybuchła na Twitterze w ten weekend, wydaje się przesadzona - skomentowali analitycy Bernstein.
Analitycy Morgan Stanley uznali z kolei, że przełom dokonany przez chiński start-up, byłby dobrą wiadomością dla całej branży.
- Nie potwierdziliśmy prawdziwości tych doniesień, ale jeśli są dokładne, a zaawansowane duże modele językowe rzeczywiście można rozwijać za ułamek wcześniejszych inwestycji, możemy być świadkami uruchamiania generatywnej sztucznej inteligencji na coraz mniejszych komputerach (przejście z superkomputerów na stacje robocze, komputery biurowe i wreszcie komputery osobiste), a branża SPE (Software product engineering) mogłaby skorzystać na towarzyszącym temu wzrostowi popytu na produkty powiązane (chipy i SPE) w miarę rozprzestrzeniania się popytu na generatywną sztuczną inteligencję - podkreślono w notatce Morgan Stanley.
MM