DeepSeek: Wszystko, co musisz wiedzieć o aplikacji chatbota AI

DeepSeek stał się viralem.
Chińskie laboratorium AI DeepSeek wdarło się do świadomości głównego nurtu w tym tygodniu po tym, jak jego aplikacja chatbot znalazła się na szczycie list przebojów Apple App Store ( i Google Play ). Modele AI DeepSeek, które zostały wyszkolone przy użyciu wydajnych obliczeniowo technik, sprawiły, że analitycy z Wall Street — i technologowie — zastanawiają się, czy USA utrzymają przewagę w wyścigu AI i czy popyt na chipy AI się utrzyma.
Skąd wzięła się aplikacja DeepSeek i jak tak szybko zyskała międzynarodową sławę?
Za DeepSeek stoi High-Flyer Capital Management, chiński fundusz hedgingowy wykorzystujący sztuczną inteligencję do podejmowania decyzji handlowych.
Miłośnik sztucznej inteligencji Liang Wenfeng był współzałożycielem High-Flyer w 2015 r. Wenfeng, który według doniesień zaczął interesować się handlem podczas studiów na Uniwersytecie Zhejiang, w 2019 r. założył High-Flyer Capital Management jako fundusz hedgingowy skupiający się na opracowywaniu i wdrażaniu algorytmów sztucznej inteligencji.
W 2023 r. High-Flyer uruchomił DeepSeek jako laboratorium poświęcone badaniom narzędzi AI niezależnie od swojej działalności finansowej. Z High-Flyer jako jednym z inwestorów, laboratorium wydzieliło się do własnej firmy, również zwanej DeepSeek.
Od pierwszego dnia DeepSeek zbudował własne klastry centrów danych do trenowania modeli. Jednak podobnie jak inne firmy AI w Chinach, DeepSeek został dotknięty zakazami eksportu sprzętu przez USA . Aby trenować jeden ze swoich nowszych modeli, firma była zmuszona użyć chipów Nvidia H800, mniej wydajnej wersji chipa H100, dostępnego dla firm amerykańskich.
Mówi się, że zespół techniczny DeepSeek jest przechylony w stronę młodych. Firma podobno agresywnie rekrutuje doktorantów AI z najlepszych chińskich uniwersytetów. DeepSeek zatrudnia również osoby bez żadnego wykształcenia informatycznego, aby pomóc swojej technologii lepiej zrozumieć szeroki zakres tematów, według The New York Times.
Firma DeepSeek zaprezentowała swój pierwszy zestaw modeli — DeepSeek Coder, DeepSeek LLM i DeepSeek Chat — w listopadzie 2023 r. Jednak dopiero wiosną ubiegłego roku, gdy startup wypuścił rodzinę modeli nowej generacji DeepSeek-V2, branża sztucznej inteligencji zaczęła zwracać na nie uwagę.
DeepSeek-V2, uniwersalny system analizy tekstu i obrazu, wypadł dobrze w różnych testach porównawczych AI — i był znacznie tańszy w eksploatacji niż porównywalne modele w tamtym czasie. Zmusił on krajowych konkurentów DeepSeek, w tym ByteDance i Alibaba, do obniżenia cen użytkowania niektórych modeli i uczynienia innych całkowicie darmowymi.
Wersja DeepSeek-V3 , wprowadzona na rynek w grudniu 2024 r., tylko zwiększyła popularność DeepSeek.
Według wewnętrznych testów porównawczych DeepSeek, DeepSeek V3 przewyższa zarówno dostępne do pobrania, otwarte modele, takie jak Llama firmy Meta, jak i „zamknięte” modele, do których dostęp jest możliwy wyłącznie za pośrednictwem interfejsu API, takie jak GPT-4o firmy OpenAI.
Równie imponujący jest model „rozumowania” R1 firmy DeepSeek. Wydany w styczniu, DeepSeek twierdzi , że R1 działa tak samo dobrze jak model o1 firmy OpenAI w kluczowych testach porównawczych .
Będąc modelem rozumującym, R1 skutecznie sprawdza fakty, co pomaga mu uniknąć niektórych pułapek, które zwykle wpadają w pułapki modeli. Modele rozumujące potrzebują trochę więcej czasu — zwykle sekund lub minut — aby dojść do rozwiązań w porównaniu do typowego modelu nierozumującego. Zaletą jest to, że są one bardziej niezawodne w takich dziedzinach jak fizyka, nauka i matematyka.
R1, DeepSeek V3 i inne modele DeepSeek mają jednak swoje wady. Będąc sztuczną inteligencją opracowaną w Chinach, podlegają one ocenie porównawczej chińskiego regulatora internetowego, aby upewnić się, że odpowiedzi „ucieleśniają podstawowe wartości socjalistyczne”. Na przykład w aplikacji chatbot DeepSeek R1 nie odpowie na pytania dotyczące placu Tian’anmen ani autonomii Tajwanu.
Jeśli DeepSeek ma model biznesowy, nie jest jasne, jaki dokładnie jest ten model. Firma ustala ceny swoich produktów i usług znacznie poniżej wartości rynkowej — a inne rozdaje za darmo.
Jak twierdzi DeepSeek, przełomy w wydajności pozwoliły jej utrzymać ekstremalną konkurencyjność kosztową. Niektórzy eksperci kwestionują jednak podane przez firmę liczby.
Niezależnie od okoliczności, deweloperzy wzięli się za modele DeepSeek, które nie są open source, jak powszechnie się to rozumie, ale są dostępne na podstawie licencji zezwalających na komercyjne wykorzystanie. Według Clema Delangue, CEO Hugging Face, jednej z platform hostujących modele DeepSeek, deweloperzy na Hugging Face stworzyli ponad 500 „pochodnych” modeli R1 , które łącznie zebrały 2,5 miliona pobrań.
Sukces DeepSeek w starciu z większymi i bardziej ugruntowanymi rywalami został opisany jako „wywracający AI do góry nogami” i „przesadnie rozreklamowany”. Sukces firmy był przynajmniej częściowo odpowiedzialny za spadek ceny akcji Nvidii o 18% w poniedziałek i za wywołanie publicznej reakcji ze strony dyrektora generalnego OpenAI, Sama Altmana.
Microsoft ogłosił, że DeepSeek jest dostępny w usłudze Azure AI Foundry , platformie Microsoftu, która łączy usługi AI dla przedsiębiorstw pod jednym szyldem. Zapytany o wpływ DeepSeek na wydatki Meta na AI podczas rozmowy telefonicznej dotyczącej wyników za pierwszy kwartał, CEO Mark Zuckerberg powiedział, że wydatki na infrastrukturę AI nadal będą „strategiczną przewagą” Meta.
W tym samym czasie niektóre firmy zakazują używania DeepSeek , podobnie jak całe kraje i rządy , w tym Korea Południowa . Stan Nowy Jork również zakazał używania DeepSeek na urządzeniach rządowych .
Nie jest jasne, jaka może być przyszłość DeepSeek. Ulepszone modele są pewne. Jednak rząd USA wydaje się być coraz bardziej ostrożny w stosunku do tego, co postrzega jako szkodliwy wpływ zagraniczny .
TechCrunch ma newsletter skupiony na AI! Zapisz się tutaj, aby otrzymywać go w skrzynce odbiorczej w każdą środę.
Ta historia została pierwotnie opublikowana 28 stycznia 2025 r. i będzie stale aktualizowana o nowe informacje.
techcrunch