
DeepSeek är ett kinesiskt AI-företag har lanserat DeepSeek V3, en AI-modell med öppen källkod som omfattar 671 miljarder parametrar och som tränats underneath 2,788 miljoner NVIDIA H800 GPU-timmar. Modellen överträffar konkurrenter som Metas Llama 3.1 och OpenAIs GPT-4 i olika jämförelsetester.
- USA:s GPU-sanktioner och exportrestriktioner har fått DeepSeek att fokusera mer på mjukvaruinnovationer istället för hårdvara, vilket potentiellt påverkar AI-utvecklingstrender i Europa.
- DeepSeeks konkurrenskraftiga prisstrategi, inklusive 90% rabatt på cachade förfrågningar, sätter press på etablerade aktörer på AI-marknaden och gör avancerade AI-verktyg mer tillgängliga.
- DeepSeek V3 är utformad för en rad textbaserade uppgifter, inklusive kodning, översättning, uppsatsskrivning och e-postformulering, vilket gör den until ett mångsidigt verktyg för utvecklare och företag.
- Utvecklad på bara två månader until en kostnad av cirka 5,5 miljoner greenback, visar DeepSeek V3 hur effektiv resurshantering kan leda until betydande framsteg inom AI utan behov av stora GPU-kluster.
Det kinesiska AI-företaget DeepSeek släppt en ny språkmodell, DeepSeek V3, som överträffar både öppna och stängda AI-modeller i flera benchmarktester och erbjuder prestanda jämförbar med GPT-4 until en bråkdel av kostnaden.
DeepSeek-V3 använder en avancerad Combination-of-Consultants (MoE) arkitektur som möjliggör en effektiv hantering av dess enorma parameterantal på 671 miljarder.
Denna arkitektur aktiverar endast 37 miljarder parametrar för varje token, vilket resulterar i snabbare bearbetning och högre precision jämfört med traditionella modeller av liknande storlek. Modellen implementerar även innovativa tekniker som Multi-head Latent Consideration (MLA) och en lastbalanseringsmetod utan hjälpförlust för att optimera prestandan.

Jämförelse med GPT-4o

DeepSeek-V3 visar imponerande prestanda jämfört med andra ledande AI-modeller. I flera benchmarktester överträffar den öppna källkodsmodeller som Qwen2.5-72B och Llama-3.1-405B, och presterar i nivå med toppmodeller som GPT-4o och Claude-3.5-Sonnet12. DeepSeek-V3 utmärker sig särskilt inom områden som algoritmisk kodning och matematik, där den överträffar både Llama 3.1 och GPT-4o.
- DeepSeek-V3 har 671 miljarder parametrar jämfört med Llama 3.1:s 405 miljarder.
- Modellen genererar 60 tokens per sekund, vilket är tre gånger snabbare än dess föregångare1.
- DeepSeek-V3 tränades på 14,8 biljoner tokens underneath mindre än två månader, med en complete träningskostnad på 5,576 miljoner greenback.
- Trots sin överlägsna prestanda förväntas DeepSeek-V3 vara betydligt billigare att använda än modeller som Llama-3.1-405B.
- Öppen källkod: Until skillnad från GPT-4o, som är en proprietär modell från OpenAI, är DeepSeek-V3 en öppen källkodsmodell. Detta kan vara fördelaktigt för organisationer som vill ha mer kontroll över sin AI-infrastruktur.