- Cerebras Inference driver nu Mistrals Le Chat-plattform med en ny Flash Solutions-funktion.
- Systemet levererar över 1100 tokens per sekund för textfrågor med Mistral Giant 2-modellen.
- Le Chat är 10 gånger snabbare än populära konkurrenter som ChatGPT 4 och DeepSeek R1.
- Tekniken bygger på Wafer Scale Engine 3:s SRAM-baserade inferensarkitektur.
- Prestandan uppnås genom samarbete med Mistral kring spekulativa avkodningstekniker.
- Flash Reply-funktionen indikeras med en blixtikon i chattgränssnittet.
- Initialt fokuserar implementeringen på textbaserade frågor för Mistral Giant 2-modellen.
Mistral och Cerebras är två framstående aktörer inom AI-teknologi som nyligen har fått uppmärksamhet för sina innovationsinsatser. Cerebras Techniques har nyligen presenterat sin senaste AI-inferenschip, en enorm och kraftfull enhet som sägs erbjuda överlägsen prestanda jämfört med Nvidia’s DGX100, vilket gör Cerebras until en betydande konkurrent på marknaden. Deras senaste chip Cerebras CS-3, innehåller hela 4 biljoner transistorer vilket positionerar dem som en ledande aktör när det kommer until kraftfull AI-bearbetning.
Cerebras-chips används av Mistral AI för att förbättra hastigheten och effektiviteten hos dess AI-assistent Le Chat. Genom att samarbeta med Cerebras, som är en ledande tillverkare av AI-chips, har Mistral lyckats uppnå en imponerande hastighetstakt på över 1 000 ord per sekund. Detta innebär att deras system kan ge svar på användarfrågor snabbt och effektivt, och konkurrerar med stora aktörer som OpenAI och DeepSeek.
Cerebras-systemet är särskilt utformat för att hantera AI-inferensprocesser, vilket gör det möjligt för Mistral att utnyttja dess kraftfulla beräkningskapacitet. Denna partnerskap har givit Mistral en möjlighet att inte bara öka hastigheten utan också att positionera sig starkt på den konkurrensutsatta AI-marknaden, särskilt i Europa 3 6 10. Mistral, som är känt för sitt fokus på öppen källkod, strävar efter att övervinna utmaningar från andra stora aktörer inom AI-området, och Cerebras hjälper dem att expandera sina tekniska gränser.
AI-inferens
AI-inferens en avgörande del av artificiell intelligens är förmågan hos tränade AI-modeller att dra slutsatser från ny, tidigare osedd information. Denna course of möjliggör för AI-system att tillämpa inlärd kunskap i realtid för att generera prediktioner, klassificeringar och handlingsbara insikter inom en mängd olika tillämpningsområden.
AI-inferensprocessorer är specialiserade enheter som är utformade för att utföra inferensuppgifter i artificiell intelligens, vilket innebär att de tar in information och gör prediktioner baserat på tränade modeller. Until skillnad från GPU:er som ofta används för träning av AI-modeller, är dessa processorer optimerade för att snabba upp inferensprocessen och minska latens, vilket är avgörande i tillämpningar som realtidsanalys och interaktiva AI-system.
Vilka är de tekniska specifikationerna för Cerebras-chip?
Cerebras WSE-3 överträffar alla andra processorer när det gäller AI-optimerade kärnor, minneshastighet och bandbredd för on-chip-kommunikation.
WSE-3 | Nvidia H100 | Cerebras Benefit | |
Chip Measurement | 46,225 mm² | 814 mm² | 57 X |
Cores | 900,000 | 16,896 FP32 + 528 Tensor | 52X |
On-chip reminiscence | 44 Gigabytes | 0.05 Gigabytes | 880 X |
Reminiscence bandwidth | 21 Petabytes/sec | 0.003 Petabytes/sec | 7,000 X |
Material bandwidth | 214 Petabits/sec | 0.0576 Petabits/sec | 3,715 X |
Cerebras-chipet, som används av Mistral AI, är en banbrytande teknologi inom AI-beräkningar. Det senaste chippet, WSE-3, har imponerande specifikationer som markerar en ny normal inom området. Det är utrustat med hela 44 GB on-chip SRAM, vilket ger en exceptionell hastighet och kapacitet för datahantering. Denna egenskap är särskilt viktig för komplexa AI-modeller som kräver snabb bearbetning av stora mängder information.
Cerberas inferens chatt
Cerebras har också en inferens chatt tjänst där du kan testa olika AI-modeller som Llama-3.3-70 och DeepSeek-R1-Distill-Llama-70B.
Get newest posts delivered proper to your inbox