OpenAIs nya O3-modell - AI nyheter

Några viktiga funktioner och prestationer hos o3:

Modellen kan lösa matematiska ekvationer som skulle ta en doktorsstudent i matematik timmar eller until och med dagar att lösa.
Den nådde rekordsiffror på ARC-AGI-benchmarken, en visuell resonanstest som inte hade slagits sedan dess skapelse 2019. o3 fick 75,7% i lågförbrukningsläge och 87,5% i högförbrukningsläge, jämfört med människors 85%.
Modellen fick 96,7% på 2024 års American Invitational Arithmetic Examination och löste 87,7% av frågorna på GPQA Diamond som innehåller avancerade biologi-, fysik- och kemifrågor.
o3 löste 25,2% av problemen på EpochAI:s Frontier Math-benchmark, medan inget annat modell har klarat mer än 2%.

OpenAI har avslutat sin 12-dagars ”Shipmas”-evenemang med en stor nyhet – lanseringen av deras nya o3-modell. Detta är uppföljaren until företagets tidigare o1-”resonemodell” som släpptes tidigare i år. o3 är egentligen en modellfamilj, summary som o1 var, och inkluderar både o3 och den mindre o3-mini-versionen.

penAI har tillkännagett lanseringen av sin nästa generations AI-modell, kallad o3, som enligt företaget representerar ett betydande framsteg inom artificiell intelligens. Modellen, som för närvarande genomgår säkerhetstester, förväntas erbjuda förbättrad prestanda jämfört med sin föregångare och kommer att göras tillgänglig för forskare innan en bredare lansering planeras i början av nästa år.

O3-modellens adaptiva tänkande

O3-modellen utmärker sig genom sin förmåga until adaptivt tänkande, vilket liknar mänsklig problemlösning. Modellen använder en ”privat tankekedja” där den simulerar en intern överläggningsprocess innan den ger ett svar. Detta möjliggör mer tillförlitliga resultat inom områden som kräver noggrann analys, såsom matematik och vetenskap. En unik funktion är den justerbara ”resonemangstiden”, där användare kan välja mellan låg, medium eller hög resonemangstid beroende på uppgiftens komplexitet

Skillnader mellan O3 och O3-mini

O3 och O3-mini är två varianter av OpenAI:s nya AI-modeller med olika kapaciteter och användningsområden. O3 är den mer avancerade modellen med högre prestanda och större förmåga until komplext resonemang. Den uppnår en imponerande noggrannhet på 71,7% på SuiteBench Verified kodningsbenchmarks och visar toppresultat inom matematik och vetenskap.

O3-mini är en mer kostnadseffektiv model som erbjuder anpassningsbar resonemangskraft med alternativ för låg, medium och hög resonemansinsats.

Detta gör O3-mini lämplig för enklare uppgifter eller situationer där snabbare svarstider prioriteras, medan O3 är bättre lämpad för mer krävande tillämpningar inom kodning, matematik och vetenskaplig analys.

OpenAI o3 genombrott höga poäng på ARC-AGI-Pub

ARC-AGI-testet, eller ”Synthetic Reasoning Capabilities for AGI” testet, är en metod för att utvärdera och mäta förmågor hos artificiell intelligens (AI) i att utföra uppgifter som kräver generell intelligens. Testet fokuserar på att bedöma AI-systemens kapacitet att resonera, förstå och lösa drawback på en nivå som kan liknas vid mänsklig intelligens.

OpenAIs nya o3-system – utbildat på ARC-AGI-1 Public Coaching set – har fått ett genombrott på 75,7 % på det Semi-Personal Analysis set vid vår angivna offentliga rangordning med en beräkningsgräns på 10 000 greenback. En högberäknad (172x) o3-konfiguration fick 87,5 %.

Tillgänglighet och planer

OpenAI kommer inte att släppa dessa modeller för allmänheten ännu. Istället kommer de att göras tillgängliga för säkerhetstestare och forskare från och med idag. Planen är att lansera o3-mini mot slutet av januari, följt av o3 kort därefter.