- OpenAI har lanserat Operator, en AI-agent som kan utföra uppgifter åt dig självständigt.
- Operatören kan surfa på webben och utföra uppgifter som att beräkna återbetalningar från avbeställda ordrar och hitta kunder med specifika kriterier i en intern försäljningsdatabas.
- Den kan också handla matvaror och skicka e-post.
OpenAI har idag officiellt lanserat Operator, ett AI-system som kan utföra uppgifter åt användarna på egen hand. Detta markerar ett viktigt steg framåt i utvecklingen av artificiell intelligens och dess praktiska tillämpningar.
Operator är en webbapplikation som kan utföra enklare uppgifter on-line, såsom att boka konserterbiljetter eller fylla i en nätbeställning av matvaror. Systemet drivs av en ny modell kallad Pc-Utilizing Agent (CUA), som bygger på OpenAI:s multimodala stor språkmodell GPT-4o.
Denna agent är först tillgänglig för Professional-prenumeranter i USA och förväntas även nå fler användare globalt. Trots sin potential att automatisera uppgifter, har Operator begränsningar i hanteringen av komplexa uppgifter (Hantera CAPTCHA) och kräver användarövervakning av säkerhetsskäl.
Enligt OpenAI kan Operator utföra dessa uppgifter mer effektivt än liknande verktyg från konkurrenter som Anthropic och Google DeepMind. Detta beror delvis på att systemet är tränat för att interagera med grafiska användargränssnitt på samma sätt som människor gör dagligen.

Funktioner och möjligheter
Operator är designad för att automatisera en mängd olika uppgifter, inklusive:
- Planering av resor och semester
- Utfyllande av formulär
- Bokning av restaurangbord
- Nätbeställningar av matvaror
- Hantering av kalenderhändelser
Teknologi bakom Operator
Operator drivs av CUA-modellen, som har utvecklats med tekniker liknande de som använts för OpenAI:s så kallade resonemodeller o1 och o3. Modellen är tränad för att bryta ned komplexa uppgifter i mindre steg och arbeta sig igenom dem ett efter ett, med möjlighet att backa tillbaka om den fastnar.
En viktig aspekt av Operator är dess förmåga att använda webbläsaren på samma sätt som en människa. Detta öppnar upp för en bredare palett av applikationer och webbplatser som kan nås, jämfört med traditionella API-baserade metoder.
Cua kontrollerar en dator genom att analysera skärmdumpar och fatta beslut om nästa steg. Genom att göra detta kan Kua effektivt utföra uppgifter som att lägga until varor i en varukorg.
Cua väljer organiska ägg och lägger until dem i varukorgen, vilket illustrerar dess förmåga att fatta beslut baserat på skärmdumpar. Detta visar hur AI kan efterlikna mänskliga beslut.
När Kua utför en åtgärd tar den alltid en ny skärmdump för att förstå effekterna av sina handlingar. Detta gör att Kua kan justera sina nästa steg baserat på suggestions.
Användaren kan ta kontroll över Kua när som helst och ge instruktioner, vilket skapar en interaktiv arbetsmiljö. Detta liknar hur människor samarbetar med varandra i en arbetsinställning.
Konkurrens och marknadsutveckling
Lanseringen av Operator markerar en ny frontlinje i kampen om AI-supremati mellan världens ledande AI-företag. Företag som Bytedance, Anthropic Pc Use och Google DeepMind har nyligen presenterat liknande verktyg, vilket tyder på att detta är en prioriterad utvecklingsriktning inom branschen.
Enligt experter representerar dessa agent-baserade modeller ett naturligt nästa steg i AI-utvecklingen, då de kombinerar språkförståelse med praktiskt handlande i digitala miljöer.