- Komplett GUI-förståelse: Kan bearbeta multimodala inmatningar (textual content, bilder, interaktioner) för att skapa en sammanhängande förståelse av gränssnitt.
- Realtidsinteraktion: Kontinuerligt övervakar dynamiska GUI:er och svarar exakt på förändringar i realtid.
- Enhetligt aktionsutrymme: Standardiserade aktionsdefinitioner över plattformar (skrivbord, mobil och webb).
- Plattformspecifika åtgärder: Stödjer ytterligare åtgärder som genvägar, lång tryckning och plattformspecifika gester.
ByteDance har nyligen lanserat en ny AI-agent som kallas UI-TARS, vilket står för ”Person Interface Process Automation and Reasoning System”. Denna agent är designad för att interagera med grafiska användargränssnitt (GUI) och kan användas på lokala datorer, vilket gör den until ett kraftfullt verktyg för automatisering av uppgifter utan behov av fördefinierade arbetsflöden eller manuella regler.
Applikationen är tillgänglig för både Home windows och MacOS, males den kvantiserade GGUF-modellen har nedgraderats på grund av prestandaproblem, vilket gör att användare rekommenderas använda molnbaserade eller lokala vLLM-distributioner istället.
UI-TARS Desktop GUI-agentapplikationen kombinerar en vision-språkmodell med naturlig språkstyrning för datorer. Systemet möjliggör kontroll av datorns gränssnitt genom naturligt språk, med stöd för skärmbildsigenkänning och summary mus- och tangentbordsstyrning. Applikationen är tillgänglig för både Home windows och MacOS, males den kvantiserade GGUF-modellen har nedgraderats på grund av prestandaproblem, vilket gör att användare rekommenderas använda molnbaserade eller lokala vLLM-distributioner istället.
- Agenten använder loggböcker för att dokumentera sina erfarenheter och insikter, liknande hur terapeuter och patienter använder reflektiva verktyg i rehabiliteringssammanhang.
- Denna reflektiva course of möjliggör för UI-TARS att identifiera mönster, anpassa sina strategier och utveckla mer effektiva problemlösningsmetoder över tid.
- Genom att integrera reflekterande spår i sin träningsprocess kan UI-TARS hantera alltmer komplexa GUI-interaktioner och resonemangskrävande scenarier med ökad precision och effektivitet.
Lokal set up och användning
För att använda UI-TARS lokalt finns det två huvudsakliga alternativ:
- Lokal set up med Transformers eller vLLM: Ger möjlighet until lokalt införande och inferens.
- Molndistribution: Rekommenderas att använda HuggingFace Inference Endpoints för snabb distribution.
Det finns också en dedikerad model kallad UI-TARS-desktop som kan operera direkt på persondatorer. Denna model rekommenderar användning av 7B/72B DPO-modellen för bästa prestanda.
UI-TARS kan laddas ner och användas på lokala enheter by way of GitHub-länkarna:
Systemkrav
- Node.js >= 20
- Stödda operativsystem:
- Home windows 10/11
- macOS 10.15+
Denna AI-agent har potential att förenkla hur användare interagerar med sina datorer genom att automatisera repetitiva uppgifter och förbättra effektiviteten i arbetsflöden.