Per aiutare le organizzazioni a ridimensionare l'utilizzo dell'intelligenza artificiale senza estendere eccessivamente i price range, abbiamo aggiunto due nuovi modi per ridurre i costi su carichi di lavoro coerenti e asincroni:
- Utilizzo scontato sul throughput impegnato: I clienti con un livello sostenuto di utilizzo di token al minuto (TPM) su GPT-4 o GPT-4 Turbo possono richiedere l'accesso al throughput assegnato per ottenere sconti che vanno dal 10 al 50% in base all'entità dell'impegno.
- Costi ridotti sui carichi di lavoro asincroni: I clienti possono utilizzare il nostro nuovo API batch per eseguire carichi di lavoro non urgenti in modo asincrono. Le richieste API batch hanno uno sconto del 50% sui prezzi condivisi, offrono limiti di velocità molto più elevati e restituiscono risultati entro 24 ore. Questo è l'ideale per casi d'uso come la valutazione del modello, la classificazione offline, il riepilogo e la generazione di dati sintetici.
Prevediamo di continuare advert aggiungere nuove funzionalità incentrate sulla sicurezza di livello aziendale, sui controlli amministrativi e sulla gestione dei costi. Per ulteriori informazioni su questi lanci, visita il nostro Documentazione dell'API O entra in contatto con il nostro crew per discutere soluzioni personalizzate per la tua azienda.