Skip to content

Coûts et analyses

GPT Workbench suit chaque token consommé et chaque dollar dépensé, offrant une transparence totale sur les coûts d'utilisation de l'IA. Cette page couvre les fonctionnalités de suivi des coûts disponibles au niveau de l'exécution, du fil et de l'organisation.

Indicateur de coût sur une réponse IA

Affichage des coûts par exécution

Indicateur de coût

Chaque réponse IA inclut un indicateur de coût dans l'en-tête du message. L'apparence de l'indicateur dépend du mode d'affichage des coûts de votre organisation :

Mode d'affichageIndicateurAction
USDSigne dollar vert avec montant (ex : $ 0.0042)Cliquer pour développer
CréditsIcône de pièces bleue avec montant (ex : 0.02)Cliquer pour développer
AucunIcône dièse bleue (compteur de tokens uniquement)Cliquer pour développer

Le mode d'affichage est configuré au niveau du plan d'abonnement par l'administrateur de votre organisation. Les utilisateurs individuels ne peuvent pas modifier ce paramètre.

Fenêtre de détail des coûts

Détail des coûts montrant toutes les catégories de tokens

Cliquez sur l'indicateur de coût de n'importe quelle réponse IA pour ouvrir la fenêtre de détail des coûts. Cette fenêtre affiche une ventilation détaillée de toutes les composantés de coût pour cette exécution.

Le mode USD affiche :

LigneDescription
ModèleLe modèle IA utilisé pour cette exécution
Coût d'entréeCoût de tous les tokens envoyés au modèle
Coût de sortieCoût des tokens de la réponse IA
Coût de réflexionCoût des tokens de raisonnement étendu (le cas échéant)
Coût d'entrée en cacheCoût des tokens servis depuis le cache du fournisseur
Coût d'écriture en cacheCoût de l'écriture de nouveaux tokens dans le cache du fournisseur
Coût de recherche en directCoût des sources de recherche web utilisées (modèles Gemini)
Sous-total LLMSomme de tous les coûts LLM (affiché quand des coûts d'outils sont présents)
Coût des outilsCoût des invocations d'outils externes
Coût totalSomme de toutes les composantés

Le mode Crédits affiche :

  • Total des crédits consommés pour l'exécution
  • Les crédits sont calculés à partir du coût USD multiplié par le ratio de crédits de l'organisation

Section Utilisation des tokens (toujours visible) :

  • Tokens d'entrée
  • Tokens de sortie
  • Tokens de réflexion (le cas échéant)
  • Tokens d'entrée en cache
  • Tokens d'écriture en cache
  • Tokens de contexte
  • Sources de recherche (recherche en direct Gemini)
  • Total des tokens

Indicateur de niveau tarifaire

Certains modèles ont une tarification par paliers basée sur l'utilisation de la fenêtre de contexte. Quand une exécution dépasse le seuil de contexte standard (généralement 128K tokens), la fenêtre de détail affiche :

  • Niveau tarifaire : Standard ou Contexte élevé
  • Utilisation du contexte : Tokens actuels vs seuil (ex : "156 000 / 128 000")

La tarification contexte élevé coûte généralement 1,5 à 2 fois plus par token que la tarification standard.

Coût total du fil

L'en-tête du fil affiche un indicateur de coût cumulé résumant toutes les exécutions du fil. Cliquez dessus pour voir :

  • Résumé des coûts du fil : Coût total de toutes les exécutions
  • Coût par modèle : Répartition montrant chaque modèle utilisé, son coût total et le nombre d'exécutions

C'est utile pour comprendre l'investissement total dans une conversation, notamment lors de changements de modèle au cours d'un fil.

Types de tokens expliqués

Catégories de types de tokens avec descriptions

Comprendre les types de tokens est essentiel pour optimiser les coûts. Chaque type à une tarification différente.

Tokens d'entrée

Vos messages, le prompt système, les blocs de contexte, l'historique de conversation et les définitions d'outils sont tous sérialisés en tokens d'entrée. C'est généralement la composanté de coût la plus importante pour les flux de travail riches en contexte.

Ce qui compte comme entrée :

  • Le prompt système configuré pour le fil
  • Tous les blocs de contexte (texte, documents, dépôts, URLs, données CRM)
  • Les messages précédents dans l'historique de conversation
  • Les schémas et descriptions des outils
  • Le prompt utilisateur courant

Tokens de sortie

La réponse du modèle IA est mesurée en tokens de sortie. Les tokens de sortie sont généralement 3 à 5 fois plus chers que les tokens d'entrée par unité.

Ce qui compte comme sortie :

  • Le contenu textuel de la réponse IA
  • Les données structurées dans les arguments d'appel d'outils
  • Tout contenu formaté (blocs de code, tableaux, listes)

Tokens d'entrée en cache

Quand le même contenu est envoyé à un modèle de manière répétée (courant avec les prompts système et les blocs de contexte), les fournisseurs peuvent le mettre en cache. Les tokens en cache sont significativement moins chers que les tokens d'entrée standards.

Cache de prompt Anthropic :

  • Automatique pour les modèles Claude sur GPT Workbench
  • Les messages système sont toujours mis en cache
  • Les blocs de contenu volumineux (plus de ~1 000 tokens) sont mis en cache
  • Le dernier message IA avant le tour courant est mis en cache
  • Le coût de lecture en cache est environ 88 % moins cher que l'entrée standard
  • Le cache est maintenu par session ; la première requête paie le prix complet

Comment savoir si le cache fonctionne :

  • Ouvrez la fenêtre de détail des coûts sur une réponse
  • Cherchez les lignes "Coût d'entrée en cache" et "Tokens d'entrée en cache"
  • Un ratio élevé de tokens en cache vs non mis en cache indique un fonctionnement efficace du cache

Tokens de réflexion

Les modèles avec des capacités de raisonnement étendu (Claude avec réflexion, OpenAI série o, GPT-5) génèrent des tokens de raisonnement internes avant de produire la réponse finale. Ils sont facturés au tarif des tokens de sortie.

Caractéristiques clés :

  • Les tokens de réflexion ne sont pas visibles dans le texte de la réponse
  • Ils représentent le raisonnement interne du modèle
  • Facturés au même tarif que les tokens de sortie
  • Contrôlés par le paramètre de budget de réflexion dans la configuration du fil
  • Des budgets de réflexion plus élevés produisent une analyse plus approfondie mais coûtent plus cher

Tokens d'écriture en cache

Quand du contenu est mis en cache pour la première fois, les fournisseurs facturent des frais d'écriture en cache. C'est un coût unique par entrée de cache.

Écritures en cache Anthropic :

  • Facturées à environ 1,25 fois le tarif standard des tokens d'entrée
  • Se produisent uniquement lors de la première requête ; les requêtes suivantes utilisent les lectures en cache
  • Jusqu'à 4 points de cache par requête
  • Les entrées de cache expirent après un TTL défini par le fournisseur (généralement 5 minutes d'inactivité)

Sources de recherche en direct

Certains modèles (Gemini avec ancrage) peuvent effectuer des recherches web pendant la génération de la réponse. Chaque source consultée engendre un petit coût.

  • Facturation par lot de 1 000 sources consultées
  • Affiché comme "Sources de recherche" dans la section d'utilisation des tokens
  • Coût affiché comme "Coût de recherche en direct" dans la ventilation

Optimisation des coûts

Choisir le bon modèle

La sélection du modèle à le plus grand impact sur les coûts. Voici une comparaison générale des tarifs :

GammeExemples de modèlesCoût relatif
ÉconomiqueClaude Haiku, GPT-4o mini1x (référence)
StandardClaude Sonnet, GPT-4o5-10x
PremiumClaude Opus, GPT-5, o315-30x

Recommandations :

  • Utilisez les modèles économiques pour les tâches courantes : résumé, mise en forme, questions-réponses simples
  • Utilisez les modèles standards pour la plupart des tâches métier : analyse, rédaction, génération de code
  • Réservez les modèles premium pour le raisonnement complexe, l'analyse multi-étapes ou les décisions critiques

Exploiter le cache de prompt

Le cache de prompt est automatique pour les modèles Anthropic et offre des économies substantielles :

  • La première requête d'un fil paie le coût d'entrée complet plus l'écriture en cache
  • Les requêtes suivantes paient ~12 % du coût d'entrée original pour le contenu en cache
  • Pour un fil avec 10 000 tokens de contexte, les économies atteignent ~88 % après la première requête
  • Gardez les conversations dans le même fil pour maximiser la réutilisation du cache

Gérer les budgets de réflexion

Lors de l'utilisation de modèles avec réflexion étendue :

  • Réflexion légère : Moins de tokens de raisonnement, réponses plus rapides, coût moindre
  • Réflexion profonde : Analyse plus approfondie, réponses plus lentes, coût plus élevé
  • Adaptez le budget de réflexion à la complexité de la tâche
  • Les questions factuelles simples ne bénéficient pas de la réflexion profonde

Optimiser l'utilisation du contexte

Les blocs de contexte sont inclus dans chaque requête comme tokens d'entrée :

  • Retirez les blocs de contexte dont vous n'avez plus besoin pour la conversation en cours
  • Utilisez les filtres de contexte de dépôt pour n'inclure que les répertoires pertinents
  • Préférez les blocs de contexte texte aux téléchargements de documents complets quand seuls des extraits sont nécessaires
  • Surveillez l'indicateur d'utilisation du contexte dans l'en-tête du fil pour suivre la consommation de tokens

Utiliser la compaction de conversation

Les longues conversations accumulent les coûts de tokens car l'historique complet est envoyé avec chaque requête :

  • Surveillez l'indicateur d'utilisation du contexte pour les signes d'alerte (80 % de capacité)
  • Utilisez la compaction de conversation pour résumer les anciens messages
  • Choisissez le niveau de compression approprié : Petite (3 derniers messages), Moyenne (10 derniers) ou Grande (tous)
  • Le résumé remplace les messages originaux sous forme de bloc de contexte, réduisant le nombre de tokens

Utiliser le mode Console pour l'itération

En mode Console, les réponses IA ne sont pas ajoutées à l'historique de conversation tant que vous ne les ajoutez pas explicitement :

  • Expérimentez différents prompts sans gonfler l'historique
  • Régénérez les réponses sans ajouter à l'accumulation de tokens
  • Ne validez que la version finale pour garder la conversation épurée

Suivi d'utilisation par équipe

Carte de statistiques d'équipe

Statistiques d'utilisation d'équipe avec répartition par membre

La page Paramètres de chaque équipe inclut une carte de statistiques affichant :

  • Total des exécutions : Nombre d'interactions IA par tous les membres de l'équipe
  • Total des tokens : Consommation de tokens combinée à travers l'équipe
  • Coût total (mode USD) ou Total des crédits (mode crédits) : Dépenses agrégées
  • Dernière activité : Quand l'équipe à été utilisée pour la dernière fois
  • Répartition par membre : Métriques d'utilisation pour chaque membre de l'équipe

La carte de statistiques respecte le mode d'affichage des coûts de l'organisation. Si les prix sont masqués, seuls les compteurs de tokens sont affichés.

Analyse par modèle

Les statistiques d'équipe ventilent l'utilisation par modèle IA :

  • Voir quels modèles sont utilisés le plus fréquemment au sein de l'équipe
  • Identifier les choix de modèles coûteux
  • Comparer l'efficacité entre modèles pour des tâches similaires

Rapports d'utilisation de l'organisation

Les administrateurs de l'organisation ont accès à des analyses complètes via l'onglet Vue d'ensemble. Les rapports principaux incluent :

Cartes KPI :

  • Utilisateurs actifs sur la période sélectionnée
  • Total des fils créés
  • Consommation agrégée de tokens
  • Utilisation totale en coûts ou crédits

Graphique de consommation par modèle :

  • Distribution visuelle de l'utilisation entre modèles IA
  • Identifier les modèles sous-utilisés pour des économies potentielles
  • Suivre l'adoption des modèles dans le temps

Tendances des crédits/coûts :

  • Trajectoire historique des coûts avec lignes de tendance
  • Comparer les périodes pour identifier les schémas de croissance
  • Prévoir les coûts futurs basés sur les tendances actuelles

Principaux consommateurs :

  • Utilisateurs classés par consommation de coûts ou crédits
  • Aide à l'allocation interne des coûts
  • Identifie les utilisateurs pouvant bénéficier d'une formation à l'optimisation

Export CSV :

  • Télécharger toutes les statistiques pour la période sélectionnée
  • Inclure dans les rapports de direction ou la réconciliation de facturation
  • Filtrer par plage de dates avant l'export

Consultez Fonctions d'administration pour tous les détails sur les analyses et la gestion au niveau de l'organisation.

Modèle de tarification

GPT Workbench utilise un modèle de tarification à marge brute, qui est le standard de l'industrie SaaS :

prix = coût / (1 - marge%)
MargeMultiplicateurExemple
75 %4xLe fournisseur facture 1 $ --> l'utilisateur paie 4 $
80 %5xLe fournisseur facture 1 $ --> l'utilisateur paie 5 $

Ce modèle est distinct de la tarification par majoration (qui serait coût x (1 + marge%)). Le modèle de marge brute signifie qu'un pourcentage fixe du chiffre d'affaires est conservé comme profit, indépendamment des fluctuations de coûts des fournisseurs.

Comment cela fonctionne en pratique :

  1. Le fournisseur IA facture un coût de base par token (ex : 0,003 $ pour 1K tokens d'entrée)
  2. GPT Workbench applique la marge configurée pour déterminer le prix affiché à l'utilisateur
  3. La fenêtre de détail des coûts affiche le prix avec marge, pas le coût brut du fournisseur
  4. Les organisations avec des plans personnalisés peuvent avoir des taux de marge différents

Documentation connexe

GPT Workbench Documentation