Coûts et analyses

GPT Workbench suit chaque token consommé et chaque dollar dépensé, offrant une transparence totale sur les coûts d'utilisation de l'IA. Cette page couvre les fonctionnalités de suivi des coûts disponibles au niveau de l'exécution, du fil et de l'organisation.

Indicateur de coût sur une réponse IA

Affichage des coûts par exécution

Indicateur de coût

Chaque réponse IA inclut un indicateur de coût dans l'en-tête du message. L'apparence de l'indicateur dépend du mode d'affichage des coûts de votre organisation :

Mode d'affichage	Indicateur	Action
USD	Signe dollar vert avec montant (ex : `$ 0.0042`)	Cliquer pour développer
Crédits	Icône de pièces bleue avec montant (ex : `0.02`)	Cliquer pour développer
Aucun	Icône dièse bleue (compteur de tokens uniquement)	Cliquer pour développer

Le mode d'affichage est configuré au niveau du plan d'abonnement par l'administrateur de votre organisation. Les utilisateurs individuels ne peuvent pas modifier ce paramètre.

Fenêtre de détail des coûts

Détail des coûts montrant toutes les catégories de tokens

Cliquez sur l'indicateur de coût de n'importe quelle réponse IA pour ouvrir la fenêtre de détail des coûts. Cette fenêtre affiche une ventilation détaillée de toutes les composantés de coût pour cette exécution.

Le mode USD affiche :

Ligne	Description
Modèle	Le modèle IA utilisé pour cette exécution
Coût d'entrée	Coût de tous les tokens envoyés au modèle
Coût de sortie	Coût des tokens de la réponse IA
Coût de réflexion	Coût des tokens de raisonnement étendu (le cas échéant)
Coût d'entrée en cache	Coût des tokens servis depuis le cache du fournisseur
Coût d'écriture en cache	Coût de l'écriture de nouveaux tokens dans le cache du fournisseur
Coût de recherche en direct	Coût des sources de recherche web utilisées (modèles Gemini)
Sous-total LLM	Somme de tous les coûts LLM (affiché quand des coûts d'outils sont présents)
Coût des outils	Coût des invocations d'outils externes
Coût total	Somme de toutes les composantés

Le mode Crédits affiche :

Total des crédits consommés pour l'exécution
Les crédits sont calculés à partir du coût USD multiplié par le ratio de crédits de l'organisation

Section Utilisation des tokens (toujours visible) :

Tokens d'entrée
Tokens de sortie
Tokens de réflexion (le cas échéant)
Tokens d'entrée en cache
Tokens d'écriture en cache
Tokens de contexte
Sources de recherche (recherche en direct Gemini)
Total des tokens

Indicateur de niveau tarifaire

Certains modèles ont une tarification par paliers basée sur l'utilisation de la fenêtre de contexte. Quand une exécution dépasse le seuil de contexte standard (généralement 128K tokens), la fenêtre de détail affiche :

Niveau tarifaire : Standard ou Contexte élevé
Utilisation du contexte : Tokens actuels vs seuil (ex : "156 000 / 128 000")

La tarification contexte élevé coûte généralement 1,5 à 2 fois plus par token que la tarification standard.

Coût total du fil

L'en-tête du fil affiche un indicateur de coût cumulé résumant toutes les exécutions du fil. Cliquez dessus pour voir :

Résumé des coûts du fil : Coût total de toutes les exécutions
Coût par modèle : Répartition montrant chaque modèle utilisé, son coût total et le nombre d'exécutions

C'est utile pour comprendre l'investissement total dans une conversation, notamment lors de changements de modèle au cours d'un fil.

Types de tokens expliqués

Catégories de types de tokens avec descriptions

Comprendre les types de tokens est essentiel pour optimiser les coûts. Chaque type à une tarification différente.

Tokens d'entrée

Vos messages, le prompt système, les blocs de contexte, l'historique de conversation et les définitions d'outils sont tous sérialisés en tokens d'entrée. C'est généralement la composanté de coût la plus importante pour les flux de travail riches en contexte.

Ce qui compte comme entrée :

Le prompt système configuré pour le fil
Tous les blocs de contexte (texte, documents, dépôts, URLs, données CRM)
Les messages précédents dans l'historique de conversation
Les schémas et descriptions des outils
Le prompt utilisateur courant

Tokens de sortie

La réponse du modèle IA est mesurée en tokens de sortie. Les tokens de sortie sont généralement 3 à 5 fois plus chers que les tokens d'entrée par unité.

Ce qui compte comme sortie :

Le contenu textuel de la réponse IA
Les données structurées dans les arguments d'appel d'outils
Tout contenu formaté (blocs de code, tableaux, listes)

Tokens d'entrée en cache

Quand le même contenu est envoyé à un modèle de manière répétée (courant avec les prompts système et les blocs de contexte), les fournisseurs peuvent le mettre en cache. Les tokens en cache sont significativement moins chers que les tokens d'entrée standards.

Cache de prompt Anthropic :

Automatique pour les modèles Claude sur GPT Workbench
Les messages système sont toujours mis en cache
Les blocs de contenu volumineux (plus de ~1 000 tokens) sont mis en cache
Le dernier message IA avant le tour courant est mis en cache
Le coût de lecture en cache est environ 88 % moins cher que l'entrée standard
Le cache est maintenu par session ; la première requête paie le prix complet

Comment savoir si le cache fonctionne :

Ouvrez la fenêtre de détail des coûts sur une réponse
Cherchez les lignes "Coût d'entrée en cache" et "Tokens d'entrée en cache"
Un ratio élevé de tokens en cache vs non mis en cache indique un fonctionnement efficace du cache

Tokens de réflexion

Les modèles avec des capacités de raisonnement étendu (Claude avec réflexion, OpenAI série o, GPT-5) génèrent des tokens de raisonnement internes avant de produire la réponse finale. Ils sont facturés au tarif des tokens de sortie.

Caractéristiques clés :

Les tokens de réflexion ne sont pas visibles dans le texte de la réponse
Ils représentent le raisonnement interne du modèle
Facturés au même tarif que les tokens de sortie
Contrôlés par le paramètre de budget de réflexion dans la configuration du fil
Des budgets de réflexion plus élevés produisent une analyse plus approfondie mais coûtent plus cher

Tokens d'écriture en cache

Quand du contenu est mis en cache pour la première fois, les fournisseurs facturent des frais d'écriture en cache. C'est un coût unique par entrée de cache.

Écritures en cache Anthropic :

Facturées à environ 1,25 fois le tarif standard des tokens d'entrée
Se produisent uniquement lors de la première requête ; les requêtes suivantes utilisent les lectures en cache
Jusqu'à 4 points de cache par requête
Les entrées de cache expirent après un TTL défini par le fournisseur (généralement 5 minutes d'inactivité)

Sources de recherche en direct

Certains modèles (Gemini avec ancrage) peuvent effectuer des recherches web pendant la génération de la réponse. Chaque source consultée engendre un petit coût.

Facturation par lot de 1 000 sources consultées
Affiché comme "Sources de recherche" dans la section d'utilisation des tokens
Coût affiché comme "Coût de recherche en direct" dans la ventilation

Optimisation des coûts

Choisir le bon modèle

La sélection du modèle à le plus grand impact sur les coûts. Voici une comparaison générale des tarifs :

Gamme	Exemples de modèles	Coût relatif
Économique	Claude Haiku, GPT-4o mini	1x (référence)
Standard	Claude Sonnet, GPT-4o	5-10x
Premium	Claude Opus, GPT-5, o3	15-30x

Recommandations :

Utilisez les modèles économiques pour les tâches courantes : résumé, mise en forme, questions-réponses simples
Utilisez les modèles standards pour la plupart des tâches métier : analyse, rédaction, génération de code
Réservez les modèles premium pour le raisonnement complexe, l'analyse multi-étapes ou les décisions critiques

Exploiter le cache de prompt

Le cache de prompt est automatique pour les modèles Anthropic et offre des économies substantielles :

La première requête d'un fil paie le coût d'entrée complet plus l'écriture en cache
Les requêtes suivantes paient ~12 % du coût d'entrée original pour le contenu en cache
Pour un fil avec 10 000 tokens de contexte, les économies atteignent ~88 % après la première requête
Gardez les conversations dans le même fil pour maximiser la réutilisation du cache

Gérer les budgets de réflexion

Lors de l'utilisation de modèles avec réflexion étendue :

Réflexion légère : Moins de tokens de raisonnement, réponses plus rapides, coût moindre
Réflexion profonde : Analyse plus approfondie, réponses plus lentes, coût plus élevé
Adaptez le budget de réflexion à la complexité de la tâche
Les questions factuelles simples ne bénéficient pas de la réflexion profonde

Optimiser l'utilisation du contexte

Les blocs de contexte sont inclus dans chaque requête comme tokens d'entrée :

Retirez les blocs de contexte dont vous n'avez plus besoin pour la conversation en cours
Utilisez les filtres de contexte de dépôt pour n'inclure que les répertoires pertinents
Préférez les blocs de contexte texte aux téléchargements de documents complets quand seuls des extraits sont nécessaires
Surveillez l'indicateur d'utilisation du contexte dans l'en-tête du fil pour suivre la consommation de tokens

Utiliser la compaction de conversation

Les longues conversations accumulent les coûts de tokens car l'historique complet est envoyé avec chaque requête :

Surveillez l'indicateur d'utilisation du contexte pour les signes d'alerte (80 % de capacité)
Utilisez la compaction de conversation pour résumer les anciens messages
Choisissez le niveau de compression approprié : Petite (3 derniers messages), Moyenne (10 derniers) ou Grande (tous)
Le résumé remplace les messages originaux sous forme de bloc de contexte, réduisant le nombre de tokens

Utiliser le mode Console pour l'itération

En mode Console, les réponses IA ne sont pas ajoutées à l'historique de conversation tant que vous ne les ajoutez pas explicitement :

Expérimentez différents prompts sans gonfler l'historique
Régénérez les réponses sans ajouter à l'accumulation de tokens
Ne validez que la version finale pour garder la conversation épurée

Suivi d'utilisation par équipe

Carte de statistiques d'équipe

Statistiques d'utilisation d'équipe avec répartition par membre

La page Paramètres de chaque équipe inclut une carte de statistiques affichant :

Total des exécutions : Nombre d'interactions IA par tous les membres de l'équipe
Total des tokens : Consommation de tokens combinée à travers l'équipe
Coût total (mode USD) ou Total des crédits (mode crédits) : Dépenses agrégées
Dernière activité : Quand l'équipe à été utilisée pour la dernière fois
Répartition par membre : Métriques d'utilisation pour chaque membre de l'équipe

La carte de statistiques respecte le mode d'affichage des coûts de l'organisation. Si les prix sont masqués, seuls les compteurs de tokens sont affichés.

Analyse par modèle

Les statistiques d'équipe ventilent l'utilisation par modèle IA :

Voir quels modèles sont utilisés le plus fréquemment au sein de l'équipe
Identifier les choix de modèles coûteux
Comparer l'efficacité entre modèles pour des tâches similaires

Rapports d'utilisation de l'organisation

Les administrateurs de l'organisation ont accès à des analyses complètes via l'onglet Vue d'ensemble. Les rapports principaux incluent :

Cartes KPI :

Utilisateurs actifs sur la période sélectionnée
Total des fils créés
Consommation agrégée de tokens
Utilisation totale en coûts ou crédits

Graphique de consommation par modèle :

Distribution visuelle de l'utilisation entre modèles IA
Identifier les modèles sous-utilisés pour des économies potentielles
Suivre l'adoption des modèles dans le temps

Tendances des crédits/coûts :

Trajectoire historique des coûts avec lignes de tendance
Comparer les périodes pour identifier les schémas de croissance
Prévoir les coûts futurs basés sur les tendances actuelles

Principaux consommateurs :

Utilisateurs classés par consommation de coûts ou crédits
Aide à l'allocation interne des coûts
Identifie les utilisateurs pouvant bénéficier d'une formation à l'optimisation

Export CSV :

Télécharger toutes les statistiques pour la période sélectionnée
Inclure dans les rapports de direction ou la réconciliation de facturation
Filtrer par plage de dates avant l'export

Consultez Fonctions d'administration pour tous les détails sur les analyses et la gestion au niveau de l'organisation.

Modèle de tarification

GPT Workbench utilise un modèle de tarification à marge brute, qui est le standard de l'industrie SaaS :

prix = coût / (1 - marge%)

Marge	Multiplicateur	Exemple
75 %	4x	Le fournisseur facture 1 $ --> l'utilisateur paie 4 $
80 %	5x	Le fournisseur facture 1 $ --> l'utilisateur paie 5 $

Ce modèle est distinct de la tarification par majoration (qui serait coût x (1 + marge%)). Le modèle de marge brute signifie qu'un pourcentage fixe du chiffre d'affaires est conservé comme profit, indépendamment des fluctuations de coûts des fournisseurs.

Comment cela fonctionne en pratique :

Le fournisseur IA facture un coût de base par token (ex : 0,003 $ pour 1K tokens d'entrée)
GPT Workbench applique la marge configurée pour déterminer le prix affiché à l'utilisateur
La fenêtre de détail des coûts affiche le prix avec marge, pas le coût brut du fournisseur
Les organisations avec des plans personnalisés peuvent avoir des taux de marge différents

Documentation connexe

Fonctions d'administration - Gestion et analyses au niveau de l'organisation
Fils de discussion - Suivi des coûts des fils, gestion des tokens et compaction
Modèles et outils - Sélection de modèles IA et niveaux tarifaires
Blocs de contexte - Gestion du contexte pour optimiser l'utilisation des tokens
Équipes - Statistiques d'équipe et fonctionnalités de collaboration

Coûts et analyses ​

Affichage des coûts par exécution ​

Indicateur de coût ​

Fenêtre de détail des coûts ​

Indicateur de niveau tarifaire ​

Coût total du fil ​

Types de tokens expliqués ​

Tokens d'entrée ​

Tokens de sortie ​

Tokens d'entrée en cache ​

Tokens de réflexion ​

Tokens d'écriture en cache ​

Sources de recherche en direct ​

Optimisation des coûts ​

Choisir le bon modèle ​

Exploiter le cache de prompt ​

Gérer les budgets de réflexion ​

Optimiser l'utilisation du contexte ​

Utiliser la compaction de conversation ​

Utiliser le mode Console pour l'itération ​

Suivi d'utilisation par équipe ​

Carte de statistiques d'équipe ​

Analyse par modèle ​

Rapports d'utilisation de l'organisation ​

Modèle de tarification ​

Documentation connexe ​