ChatGPT — GPT‑5.4 Thinking

By OpenAI · Updated

Ce que c'est réellement

Si ChatGPT était déjà les Beatles de l’IA, GPT‑5.4 Thinking c’est leur Abbey Road : la version où tout s’emboîte enfin. Le modèle phare unifié d’OpenAI combine rapidité, raisonnement profond et mode professionnel en une seule architecture. Vous n’avez plus besoin de changer de modèle ; vous ajustez la profondeur comme on tourne le volume. Ce qui distingue cette version, c’est la réduction des hallucinations : 33 % de moins que GPT‑5.2 selon les évaluations internes d’OpenAI. GDPval — un test de productivité réelle sur 44 professions — donne 83,0 %, une amélioration spectaculaire par rapport aux 71,4 % de son prédécesseur. C’est comme passer d’un assistant qui comprend vos instructions à un qui anticipe la question suivante avant même que vous ne la formuliez.

Points Forts

GDPval 83,0 % sur 44 professions : De la rédaction juridique à l’analyse financière, GPT‑5.4 atteint un niveau compétent dans des tâches qui nécessitaient auparavant des spécialistes humains. Le bond depuis les 71,4 % de GPT‑5.2 est considérable.
33 % d’hallucinations en moins : Le problème le plus cité des modèles de langage — inventer des données avec une confiance totale — diminue d’un tiers. Ce n’est pas parfait, mais l’amélioration est tangible.
Fenêtre de 1M de tokens : Environ 750 000 mots dans une seule session. Chargez des contrats entiers, des livres complets ou des bases de code sans les découper.
Tableur à 87,3 % : La modélisation financière et la transformation de données passent de 68,4 % avec GPT‑5.2 à 87,3 %. Idéal pour les analystes et comptables.
Écosystème intact : Mémoire persistante, Canvas, génération d’images, navigation web, exécution de code. Tout ce qui fonctionnait déjà est toujours là, en plus intelligent.

Aperçu des Benchmarks

GDPval — 83,0 %Productivité réelle sur 44 professions. Bond depuis les 71,4 % de GPT‑5.2 — la métrique la plus pertinente pour les professionnels.
GPQA Diamond — 92,8 %Raisonnement de niveau doctorat. Pratiquement la performance maximale théorique sur ce benchmark.
ARC-AGI-2 — 73,3 % / 83,3 % ProBenchmark de raisonnement novateur — des problèmes jamais vus dans les données d'entraînement.
OSWorld — 75,0 %Tâches informatiques du monde réel : naviguer dans des interfaces, manipuler des fichiers, compléter des workflows réels.

Limites Honnêtes

Prix du niveau Pro : Le mode Pro coûte sensiblement plus cher (30 $/M en entrée, 180 $/M en sortie via l’API). Pour l’utilisateur moyen sur le plan Plus à 20 $/mois, la différence est moindre, mais les professionnels utilisant l’API le ressentiront.
Le contexte de 1M a une clause : Sur certains endpoints, les tokens comptent double. Votre fenêtre de 1M coûte effectivement comme 2M dans certains scénarios.
Hallucinations réduites ≠ éliminées : 33 % de moins est un vrai progrès, mais ce n’est pas zéro. Continuez à vérifier les données critiques, surtout en médecine, droit et finance.
Migration des modèles : OpenAI continue de retirer ses modèles précédents. Vos prompts optimisés pour GPT‑5.2 peuvent se comporter différemment.

Le Verdict: La mise à jour la plus substantielle depuis GPT‑4. Le bond en GDPval, la réduction des hallucinations et la fenêtre de 1M de tokens font de GPT‑5.4 l’assistant du quotidien le plus complet disponible. Ce n’est pas juste une itération — c’est la première version où le modèle semble véritablement plus fiable, pas seulement plus performant.