PT-4o mini permet une large gamme de tâches grâce à son faible coût et sa faible latence, telles que les applications qui enchaînent ou parallélisent plusieurs appels de modèles (par exemple, l'appel de plusieurs API), transmettent un grand volume de contexte au modèle (par exemple, la base de code complète ou l'historique des conversations) ou interagissent avec les clients via des réponses textuelles rapides et en temps réel (par exemple, les chatbots de support client).
Aujourd'hui, GPT-4o mini prend en charge le texte et la vision dans l'API, avec la prise en charge des entrées et sorties de texte, d'image, de vidéo et d'audio à venir. Le modèle dispose d'une fenêtre de contexte de 128 000 jetons et de connaissances jusqu'en octobre 2023. Grâce au générateur de jetons amélioré partagé avec GPT-4o, la gestion de texte non anglais est désormais encore plus rentable.
Aujourd'hui, GPT-4o mini prend en charge le texte et la vision dans l'API, avec la prise en charge des entrées et sorties de texte, d'image, de vidéo et d'audio à venir. Le modèle dispose d'une fenêtre de contexte de 128 000 jetons et de connaissances jusqu'en octobre 2023. Grâce au générateur de jetons amélioré partagé avec GPT-4o, la gestion de texte non anglais est désormais encore plus rentable.
Un petit modèle doté d'une intelligence textuelle supérieure et d'un raisonnement multimodal
GPT-4o mini surpasse GPT-3.5 Turbo et d'autres petits modèles sur les tests académiques en intelligence textuelle et en raisonnement multimodal, et prend en charge la même gamme de langages que GPT-4o. Il démontre également de solides performances dans l'appel de fonctions, ce qui peut permettre aux développeurs de créer des applications qui récupèrent des données ou effectuent des actions avec des systèmes externes, et des performances améliorées dans le contexte long par rapport à GPT-3.5 Turbo.
Le GPT-4o mini a été évalué sur plusieurs benchmarks clés 2 .
Tâches de raisonnement : GPT-4o mini est meilleur que les autres petits modèles dans les tâches de raisonnement impliquant à la fois le texte et la vision, avec un score de 82,0 % au MMLU, un test de référence en matière d'intelligence textuelle et de raisonnement, contre 77,9 % pour Gemini Flash et 73,8 % pour Claude Haiku.
Compétences en mathématiques et en codage : GPT-4o mini excelle dans les tâches de raisonnement mathématique et de codage, surpassant les précédents petits modèles du marché. Sur MGSM, mesurant le raisonnement mathématique, GPT-4o mini a obtenu un score de 87,0 %, contre 75,5 % pour Gemini Flash et 71,7 % pour Claude Haiku. GPT-4o mini a obtenu un score de 87,2 % sur HumanEval, qui mesure les performances de codage, contre 71,5 % pour Gemini Flash et 75,9 % pour Claude Haiku.
Raisonnement multimodal : GPT-4o mini montre également de bonnes performances sur MMMU, une évaluation de raisonnement multimodal, avec un score de 59,4 % contre 56,1 % pour Gemini Flash et 50,2 % pour Claude Haiku.
Dans le cadre de notre processus de développement de modèles, nous avons travaillé avec une poignée de partenaires de confiance pour mieux comprendre les cas d'utilisation et les limites du GPT-4o mini. Nous avons collaboré avec des entreprises comme Ramp(Ouvre dans une nouvelle fenêtre)et surhumain(Ouvre dans une nouvelle fenêtre)qui a trouvé que GPT-4o mini était nettement plus performant que GPT-3.5 Turbo pour des tâches telles que l'extraction de données structurées à partir de fichiers de reçus ou la génération de réponses par courrier électronique de haute qualité lorsqu'elles étaient fournies avec l'historique des threads.
Le GPT-4o mini a été évalué sur plusieurs benchmarks clés 2 .
Tâches de raisonnement : GPT-4o mini est meilleur que les autres petits modèles dans les tâches de raisonnement impliquant à la fois le texte et la vision, avec un score de 82,0 % au MMLU, un test de référence en matière d'intelligence textuelle et de raisonnement, contre 77,9 % pour Gemini Flash et 73,8 % pour Claude Haiku.
Compétences en mathématiques et en codage : GPT-4o mini excelle dans les tâches de raisonnement mathématique et de codage, surpassant les précédents petits modèles du marché. Sur MGSM, mesurant le raisonnement mathématique, GPT-4o mini a obtenu un score de 87,0 %, contre 75,5 % pour Gemini Flash et 71,7 % pour Claude Haiku. GPT-4o mini a obtenu un score de 87,2 % sur HumanEval, qui mesure les performances de codage, contre 71,5 % pour Gemini Flash et 75,9 % pour Claude Haiku.
Raisonnement multimodal : GPT-4o mini montre également de bonnes performances sur MMMU, une évaluation de raisonnement multimodal, avec un score de 59,4 % contre 56,1 % pour Gemini Flash et 50,2 % pour Claude Haiku.
Dans le cadre de notre processus de développement de modèles, nous avons travaillé avec une poignée de partenaires de confiance pour mieux comprendre les cas d'utilisation et les limites du GPT-4o mini. Nous avons collaboré avec des entreprises comme Ramp(Ouvre dans une nouvelle fenêtre)et surhumain(Ouvre dans une nouvelle fenêtre)qui a trouvé que GPT-4o mini était nettement plus performant que GPT-3.5 Turbo pour des tâches telles que l'extraction de données structurées à partir de fichiers de reçus ou la génération de réponses par courrier électronique de haute qualité lorsqu'elles étaient fournies avec l'historique des threads.
Mesures de sécurité intégrées
La sécurité est intégrée à nos modèles dès le début et renforcée à chaque étape de notre processus de développement. En pré-formation, nous filtrons(Ouvre dans une nouvelle fenêtre)des informations que nous ne souhaitons pas que nos modèles apprennent ou génèrent, telles que les discours haineux, le contenu réservé aux adultes, les sites qui regroupent principalement des informations personnelles et le spam. Après la formation, nous alignons le comportement du modèle sur nos politiques en utilisant des techniques telles que l'apprentissage par renforcement avec rétroaction humaine (RLHF) pour améliorer la précision et la fiabilité des réponses des modèles.
Le GPT-4o mini intègre les mêmes mesures d'atténuation de sécurité que le GPT-4o , que nous avons soigneusement évaluées à l'aide d'évaluations automatisées et humaines conformément à notre cadre de préparation et à nos engagements volontaires . Plus de 70 experts externes dans des domaines tels que la psychologie sociale et la désinformation ont testé le GPT-4o pour identifier les risques potentiels, que nous avons traités et dont nous prévoyons de partager les détails dans la prochaine fiche système GPT-4o et la fiche d'évaluation de la préparation. Les informations issues de ces évaluations d'experts ont contribué à améliorer la sécurité du GPT-4o et du GPT-4o mini.
Fortes de ces enseignements, nos équipes ont également travaillé à améliorer la sécurité du GPT-4o mini en utilisant de nouvelles techniques éclairées par nos recherches. Le GPT-4o mini dans l'API est le premier modèle à appliquer notre hiérarchie d'instructions(Ouvre dans une nouvelle fenêtre)méthode qui permet d'améliorer la capacité du modèle à résister aux jailbreaks, aux injections d'invites et aux extractions d'invites système. Cela rend les réponses du modèle plus fiables et contribue à le rendre plus sûr à utiliser dans les applications à grande échelle.
Nous continuerons de surveiller la manière dont le GPT-4o mini est utilisé et d’améliorer la sécurité du modèle à mesure que nous identifions de nouveaux risques.
Le GPT-4o mini intègre les mêmes mesures d'atténuation de sécurité que le GPT-4o , que nous avons soigneusement évaluées à l'aide d'évaluations automatisées et humaines conformément à notre cadre de préparation et à nos engagements volontaires . Plus de 70 experts externes dans des domaines tels que la psychologie sociale et la désinformation ont testé le GPT-4o pour identifier les risques potentiels, que nous avons traités et dont nous prévoyons de partager les détails dans la prochaine fiche système GPT-4o et la fiche d'évaluation de la préparation. Les informations issues de ces évaluations d'experts ont contribué à améliorer la sécurité du GPT-4o et du GPT-4o mini.
Fortes de ces enseignements, nos équipes ont également travaillé à améliorer la sécurité du GPT-4o mini en utilisant de nouvelles techniques éclairées par nos recherches. Le GPT-4o mini dans l'API est le premier modèle à appliquer notre hiérarchie d'instructions(Ouvre dans une nouvelle fenêtre)méthode qui permet d'améliorer la capacité du modèle à résister aux jailbreaks, aux injections d'invites et aux extractions d'invites système. Cela rend les réponses du modèle plus fiables et contribue à le rendre plus sûr à utiliser dans les applications à grande échelle.
Nous continuerons de surveiller la manière dont le GPT-4o mini est utilisé et d’améliorer la sécurité du modèle à mesure que nous identifions de nouveaux risques.
Disponibilité et prix
GPT-4o mini est désormais disponible en tant que modèle de texte et de vision dans l'API Assistants, l'API Chat Completions et l'API Batch. Les développeurs paient 15 cents par million de jetons d'entrée et 60 cents par million de jetons de sortie (environ l'équivalent de 2 500 pages dans un livre standard). Nous prévoyons de déployer des réglages précis pour GPT-4o mini dans les prochains jours.
Dans ChatGPT, les utilisateurs Free, Plus et Team pourront accéder à GPT-4o mini à partir d'aujourd'hui, à la place de GPT-3.5 Turbo. Les utilisateurs Enterprise y auront également accès à partir de la semaine prochaine, conformément à notre mission de rendre les avantages de l'IA accessibles à tous.
Dans ChatGPT, les utilisateurs Free, Plus et Team pourront accéder à GPT-4o mini à partir d'aujourd'hui, à la place de GPT-3.5 Turbo. Les utilisateurs Enterprise y auront également accès à partir de la semaine prochaine, conformément à notre mission de rendre les avantages de l'IA accessibles à tous.
Et après
Au cours des dernières années, nous avons assisté à des avancées remarquables dans le domaine de l'intelligence artificielle, associées à des réductions substantielles des coûts. Par exemple, le coût par jeton de GPT-4o mini a chuté de 99 % depuis text-davinci-003, un modèle moins performant introduit en 2022. Nous nous engageons à poursuivre cette trajectoire de réduction des coûts tout en améliorant les capacités du modèle.
Nous envisageons un avenir où les modèles s'intègrent parfaitement dans chaque application et sur chaque site Web. GPT-4o mini ouvre la voie aux développeurs pour créer et faire évoluer de puissantes applications d'IA de manière plus efficace et plus abordable. L'avenir de l'IA devient plus accessible, plus fiable et plus intégré dans nos expériences numériques quotidiennes, et nous sommes ravis de continuer à montrer la voie.
Nous envisageons un avenir où les modèles s'intègrent parfaitement dans chaque application et sur chaque site Web. GPT-4o mini ouvre la voie aux développeurs pour créer et faire évoluer de puissantes applications d'IA de manière plus efficace et plus abordable. L'avenir de l'IA devient plus accessible, plus fiable et plus intégré dans nos expériences numériques quotidiennes, et nous sommes ravis de continuer à montrer la voie.
Autres articles
-
Visa en négociations exclusives pour le rachat de Featurespace, solution tech basée sur l'IA spécialisée dans la prévention de la fraude
-
Alan & Belfius, un partenariat plus que stratégique, valorisant l'insurtech au-delà des 4 milliards.
-
Verofax lève 3 millions de dollars notamment auprès de Plug & Play Tech Center
-
WEB3 : L'Europe, le baby-blues des licornes ?
-
Etude | Les dirigeants français parmi les plus optimistes sur l'Intelligence artificielle ?