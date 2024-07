La sécurité est intégrée à nos modèles dès le début et renforcée à chaque étape de notre processus de développement. En pré-formation, nous filtrons(Ouvre dans une nouvelle fenêtre)des informations que nous ne souhaitons pas que nos modèles apprennent ou génèrent, telles que les discours haineux, le contenu réservé aux adultes, les sites qui regroupent principalement des informations personnelles et le spam. Après la formation, nous alignons le comportement du modèle sur nos politiques en utilisant des techniques telles que l'apprentissage par renforcement avec rétroaction humaine (RLHF) pour améliorer la précision et la fiabilité des réponses des modèles.



Le GPT-4o mini intègre les mêmes mesures d'atténuation de sécurité que le GPT-4o , que nous avons soigneusement évaluées à l'aide d'évaluations automatisées et humaines conformément à notre cadre de préparation et à nos engagements volontaires . Plus de 70 experts externes dans des domaines tels que la psychologie sociale et la désinformation ont testé le GPT-4o pour identifier les risques potentiels, que nous avons traités et dont nous prévoyons de partager les détails dans la prochaine fiche système GPT-4o et la fiche d'évaluation de la préparation. Les informations issues de ces évaluations d'experts ont contribué à améliorer la sécurité du GPT-4o et du GPT-4o mini.



Fortes de ces enseignements, nos équipes ont également travaillé à améliorer la sécurité du GPT-4o mini en utilisant de nouvelles techniques éclairées par nos recherches. Le GPT-4o mini dans l'API est le premier modèle à appliquer notre hiérarchie d'instructions(Ouvre dans une nouvelle fenêtre)méthode qui permet d'améliorer la capacité du modèle à résister aux jailbreaks, aux injections d'invites et aux extractions d'invites système. Cela rend les réponses du modèle plus fiables et contribue à le rendre plus sûr à utiliser dans les applications à grande échelle.



Nous continuerons de surveiller la manière dont le GPT-4o mini est utilisé et d’améliorer la sécurité du modèle à mesure que nous identifions de nouveaux risques.