PR

OpenAIが新しい安全性モデル「gpt-oss-safeguard」を公開

thumbnail_chatgpt_1920 OpenAI

要旨

OpenAIから発表された新しいオープンウェイトモデル「gpt-oss-safeguard」についてご紹介します。このモデル、実は私たちがネット上でコンテンツの安全性を確保する際に、革新的な方法を提供してくれる優れものなんです。学生の皆さんにも分かりやすく解説していきますね。

gpt-oss-safeguardって何?

gpt-oss-safeguardは、OpenAIがリリースした安全性分類専用のAIモデルです。120億パラメータと20億パラメータの2つのサイズで提供されていて、Apache 2.0ライセンスで誰でも無料で使用・改変できるのが特徴です。

このモデルの最大の特徴は、開発者が自分で作った安全ポリシーを、その場で適用できるという点です。従来の安全性チェックツールでは、事前に大量のサンプルを用意してトレーニングする必要がありましたが、gpt-oss-safeguardは違います。ポリシーを文章で書いて渡すだけで、AIがその内容を理解して判断してくれるんです。

従来の方法との違い

これまでの安全性分類ツールは、こんな感じで作られていました:

  1. 安全なコンテンツと危険なコンテンツの例を何千個も集める
  2. それらをラベル付けして機械学習モデルに学習させる
  3. モデルが「このパターンは危険」と判断できるようになる

この方法、確かに低コストで速いのですが、大きな問題がありました。ポリシーを変更したいとき、また一からやり直しになってしまうんです。

gpt-oss-safeguardの革新的なアプローチ

gpt-oss-safeguardは「推論ベース」という新しい方法を採用しています。具体的には:

  • ポリシー文書とチェックしたいコンテンツを同時に入力
  • AIがポリシーの内容を読んで理解
  • そのポリシーに基づいてコンテンツを判定
  • 判定結果だけでなく、「なぜそう判断したか」という理由も出力

つまり、ポリシーを変更したければ、文章を書き換えるだけでOK。再トレーニングの必要がないので、素早く柔軟に対応できるんです。

どんな場面で活躍する?

gpt-oss-safeguardが特に力を発揮するのは、こんな状況です:

新しい問題にすぐ対応したい時 例えば、ビデオゲームのフォーラムで、新しい種類の不正行為が出現したとき。すぐにポリシーを書いて対応できます。

繊細な判断が必要な時 製品レビューサイトで、「偽レビューかもしれない」という微妙な判断が必要な場合。小さな分類器では難しい判断も、このモデルなら可能です。

データが少ない時 新しいリスクが出現したばかりで、まだ十分な学習データが集まっていない場合でも使えます。

性能はどうなの?

OpenAIの評価によると、gpt-oss-safeguardは驚くべき性能を示しています。

内部評価では、複数のポリシーを同時に適用するテストで、なんと最新のGPT-5-thinkingモデルをも上回る精度を記録しました(120bモデルで46.3%、20bモデルで43.6%)。サイズが小さいのにこの性能というのは、かなり驚きです。

また、2022年のモデレーション評価セットやToxicChatという公開ベンチマークでも、高いF1スコア(約80~83)を達成しています。

OpenAIでの実用例

実は、OpenAIは社内でこの技術を「Safety Reasoner」という名前で既に活用しています。

例えば、画像生成AIの「Sora 2」では、生成中の画像をリアルタイムでチェックして、問題があればその場でストップしています。また、生物学や自傷行為といったセンシティブな分野では、まず高速な分類器で大まかに選別し、その後にSafety Reasonerで詳細にチェックするという二段構えのアプローチを取っているそうです。

最近のリリースでは、安全性チェックに使うコンピューティングリソースの16%をSafety Reasonerが占めるほど、重要なコンポーネントになっているとのこと。

注意点もあります

もちろん、万能ではありません。注意すべき点が2つあります:

1. 専用分類器には劣る場合も 何万ものサンプルで丁寧にトレーニングした専用分類器には、精度で劣る場合があります。特定のリスクに対して最高の性能が必要なら、従来の方法も検討した方が良いかもしれません。

2. 処理時間とコスト 推論を使うため、処理に時間とコンピューティングリソースがかかります。プラットフォーム全体の大量コンテンツをチェックするのは難しいでしょう。OpenAIでは、まず高速な分類器で選別してから、必要なものだけをSafety Reasonerで詳しくチェックする、という工夫をしています。

今後の展開

OpenAIは、ROOSTという組織と協力して「ROOSTモデルコミュニティ(RMC)」を立ち上げました。ここでは、安全性に関わる実務家や研究者が集まり、モデルの評価結果やベストプラクティスを共有しています。

オープンソースコミュニティからのフィードバックを受けながら、モデルをさらに改善していく予定だそうです。

おわりに

gpt-oss-safeguardは、AIを使った安全性チェックの新しいアプローチを示してくれました。ポリシーを柔軟に変更できる、理由を説明してくれる、オープンソースで誰でも使える、という3つの大きなメリットがあります。

完璧ではありませんが、特に新しいリスクへの素早い対応が必要な場面や、微妙な判断が求められる状況では、大きな力を発揮してくれるでしょう。

興味のある方は、Hugging Faceからダウンロードして試してみてはいかがでしょうか。AIの安全性という重要な分野で、新しい可能性が広がりそうですね!

出典: OpenAI公式サイト

コメント