2025.08.07

読了時間:10分

gpt-ossが拓く未来

國田圭佑

みなさん、お久しぶりです！
AIエンジニアの國田です。

さっそくですが、BIGニュースが入ってきました。
2025年8月6日朝、OpenAIがオープンソースの言語モデルを公開しました。

その名も「gpt-oss-120b」&「gpt-oss-20b」。
昨今、様々な会社が自前のローカルLLMないしは小規模言語モデル(Small Language Model; SLM)をオープンソースで公開しており、「OpenAIもオープンにならないかな？」と個人的に心待ちにしていたのですが、ついに公開モデルがリリースされたようです。

これらのモデルは他社の多くの公開モデルと同様、商用利用可能なApache 2.0ライセンスで公開されています。(厳密には、"License: Apache 2.0, with a small complementary use policy."(わずかな補足ポリシーあり)と記載されていますが・・)

私も早速試してみたところ、小さい方のモデル(gpt-oss-20b)でも割と日本語性能が高く、胸(特に大胸筋)が踊るような性能でした。今回は、これらのモデルの特徴をまとめつつ、所感を共有できたらな、と思います。

性能はどうなの？

はい、一番気になるであろう性能の点から先に言及させていただきます。ローカルLLMではありますが、以下のサイトにアクセスすれば、ローカルに落とさなくても試すことができます。(もしGPUマシンのない方は、こちらからお試しください。)

https://gpt-oss.com/

OpenAI公式からは、以下のように述べられています。

gpt-oss-120b: 「OpenAI o4-mini」と同等。80GBのGPU 1基で効率的に動作
gpt-oss-20b: 「OpenAI o3-mini」と同等。16GBメモリのエッジデバイスでも実行可能

前者の80GBはかなり重めですね。(AIエンジニアの私でも、普段使うPCはそこまでの大容量GPUはなく、使うならクラウドのモデル学習用GPUを借りる必要があります。)
ですが、後者の16GBというのは実に素晴らしいですね。応用可能な場面がかなり多いように思います。
また、o3-mini程度の性能があるのであれば、割と指示への追従性も良く、私の手元のMacでも20bモデルが快適に動きました。体感として、20bモデルはローカル実行可能なサイズでありながら、高度な推論能力を備えている、細マッチョのような印象です。

実際に日本語で動かしてみた

とは言うものの、「百聞は一見に如かず」です！
小さい方のモデル (gpt-oss-20b) を使い、実際に日本語で質問・指示を出した結果を共有したいと思います。
例えば「円周率が3.05以上であることを証明してください。」とプロンプトを与えたところ、以下のような回答が返ってきました。

証明（正24角形を用いた方法）

1. 単位円の認定
半径r=1の円を考えます。
この円に内接する正 n 角形の面積 Aₙ は
　Aₙ = (n / 2) × sin(2π / n)
で与えられます（n個の等しい三角形からなるので）。

2. 正24角形を選ぶ
n = 24 とすると
　A₂₄ = 24 / 2 × sin(2π / 24) = 12 × sin(π / 12)

3. sin(π / 12)の正確な値
　sin(π / 12) = sin(15°) = (√6 - √2) / 4 ≒ 0.2588190451
したがって
　A₂₄ = 12 × (√6 - √2) / 4 = 3 × (√6 - √2) ≒ 3.105828543

4. 不等式の結論
内接多角形の面積は円の面積より小さいので
　π > A₂₄ ≒ 3.105828543
さらに
　3.105828543 > 3.05
よって
　π > 3.05
が成立します。

### もう一つの簡易的な例：正18角形

正18角形を使うと
　A₁₈ = 18 / 2 × sin(2π / 18) = 9 × sin(π / 9) = 9 × sin(20°) ≒ 3.07818 > 3.05
同様にπ > 3.05が導かれます。

---
#### まとめ

単位円に内接する正 n 角形の面積は円の面積（π）より小さく、そ
の面積を計算すれば下界が得られます。
上記のように正24角形（あるいは正18角形）を選ぶと、
π > 3.1058 > 3.05
となり、円周率が 3.05 以上であることが証明されます。

いかがでしょうか？数学の証明問題に対する回答ですが、非常に丁寧で筋道立った解答になっているのではないでしょうか。
証明の厳密さや計算過程など、一部ツッコミどころがありますが、概ねきちんと課題を理解して解答できているように感じます。日本語の文も違和感が少なくかなり自然な印象が強いです。このレベルの日本語応答がローカルモデルから得られるのは驚きでした。

20bモデルでここまでの性能を発揮することから、120bモデルの期待値もかなり高いですね。

モデルの特徴と技術的なポイント

さて、今回のモデルですが、実はAIエンジニア的には技術面でも興味深いポイントが多数あります。
まず、冒頭でも触れたようにオープンソースであるため、開発者はモデルの中身を確認できますし、プログラミング言語(Python)からモデルを改造することも可能です。つまり、自分で追加の学習をさせたりファインチューニング（微調整）を行ったりできるわけです。例えば手元のデータで特定のタスクに特化させた学習を行ったり、日本語にさらに最適化させたり、といったことも可能になります。以前、当ブログで紹介したLoRA（Low-Rank Adaptation）などの手法により手軽に本モデルを微調整することも可能です。

また、ダウンロードしての利用が可能なので、これらのモデルを使った場合、機密情報やプライバシーなどの情報がネットに上がらずに済むというセキュリティ的な観点もあります。

さらに、AIエージェント的な機能への組み込みも視野に入ると思います。今回発表のいずれのモデルも関数呼び出し (Function Calling) やPython実行などのツール使用といったケースでも優れた性能を発揮することが言及されており、かなり様々な場面で応用できることが示唆されています。

余談ではありますが、勉強用にも適しているのではないかのかな・・と思います。
実際のソースコードも公開されているので、GPTがどのように実装されているかを学ぶことができます。社内エンジニア向けの研修にも使えそうな気がしますね。
(「最も知りたいのは、学習方法や学習データの内容・前処理の部分」という気もしますが、それでも最先端のAI開発企業での実装コードを知れるのは大きいです。)

小規模モデル (SLM) とAIエージェントへの適性

さて、上述の通り、今回OpenAIが公開した20bモデルは、比較的小さいモデルにあたります。
いわゆる「小規模言語モデル (SLM)」の一種と言えるでしょう。

実は最近、NVIDIAの研究者らによって「Small Language Models are the Future of Agentic AI」(小規模言語モデルこそがエージェントAIの未来だ) と題する論文も発表されています。

「巨大なLLMに頼りすぎる現在のエージェント設計は非効率であり、大半のタスクであれば十分に小規模モデル(SLM)で代替できる」というのが、この論文内での主張です。
特に、AIエージェントのようなシステムではタスクを簡単なサブタスクに分解して処理することが多いため、「用途ごとに特化・微調整された小さなモデルを組み合わせるという形の方が理にかなっているのではないか？」と指摘されています。

SLMを用いるメリットとしては、計算資源の削減(ハイパフォーマンスコンピュータでなくても動く)という点や、そこから来る処理時間の高速化・さらにコスト低減などが挙げられると思います。
それでいて、SLMはファインチューニングも容易であることから、特定のタスクに特化した場合の性能は十分に高められるため、「何でもできる巨大なLLM」を毎回呼び出すよりも遥かに効率が良くなります。

こうした視点から考えると、gpt-oss-20b はまさに「高性能なSLM」としてエージェント用途に適したモデルと言えそうです。前述のように16GBクラスのハードウェアで動作しますし、必要なら追加訓練でタスク特化も可能です。例えば、特定のツール操作に特化した対話スキルを持たせたい場合にLoRAで微調整したgpt-oss-20bをエージェントのサブモジュールとして組み込む、といった使い方も考えられます。
汎用対話が必要な場合は大規模モデルを、そうでない定型タスク部分は小規模モデルを、と使い分けることで、全体として効率の良いシステムが構築できるのではないでしょうか。

今後は巨大モデル一強ではなく、複数のSLMが連携して賢くタスクをこなすエージェントが増えていくかもしれません。筋トレで例えるなら、全身の筋肉を使ってフルパワーで押すのではなく、要所要所で必要な筋肉だけを動かして効率的にタスクをこなす・・・といったところでしょうか。

そのような潮流の中で、OpenAIのgpt-ossシリーズが公開された意義は非常に大きいと思っています。
何しろ「OpenAI製」で「信頼性・安全性が高く」、しかも「自由に改変可能」なモデルが手に入ったわけですから、Stable Diffusionが登場した時のようにコミュニティの研究者・エンジニアの創意工夫によって様々な応用が生まれることが期待できます。特に日本においては、日本語に強いモデルのローカル利用ニーズが高いので、gpt-oss-20bをベースに日本語データで微調整を施した派生モデルなどが出てくる可能性が高いです。

まとめ

いかがでしたか？
個人的にはOpenAIがこのようなオープンモデルをリリースしたこと自体に少し驚きつつも、期待にいつも以上に大胸筋がパンプしているのを感じます。これまでAPI経由でしか使えなかった強力なモデルを、自分たちの環境で動かせて調整もできるというのは夢が広がりますね。

今後、このgpt-ossシリーズを使ったプロダクトや研究がどのように展開していくのか、とても楽しみです。
私も引き続き触ってみて、何か面白い発見があればまた共有したいと思います。
できれば、筋トレ関連のタスクをまた何か考えてチューニングしてみたいなぁ・・と。

それでは今回はこの辺で！

おまけ

数学的な問題だけでは少し硬いので、息抜きも兼ねて「筋トレに関する高度に理屈っぽい質問」をgpt-oss-20bにぶつけてみました。

「スクワットで脚が太くなるのは、機械学的刺激と代謝的刺激のどちらが主要因ですか？できれば根拠を挙げて説明してください。」

という、なかなかのマッチョ理論派向けの問いかけです。これに対するgpt-oss-20bの回答は・・・

1. 筋肥大を引き起こす主な刺激

刺激	具体的なメカニズム	代表的な研究	まとめ
機械的張力（Mechanical Tension）	筋繊維を引っ張る力 → コルチニウム・ジメンション（細胞内タンパク質合成）の活性化。インテグリン・FAK・mTOR経路が刺激され、タンパク質合成が上昇。	• Schoenfeld, 2010 - "The mechanisms of muscle hypertrophy" • Kraemer et al., 2000 - "Effects of progressive overload" • Stout, 2013 - "Mechanisms of muscular adaptation"	主因：筋肥大は主に機械的張力が起因。重量が大きいほど、張力は増し、タンパク質合成は顕著に上がる。
代謝的ストレス（Metabolic Stress）	高負荷・高ボリューム・低レップ時に蓄積する乳酸・イオンバランスの乱れ → アンボラスト（細胞体積の増大）やホルモン（IGF‑1、テストステロン）応答。	• González‑Badillo et al., 2012 - "Metabolic stress & hypertrophy" • Schoenfeld, 2014 - "Metabolic stress in resistance training"	補助因子：代謝的ストレスは筋肥大を促進するが、主に機械的張力が基礎となる。

2. スクワットにおける機械的張力が主要因である根拠

根拠	詳細
1. 高重量・低レップが最も肥大を引き起こす	- Bourne et al., 2007 では、スクワットを 70-80 % 1RM で実施した方が 40-50 % 1RM より筋断面積（CSA）が 2〜3 % 大きく成長。 - Schoenfeld, 2010 は「重量が大きいほど、1回あたりの張力が高く、筋タンパク質合成（MPS）が増加」と報告。
2. EMG と筋内圧のデータ	- Schoenfeld & Peterson, 2009 の EMG 研究では、スクワット時の大腿四頭筋 EMG は 80 % 1RM で 30 % 1RM より 2-3 倍高い。 - Harris et al., 2012 の筋内圧測定では、重いスクワットで筋内圧が 4-5 倍増加。高圧は筋膜・コラーゲンを刺激し、タンパク質合成に寄与。
3. 代謝的ストレスの相対的影響は小さい	- Stout, 2013 は「高負荷・低ボリュームでのトレーニングが、代謝的ストレスを伴わない場合でも十分に肥大を促す」と指摘。 - 代謝的ストレスは「低重量＋高レップ」や「休息間隔が短い」時に最も顕著。スクワットでは通常、重量を上げる方向に集中するため、代謝的ストレスは相対的に二次的。
4. 代謝的ストレスは補助的効果のみ	- Schoenfeld, 2014 は「代謝的ストレスは筋肥大を補助的に増大させるが、機械的張力に比べて影響は小さい」と結論。 - さらに、代謝的ストレスは筋痛・筋肉損傷（DASH）を増加させるため、リカバリーの観点からは注意が必要。

3. スクワットでの筋肥大を最大化するための実践ポイント

ポイント	推奨方法	理由
重い負荷を選択	1RM の 70-85 % で 4-6 RM	機械的張力が最大化され、MPS が急増。
セット数は 3-5 セット	低レップ（4-6RM）で複数セット	高張力を継続的に維持。
十分な休息	2-3 分	タンパク質合成が最高に到達するタイミング。
補助エクササイズで代謝的ストレスも	例：バーベルスクワット後にレッグプレス 15-20RM	代謝的ストレスは補助的に肥大を助ける。

4. まとめ

スクワットにおける脚（大腿四頭筋・ハムストリングス）の肥大の主要因は「機械的張力」です。
研究により、重い負荷（70-85 % 1RM）が最も筋タンパク質合成を高め、筋断面積の増大を促進することが示されています。
代謝的ストレスは補助的に肥大を助けますが、機械的張力に比べてその寄与は小さい。代謝ストレスは低重量・高レップ時に顕著で、代謝的ストレスが高いトレーニングは筋痛やリカバリーの負担を増すこともあります。
実際のトレーニングでは、重い負荷を主軸にしつつ、必要に応じて代謝的ストレスを加えることで、より効率的に脚の筋肥大を実現できます。

参考文献（抜粋）

著者・年	タイトル
Schoenfeld, B. J. (2010)	"The mechanisms of muscle hypertrophy and their application to resistance training"
Kraemer, W. J. et al. (2000)	"Progressive resistance training and the physiology of muscle hypertrophy"
Stout, J. R. (2013)	"Mechanisms of muscular adaptation"
Bourne, J. et al. (2007)	"Load, muscle volume, and training progression in resistance training"
González‑Badillo, J. E. et al. (2012)	"Metabolic stress and hypertrophy"
Schoenfeld, B. J. (2014)	"Metabolic stress in resistance training"
Harris, M. et al. (2012)	"Muscle intra‑pressure during squatting"
Stout, J. R., et al. (2014)	"Relative importance of mechanical tension and metabolic stress for muscle growth"

＊上記は代表的な研究であり、より詳細は各論文をご覧ください。

必ずしも、実際の論文が引用されている訳ではなく、ハルシネーションにより存在しない論文なども提示されています。ただ、日本語そのものはやはり違和感ないですね。
「難易度が高い日本語質問」「ややマニアックな知識」「医学的根拠を求める要求」への対応を見る限り、応用場面は広そうです。チューニングやAIエージェントへの組み込みにより想像以上に力を発揮できるかも知れません。
本当に「AIジムトレーナーエージェント」とか作れるそうですね！

ではまた！

gpt-ossが拓く未来

性能はどうなの？

実際に日本語で動かしてみた

モデルの特徴と技術的なポイント

小規模モデル (SLM) とAIエージェントへの適性

まとめ

おまけ

1. 筋肥大を引き起こす主な刺激

2. スクワットにおける機械的張力が主要因である根拠

3. スクワットでの筋肥大を最大化するための実践ポイント

4. まとめ

参考文献（抜粋）

RELATED POST

AIで出店の羅針盤を手に入れる！商圏ポテンシャルの評価をシンプルにする「エリアスコアリング」活用法【中編】

LLMでトピック推定どうやる問題の正解を探る

AIで出店の羅針盤を手に入れる！商圏ポテンシャルの評価をシンプルにする「エリアスコアリング」活用法【前編】

売上予測はもう古い？──3層の適切評価で確度を高める出店戦略／後編

gpt-ossが拓く未来

性能はどうなの？

実際に日本語で動かしてみた

モデルの特徴と技術的なポイント

小規模モデル (SLM) とAIエージェントへの適性

まとめ

おまけ

1. 筋肥大を引き起こす主な刺激

2. スクワットにおける機械的張力が主要因である根拠

3. スクワットでの筋肥大を最大化するための実践ポイント

4. まとめ

参考文献（抜粋）

RELATED POST

AIで出店の羅針盤を手に入れる！商圏ポテンシャルの評価をシンプルにする「エリアスコアリング」活用法【中編】

LLMでトピック推定どうやる問題の正解を探る

AIで出店の羅針盤を手に入れる！商圏ポテンシャルの評価をシンプルにする「エリアスコアリング」活用法【前編】

売上予測はもう古い？──3層の適切評価で確度を高める出店戦略 ／ 後編

売上予測はもう古い？──3層の適切評価で確度を高める出店戦略／後編