😼AI:その有用性と限界 ― 2025年06月09日 21:07
AI:その有用性と限界
(AppleがOpenAI「o3」のようなトップレベルのAIモデルや大規模推論モデルの限界を詳しく説明)
https://gigazine.net/news/20250609-ai-thinking-model-limit/
「研究者たちはAnthropicのClaude、OpenAIのoモデル、DeepSeek-R1、Googleのモデルといった「推論」モデルをテストし、人間の推論をどこまで再現できるかを検証しましたが、AIの推論能力のスケールアップはマーケティングで宣伝されているほどではなかった」
この記事は、素人が読み解くにはやや困難なところがあると感じる。
「Appleの研究者らは今回の論文で、「ハノイの塔」という有名なボードゲームを使うなどして各種モデルを評価しました。」
「「推論」をうたうAIはほとんどクリアできませんでした。」
「テストされたすべての推論モデルにおいて、ある複雑さの閾値を超えると精度が完全に崩壊する」
ここで言おうとしていることは、大規模推論モデル(LRM)には、複雑さに対するスケーラビリティの壁があるということのようだ(そうなのかあ?)。
「基本的に、推論をしない大規模言語モデル(LLM)では複雑度が低いほど正確で「トークン」の使用効率が高く、複雑さが増すにつれて推論モデルの方が優れた結果を示しますが、推論モデルでも問題の複雑さが増すにつれて回答の精度は減少しました。」
要するに、限界があるということを分かって使う必要があるということか。
「LLMは優れた、よく仕様化された従来のアルゴリズムの代替にはならないということです。LLMは従来のアルゴリズムほどチェスをうまくプレイできず、タンパク質を折り畳むこともできません。うまくいけば、Pythonコードを書き、自身の弱点を外部のコードで補うことができますが、それでも信頼できるものではありません。これはビジネスや社会にとって、単にo3やClaudeを複雑な問題に投入しても、確実に動作するとは限らないことを意味します。少なくとも今後10年間は、LLM(推論の有無にかかわらず)は特にコーディング、ブレインストーミング、そして執筆において引き続き利用されるでしょう。しかし、LLMが社会を根本的に良い方向に変えることができるような汎用(はんよう)人工知能(AGI)への直接的な道だと考えている人は、うぬぼれです」(著名な人工知能専門家のゲイリー・マーカス氏)
身も蓋もない総括だな・・・。
アップルのこの論文については、別記事も上がっている。
(「LRM(大規模推論モデル)の推論能力に限界」──Appleが論文発表)
https://www.itmedia.co.jp/aiplus/articles/2506/09/news077.html
「LLM(大規模言語モデル)とLRM(大規模推論モデル)が数学的な問題解決で、真の論理的推論ではなく、訓練データに基づく確率的なパターンマッチングに大きく依存している可能性がある」
・特定の複雑さを超えると精度が完全に崩壊
・複雑さに対する推論努力の限界と非直観的なスケーリング
・思考プロセス(推論トレース)の分析から見えるパターン
「われわれの研究結果は、現在のモデルの根本的な限界を明らかにしている。洗練された自己反省メカニズムにもかかわらず、これらのモデルは、特定の複雑さの閾値を超えると一般化可能な推論能力を開発できない」
浮沈子は、何となくシリのリリースに苦しんでいるアップルの言い訳のような気がしないでもないけど、もちろん、その件とは異なる話だ。
浮沈子的AI活用では、パズル問題を解いたりしないで、この与太ブログの品質向上(?)に一役買ってもらっている程度だから問題はない(たまに、代筆頼んだりしてな・・・)。
ディープシークがセンシティブな話題で回答拒否するくらいだ(天安門事件とかな)。
「少なくとも今後10年間は、LLM(推論の有無にかかわらず)は特にコーディング、ブレインストーミング、そして執筆において引き続き利用されるでしょう。」(再掲)
うーん、それで十分な気もするんだがな・・・。
(AppleがOpenAI「o3」のようなトップレベルのAIモデルや大規模推論モデルの限界を詳しく説明)
https://gigazine.net/news/20250609-ai-thinking-model-limit/
「研究者たちはAnthropicのClaude、OpenAIのoモデル、DeepSeek-R1、Googleのモデルといった「推論」モデルをテストし、人間の推論をどこまで再現できるかを検証しましたが、AIの推論能力のスケールアップはマーケティングで宣伝されているほどではなかった」
この記事は、素人が読み解くにはやや困難なところがあると感じる。
「Appleの研究者らは今回の論文で、「ハノイの塔」という有名なボードゲームを使うなどして各種モデルを評価しました。」
「「推論」をうたうAIはほとんどクリアできませんでした。」
「テストされたすべての推論モデルにおいて、ある複雑さの閾値を超えると精度が完全に崩壊する」
ここで言おうとしていることは、大規模推論モデル(LRM)には、複雑さに対するスケーラビリティの壁があるということのようだ(そうなのかあ?)。
「基本的に、推論をしない大規模言語モデル(LLM)では複雑度が低いほど正確で「トークン」の使用効率が高く、複雑さが増すにつれて推論モデルの方が優れた結果を示しますが、推論モデルでも問題の複雑さが増すにつれて回答の精度は減少しました。」
要するに、限界があるということを分かって使う必要があるということか。
「LLMは優れた、よく仕様化された従来のアルゴリズムの代替にはならないということです。LLMは従来のアルゴリズムほどチェスをうまくプレイできず、タンパク質を折り畳むこともできません。うまくいけば、Pythonコードを書き、自身の弱点を外部のコードで補うことができますが、それでも信頼できるものではありません。これはビジネスや社会にとって、単にo3やClaudeを複雑な問題に投入しても、確実に動作するとは限らないことを意味します。少なくとも今後10年間は、LLM(推論の有無にかかわらず)は特にコーディング、ブレインストーミング、そして執筆において引き続き利用されるでしょう。しかし、LLMが社会を根本的に良い方向に変えることができるような汎用(はんよう)人工知能(AGI)への直接的な道だと考えている人は、うぬぼれです」(著名な人工知能専門家のゲイリー・マーカス氏)
身も蓋もない総括だな・・・。
アップルのこの論文については、別記事も上がっている。
(「LRM(大規模推論モデル)の推論能力に限界」──Appleが論文発表)
https://www.itmedia.co.jp/aiplus/articles/2506/09/news077.html
「LLM(大規模言語モデル)とLRM(大規模推論モデル)が数学的な問題解決で、真の論理的推論ではなく、訓練データに基づく確率的なパターンマッチングに大きく依存している可能性がある」
・特定の複雑さを超えると精度が完全に崩壊
・複雑さに対する推論努力の限界と非直観的なスケーリング
・思考プロセス(推論トレース)の分析から見えるパターン
「われわれの研究結果は、現在のモデルの根本的な限界を明らかにしている。洗練された自己反省メカニズムにもかかわらず、これらのモデルは、特定の複雑さの閾値を超えると一般化可能な推論能力を開発できない」
浮沈子は、何となくシリのリリースに苦しんでいるアップルの言い訳のような気がしないでもないけど、もちろん、その件とは異なる話だ。
浮沈子的AI活用では、パズル問題を解いたりしないで、この与太ブログの品質向上(?)に一役買ってもらっている程度だから問題はない(たまに、代筆頼んだりしてな・・・)。
ディープシークがセンシティブな話題で回答拒否するくらいだ(天安門事件とかな)。
「少なくとも今後10年間は、LLM(推論の有無にかかわらず)は特にコーディング、ブレインストーミング、そして執筆において引き続き利用されるでしょう。」(再掲)
うーん、それで十分な気もするんだがな・・・。
コメントをどうぞ
※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。
※なお、送られたコメントはブログの管理者が確認するまで公開されません。
※投稿には管理者が設定した質問に答える必要があります。