🐱AI:DBRXの登場2024年04月23日 21:54

AI:DBRXの登場


(Databricks、“オープン”な汎用LLM「DBRX」リリース 商用利用可)
https://www.itmedia.co.jp/news/articles/2403/28/news111.html

「米AI企業のDatabricksは3月27日(現地時間)、“オープンな”汎用LLM「DBRX」を発表」

「DBRXは標準的なベンチマークで既存のすべてのオープンモデルより優れたパフォーマンスを発揮するという。ただし、マルチモーダルではない。」

余り記事がないんだが、この記事が包括的な気がする。

ぶっちゃけ、企業向けなAIで、素人さんお断りな感じだ。

(Databricks)
https://en.wikipedia.org/wiki/Databricks

「世界的なデータ、分析、人工知能企業です。」

「同社は、企業が生成 AIやその他の機械学習モデルを含むデータと AI を構築、拡張、管理できるようにするクラウドベースのプラットフォームを提供しています。 」

その筋では、押しも押されぬ企業なわけで、AIへの進出は今回初めてだが、知る人ぞ知る企業なんだろう(浮沈子は知りませんでしたが)。

「OpenAIのChatGPTの人気に応えて、同社は 2023 年 3 月に、開発者が独自のチャットボットを作成するために使用できる、羊のドリーにちなんでドリーと名付けられたオープンソース言語モデルを導入しました。彼らのモデルはより少ないパラメータを使用してChatGPT と同様の結果を生成します」

「2024 年 3 月、Databricks はオープンソース基盤モデルである DBRX をリリースしました。これは専門家が混在するアーキテクチャに依存しており、MegaBlocks オープンソース プロジェクトに基づいて構築されています。」(専門家が混在するアーキテクチャ:MoEのこと)

開発に手を染めてから約1年で、リリースにこぎつけたわけだ。

「これは 1,360 億のパラメーター モデルですが、出力の生成に使用されるのは平均 360 億のみです。」

ミクストラル8x22Bと同じくらいな規模感だな。

(無料で商用利用可能なオープンモデル「Mixtral 8x22B」が登場、高いコーディングと数学の能力を持つ)
https://gigazine.net/news/20240418-mistral-mixtral-8x22b/

「Mixtral 8x22Bは疎な専門家混合モデル(SMoE)となっており、推論ごとに1410億(141B)のうち390億(39B)パラメーターだけを使用する」

まあ、どうでもいいんですが。

「DBRXは、オープンソースプロジェクトMegaBlocksに基づいて構築されたMoE(Mixture of Experts;混合エキスパート)を採用した。このMoEは、他のMoEと比較してトレーニング速度が2倍以上、計算効率も最大2倍になるという。」(ITメディアの記事より)

MoEといっても、同じじゃないぞと・・・。

浮沈子は途中までしか読めなかったけど(登録してないんで)、ワイアードが記事を上げていた。

(世界最強のオープンソース型AIモデル誕生の内側)
https://wired.jp/article/sz-dbrx-inside-the-creation-of-the-worlds-most-powerful-open-source-ai-model/

「スタートアップのデータブリックスはメタのLlama 2やイーロン・マスクのGrok AIを凌ぎ、OpenAIのGPT-4に肉薄するオープンソース型の大規模言語モデル「DBRX」をリリースした。」

「DBRXの一般知識に関する問いに答える能力、読解力、困難な論理パズルを解く能力、高品質なコードを生成する性能など、10を超えるベンチマークの結果を公表した。その結果、DBRXは現存するほかのどのオープンソースモデルよりも優秀であることが確認された。」

「DBRXのスコアのいくつかは、OpenAIのChatGPTの根幹をなし、人工知能の最高峰と広く認められている、オープンソースではないGPT-4に肉薄」

「われわれはLLMの基準を引き上げたんだ」

残念、読めたのはここまで・・・。

「サイズは1320億パラメータと米MetaのLlama 2のほぼ2倍だが、速度はLlama 2の2倍という。言語理解、プログラミング、数学、ロジックのベンチマークで、Llama 2 70B、仏Mistral AIのMixtral 8x7B、米XのGrok-1、米OpenAIのGPT-3.5を上回っている」(ITメディア)

この1か月の間に、リャマはリャマ3にバージョンアップし、ミクストラルの性能も向上している(8x22B)。

グロックー1は、マルチモーダル化して1.5にバージョンアップだしな。

総パラメーター数が350億程度のGPT-3.5は、そもそも相手として相応しいかどうか・・・。

生き馬の目を抜くAI業界。

ちょっと目を離していると、次々と最新モデルが投入されて勢力図が塗り替えられていく(つーか、高性能でなければ世に出ない?)。

「DBRXは、3.2TbpsのInfinibandで接続された3072基のNVIDIA H100を使用して、パブリックデータソースとライセンス供与されたデータソースで3カ月トレーニングし、品質および安全性の改善のための人間のフィードバックを収集し、モデルを手動で実験した。」(ITメディア)

H100の単価を1枚500万円とすると、154億円ほどの投資が行われている(トレーニングコストは15億円程度だそうです:)。

べらぼーめ・・・。

マルチモーダル化に対応するのか、更なるバージョンアップはあるのか。

データブリックス(会社)とDBRX(AI)からも、目が離せないな・・・。

コメント

コメントをどうぞ

※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。

※なお、送られたコメントはブログの管理者が確認するまで公開されません。

※投稿には管理者が設定した質問に答える必要があります。

名前:
メールアドレス:
URL:
次の質問に答えてください:
kfujitoの徒然の筆者のペンネームは、
「○○子」です。
○○を記入してください。

コメント:

トラックバック