😼小人閑居:DALL-E 3を試す ― 2025年05月12日 07:27
小人閑居:DALL-E 3を試す
(Microsoft の AI 画像ジェネレーターで夢を膨らませることができる画像を作成する)
https://create.microsoft.com/ja-jp/features/ai-image-generator
「Microsoft の AI 画像ジェネレーターは、強力な DALL-E 3 モデルを使用して画像を作成します。パートナーである OpenAI により開発された DALL-E 3 は、テキストによる説明文から文脈に即した非常に詳細な画像を生成する機能で有名です。」
DALL-Eといえば、先日も、ウイン11に付属のペイントで、画像からカップルを消し去ったりした際に威力を発揮したAI画像ジェネレーターだ。
どれどれ、お手並み拝見といこうか・・・。
「白衣の天使(看護師)、夜間、病棟をランプを持って患者さんを見回る姿」
で、出てきたのが画像だ(白衣の天使には違いないけどな)。
やれやれ・・・。
画像は4枚生成されていた。
マイクロソフトのデザイナーの場合、浮沈子は15クレジットが付与されていて(今回初めて使いました)、今回の作成で1クレジット使われていた。
この画像生成の仕掛けは、オープンAIが提供している。
(DALL-E)
https://en.wikipedia.org/wiki/DALL-E
「プロンプトと呼ばれる自然言語の説明からデジタル画像を生成するディープラーニング手法を使用してOpenAIが開発したテキストから画像へのモデルです。」
「DALL-E 2は35億のパラメータを使用しており、これは前身のものより少ない数です。自己回帰Transformerの代わりに、DALL-E 2はCLIP画像埋め込みを条件とする拡散モデルを使用しており、推論中に事前モデルによってCLIPテキスト埋め込みから生成されます。これは数ヶ月後にリリースされた Stable Diffusionと同じアーキテクチャです。」
「DALL-E 3の技術レポートは執筆されているが、モデルのトレーニングや実装の詳細は含まれておらず、代わりにDALL-E 3用に開発されたプロンプト追従機能の改善に焦点が当てられている。」
今回使用したモデルには、DALL-E 3が実装されているようだ。
プロンプトは読めるが、空気読めないAIが生成する画像にろくなもんはない(おまいが、ろくなプロンプト書けないだけじゃね?)。
「DALL-E 2とDALL-E 3は、既存の画像を入力すると、元の画像に基づいて画像の「バリエーション」を個別の出力として生成するだけでなく、画像を編集して修正または拡張することもできます。」
ウィキには、ちょっと興味深い記述もある。
「技術的な制限:
DALL-E 2の言語理解には限界があります。」
・「黄色い本と赤い花瓶」と「赤い本と黄色い花瓶」を区別できない
・「パンダがラテアートを作っている」と「パンダのラテアート」を区別できないことがあります。
・「宇宙飛行士に馬が乗っている」というプロンプトに対して、宇宙飛行士が馬に乗っている画像を生成します。(これは限界なのかあ?)
・4つ以上のオブジェクト、否定、数字、連続した文を要求すると、エラーが発生する可能性(オブジェクトの特徴が間違ったオブジェクトに表示されることがあります)
・テキスト処理(判読可能な文字であっても、ほぼ例外なく夢のような意味不明な文字列になる)
・天文学や医療画像などの科学情報に対応する能力が限られている
倫理問題等については割愛する。
記事(英文のウィキ)を読むと、意図した画像を生成することより、ユニークな意図しない画像の生成に好意的な感じもする。
ヤツらの感性は、「面白ければそれでいい」だからな(そうなのかあ?)。
今はまだ、言葉(プロンプト)を投げるとAIが画像を生成すること「それ自体」に目が行っている気がする。
白衣の天使に羽が生えていようが、頭の上に光輪が乗っていようが(他の画像では付いてました!)問題じゃない。
さて、この羽をどうしたもんかな・・・。
(Microsoft の AI 画像ジェネレーターで夢を膨らませることができる画像を作成する)
https://create.microsoft.com/ja-jp/features/ai-image-generator
「Microsoft の AI 画像ジェネレーターは、強力な DALL-E 3 モデルを使用して画像を作成します。パートナーである OpenAI により開発された DALL-E 3 は、テキストによる説明文から文脈に即した非常に詳細な画像を生成する機能で有名です。」
DALL-Eといえば、先日も、ウイン11に付属のペイントで、画像からカップルを消し去ったりした際に威力を発揮したAI画像ジェネレーターだ。
どれどれ、お手並み拝見といこうか・・・。
「白衣の天使(看護師)、夜間、病棟をランプを持って患者さんを見回る姿」
で、出てきたのが画像だ(白衣の天使には違いないけどな)。
やれやれ・・・。
画像は4枚生成されていた。
マイクロソフトのデザイナーの場合、浮沈子は15クレジットが付与されていて(今回初めて使いました)、今回の作成で1クレジット使われていた。
この画像生成の仕掛けは、オープンAIが提供している。
(DALL-E)
https://en.wikipedia.org/wiki/DALL-E
「プロンプトと呼ばれる自然言語の説明からデジタル画像を生成するディープラーニング手法を使用してOpenAIが開発したテキストから画像へのモデルです。」
「DALL-E 2は35億のパラメータを使用しており、これは前身のものより少ない数です。自己回帰Transformerの代わりに、DALL-E 2はCLIP画像埋め込みを条件とする拡散モデルを使用しており、推論中に事前モデルによってCLIPテキスト埋め込みから生成されます。これは数ヶ月後にリリースされた Stable Diffusionと同じアーキテクチャです。」
「DALL-E 3の技術レポートは執筆されているが、モデルのトレーニングや実装の詳細は含まれておらず、代わりにDALL-E 3用に開発されたプロンプト追従機能の改善に焦点が当てられている。」
今回使用したモデルには、DALL-E 3が実装されているようだ。
プロンプトは読めるが、空気読めないAIが生成する画像にろくなもんはない(おまいが、ろくなプロンプト書けないだけじゃね?)。
「DALL-E 2とDALL-E 3は、既存の画像を入力すると、元の画像に基づいて画像の「バリエーション」を個別の出力として生成するだけでなく、画像を編集して修正または拡張することもできます。」
ウィキには、ちょっと興味深い記述もある。
「技術的な制限:
DALL-E 2の言語理解には限界があります。」
・「黄色い本と赤い花瓶」と「赤い本と黄色い花瓶」を区別できない
・「パンダがラテアートを作っている」と「パンダのラテアート」を区別できないことがあります。
・「宇宙飛行士に馬が乗っている」というプロンプトに対して、宇宙飛行士が馬に乗っている画像を生成します。(これは限界なのかあ?)
・4つ以上のオブジェクト、否定、数字、連続した文を要求すると、エラーが発生する可能性(オブジェクトの特徴が間違ったオブジェクトに表示されることがあります)
・テキスト処理(判読可能な文字であっても、ほぼ例外なく夢のような意味不明な文字列になる)
・天文学や医療画像などの科学情報に対応する能力が限られている
倫理問題等については割愛する。
記事(英文のウィキ)を読むと、意図した画像を生成することより、ユニークな意図しない画像の生成に好意的な感じもする。
ヤツらの感性は、「面白ければそれでいい」だからな(そうなのかあ?)。
今はまだ、言葉(プロンプト)を投げるとAIが画像を生成すること「それ自体」に目が行っている気がする。
白衣の天使に羽が生えていようが、頭の上に光輪が乗っていようが(他の画像では付いてました!)問題じゃない。
さて、この羽をどうしたもんかな・・・。
コメントをどうぞ
※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。
※なお、送られたコメントはブログの管理者が確認するまで公開されません。
※投稿には管理者が設定した質問に答える必要があります。