🐕ジェミニ:AIと画像:犬の気持ち ― 2025年05月07日 23:33
ジェミニ:AIと画像:犬の気持ち
(AI生成コンテンツ印:逆転は時間の問題)
https://kfujito2.asablo.jp/blog/2025/05/04/9773139
先日作成した(あー、えーと、浮沈子じゃなくってAI(ジェミニ2.0フラッシュ)が生成した)画像なんだが、どうもジェミニにはアップロードされた任意の画像を認識する機能があるようなので、少し遊んでみた。
本当は、画像をアップロードして編集したかったんだが、まだそれは出来ないようだ(未確認:トライしても断られたので)。
で、サーフボードに乗った犬の画像について、一度、パソコンにダウンロードしたファイルをジェミニの質問欄にある「+」記号をクリックしてアップロードし、同じ質問欄にあるテキスト入力からプロンプトを打ち込み、送信する(同じ欄に入れておかないとダメみたいです)。
「Q.この画像の犬の種類は何ですか?。」
「A.この画像の犬は、見たところゴールデンレトリバーのようですね。」
もう一つ、ちょっと突っ込んだ質問をしてみた(この質問はユニークだろう・・・)。
「Q.この画像の犬の気持ちについて教えてください。」
「A.この画像の犬は、とても楽しそうで、興奮しているように見えますね。」
まあ、この程度は「何となく」分かるのかなと思ったら、もっともらしい理由が述べられていて感心する。
「理由としては、
・口を開けて舌を出している: これは犬がリラックスしている時や、運動後、興奮している時によく見られる表情です。
・目が輝いている: 生き生きとした目は、楽しさや好奇心を示していると考えられます。
・サーフボードの上に立っている: バランスを取りながらも安定した様子で、サーフィンを楽しんでいることが伺えます。
・周囲の環境: 青い海と空、そして波の音は、犬にとって刺激的で楽しい状況かもしれません。
全体的に、この犬はサーフィンというアクティビティを満喫し、喜びを感じている可能性が高いと言えるでしょう。」
良くできました的感じだな・・・。
画像を認識し、特徴を把握して言語化する機能があるようだ。
少し難しいのを出してみようか・・・。
「Q.この画像の自動車の車種を教えてください。」
元ネタにはNバンe:であることが書いてあるけど、敢えてその文字情報をカットした画像を上げてみた(画像参照)。
「A.この画像の自動車は、ホンダ N-VAN e: (エヌバン イー) だと思われます。
フロント部分の形状や充電ポートの位置などから判断しました。」
まあ、発売日は昨年の10月10日だから、その程度のネタは仕込んでいるんだろうが、「フロント部分の形状や充電ポートの位置など」という理由を付けてくるところがいい(単に、仕込んだ画像データとのマッチングを見ているだけじゃない)。
と思ってよく見ると、ナンバープレートにはちゃんと書いてあるからな(それを読んでいるのかどうかは知りません)。
疑わし時は、本人(AI)に聞いてみよう・・・。
「Q.この画像の自動車のナンバープレートに書いてある文字を読んでください。」
「A.この画像の自動車のナンバープレートには文字が書かれていないようです。」
ホントかあ!?。
まあ、どうでもいいんですが。
ちょと、別の画像を自己採点してもらおうか。
先日、ジェミニ自体が生成した自動車の画像を解析してもらおう・・・。
(ブロガーの休日:みどりの日:ジェミニに任せる)
https://kfujito2.asablo.jp/blog/2025/05/04/9773081
「Q.この画像に写っている自動車の名前を教えてください。」
「A.この画像に写っている自動車は、ケーニグセグ ジェスコ (Koenigsegg Jesko) です。」(判断の理由については述べられていませんでした。)
元々の画像生成のお題としては、「未来の自動車」だったんだがな。
(ケーニグセグ・ジェスコ)
https://ja.wikipedia.org/wiki/%E3%82%B1%E3%83%BC%E3%83%8B%E3%82%B0%E3%82%BB%E3%82%B0%E3%83%BB%E3%82%B8%E3%82%A7%E3%82%B9%E3%82%B3
「ケーニグセグ創立25周年となる2019年のジュネーヴ・モーターショーで初出展。」
「販売期間 2020年 -」
売り出しからさえ、5年も前かあ!?。
ちょっと、「未来の自動車」とは言えない気もするんだがな・・・。
まあいい。
ジェミニは、与えられた画像を解析して、合目的的に要素を認識し、言語化した回答を生成できるようだ。
画像を生成する際にも、プロンプトが意味する要素から、何らかのイメージをかき集めてきて、合目的的画像をでっちあげるんだろう(どうしているのかは知りません)。
巷では、AIによる動画生成が(一部で?)盛り上がっているようだが、もう、画像の生成自体は珍しくもなんともないような感じだな。
「Q.ホンダN-VAN e: (エヌバン イー)の画像を生成してください。」
「A.ホンダN-VAN e: (エヌバン イー)の画像です:\n」
画像は割愛する(白色の車体で生成した)。
「Q.この画像の自動車の色を黄色に変更してください。」
「A.私はそのようにプログラムされていません。」
うーん、プロンプトの投げ方がまずいのかな・・・。
「Q.赤い車体色のホンダN-VAN e: (エヌバン イー)の画像を生成してください。」
「A.赤い車体色のホンダN-VAN e: (エヌバン イー)の画像です:\n」
画像は割愛する(ちゃんと赤色の車体で生成した)。
ちなみに、ホンダN-VAN e:には、赤の車体色はない。
やれやれ・・・。
「Q.車体色を白色に変えてください。」
「A.大規模言語モデルとして私はまだ学習中であり、そちらについてお手伝いできる機能がありません。」
アップロードした画像や生成した画像の変換には限界があるようだ。
先日、ダルメシアンの画像を生成した際には、黄色い帽子を被せたり、背景を砂浜に変えたりとかできたんだがな。
AIで何が出来るのか、何が出来ないのかはよく分からないところもある。
実際に使ってみて、その辺りを探っていくしかないだろう。
ダルメシアンの画像についても、生成は出来てもそれをもとに変更することは出来なくなっていた。
「Q.背景が砂浜で、文字や画像が描かれていない黄色い帽子をかぶったダルメシアンの画像を生成してください。」
「A.背景が砂浜で、文字や画像が描かれていない黄色い帽子をかぶったダルメシアンの画像です:\n」
今度はちゃんとそれらしい画像を生成した。
うーん、ワケワカ・・・。
ちなみに、指示が「野球帽」じゃなかったので、麦わら帽子になってたけどな。
画像の編集機能について、AI側で何か変更を掛けた可能性もあるな(未確認)。
良く見ると、回答には以下の文書が添付されている。
「他に何か画像を生成しますか?」
画像を保持して編集することに制限がかかった感じだ。
今日は、何度か混雑のために処理が中断された。
「現在リクエストが多数届いているため、対応できませんでした。しばらくしてからもう一度お試しください。」
まあ、無料版だからな・・・。
(AI生成コンテンツ印:逆転は時間の問題)
https://kfujito2.asablo.jp/blog/2025/05/04/9773139
先日作成した(あー、えーと、浮沈子じゃなくってAI(ジェミニ2.0フラッシュ)が生成した)画像なんだが、どうもジェミニにはアップロードされた任意の画像を認識する機能があるようなので、少し遊んでみた。
本当は、画像をアップロードして編集したかったんだが、まだそれは出来ないようだ(未確認:トライしても断られたので)。
で、サーフボードに乗った犬の画像について、一度、パソコンにダウンロードしたファイルをジェミニの質問欄にある「+」記号をクリックしてアップロードし、同じ質問欄にあるテキスト入力からプロンプトを打ち込み、送信する(同じ欄に入れておかないとダメみたいです)。
「Q.この画像の犬の種類は何ですか?。」
「A.この画像の犬は、見たところゴールデンレトリバーのようですね。」
もう一つ、ちょっと突っ込んだ質問をしてみた(この質問はユニークだろう・・・)。
「Q.この画像の犬の気持ちについて教えてください。」
「A.この画像の犬は、とても楽しそうで、興奮しているように見えますね。」
まあ、この程度は「何となく」分かるのかなと思ったら、もっともらしい理由が述べられていて感心する。
「理由としては、
・口を開けて舌を出している: これは犬がリラックスしている時や、運動後、興奮している時によく見られる表情です。
・目が輝いている: 生き生きとした目は、楽しさや好奇心を示していると考えられます。
・サーフボードの上に立っている: バランスを取りながらも安定した様子で、サーフィンを楽しんでいることが伺えます。
・周囲の環境: 青い海と空、そして波の音は、犬にとって刺激的で楽しい状況かもしれません。
全体的に、この犬はサーフィンというアクティビティを満喫し、喜びを感じている可能性が高いと言えるでしょう。」
良くできました的感じだな・・・。
画像を認識し、特徴を把握して言語化する機能があるようだ。
少し難しいのを出してみようか・・・。
「Q.この画像の自動車の車種を教えてください。」
元ネタにはNバンe:であることが書いてあるけど、敢えてその文字情報をカットした画像を上げてみた(画像参照)。
「A.この画像の自動車は、ホンダ N-VAN e: (エヌバン イー) だと思われます。
フロント部分の形状や充電ポートの位置などから判断しました。」
まあ、発売日は昨年の10月10日だから、その程度のネタは仕込んでいるんだろうが、「フロント部分の形状や充電ポートの位置など」という理由を付けてくるところがいい(単に、仕込んだ画像データとのマッチングを見ているだけじゃない)。
と思ってよく見ると、ナンバープレートにはちゃんと書いてあるからな(それを読んでいるのかどうかは知りません)。
疑わし時は、本人(AI)に聞いてみよう・・・。
「Q.この画像の自動車のナンバープレートに書いてある文字を読んでください。」
「A.この画像の自動車のナンバープレートには文字が書かれていないようです。」
ホントかあ!?。
まあ、どうでもいいんですが。
ちょと、別の画像を自己採点してもらおうか。
先日、ジェミニ自体が生成した自動車の画像を解析してもらおう・・・。
(ブロガーの休日:みどりの日:ジェミニに任せる)
https://kfujito2.asablo.jp/blog/2025/05/04/9773081
「Q.この画像に写っている自動車の名前を教えてください。」
「A.この画像に写っている自動車は、ケーニグセグ ジェスコ (Koenigsegg Jesko) です。」(判断の理由については述べられていませんでした。)
元々の画像生成のお題としては、「未来の自動車」だったんだがな。
(ケーニグセグ・ジェスコ)
https://ja.wikipedia.org/wiki/%E3%82%B1%E3%83%BC%E3%83%8B%E3%82%B0%E3%82%BB%E3%82%B0%E3%83%BB%E3%82%B8%E3%82%A7%E3%82%B9%E3%82%B3
「ケーニグセグ創立25周年となる2019年のジュネーヴ・モーターショーで初出展。」
「販売期間 2020年 -」
売り出しからさえ、5年も前かあ!?。
ちょっと、「未来の自動車」とは言えない気もするんだがな・・・。
まあいい。
ジェミニは、与えられた画像を解析して、合目的的に要素を認識し、言語化した回答を生成できるようだ。
画像を生成する際にも、プロンプトが意味する要素から、何らかのイメージをかき集めてきて、合目的的画像をでっちあげるんだろう(どうしているのかは知りません)。
巷では、AIによる動画生成が(一部で?)盛り上がっているようだが、もう、画像の生成自体は珍しくもなんともないような感じだな。
「Q.ホンダN-VAN e: (エヌバン イー)の画像を生成してください。」
「A.ホンダN-VAN e: (エヌバン イー)の画像です:\n」
画像は割愛する(白色の車体で生成した)。
「Q.この画像の自動車の色を黄色に変更してください。」
「A.私はそのようにプログラムされていません。」
うーん、プロンプトの投げ方がまずいのかな・・・。
「Q.赤い車体色のホンダN-VAN e: (エヌバン イー)の画像を生成してください。」
「A.赤い車体色のホンダN-VAN e: (エヌバン イー)の画像です:\n」
画像は割愛する(ちゃんと赤色の車体で生成した)。
ちなみに、ホンダN-VAN e:には、赤の車体色はない。
やれやれ・・・。
「Q.車体色を白色に変えてください。」
「A.大規模言語モデルとして私はまだ学習中であり、そちらについてお手伝いできる機能がありません。」
アップロードした画像や生成した画像の変換には限界があるようだ。
先日、ダルメシアンの画像を生成した際には、黄色い帽子を被せたり、背景を砂浜に変えたりとかできたんだがな。
AIで何が出来るのか、何が出来ないのかはよく分からないところもある。
実際に使ってみて、その辺りを探っていくしかないだろう。
ダルメシアンの画像についても、生成は出来てもそれをもとに変更することは出来なくなっていた。
「Q.背景が砂浜で、文字や画像が描かれていない黄色い帽子をかぶったダルメシアンの画像を生成してください。」
「A.背景が砂浜で、文字や画像が描かれていない黄色い帽子をかぶったダルメシアンの画像です:\n」
今度はちゃんとそれらしい画像を生成した。
うーん、ワケワカ・・・。
ちなみに、指示が「野球帽」じゃなかったので、麦わら帽子になってたけどな。
画像の編集機能について、AI側で何か変更を掛けた可能性もあるな(未確認)。
良く見ると、回答には以下の文書が添付されている。
「他に何か画像を生成しますか?」
画像を保持して編集することに制限がかかった感じだ。
今日は、何度か混雑のために処理が中断された。
「現在リクエストが多数届いているため、対応できませんでした。しばらくしてからもう一度お試しください。」
まあ、無料版だからな・・・。

最近のコメント