😼小人閑居してペイントを成す:砂漠の道にワープ ― 2025年05月10日 17:34
小人閑居してペイントを成す:砂漠の道にワープ
([ペイント] 画像の背景を透明にする方法を教えてください。)
https://www.fmworld.net/cs/azbyclub/qanavi/jsp/qacontents.jsp?PID=7311-3695#tejun2
「Windows 11標準の「ペイント」アプリで、画像の背景を透明にする方法を教えてください。」
「Windows 11のペイントには、画像の背景を自動的に認識して透明にできる、「背景の削除」機能があります。
「背景の削除」機能を使って、背景を透明にします。」
昨日、サツキが咲き乱れる散歩道から消してしまったカップルを、砂漠の一本道にワープさせる。
実際には、元画像から背景を消して(透明化し)、新たにジェミニに作ってもらった画像の上に、ぞんざいに(まったくテキトーに)貼り付けただけ・・・。
背景を消すだけじゃなく、「透明化」して、他の画像の上に重ねることが出来るところがミソなわけだ。
おおきさとか、影の付き方とか、不自然な感じで、如何にも「貼り付けました感」溢れる仕上がりだけど、それはそれでいい。
AIなら、もう少しうまくやるに違いない。
人の手で行うコラージュの味がある(そういうことかあ?)。
画像の加工に興味がなかった浮沈子は、今頃になってこんな作業を覚えた。
しかし、確かに面倒くさいことは面倒くさい。
言葉で指示して、「砂漠の中の道を歩く若い男女の後ろ姿」をAIに描いてもらうのが早道だ。
「砂漠の中の道を歩く若い男女の画像です。」(画像は割愛する:正面向いた画像を作成してきた!)
後ろ姿だって、言ってんじゃん!?。
まあ、どうでもいいんですが・・・。
浮沈子の「ペイント」修行も怪しげだが、ジェミニの画像生成もテキトーだな・・・。
([ペイント] 画像の背景を透明にする方法を教えてください。)
https://www.fmworld.net/cs/azbyclub/qanavi/jsp/qacontents.jsp?PID=7311-3695#tejun2
「Windows 11標準の「ペイント」アプリで、画像の背景を透明にする方法を教えてください。」
「Windows 11のペイントには、画像の背景を自動的に認識して透明にできる、「背景の削除」機能があります。
「背景の削除」機能を使って、背景を透明にします。」
昨日、サツキが咲き乱れる散歩道から消してしまったカップルを、砂漠の一本道にワープさせる。
実際には、元画像から背景を消して(透明化し)、新たにジェミニに作ってもらった画像の上に、ぞんざいに(まったくテキトーに)貼り付けただけ・・・。
背景を消すだけじゃなく、「透明化」して、他の画像の上に重ねることが出来るところがミソなわけだ。
おおきさとか、影の付き方とか、不自然な感じで、如何にも「貼り付けました感」溢れる仕上がりだけど、それはそれでいい。
AIなら、もう少しうまくやるに違いない。
人の手で行うコラージュの味がある(そういうことかあ?)。
画像の加工に興味がなかった浮沈子は、今頃になってこんな作業を覚えた。
しかし、確かに面倒くさいことは面倒くさい。
言葉で指示して、「砂漠の中の道を歩く若い男女の後ろ姿」をAIに描いてもらうのが早道だ。
「砂漠の中の道を歩く若い男女の画像です。」(画像は割愛する:正面向いた画像を作成してきた!)
後ろ姿だって、言ってんじゃん!?。
まあ、どうでもいいんですが・・・。
浮沈子の「ペイント」修行も怪しげだが、ジェミニの画像生成もテキトーだな・・・。
🌵動かぬ証拠:まあ静止画ですから ― 2025年05月10日 18:08
動かぬ証拠:まあ静止画ですから
「砂漠の中の道を歩く若い男女の後ろ姿の画像を作成してください。」
「砂漠の中の道を歩く若い男女の画像です。」
「後ろ姿」と指示したにもかかわらず、正面の画像を生成してくるとはけしからん!。
が、影のつけ方とかも背景と整合しているし、明るい戸外ということで男女ともサングラスを掛けているところなどは芸が細かい。
砂漠というと、浮沈子的イメージは「砂」の印象が強いんだが(アラビアのロレンスの影響かあ?)、ジェミニはそうでもないようで、柱状のサボテンが立ち並んでいたりする。
前の画像では、比較的平らで広大なイメージだったが、人間を配置するという命題を与えられると何か配慮し出すのかもしれない。
学習したサンプルや構図の中から、バランスのいいのを選んでいるのかもな(未確認)。
写っているサボテンについて聞いてみよう。
「画像のサボテンの種類は何ですか?。」
「この画像に写っているサボテンは、サワロサボテン(学名:Carnegiea gigantea)である可能性が高いです。
その理由は、以下の特徴がサワロサボテンと一致するためです。
・高い円柱状の幹:画像に写っているサボテンは、太く直立した幹を持っています。
・上向きに伸びる腕:成熟したサワロサボテンは、幹の上部からいくつかの腕を伸ばす特徴があります。画像にもそのような形状のサボテンが見られます。
・砂漠の景観:サワロサボテンは、主にアメリカ合衆国南西部とメキシコ北西部のソノラ砂漠に自生しています。画像の乾燥した砂漠のような風景も、サワロサボテンの生育環境と一致します。
ただし、写真だけでは完全に断定することは難しい場合もあります。他の種類の柱サボテンも似たような形状を持つことがあるためです。しかし、一般的な形状と生育環境から判断すると、サワロサボテンである可能性が高いと言えます。」
相変わらず、画像解析については優れた能力を発揮しているといえる。
ジェミニは、基本的にはテキストベースのAIだ。
画像を解析し、テキストに直し、その上で様々な判断をしているように思える(そうなのかあ?)。
「画像の乾燥した砂漠のような風景」(再掲)
画像全体を把握している感じもする(ちょっと不気味・・・)。
どうなんだろうな・・・。
「砂漠の中の道を歩く若い男女の後ろ姿の画像を作成してください。」
「砂漠の中の道を歩く若い男女の画像です。」
「後ろ姿」と指示したにもかかわらず、正面の画像を生成してくるとはけしからん!。
が、影のつけ方とかも背景と整合しているし、明るい戸外ということで男女ともサングラスを掛けているところなどは芸が細かい。
砂漠というと、浮沈子的イメージは「砂」の印象が強いんだが(アラビアのロレンスの影響かあ?)、ジェミニはそうでもないようで、柱状のサボテンが立ち並んでいたりする。
前の画像では、比較的平らで広大なイメージだったが、人間を配置するという命題を与えられると何か配慮し出すのかもしれない。
学習したサンプルや構図の中から、バランスのいいのを選んでいるのかもな(未確認)。
写っているサボテンについて聞いてみよう。
「画像のサボテンの種類は何ですか?。」
「この画像に写っているサボテンは、サワロサボテン(学名:Carnegiea gigantea)である可能性が高いです。
その理由は、以下の特徴がサワロサボテンと一致するためです。
・高い円柱状の幹:画像に写っているサボテンは、太く直立した幹を持っています。
・上向きに伸びる腕:成熟したサワロサボテンは、幹の上部からいくつかの腕を伸ばす特徴があります。画像にもそのような形状のサボテンが見られます。
・砂漠の景観:サワロサボテンは、主にアメリカ合衆国南西部とメキシコ北西部のソノラ砂漠に自生しています。画像の乾燥した砂漠のような風景も、サワロサボテンの生育環境と一致します。
ただし、写真だけでは完全に断定することは難しい場合もあります。他の種類の柱サボテンも似たような形状を持つことがあるためです。しかし、一般的な形状と生育環境から判断すると、サワロサボテンである可能性が高いと言えます。」
相変わらず、画像解析については優れた能力を発揮しているといえる。
ジェミニは、基本的にはテキストベースのAIだ。
画像を解析し、テキストに直し、その上で様々な判断をしているように思える(そうなのかあ?)。
「画像の乾燥した砂漠のような風景」(再掲)
画像全体を把握している感じもする(ちょっと不気味・・・)。
どうなんだろうな・・・。
😼この世はアナログで出来ている ― 2025年05月10日 21:31
この世はアナログで出来ている
(Gemini Live、遂にここまできた。「カメラで写して尋ねるだけ」の直感操作でもっと便利に)
https://www.gizmodo.jp/2025/05/gemini-live-camera.html
「スマートフォンのカメラで見ているものや画面に表示されている内容について、リアルタイムで質問に答えられるようになりました。」
「それはまるでGemini Liveがあなたの周囲の世界を実際に見ているかのようです。」
浮沈子が格闘中(そうなのかあ?)の無料で使えているジェミニだって、カメラで撮ってウェッブから上げてプロンプトを投げれば、同じことは出来る。
「画像に写っているものについて説明してください。」
「画像に写っているのは、ダイビングコンピュータの Shearwater Peregrine だと思われます。
特徴としては、
・フルカラーの大きな画面で、水中で見やすいように設計されています。
・2つのボタンによるシンプルな操作インターフェースを採用しています。
・ワイヤレス充電に対応しています。
・複数のダイビングモード(エアー、ナイトロックス、3ガスナイトロックス、ゲージ)に対応しています。
・減圧停止を含む、本格的な減圧アルゴリズムを搭載しています。
・Bluetoothによるワイヤレス通信機能を備えています。
・振動アラート機能を搭載しています。
これらの特徴から、画像に写っているのはShearwater Peregrineである可能性が高いと考えられます。」
ははあ、外観・形状から機種を推定して、知識ベースの中からネタをほじくり出してきて蘊蓄を垂れるわけだ(特徴として挙げられている要素は、いずれも画像からは判断できないものばかりだ:特定の理由にはなっていない)。
プロセスとしては、アナログ→デジタルな順番になる。
スマホをインターフェースとして、会話とカメラでAIにアクセスさせるというジェミニライブは、中身はこれと同じことなわけだ(未確認)。
「新しいインターフェースを活用できるようになったからといって、Gemini AIの信頼性が以前よりも増したという訳ではないということです。」
健全な記事だな・・・。
「Gemini Liveの返答の速さ、冷静で安心感のある対応には文句のつけようがありません。しかし、結果の質に関してはまだ課題が残っています。」
「インターフェースのおかげで、ときにはまるで魔法のように感じることもありますが、だからといって毎回内容を二重にチェックしなければならないのは、理想的とは言えません。」
バックグラウンドでブン回っているのはふつーのジェミニ(2.5?)だろうから、何が変わったというわけではないんだろう。
アーリーアダプターが使いだせば、大量のデータが集まり始めて飛躍的に精度が上がることも期待されるけど、一方でノイズも増えてハルシネーション(幻覚)の嵐になることも考えられるからな。
「Samsungは「いつでも助けてくれる信頼できる友人のような感じ」と述べており・・・」
冗談はよしてくれ!(そうなのかあ?)。
カメラで写したり、自然言語で話しかけたりしてコミュニケーションを図るというのは好ましい。
「本質的には、これは強化された即時対応型のビジュアル検索といえます。以前なら、同じ質問をするのに「UN3481 ラベル」とGoogleに入力していたところでしょう。」
「しかし、従来の検索結果のように青文字のリンクが一覧で表示されるわけではなく、自分で情報を確認したり、その信頼性や権威性を判断したりすることができる検索とは違って、Gemini Liveはそのプロセスが見えないブラックボックスのような存在」
これは、想定内とはいえ重要な指摘だ。
「検索」は、「自分で情報を確認したり、その信頼性や権威性を判断したりすることができる」が、「Gemini Liveはそのプロセスが見えないブラックボックス」になってしまっていて、盲目的に信じやすいということなわけだ。
画像から判定させたダイコン(シェアウォーターのペレグリン)のスペックは正しかったが、仮に別の機種と誤って判断したとしても、ユーザーには確認するすべが提供されないに違いない(未確認)。
アナログからデジタルに変換する際の手間は人間にとっては煩わしいけど、そのプロセスの中で、或いはデジタルとしての回答を得て、再び人間側で解釈される過程で、誤謬が訂正されたり気付いたりする機会が確保されているともいえる。
アナログ(画像)から、直接AIが判定する中では、実際に何が起こっているのか分からんからな。
記事を読んでいて、このシチュエーションでの使われ方は、アップルのSiriが目指しているものではないかという気がしてきた。
アップル側では、バックグラウンドのAIの性能を試しているんだろうけど、この為体(ていたらく)では到底実用にならんと見ているんだろう。
不明確なら、ユーザーに問い返しを繰り返して精度を上げていくことになるんだろうが、答えが収束せずに発散や迷走に陥っているに違いない(未確認)。
この世は0と1とで出来ているわけじゃない(マトリックスでなければ!)。
コンピューターという便利な機械が処理しやすいように、こうしてキーボード叩いたりして人間が合わせているだけだ。
人の世は、全てアナログで出来ている。
義理と人情のこの世界、ジェミニでもシリでもいいけど、どう乗り切っていこうとしているのか見ものだな・・・。
(Gemini Live、遂にここまできた。「カメラで写して尋ねるだけ」の直感操作でもっと便利に)
https://www.gizmodo.jp/2025/05/gemini-live-camera.html
「スマートフォンのカメラで見ているものや画面に表示されている内容について、リアルタイムで質問に答えられるようになりました。」
「それはまるでGemini Liveがあなたの周囲の世界を実際に見ているかのようです。」
浮沈子が格闘中(そうなのかあ?)の無料で使えているジェミニだって、カメラで撮ってウェッブから上げてプロンプトを投げれば、同じことは出来る。
「画像に写っているものについて説明してください。」
「画像に写っているのは、ダイビングコンピュータの Shearwater Peregrine だと思われます。
特徴としては、
・フルカラーの大きな画面で、水中で見やすいように設計されています。
・2つのボタンによるシンプルな操作インターフェースを採用しています。
・ワイヤレス充電に対応しています。
・複数のダイビングモード(エアー、ナイトロックス、3ガスナイトロックス、ゲージ)に対応しています。
・減圧停止を含む、本格的な減圧アルゴリズムを搭載しています。
・Bluetoothによるワイヤレス通信機能を備えています。
・振動アラート機能を搭載しています。
これらの特徴から、画像に写っているのはShearwater Peregrineである可能性が高いと考えられます。」
ははあ、外観・形状から機種を推定して、知識ベースの中からネタをほじくり出してきて蘊蓄を垂れるわけだ(特徴として挙げられている要素は、いずれも画像からは判断できないものばかりだ:特定の理由にはなっていない)。
プロセスとしては、アナログ→デジタルな順番になる。
スマホをインターフェースとして、会話とカメラでAIにアクセスさせるというジェミニライブは、中身はこれと同じことなわけだ(未確認)。
「新しいインターフェースを活用できるようになったからといって、Gemini AIの信頼性が以前よりも増したという訳ではないということです。」
健全な記事だな・・・。
「Gemini Liveの返答の速さ、冷静で安心感のある対応には文句のつけようがありません。しかし、結果の質に関してはまだ課題が残っています。」
「インターフェースのおかげで、ときにはまるで魔法のように感じることもありますが、だからといって毎回内容を二重にチェックしなければならないのは、理想的とは言えません。」
バックグラウンドでブン回っているのはふつーのジェミニ(2.5?)だろうから、何が変わったというわけではないんだろう。
アーリーアダプターが使いだせば、大量のデータが集まり始めて飛躍的に精度が上がることも期待されるけど、一方でノイズも増えてハルシネーション(幻覚)の嵐になることも考えられるからな。
「Samsungは「いつでも助けてくれる信頼できる友人のような感じ」と述べており・・・」
冗談はよしてくれ!(そうなのかあ?)。
カメラで写したり、自然言語で話しかけたりしてコミュニケーションを図るというのは好ましい。
「本質的には、これは強化された即時対応型のビジュアル検索といえます。以前なら、同じ質問をするのに「UN3481 ラベル」とGoogleに入力していたところでしょう。」
「しかし、従来の検索結果のように青文字のリンクが一覧で表示されるわけではなく、自分で情報を確認したり、その信頼性や権威性を判断したりすることができる検索とは違って、Gemini Liveはそのプロセスが見えないブラックボックスのような存在」
これは、想定内とはいえ重要な指摘だ。
「検索」は、「自分で情報を確認したり、その信頼性や権威性を判断したりすることができる」が、「Gemini Liveはそのプロセスが見えないブラックボックス」になってしまっていて、盲目的に信じやすいということなわけだ。
画像から判定させたダイコン(シェアウォーターのペレグリン)のスペックは正しかったが、仮に別の機種と誤って判断したとしても、ユーザーには確認するすべが提供されないに違いない(未確認)。
アナログからデジタルに変換する際の手間は人間にとっては煩わしいけど、そのプロセスの中で、或いはデジタルとしての回答を得て、再び人間側で解釈される過程で、誤謬が訂正されたり気付いたりする機会が確保されているともいえる。
アナログ(画像)から、直接AIが判定する中では、実際に何が起こっているのか分からんからな。
記事を読んでいて、このシチュエーションでの使われ方は、アップルのSiriが目指しているものではないかという気がしてきた。
アップル側では、バックグラウンドのAIの性能を試しているんだろうけど、この為体(ていたらく)では到底実用にならんと見ているんだろう。
不明確なら、ユーザーに問い返しを繰り返して精度を上げていくことになるんだろうが、答えが収束せずに発散や迷走に陥っているに違いない(未確認)。
この世は0と1とで出来ているわけじゃない(マトリックスでなければ!)。
コンピューターという便利な機械が処理しやすいように、こうしてキーボード叩いたりして人間が合わせているだけだ。
人の世は、全てアナログで出来ている。
義理と人情のこの世界、ジェミニでもシリでもいいけど、どう乗り切っていこうとしているのか見ものだな・・・。
最近のコメント