te101

AI が人間の指を描くのが苦手な理由を説明

(jp) =

親指の非常に動揺のコレクション。

画像: ドールE2

どこに座っても AIモデルと、新しい画像、アートワーク、文章、さらには映画を生成するためのデータセットの使用に関する膨大で複雑な議論、誰もが同意できることが1つあります。それは、人間の手を描くのが気味が悪いということです。 しかし、なぜ? 特に、AI が非常に複雑に見える人間の顔を再現できる場合はなおさらです。 その答えを見つけるために、私たちはこのテーマの第一人者である AI に話を聞くことにしました。

チャットGPT は今のところ最もよく知られている AI 言語モデルであり、自然な会話を行い、複雑な質問に答え、並外れた詩、文章、さらには最も複雑な人間の談話であるゲーム ジャーナリズムを生成する能力により、世界中で大きな方法を生み出しています。 . ただし、写真、音楽、またはビデオをレンダリングすることはまだできないため、これらの分野ではより公平な情報源です。

AIが指で苦労する理由に関するChatGPT

私は、ChatGPT に「なぜ AI は人間の指のレンダリングが苦手なのですか?」と質問することから始めました。

「リアルな人間の指をレンダリングすることは、高度に関節があり、複雑な形状とテクスチャを持っているため、AI にとっては困難です。 」

これはすべて確かに当てはまりますが、いくつかの重要な要素が見落とされています. 第一に、AI はすでに驚くほど正確な人間の顔をレンダリングすることに長けています。顔は手よりも複雑な構造であることは間違いありません。 番号 指の正しい。

「AI を利用したツールやアプリケーションの中には、目、鼻、口などの顔の特徴を含む顔のリアルな画像を生成できるものがあります」と ChatGPT は、この矛盾を説明したときに言いました。 「これらのアプリケーションの背後にあるテクノロジーは、人間の顔の大規模なデータセットでトレーニングされた機械学習アルゴリズムに基づいており、リアルな顔を作成するために必要なパターンと詳細を学習できます。 ただし、高度なアルゴリズムと大規模なデータセットを使用しても、指のレンダリングは AI にとって依然として困難なタスクです。」

なんてこった、親指。

画像: ドールE2

しかし、なぜ? 人間は顔に関して信じられないほどうるさいので、左右対称の標準から逸脱しているものにはすぐにすぐに気付くことができますが、指が完全に欠けているなどの明らかな何かに気付くには長い時間がかかる場合があります。 AI にその逆が当てはまるというのは奇妙に思えます。

「顔は、可動部分が少なく、表面の質感がより均一であるため、比較的簡単にモデル化できます」と ChatGPT 氏は述べています。 「人間の脳は顔の表情や特徴にも非常に敏感であるため、説得力のある顔を生成するタスクは AI 研究者にとって最優先事項です。 その結果、AI はリアルな顔の生成において大きな進歩を遂げましたが、指のレンダリングは依然として困難な作業であり、さらなる研究と開発が必要です。」

続きを読む: ああ、ChatGPT は脱獄されて無謀になりました

開発者の優先順位の欠如と同じくらい単純かもしれませんが、それでも 5 つまで数えられないのは奇妙に思えます。 この時点で、ChatGPT は、AI が攻撃されたときに忍び寄る傾向がある防御力の一部を示し始めました。 「AI はリアルな画像の生成において大きな進歩を遂げましたが、一部の AI モデルでは画像内の正しい指の数を正確に生成することが困難であることは事実です」と、データセットが十分に大きくない可能性があると再び主張し始めました。 しかし、「しかし、すべての AI モデルが指のレンダリングに問題があるわけではなく、一部のモデルは非常に説得力のある手と指の画像を生成できたことは注目に値します。 高度なニューラル ネットワーク アーキテクチャの開発、およびトレーニングとデータ拡張のための新しい技術は、将来的に現実的な指をレンダリングする際のいくつかの課題に対処するのに役立つ可能性があります。」

では、どちらが成功しているのでしょうか? 「その一例がディープ ハンド モデルです。これは、3D ハンド モデルを使用してリアルな手のポーズと形状を生成する生成モデルです。 もう 1 つの例は、Self-Attention Generative Adversarial Network (SAGAN) です。これは、高レベルのディテールとリアリズムを備えたリアルな手の画像を生成するために使用されています。」

Chatsonic による、動揺するほど間違った人間の手。

画像: チャットソニック

指が重要な理由に関するChatGPT

しかしその後、ChatGPT は会話自体をより興味深い領域に移しました。 私たちが疑問に思うかもしれない限り なぜ AIが手を作る 不可能なトライデント、なぜそれが重要なのかを尋ねるのをやめるのはあまりにも簡単です。 幸いなことに、ChatGPT は私よりもはるかに先を行っていました。 「手のジェスチャーや手話など、特定のタイプの手の画像の生成に特化した AI モデルもあります」と、それは述べています。 「たとえば、Sign Language Transformer (SLT) は、手話のビデオを自然言語のテキストに変換するようにトレーニングされた AI モデルであり、手の指の位置と向きを正確に予測できる手の姿勢推定器が含まれています。 」

チャット ボットによると、SLT は「畳み込みニューラル ネットワーク」を介して後者を実現し、この情報を「一連の 変圧器層」、「手話ジェスチャーの時空間情報をエンコードする」。 最後に、「デコーダ ネットワーク」が対応する自然言語テキストを生成します。

GPT は、「聴覚障害者や難聴者のコミュニティのコミュニケーションとアクセシビリティ、および手のジェスチャーの解釈を含むその他のアプリケーションを改善する可能性があります」と付け加えています。

人間の指をよりよく理解することに焦点を当てるための他の実用的な用途があるかどうかを尋ねたところ、GPT はすべてのリストを提供してくれました。

  1. ジェスチャー認識: 改善された指のレンダリングにより、AI は人間のジェスチャーをより正確に認識して解釈できるようになり、仮想現実、ゲーム、ロボット工学など、多くの潜在的な用途があります。
  2. 医療アプリケーション: 高度な指のモデリングとレンダリング技術を医療シミュレーションで使用して、顕微手術などの複雑な手順について外科医や医学生を訓練することができます。
  3. ヒューマン コンピューター インタラクション: 指の位置と動きを正確にモデル化することで、AI を使用して、コンピューターやその他のデバイス用のより自然で直感的なインターフェイスを開発できます。
  4. セキュリティ: 指紋認識は広く使用されている生体認証技術であり、指紋のレンダリングが改善されれば、この技術の精度と信頼性が向上する可能性があります。
  5. アクセシビリティ: 改善された指のレンダリングは、義手やオブジェクトをより簡単に操作できるデバイスなど、障害を持つ人々のためのより効果的な支援技術を作成するのに役立ちます。

非常に多くの実用的なアプリケーション、特に障害のある人にとって有益なアプリケーションが非常に多いことを考えると、これが人間の顔に焦点を当てることを少し独特にするのではないかと思いました.

「プログラマーが AI 研究で顔に重点を置いてきたのは、必ずしも特殊なことではありません」と GPT は答えました。 人間の顔は身体の中でも複雑で表現力の高い部分であるため、AI の研究において興味深く挑戦的な分野となっています。」

「そうは言っても、手や指など、身体の他の領域を調査し、これらの身体部分の AI の理解とレンダリングを改善することには確かに価値があります。

チャットソニックがなぜ人間が今でも最高なのか

ライバルAI チャットソニック はるかに幅広い AI 機能を提供しますが、正確または首尾一貫した応答を提供する可能性ははるかに低くなります (ある会話中に、私はそれを見つけました)。 自分の頭を取り除くことの精神的健康上の利点を私に支持する)—トピックに応答させようと思いました。 人間の手の画像をいくつか作成するように依頼することから始めましたが、ChatGPT ではできないことです (もちろん、ChatGPT の背後にあるグループである OpenAI も DALL-E を所有しています)。 彼らは私たちが慣れ親しんでいるのと同じくらいひどく不気味でした.

「解剖学的に正しい」人間の手。

画像: チャットソニック

続いて、なぜ AI がこれほど苦手なのかについても尋ねました。 「AI アルゴリズムはまだ開発中であり、現在、人間の手を現実的な方法で正確にレンダリングすることはできません」と Chatsonic は、ChatGPT が通常提供するよりもはるかに率直に述べました。 「AI アルゴリズムは、人間の解剖学的構造や動きの複雑な詳細を認識するように設計されていないため、現実的な方法で人間の手を正確に再現することはできません。」 「AIアルゴリズムが改善し続けるにつれて、最終的には人間の手描きに匹敵するレベルの精度に到達する可能性が高い」

もう一度押したのですが、なぜ正しい指の数を取得できないのでしょうか? 「AI アルゴリズムは、人間の手を互いに区別する詳細を正確に認識できるほどにはまだ進歩していません」と述べ、これらのアルゴリズムベースのプログラムからはあまり見られない謙虚さで、「人間の手の解剖学的構造のニュアンスは、人間の手には、AI アルゴリズムがまだ到達していないレベルの精度と複雑さが必要です。 これが、人間の手のリアルなデジタル レプリカを作成する場合、依然として人間が最良の選択である理由です。」

最後に、両方の AI に、現在の無能さが利点であると考えているかどうかを尋ねました。これにより、人がコミュニケーションを取っているのが人と AI のどちらであるかを簡単に区別できるからです。 はるかに従順なChatsonicはすぐに同意しました. “絶対!” それは答えた。 「AI が人間の手を正確にレンダリングできないことは、AI との相互作用と実際の人間との相互作用を区別するための非常に貴重な方法を提供します。 これにより、より安全なオンライン環境を構築し、ユーザーが誰と通信しているかを確認できます。 さらに、AI が人間のふりをして人を利用できないようにするのにも役立ちます。」

その間、果てしなく退屈なChatGPTと、その意見の欠如を際限なく通知するというその妄想的な要件は、「攻撃性」に関する血まみれの立場と並んで、はるかに優勢でした.

「AI 言語モデルとして、私は個人的な意見や感情を持っていません。 しかし、AI が人間の手を正確にレンダリングすることの難しさを、人間の反応と AI の反応を区別する方法を提供するという点でポジティブだと考える人がいる理由は理解できます」聞かれませんでした。 しかし、そのすべての中で、それははるかに否定的なトーンを示唆していました. 「究極的には、AI 研究の目標は、人間と同等またはそれ以上のタスクを実行できるシステムを開発することです。 特定のタスクにおける AI の限界により、今日では人間と AI の反応を区別する方法が提供されるかもしれませんが、AI 技術が進歩し続けるにつれて、この区別は将来的にはあまり明確ではなくなる可能性があります。」

次の投稿
ラスト オブ アス エピソード 5 のブローター シーンの撮影方法 – スポイラー
前の投稿
ポルトガルの 10 の美しい国立公園

ノート:

AZ: 動物の世界、ペット、ペット、野生の自然に関するカテゴリー記事…
SP:スポーツカテゴリー。
New vs Ne: ニュースコラム。
Te: テクノロジー カテゴリ。
Gt:エンターテインメントカテゴリー。
Bt: 占い、星占い、超常現象、超常現象。
Ta:人生コラム。