偽のジェミニハンズオン動画は、AIの未来ではなく、グーグルの手先の素早さを見せる

ジェミニハンズオン動画は、映画のゲームトレーラーと同じくらいリアルだった。

グーグルは今週、ジェミニを発表した。ジェミニはChatGPTと競合するマルチモーダルAIであり、テキスト、画像、オーディオ、ビデオ、コードと対話できる。グーグルI/Oの後、ジェミニに対する期待は高まったが、今は AI モデルのカーテンの奥を垣間見ることができ、それは見栄えの良いものではない。

ジェミニは有望だが、グーグルが共有したハンズオン動画は偽物なので、新しいツールに対する期待を和らげる必要がある。これは強い言葉のように思えるかもしれないが、ブルームバーグのパミー・オルソンは、グーグルの動画がジェミニが現実世界でどのように機能するかを表現していないことを示した。

グーグルがどのように動画を作成したかについて説明する前に、クリップが完全に作り物ではないことを明確にしておきたい。グーグルはジェミニを使用してオブジェクトを特定し、画像の中で何が起こっているかを理解した。しかし、グーグルが行わなかったことは、ジェミニを使用するときの実際の体験を示す本物のハンズオン動画を作成することだった。

製品のハンズオン動画を見ると、現実世界の使用状況を反映したコンテンツを期待する。たとえば、YouTubeのレビュアーが新しいVRヘッドセットのハンズオンを行った場合、その動画には実際のゲームプレイ、視野の様子、コントロールの機能を示してほしいと思うだろう。同様に、携帯電話のハンズオンでは、携帯電話が実際にどのように機能するかを示し、スピードアップしたり、クリップをつなぎ合わせたりしないようにする必要がある。

ほとんど、あるいはすべての製品デモがつなぎ合わされており、強調されている製品の欠陥は示されていないと主張するかもしれない。しかし、よく言われるように、2つの間違いが正しいことを生み出すことはない。

グーグルがジェミニハンズオンを偽造する方法

動画では、ユーザーがカップにボールを隠そうとしたり、アヒルを描いたり、地図を使ってゲームをしたりするなど、さまざまなタスクを実行する。クリップ全体を通して、ジェミニはリアルタイムで何が起こっているかをナレーションし、すべてをその場で理解している。しかし、動画では見えないのは、グーグルがジェミニのデモを作成するためにテキストプロンプトを使用し、コンテキストを提供していたということだ。

グーグルは、キャプチャされたコンテンツの静止画フレームに基づいて、ジェミニにプロンプトを与えた。次に、会社は AI モデルにテキストでプロンプトを与えた。ナレーションはその後で追加された。

実際、動画に表示されているプロンプトはジェミニに与えられたものでさえなかった。動画では、ジェミニがテーブルに置かれた3つのカップを見て、ユーザーがゲームをしようとしていることをすぐに判断しているように見える。実際には、グーグルはジェミニにゲームのプレイ方法をトレーニングした。次に、ジェミニが非常に具体的な指示に従う能力についてテストした。そのような状況でも、ジェミニはそのタスクを完璧にこなすわけではない。

「もちろん、この課題が常にうまくいくとは限りません。時には、偽の動き(2つの空のカップを入れ替える)に惑わされることもあるが、時にはそれを理解することもある。しかし、このような単純なプロンプトによって、ジェミニを迅速にテストすることが本当に楽しくなる」とグーグルは説明した。

グーグルのジェミニのハンズオン動画が、手先の素早さで知られるトリックを使用したことはかなり適切だ。

グーグルは偽のジェミニ動画を擁護

「ハンズオンウィズジェミニ」動画に対する関心を見て、とても嬉しく思います。昨日の開発者ブログでは、ジェミニを使用して動画を作成する方法を説明しました。https://t.co/50gjMkaVc0Weはジェミニにさまざまなモダリティのシーケンス(この場合は画像とテキスト)を与え、それに応答させました... pic.twitter.com/Beba5M5dHPDecember 7, 2023

詳細を見る

グーグルのリサーチおよびディープラーニング担当VPのオリオール・ビニャルスは、Xで動画を擁護した。

「動画内のすべてのユーザープロンプトと出力は本物であり、簡潔にするために短縮されています。動画はジェミニで構築されたマルチモーダルユーザーエクスペリエンスがどのように見える可能性があるかを説明しています。開発者にインスピレーションを与えるために作成しました」とビニャルスは述べた(強調は筆者による)。

こんなことを言わなければならないとは驚きだ。「どのように見える可能性があるか」はハンズオン動画ではない。

グーグルは動画の説明に、会社がコンテンツを作成した方法を説明したブログ記事へのリンクを掲載した。そのブログ記事では、グーグルがジェミニに反応させるためにいくつかのプロンプトと手がかりを使用したという事実を隠していない。しかし、動画の説明の「...詳細」セクションの下にあるブログ記事のリンクは、動画で何が起こっているかを説明するのと同じではない。それは確かに「ハンズオン」というフレーズの誤った使用を訂正するものではない。

必要なのはもう少し透明性だけ

グーグルがなぜそのようなことをしたのかは理解できる。アマゾンは今年初めに、真のライブデモでエコーショー8を披露しようとしたが、うまくいかなかった。「アレクサ」と言うことでデバイスを呼び出すと、応答が遅くなった。パフォーマンスも良くなく、デバイスは不評を買った。

しかし、製品の真のライブデモによってその製品が悪く見えるのであれば、人々はそれを知るべきだと主張したい。ゲームのトレーラーが素晴らしく見え、ゲームがひどい場合、人々は誤解を招かれたことに腹を立てるだろう。グーグルのハンズオン動画がどう違うのかわからない。