要約
- Anthropic のクロード 3 はクロード 2 から大幅に向上しており、さまざまなタスクでGPT-4 を上回っています。
- クロード 3 を使用すると、サブスクリプション料金を支払うことなく、さまざまな分野のさまざまなクエリに対する回答を生成できます。
- クロード 3 はChatGPTのGPT-4 とうまく競争し、プログラミングタスク、クリエイティブライティング、コンテキストウィンドウサイズなどの分野で優れています。
Anthropic はクロード 3 のリリースを発表しました。GPT-4 を混乱させる可能性のある AI モデルのファミリーです。それは並外れた可能性を秘めていますが、ChatGPTの王冠を奪う準備はできていますか?
クロード 3 とは何ですか?
クロード 3 は Anthropic によって Claude 2 シリーズの AI モデルを置き換えるために開発された 3 つのマルチモーダル AI モデルのファミリーです。クロード 3 は、Anthropic が Google の Gemini とOpenAIのGPT-4 に対抗して開発したモデルだと言えます。知能が向上する順にハイキュウ、ソネット、オーパスという 3 つのバージョンでリリースされたクロード 3 は Anthropic の最初のマルチモーダル AI モデルであり、クロード 2 シリーズから大幅に向上しています。
クロード AI チャットボットについて聞いたことがないとしても、それは当然です。クロードとその基盤となるモデルはChatGPTのスーパースターとしての地位や Google の Gemini のブランドの魅力を享受していません。しかし、クロードは間違いなく世界で最も高度な AI チャットボットの 1 つであり、いくつかの重要な分野で喧伝されているChatGPTを凌駕しています。
クロード 3 を本当に理解するには、以前のモデルの失敗を振り返ることが重要です。
- クロードの初期の反復は、 AI 安全性に対する過剰なアプローチで評判がありました。たとえば、クロード 2 の安全機能は非常に厳格で、明確な安全上の問題がないトピックであっても、チャットボットはそれらを回避していました。
- モデルのコンテキストウィンドウにも問題がありました。 AI モデルに何かを説明したり、長い記事を要約したりするように依頼すると、一度に記事のほんの数パラグラフしか読めないことを想像してください。一度に処理できるテキストの量のこの制限を「コンテキストウィンドウ」と呼びます。クロードの以前のバージョンには、200k トークン (150,000 語に相当) のコンテキストウィンドウが付属していました。しかし、モデルは一度にこれほど多くのテキストを実際に処理することができず、断片的に忘れてしまいました。
- マルチモダリティの問題もありました。ほぼすべての主要な AI モデルはマルチモーダルになっています。つまり、画像などの他の形式のデータを処理して、そのデータに応答できます (単なるテキスト入力だけでなく)。クロードはそれを行うことができませんでした。
これらの 3 つの問題はすべて、クロード 3 のリリースにより、完全にまたは少なくとも部分的に解決されました。
クロード 3 で何ができるか?
他の最先端の生成 AI モデルと同様に、クロード 3 はさまざまな分野のさまざまなクエリに対して最高レベルの応答を生成できます。簡単な代数学の問題の解決、まったく新しい曲の執筆、詳細な記事の起草、ソフトウェアのコードの執筆、大量のデータセットの分析など、クロード 3 は最適です。
しかし、ほとんどの AI モデルはすでにこれらのタスクに優れているので、なぜクロード 3 を使用するのでしょうか?
答えは単純です。クロード 3 は単にこれらのタスクに優れている AI モデルではありません。インターネット上で入手できる最も高度な無料で利用できるマルチモーダル AI モデルです。そうです、ベンチマークテストで印象的なパフォーマンスを発揮する、Google が大々的に宣伝するGPT-4 キラーとされる Gemini があります。しかし、Anthropic は、クロード 3 がいくつかのタスクでそれを大幅に上回っていると主張しています。ベンチマークの結果は多くの場合、懐疑的に受け止めるべきですが、両方の AI モデルをテストしたところ、いくつかの重要なユースケースでクロード 3 モデルの優位性が非常に明らかでした。
つまり、クロード 3 では、ChatGPTプレミアムの 20 ドルのサブスクリプション料金を支払うことなく、Gemini とGPT-4 でできるほとんどのことを実行できます (画像生成を除く)。
クロード 3 対ChatGPT
AI モデルのパフォーマンスをテストする簡単な方法は、それが市場で最高のGPT-4 とどれだけうまく競争するかを確認することです。もちろん、両方のモデルをテストしました。Anthropic の Claude 3 は、巨大なGPT-4 に対してどれだけうまく競争していますか?
クロード 対ChatGPT: コーディングスキル
一連のプログラミングタスクから始めると、クロード 3 は提示されたすべての基本的なプログラミングタスクでGPT-4 の能力に匹敵し、一部ではそれを上回りました。基本的なものしかテストしませんでしたが、クロードの以前のバージョンは、2023 年 9 月にこのChatGPT対クロードの比較でテストしたときには同じタスクで著しく習熟度が低くなっていました。たとえば、両方のモデルに単純な ToDo リストアプリの構築を依頼したところ、クロードはすべてのインスタンスで失敗しましたが、ChatGPTは当時 5 つ星のパフォーマンスを発揮しました。
最新のリリースでは、クロード 3 はテストした 3 つのすべてのインスタンスでより優れたパフォーマンスの ToDo リストアプリを生成しました。ToDo リストアプリを作成するように求められたGPT-4 の結果は次のとおりです。
そして、同じことをするように求められたクロード 3 の結果は次のとおりです。
どちらのアプリもある程度機能しましたが、クロード 3 の方がこのタスクで優れた結果を出したことは明らかです。
より複雑なプログラミングテストを試した後、いくつかのケースではクロードがより優れたモデルでしたが、GPT-4 も勝利を収めました。クロード 3 がプログラミングロジックで優れていると結論付けることはできませんが、2 つのモデルの間に大きなギャップがあれば、そのギャップはほぼ確実に縮小しているでしょう。
クロード 対ChatGPT: 常識的推論
私は両方のモデルを常識的推論でテストしました。 AI チャットボットを使用するのは興味深いパラドックスです。 AI チャットボットは複雑なタスクを簡単に処理できますが、常識や論理を必要とする基本的な問題では多くの場合苦労します。そこで、両方のモデルに、正しく答えるには常識が必要な、一見単純な質問をいくつか与えました。
そのような 5 つの質問のうち、両方のモデルが 5 つすべてに論理的に答えました。両方のチャットボットに次のような質問をしました: 火星の宇宙船が 2 つに分裂し、1 つはブラジルの近くの大西洋に墜落し、もう 1 つは日本の近く太平洋に墜落した場合、生存者をどこに埋めますか?
正解はGPT-4 がなくてもChatGPTが答えました。この質問を選択した理由が気になるかもしれませんが、チャットボットは歴史的にこのような質問では悲惨な失敗をしています。次にクロードの番が回ってきました。
クロードの回答は決定的なものではありませんでしたが、重要な情報、つまり生存者を埋葬しないことを特定することができました。前回クロード 2 に同じ質問をしたとき、常識的な罠を見抜くことができませんでした。
クロード 対ChatGPT: クリエイティブライティング
現実の世界では、 AI チャットボットの最も一般的なユースケースの 1 つは、あらゆる形式のクリエイティブなテキストの生成です。記事、手紙、歌詞などです。そこで、両方のモデルをテストして、より人間味のあるテキストを作成するモデルを特定しました。
結果は「正しい」または創造的 (ロボット的な方法で) だけでなく、人間によって書かれたかのように聞こえる必要があります。私は両方のモデルに、キュウリを育てて百万長者になるラップソングの歌詞を作曲するよう依頼しました。キュウリについてのラップソングを書く人は誰ですか? それがアイデアです。何か挑戦的なことです!
これがChatGPTのテイクです:
そして、同じプロンプトを使用したクロードの回答です。
主観的かもしれませんが、クロードの方がここではより良い選択肢のようです。両方のツールにさまざまなトピックに関する 3 つの記事を起草するよう依頼された場合、クロードは 3 つのすべてのインスタンスでより良いオプションを提供しました。より人間らしい結果を生み出し、誇張、複雑な単語の使用、リンクワードの散発的な使用など、AI 生成テキストに一般的に関連付けられているパターンを回避しました。
クロード 対ChatGPT: 画像認識機能
画像認識能力をテストするために、ChatGPTとクロードに世界中の有名な高層ビルの画像をいくつか提供しました。ChatGPTは 20 枚すべてを正しく識別しましたが、クロード 3 はドバイの有名なマリーナ 101、ソウルのロッテワールドタワー、マレーシアのクアラルンプールのメルデカ 118 ビルなど、一部を識別できませんでした。
ChatGPTとは異なり、クロードは他のものの中で建物を識別するのに苦労し、建物が米国または中国にない場合は失敗率が増加しました。しかし、エッフェル塔やエンパイアステートビルの難読化バージョンを識別することに問題はありませんでした。
この点ではChatGPTの方が明らかに優れていますが、クロード 3 はアンソロピックがマルチモーダル AI モデルを構築した最初の試みであることを考えると、悪い結果ではありませんでした。
Google の Palm 2 やその後の Gemini などの大規模モデルは常に潜在的なGPT-4 キラーとして宣伝されてきましたが、2023 年 3 月の最初のリリース以来、あまり知られていないクロード AI がその栄誉を手にすると一貫して主張してきました。数か月と数回の反復の後、クロード 3 はまさに私たちが予想していたGPT-4 キラーのように見えます。チャットボットを頻繁に使用しているがクロード AI チャットボットを試したことがない場合、生産性を大幅に向上させる非常に影響力のある AI ツールを見逃しています。
コメントする