LLMの使い分けは本当に必要か？

先日リリースされた「GPT-4o」が話題を呼んでいる今日この頃ですね。

(以下参照記事)

OpenAI、次世代AIモデル「GPT-4o」を発表

“「GPT-5」じゃないのにこのクオリティ！” などと各所で噂になっており、日々AIをハックしている我々としては当然確認しないわけにいかず..。

以下の項目を中心に検証を行ってみました。

回答生成のスピード

「東京から大阪まで移動したいです。アドバイスをください。」

というプロンプトで「GPT-4」と「GPT-4o」にそれぞれ投げてみました。結果は以下の通り。

◼︎GPT-4

https://chatgpt.com/share/8b042db4-7a14-444e-852a-2231a5bfd218

◼︎GPT-4o

https://chatgpt.com/share/f18211ca-5890-44d6-b67d-7d366ef97d59

GPT-4が416文字の回答生成に28.2秒かかったのに対し、GPT-4oは854文字の回答をたったの17.3秒で生成しました。

1文字あたりの速度では 3.3倍 という脅威の数字です。

また、回答も非常に具体的で有用性がありますね。

画像認識の精度

(上がGPT-4、下がGPT-4o)

画像の中の情報を読み取る精度が大幅に向上しています。

また、説明が具体的で細かく、情報の取得漏れが少ない印象も受けますね。

上記以外にも音声での会話が以前より自然でスムーズになっていたりと、GPT-4と比較して大幅なクオリティの向上を実感できました。

そして「GPT-4」と「GPT-4o」の比較だけでなく、各種LLM間での比較も再熱しています。

(以下参照記事)

GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。※追記：嘘でした。Gemini 1.5 proもすごいです。

2023年までのいわゆる ”OpenAI一強時代” とは情勢が少し変わり、「このタスクならこのLLMがいい」といった風な分散のトレンドが見え始めてきました。

「Web2.0」から「Web3.0」への変遷と雰囲気が似ていますが、これについて我々の社内の人間が語るとかれこれ6時間くらいはかかってしまいそうなのでまたの機会にし..(略)

というわけで以下の通り、

「カレーライスを作りたいです。」

というシンプルな共通プロンプトを複数LLMに投げてみました。

◼︎GPT-3.5

一応OpenAIの無料モデルということで3.5にて検証。

質問を返されましたので、プロンプトに具体性が必要なようです。

◼︎GPT-4o

材料と手順に分け、手順に関してはそれぞれを具体的に記述してくれました。

相変わらずの精度とクオリティですね。

◼︎Gemini (無料版)

材料と作り方を箇条書きで生成してくれました。

また、参考になるページやYouTube動画など、リンクを合計11個共有してくれました。

◼︎Claude3

材料と作り方をそれぞれ箇条書きで提示してくれました。

この質問に関してはGeminiからリンクをなくした下位互換といった印象でしょうか。

しかしながらこのClaude3、ビデオ会議の議事録や、日本語文章(メールなど)の生成に関してはピカイチです。

実際に社内の人間も、ビデオ会議時にClaude3を使用し議事録を残しています。

おまけでメールの文章を複数LLMに生成させましたので、それも掲載いたします。

以下プロンプト

「期日に間に合いそうにないことが判明し、取引先に締め切りの延長をお願いすることになりました。取引先に送信するメールを作成してください。」

◼︎GPT-4 (メール文)

◼︎GPT-4o (メール文)

◼︎Claude3 (メール文)

客観的に見てClaude3が一番先方に送りたくなるメール文ではないでしょうか。

必要以上に情報がなく、また言い訳のような言い回しもありません。日本社会特有の気遣いや忖度を精度高く反映してくれている印象です。

無料版の「Opus」でこのクオリティです。

まとめ

日々ものすごいスピードで情勢が変わっていくAI周りですが、この度の検証で、今後ベストな生成内容を追い求めるにあたってLLMの使い分けが有効になってくるということが分かりました。

今回は文章の生成に関してしか触れていませんが、画像生成、動画生成なども加味するとさらにその傾向が強くなっていくと思われます。

今後も何か動きがあれば、定期的に記事として発信していきたいと思います。

お読みいただきありがとうございました。

メニュー