Geminiの動画要約機能が凄すぎた

文章生成から文章の要約、画像生成から「画像の要約」まで高精度になっている生成AIですが、今回は「動画」に関するトピックです。

前回の記事にて「ChatGPT-4o」の画像認識精度がかなり高いというお話をさせていただきました。(下記画像)

流石のこのChatGPT-4oでも「動画の要約」までは手が及んでいない状況ですが、そんな中、

”Geminiの動画要約がすごい”

との噂を聞きつけましたので、こちらを検証していこうと思います。

(以下参照記事です)

https://ai-workstyle.com/ai-gemini-summarise/

◼︎検証

今回はこちらの「ChatGPT-4o」に関するYouTube動画を要約していきます。

https://youtu.be/K8V3IZAhNW8?si=-RBshpZ4XL0afLSg

Geminiの無料版にて、動画のリンクと

「Please summarize this video and be sure to write it in Japanese.」

(日本語訳：このビデオを要約して、日本語で書いてください。)

を添えて、Geminiに投げます。

※日本語だと要約を行ってくれないそうです。

結果がこちら！

かなり精度高く、動画の内容が読み取られています。

人間が視聴すればこの動画は28分間、2倍速でも14分かかってしまうところですが、Geminiの回答はたったの20秒程度でした。

かなり革新的ですね。

ちなみに同じミッションをGPT-4oの方に投げると、こうなります。

動画の読み取り・要約に関してはGeminiに軍配が上がりますね。

様々なLLMが登場している今、特徴や用途によって使い分けが必要です。

動画要約ならGemini、日本語文章の生成ならClaude3、といった風に各LLMに強みが分散し始めています。

(参照)

https://zenn.dev/acntechjp/articles/9041d574cf4f54

前回の記事でもそこに詳しく触れていますので、よかったらご覧ください。

https://www.verso.jp/2024/05/24/multi_llm/

◼︎おまけ

動画の要約文をもとに、そのままGeminiに絵を生成させてみました。

(※こちらも英語でないと生成してくれません…。)

右下の絵を、弊社とハバス合同会社で開発した物語生成アプリ『WonderStories | ワンダーストーリーズ』に投げてみると…

「対決！チャットGPT4とAI-OMNII」

という面白い物語が誕生しました(笑)。

今後のAI業界への提言とも取れる深い内容になりましたので、息抜き程度にお楽しみください。

==========

対決！チャットGPT4とAI-OMNII

ある日、デジタルの世界では大きな戦いが行われていました。その名は「バトルロイヤル」。参加者はチャットGPT4とAI-OMNIIというふたりの知能たちです。

ふたつの知能は、情報処理の力を競っていま・・・

https://ohanashi-maker.web.app/story.html?s=qHPm5JQdif3Y8WB60rQ0

==========

今回もお読みいただきありがとうございました！

メニュー