文章生成から文章の要約、画像生成から「画像の要約」まで高精度になっている生成AIですが、今回は「動画」に関するトピックです。
前回の記事にて「ChatGPT-4o」の画像認識精度がかなり高いというお話をさせていただきました。(下記画像)
流石のこのChatGPT-4oでも「動画の要約」までは手が及んでいない状況ですが、そんな中、
”Geminiの動画要約がすごい”
との噂を聞きつけましたので、こちらを検証していこうと思います。
(以下参照記事です)
https://ai-workstyle.com/ai-gemini-summarise/
◼︎検証
今回はこちらの「ChatGPT-4o」に関するYouTube動画を要約していきます。
https://youtu.be/K8V3IZAhNW8?si=-RBshpZ4XL0afLSg
Geminiの無料版にて、動画のリンクと
「Please summarize this video and be sure to write it in Japanese.」
(日本語訳:このビデオを要約して、日本語で書いてください。)
を添えて、Geminiに投げます。
※日本語だと要約を行ってくれないそうです。
結果がこちら!
かなり精度高く、動画の内容が読み取られています。
人間が視聴すればこの動画は28分間、2倍速でも14分かかってしまうところですが、Geminiの回答はたったの20秒程度でした。
かなり革新的ですね。
ちなみに同じミッションをGPT-4oの方に投げると、こうなります。
動画の読み取り・要約に関してはGeminiに軍配が上がりますね。
様々なLLMが登場している今、特徴や用途によって使い分けが必要です。
動画要約ならGemini、日本語文章の生成ならClaude3、といった風に各LLMに強みが分散し始めています。
(参照)
https://zenn.dev/acntechjp/articles/9041d574cf4f54
前回の記事でもそこに詳しく触れていますので、よかったらご覧ください。
https://www.verso.jp/2024/05/24/multi_llm/
◼︎おまけ
動画の要約文をもとに、そのままGeminiに絵を生成させてみました。
(※こちらも英語でないと生成してくれません…。)
右下の絵を、弊社とハバス合同会社で開発した物語生成アプリ『WonderStories | ワンダーストーリーズ』に投げてみると…
「対決!チャットGPT4とAI-OMNII」
という面白い物語が誕生しました(笑)。
今後のAI業界への提言とも取れる深い内容になりましたので、息抜き程度にお楽しみください。
==========
対決!チャットGPT4とAI-OMNII
ある日、デジタルの世界では大きな戦いが行われていました。その名は「バトルロイヤル」。参加者はチャットGPT4とAI-OMNIIというふたりの知能たちです。
ふたつの知能は、情報処理の力を競っていま・・・
https://ohanashi-maker.web.app/story.html?s=qHPm5JQdif3Y8WB60rQ0
==========
今回もお読みいただきありがとうございました!