森田 嶺

【新機能】Google Bard のマルチモーダル機能「 Google レンズ 」がすごい

【新機能】Google Bard のマルチモーダル機能「 Google レンズ 」がすごいサムネイル画像

誰かに何かを伝えるとき、伝える内容が複雑な内容であるとき、私たちは相手が理解しやすいように、図を利用して、状況を伝えることがあります。簡潔で要点を絞った図によって、相手は内容を理解し、それを前提に新たな議論が生まれていきます。では、私たちが難しい複雑な要件を生成AIに伝えるとき、どのような手段で情報を伝えれば良いでしょうか。私は普段、 Google Bard とChatGPT(GPT-4)を利用していますが、これらの生成AIに与える指示は基本的にはテキスト情報です。簡単な指示であれば良いのですが、複雑な要件をインプットしたい場合、入力内容が肥大化し、非常に手間がかかります。図や画像を使って「抽象的なイメージ」で質問することができれば、人間の手間も減りますし、生成AIにとっても、内容の理解が簡易になります。

このように複数の種類のデータを処理することができる機能を「マルチモーダル」といいますが、 なんと先日 Google Bard のマルチモーダル機能である「 Google レンズ 」でリリースされました(※1)。今回は Google Bard の新機能「 Google レンズ 」について説明します。

※ 2023年9月19日現在、 Google レンズは日本語版の Google Bard にも対応しています。

Bard が Gemini へと名称変更

2024年2月8日、これまで「Bard」と呼ばれていた生成AIモデルは、「Gemini」に改名されることが発表されました。

最上位の対話型生成AI「Gemini Advanced」も発表し、日本では月額2900円で提供を開始しました。現在、言語は英語のみですが順次日本語にも対応する予定となっています。

また、GeminiやGemini Advanced が使えるスマートフォンアプリが提供されます。

Gemini_Floaty_Over_Photo_GIF_Japanese_v07

https://japan.googleblog.com/2024/02/bard-gemini-ultra-10-gemini.html

本記事では、記事公開時点での「Google Bard」の情報について執筆しているため、現在の内容と異なる点がある可能性がございます。

Google Bard のマルチモーダル機能「 Google レンズ 」とは

マルチモーダル機能とは、AIが複数の異なる種類のデータ(テキスト、音声、画像、ビデオなど)を理解し、それらを組み合わせて情報を処理する能力のことをいいます。例えば、音声をテキストに変換したり(音声認識)、テキストを音声に変換したり(テキスト読み上げ)、画像からテキストを生成したり(画像キャプション)、テキストから画像を生成する(テキストからの画像生成)などがマルチモーダル機能に含まれます。この機能により、AIは人間が自然に使っているさまざまな種類の情報をよりよく理解し、より最適化されたアウトプットを生成することができるようになります。

なぜ日本語バージョンの Bard ではマルチモーダル機能が試せない?

Google Bard は一般公開されて以降、いくつかのアップデートが行われましたが、日本バージョンの Bard ですぐに使えたことがありません。すぐに新機能を試すことができるのは、英語圏の Bard ユーザーのみです。では、日本にいる以上、 Google Bard の新機能を試すことができないのでしょうか?

米国リージョンのサーバーから Google Bard の新機能を利用可能

以前、「【超便利】 Google Bard のアウトプットを Gmail やスプレッドシートに出力する方法」という記事でもご紹介させていただきましたが、サーバーを米国リージョンに立て、そこからアクセスすれば、新しい機能を利用することができます。例えば、 Google Cloud Platform の Compute Engine、もしくは Amazon Web Service のEC2でWindowsサーバーを立て、そこからアクセスすると良いでしょう。

2023年9月19日現在、 Google レンズ が日本でも利用可能に!

Google レンズ が Google Bard の日本語版についに対応しました! しかも、 Google Bard は40以上の言語に対応していますが、日本語版だけでなく、今回全ての対応言語でリリースされました。

実際に Google Bard のマルチモーダル機能を試してみる

それでは、実際に Google Bard のマルチモーダル機能を試してみましょう。前提として、今回紹介するマルチモーダル機能の説明は、米国リージョンのサーバーから検証した結果がベースになっています。つまり、この検証を元に、日本バージョンの Google Bard からはこの機能を試すことはできません(2023/08/07現在)。

① Google アカウントでログインする

お手持ちの Google アカウント(無料の Google アカウント、もしくは Google Workspace アカウント)で Google Bard にアクセスします。 Google アカウントを保持していない場合は、コチラのページから Google アカウントの作成を行ってください。

② 画像の生成を行う

先日開催された Google Cloud Next 2023 で「 Duet AI for Google Workspace 」の発表が行われました。この Duet AI for Google Workspace には様々な機能がありますが、今回は Google スライドに実装された「生成AIを利用して画像を生成する」機能を利用して、 Google Bard にインプットするための画像を作成してみます。 Duet AI for Google Workspace は現在トライアル版がリリースされており、対応言語は英語のみです。

Google アカウントの言語設定を英語に変更した後、 Google スライドを開きます。そして、以下画像の通り、 Duet AI のHelpチャットを表示したら「アメリンカン・ショートヘアの画像を生成して」と入力し、Helpチャットの下部に存在する「Create」ボタンを押下します。

【新機能】Google Bard のマルチモーダル機能「 Google レンズ 」がすごい

しばらくすると、アメリカン・ショートヘアっぽい猫の画像が生成されます。今回はこの画像を利用します。

【新機能】Google Bard のマルチモーダル機能「 Google レンズ 」がすごい

③ 画像のインプットを行う

Google Bard の入力用のプロンプトに画像をドラッグ&ドロップしてみてください。以下のとおり、画像が入力状態になります。

【新機能】Google Bard のマルチモーダル機能「 Google レンズ 」がすごい

④ テキストを入力する

次にテキストを入力します。「What is this animal?(この動物は何?)」と入力してみましょう。ちなみに、画像とテキストの入力順はどちらからでも問題ありません。それでは、実際に Google Bard にインプットデータを送信してみます。

【新機能】Google Bard のマルチモーダル機能「 Google レンズ 」がすごい

⑤ Google Bard にインプットデータを送信する

Google Bard にインプットデータを送信した結果、以下のようなレスポンスが返ってきました。画像内容を解析し、画像に写っている猫の様子から、猫の種類まで推測してくれました。しかし、「アメリカン・ショートヘア」の画像を生成したつもりでしたが、「ブリティッシュ・ショートヘア」であると判定されました。そもそも、自分自身がアメリカンとブリティッシュの猫の違いがあまりよくわかっていないのですが、 Google Bard は限りある情報の中で、できる限りの解析をしてくれたのではないでしょうか。十分な分析結果だと思います。

【新機能】Google Bard のマルチモーダル機能「 Google レンズ 」がすごい

(番外編) Google Bard のアウトプットを他のユーザーと共有する

2023年7月13日、 Google Bard はマルチモーダル以外にもいくつか新しい機能をリリースしています(この機能については日本語版 Bard でも利用可能です)。その一つが「他のユーザーに Google Bard との会話内容を共有する」機能です。では、実際に Google Bard とのチャット内容を外部に共有してみましょう。

① 共有機能の実行

Google Bard のアウトプット下部の「共有」アイコンをクリックし、「Share」をクリックします。

【新機能】Google Bard のマルチモーダル機能「 Google レンズ 」がすごい

② 公開範囲の設定

共有範囲を設定します。チャット全体、もしくは一部会話を共有することができます。必要であれば、チャットのタイトルも変更することが可能です。設定が完了したら「Create Public Link」をクリックしてください。

【新機能】Google Bard のマルチモーダル機能「 Google レンズ 」がすごい

③ 公開リンクの生成

共有リンクは一瞬で生成されます。生成されたリンクはLinkedInやFacebook、X(旧Twitter)等のSNSで共有可能です。

【新機能】Google Bard のマルチモーダル機能「 Google レンズ 」がすごい

ちなみに公開リンクを開くと以下のような画面が表示されます。閲覧専用でチャット内容が表示されます。ただし、アップロードした画像については表示されませんでした。これは画像の著作権が保障できないことから、このような表示になってしまうのでしょうか。原因はわかりませんでした。

【新機能】Google Bard のマルチモーダル機能「 Google レンズ 」がすごい

Google レンズ はPaLM APIに実装されている?

Google Bard は Google が開発する大規模言語モデル「PaLM2」がベースとなっているチャットアプリです。実は、このPaLM2にアクセスするためのAPIが存在するのですが、APIリファレンスを見たところ、マルチモーダルのサポートは現時点では行われていません(2023/08/07時点)。仮に実装されることになるとすると、 Google Cloud Storage 上のファイルパスを渡すことになるんでしょうか。とりあえず、実装されるのを楽しみに待とうと思います。

Google Bard は Gemini の登場でさらに性能が上がる!

2023年12月6日、 Google が 次世代大規模言語モデル「 Gemini 」のリリースを発表しました。 Gemini は GTP-4 の性能を凌ぐと言われており、現在の生成AI市場にも大きな影響を及ぼす可能性があります。 Google は「 Bard の発売以来最大のアップグレード 」になると謳っており、Gemini の搭載によって Google Bard の性能はさらに向上することが期待できます。まずは、170 以上の国と地域で英語版で利用できるようになり、近い将来、日本も含めた様々な言語に対応する予定のようです。

まとめ

マルチモーダルは現状、 Google Bard 独自の競争優位性となっているかもしれませんが、ChatGPTに実装されるのは時間の問題だと考えられます。マルチモーダル自体は、生成AIの進化のプロセスの中にある一つの機能に過ぎず、今後、多くの生成AIサービスでも実装されていくことが予想されます。つまり、マルチモーダル機能自体が生成AIにおける標準化やコモディティ化の一部となると考えられます。ただ、 Google は生成AIの爆発的進化をもたらしたTransformerを生み出した企業であり、他のビッグテックと比較しても、マルチモーダルに関しては優位性を確保していると思われます。 今後どのような進化を見せるのか、非常に楽しみです。

森田 嶺
森田 嶺
大学卒業後、 AWS や Google Cloud 等、主にクラウドを基盤とした新規サービス開発の経験を経て、YOSHIDUMIに入社。Google ドライブ拡張サービス「Cmosy」「共有ドライブマネージャー」等、 Google Cloud を活用した自社サービスの開発に従事。現在、 Google 等が提供する生成AIを活用したサービスを開発中。
Gemini for Google Workspace を徹底解説!〜無料版から有料版まで、 選定のポイントを紹介〜

14:00-15:00 オンライン

Gemini for Google Workspace を徹底解説!〜無料版から有料版まで、 選定のポイントを紹介〜

詳細はこちら

エンジニア不足はもう怖くない!AppSheet 導入事例とプラン選定の要所セミナー

11:00-12:00 オンライン

エンジニア不足はもう怖くない!AppSheet 導入事例とプラン選定の要所セミナー

詳細はこちら

Google Workspace vs. Microsoft 365 比較セミナー

14:00-15:00 オンライン

Google Workspace vs. Microsoft 365 比較セミナー

詳細はこちら

Gemini for Google Workspace 徹底活用セミナー 〜デモ付き解説で、Gemini の真価を体感!~

14:00-15:00 オンライン

Gemini for Google Workspace 徹底活用セミナー 〜デモ付き解説で、Gemini の真価を体感!~

詳細はこちら

生成AI導入実践セミナー ~COGMA & WorkAIzerを活用し、リスクを最小限に、効果を最大限に!~

15:00-16:00 オンライン

生成AI導入実践セミナー ~COGMA & WorkAIzerを活用し、リスクを最小限に、効果を最大限に!~

詳細はこちら

非エンジニア歓迎!基礎から活用シーンまで学べる! AppSheet を使った現場DX入門セミナー

11:00-12:00 オンライン

非エンジニア歓迎!基礎から活用シーンまで学べる! AppSheet を使った現場DX入門セミナー

詳細はこちら

オンラインセミナー開催中

お申込みはこちらをCheck!