【新機能】Google Bard のマルチモーダル機能「 Google レンズ」がすごい

誰かに何かを伝えるとき、伝える内容が複雑な内容であるとき、私たちは相手が理解しやすいように、図を利用して、状況を伝えることがあります。簡潔で要点を絞った図によって、相手は内容を理解し、それを前提に新たな議論が生まれていきます。では、私たちが難しい複雑な要件を生成AIに伝えるとき、どのような手段で情報を伝えれば良いでしょうか。私は普段、 Google Bard とChatGPT(GPT-4)を利用していますが、これらの生成AIに与える指示は基本的にはテキスト情報です。簡単な指示であれば良いのですが、複雑な要件をインプットしたい場合、入力内容が肥大化し、非常に手間がかかります。図や画像を使って「抽象的なイメージ」で質問することができれば、人間の手間も減りますし、生成AIにとっても、内容の理解が簡易になります。

このように複数の種類のデータを処理することができる機能を「マルチモーダル」といいますが、なんと先日 Google Bard のマルチモーダル機能である「 Google レンズ」でリリースされました^(※1)。今回は Google Bard の新機能「 Google レンズ」について説明します。

※ 2023年9月19日現在、 Google レンズは日本語版の Google Bard にも対応しています。

Bard が Gemini へと名称変更

本日より、Bard は Gemini（ジェミニ）になります！✨

Gemini は Bard に搭載されている AI モデルですが、この高度なテクノロジーが反映されていることをわかりやすく伝えるために、名前を変えました！

生まれ変わった Gemini を試す⬇️https://t.co/97mNxmSSrg #GeminiAI pic.twitter.com/K4EDvaeT1A
— Google Japan (@googlejapan) February 8, 2024

2024年2月8日、これまで「Bard」と呼ばれていた生成AIモデルは、「Gemini」に改名されることが発表されました。

最上位の対話型生成AI「Gemini Advanced」も発表し、日本では月額2900円で提供を開始しました。現在、言語は英語のみですが順次日本語にも対応する予定となっています。

また、GeminiやGemini Advanced が使えるスマートフォンアプリが提供されます。

Gemini_Floaty_Over_Photo_GIF_Japanese_v07

https://japan.googleblog.com/2024/02/bard-gemini-ultra-10-gemini.html

本記事では、記事公開時点での「Google Bard」の情報について執筆しているため、現在の内容と異なる点がある可能性がございます。

Google Bard のマルチモーダル機能「 Google レンズ」とは

マルチモーダル機能とは、AIが複数の異なる種類のデータ（テキスト、音声、画像、ビデオなど）を理解し、それらを組み合わせて情報を処理する能力のことをいいます。例えば、音声をテキストに変換したり（音声認識）、テキストを音声に変換したり（テキスト読み上げ）、画像からテキストを生成したり（画像キャプション）、テキストから画像を生成する（テキストからの画像生成）などがマルチモーダル機能に含まれます。この機能により、AIは人間が自然に使っているさまざまな種類の情報をよりよく理解し、より最適化されたアウトプットを生成することができるようになります。

なぜ日本語バージョンの Bard ではマルチモーダル機能が試せない？

Google Bard は一般公開されて以降、いくつかのアップデートが行われましたが、日本バージョンの Bard ですぐに使えたことがありません。すぐに新機能を試すことができるのは、英語圏の Bard ユーザーのみです。では、日本にいる以上、 Google Bard の新機能を試すことができないのでしょうか？

米国リージョンのサーバーから Google Bard の新機能を利用可能

以前、「【超便利】 Google Bard のアウトプットを Gmail やスプレッドシートに出力する方法」という記事でもご紹介させていただきましたが、サーバーを米国リージョンに立て、そこからアクセスすれば、新しい機能を利用することができます。例えば、 Google Cloud Platform の Compute Engine、もしくは Amazon Web Service のEC2でWindowsサーバーを立て、そこからアクセスすると良いでしょう。

2023年9月19日現在、 Google レンズが日本でも利用可能に！

Google レンズが Google Bard の日本語版についに対応しました！しかも、 Google Bard は40以上の言語に対応していますが、日本語版だけでなく、今回全ての対応言語でリリースされました。

実際に Google Bard のマルチモーダル機能を試してみる

それでは、実際に Google Bard のマルチモーダル機能を試してみましょう。前提として、今回紹介するマルチモーダル機能の説明は、米国リージョンのサーバーから検証した結果がベースになっています。つまり、この検証を元に、日本バージョンの Google Bard からはこの機能を試すことはできません(2023/08/07現在)。

① Google アカウントでログインする

お手持ちの Google アカウント(無料の Google アカウント、もしくは Google Workspace アカウント)で Google Bard にアクセスします。 Google アカウントを保持していない場合は、コチラのページから Google アカウントの作成を行ってください。

② 画像の生成を行う

先日開催された Google Cloud Next 2023 で「 Duet AI for Google Workspace 」の発表が行われました。この Duet AI for Google Workspace には様々な機能がありますが、今回は Google スライドに実装された「生成AIを利用して画像を生成する」機能を利用して、 Google Bard にインプットするための画像を作成してみます。 Duet AI for Google Workspace は現在トライアル版がリリースされており、対応言語は英語のみです。

Google アカウントの言語設定を英語に変更した後、 Google スライドを開きます。そして、以下画像の通り、 Duet AI のHelpチャットを表示したら「アメリンカン・ショートヘアの画像を生成して」と入力し、Helpチャットの下部に存在する「Create」ボタンを押下します。