Gemini (ジェミニ)とは?
Gemini は、最先端のマルチモーダル生成 AI モデルで、テキスト、画像、音声、動画、コードなど、複数のデータタイプを理解し、それらを組み合わせて操作できる能力を持っています。
従来の生成 AI モデルは、テキストや画像などの単一のデータタイプを扱うのが一般的でした。そのため、複数のデータタイプを組み合わせて処理する必要がある複雑なタスクには対応できませんでした。
Gemini は、これらの課題を克服するために、最初からマルチモーダルに対応するように設計されています。また、膨大な量のマルチモーダルデータを学習することで、複数のデータタイプを組み合わせて処理する能力を高めています。
Gemini の登場により、生成 AI はこれまで以上に幅広い用途で活用できるようになると期待されています。例えば、
- テキストと画像を組み合わせて、映画やアニメのストーリーボードを作成したり、
- 音声とテキストを組み合わせて、会話型 AI の回答を生成したり、
- 画像とコードを組み合わせて、新しいソフトウェアのデザインをしたり、
といったことが可能になります。
Gemini の3つのモデル
Gemini 1.0は「 Ultra 」「 Pro 」「 Nano 」の3つのサイズで提供されます。
「 Pro 」は、同日から生成AIボット「 Bard 」の英語版に搭載されます。
「 Nano 」は、同社のハイエンドAndroidスマートフォン「Pixel 8 Pro」に搭載されます。
Pixel 8 Proでは、「 レコーダー 」アプリの要約強化や、「 Gboard 」のスマートリプライに展開される予定です。ただし、日本語対応は未定です。
「 Ultra 」は、最大サイズで高度なAIです。現在はさらなる改良を進めており、2024年に開発者や企業向けに公開する予定です。また、2024年には Gemini Ultra で稼働する「 Bard Advanced 」もリリースする予定です。
Google DeepMind のデミス・ハサビスCEOは、公式ブログで、Gemini を「マルチモーダルとしてゼロから構築」し、「テキスト、画像、音声、動画、コードなど、さまざまな種類の情報を一般化してシームレスに理解し、操作し、組み合わせることができる」と語りました。
また、 Gemini Ultra は、32のベンチマークのうち30で、競合する米OpenAIのGPT-4よりも性能で上回ったと発表しました。
さらに、数学、物理学、歴史、法律、医学、倫理など57の科目の組み合わせて知識と問題解決能力をテストするMMLU(大規模マルチタスク言語理解)では、90.00%のスコアで、人間の専門家を上回るパフォーマンスを示した初のモデルになったと主張しています。
Gemini の特徴
Gemini (ジェミニ)の特徴は、以下の3つです。
洗練された推論能力
Gemini は、大量のデータの中で判別が難しい情報を抜き取るなど、複雑なテキストや視覚情報を理解することができます。この能力は、科学や金融などのデジタルデータが使用される業界において、特に大きなインパクトを与えるだろうと期待されています。
マルチモーダル性
Gemini は、テキスト、画像、音声などを同時に理解できます。そのため、数学や物理学などの複雑な内容であっても細かいニュアンスを読み取り、難しい問題や質問にも対応することができます。
コーディング能力
Gemini は、Python、Java、C++、Goなどのプログラミング言語でコードの説明や理解、生成することができます。また、 Gemini Ultra は、HumanEvalを含む多くのコーディングベンチマークで高い性能を示しています。
Gemini のパフォーマンス
Google は、Gemini モデルを厳密にテストし、さまざまなタスクにおけるそのパフォーマンスを評価しました。自然な画像、音声、動画の理解から数学的推論まで、Gemini Ultra は、大規模言語モデル (LLM) の研究開発で使用される 32 の広く使用されている学術ベンチマークのうち 30 において、現在の最先端の結果を上回っています。
Gemini Ultra は、90.0% のスコアを獲得し、数学、物理学、歴史、法律、医学、倫理など、57 の科目の組み合わせを使用して両方の知識と問題解決能力をテストする MMLU (大規模マルチタスク言語理解) で、人間の専門家を上回るパフォーマンスを示した最初のモデルです。
MMLU に対する新しいベンチマーク アプローチにより、Gemini は、推論機能を使用して、難しい質問に答える前により慎重に考えることができるようになりました。これにより、第一印象のみを使用する場合よりも大幅な改善が実現されています。
Gemini Ultra は、意図的な推論が必要な様々な領域をカバーするマルチモーダルタスクの新たなMMMUベンチマークでも、最高のスコアである59.4%を達成しました。
Gemini Ultra は、画像からテキストを抽出して処理するためのオブジェクト文字認識(OCR)システムの支援を必要とせず、以前の最先端モデルを上回りました。
これらのベンチマークは、Gemini の多面性を強調し、Gemini の複雑な推論能力の初期の兆候を示しています。
詳細については、Gemini 技術レポートをご覧ください。
Gemini の安全性と倫理への取り組み
Gemini (ジェミニ)の安全性の取り組み:https://deepmind.google/technologies/gemini/#safety
Gemini の安全性については、以下の3つのポイントが挙げられます。
開発段階での安全性対策
Gemini の開発では、AIの安全性と倫理への取り組みを重視し、以下の対策が講じられています。
- 開発の各段階で潜在的なリスクを検討し、テストおよび軽減する
- Gemini の多様なマルチモーダル能力を考慮した新たな保護措置を追加する
包括的な安全評価
Gemini は、Google のAIモデルの中でも最も包括的な安全評価を受けています。具体的には、以下の評価が行われています。
- 偏見や毒性に関する評価
- サイバーオフェンス、説得、自律性などの潜在的なリスク領域に関する研究
- Google Research の最先端の敵対的テスト技術によるテスト
レッドチームテストなど
Gemini Ultra は、信頼できる外部機関によるレッドチームテスト(敵対的環境でのテスト)を含む広範な信頼性と安全性のチェックを完了しています。また、ユーザーからのフィードバックに基づいた微調整と強化学習(RLHF)を使用して、モデルをさらに洗練させる作業が進行中です。
これらの対策により、Gemini の安全性は、Google のAIモデルの中で最も高い水準にあると評価されています。
Gemini を使うには?
Google Bard で利用する
Gemini (ジェミニ)は、 Google の Bard に搭載されています。そのため、 Google Bard を使ってGemini を利用することができます。
Pixel 8 Proで利用する
Gemini のモバイルデバイス向けバージョンである Gemini Nano は、Android端末上でネイティブかつオフラインで実行可能です。
Pixel 8 Proでは、以下の機能で Gemini Nano を利用することができます。
- レコーダーアプリにおける自動要約機能
- Gboard キーボードのスマートリプライ機能
Android AICore で開発する
ndroid 開発者は、Gemini Nano を、Android 14 に新しく追加されるシステム機能であるAICore を介して利用できるようになります。
Android AICoreについて:https://developer.android.com/ml/aicore
その他の Google 製品で利用する
Gemini は、検索や Google 広告、 Bard 、 Chrome 、 Duet AI など、その他の Google 製品にも搭載される予定です。
具体的な利用方法はまだ発表されていませんが、 Gemini の能力を活かした新たな機能やサービスが提供されると考えられます。
現在は、 Google Bard で英語のみで利用可能となっていますが、今後はマルチモーダルや多言語に対応していく予定です。
Gemini が切り開く未来
Gemini (ジェミニ)は、AI技術の未来に大きな影響を与えると期待されています。その多様な応用能力と先進的なマルチモーダル機能により、 Gemini は科学、テクノロジー、ビジネス、社会の多くの面で新たな可能性を開きます。
科学
Gemini は、自然科学、工学、医学などの分野で、研究や開発を加速させる可能性があります。例えば、Gemini は、大量のデータを分析して新たなパターンや規則性を発見したり、複雑な問題を解いて新しい発見をしたりすることができます。また、Gemini は、医療画像の解析や新薬の開発など、医療分野での応用も期待されています。
テクノロジー
Gemini は、AI技術の進化を加速させ、よりスマートな製品やサービスの開発を可能にします。例えば、Gemini は、自然言語処理や画像認識などの技術を向上させ、より自然で直感的なユーザーインターフェースを実現したり、より精度の高い画像認識や翻訳を可能にしたりすることができます。また、Gemini は、ロボットや自動運転車などの開発にも応用される可能性があります。
ビジネス
Gemini は、ビジネスの効率化や新たなビジネスモデルの創出を支援します。例えば、Gemini は、顧客のニーズをより深く理解したり、マーケティングやセールスの効率を向上させたりすることができます。また、Gemini は、カスタマーサービスやコールセンターなどの業務の自動化にも応用される可能性があります。
社会
Gemini は、教育、福祉、環境問題などの社会課題の解決にも貢献する可能性があります。例えば、Gemini は、教育の個別化や、障がい者の支援などに応用される可能性があります。また、Gemini は、環境問題の監視や、自然災害の予測などに応用される可能性があります。
まとめ
Gemini (ジェミニ)の成功は、その技術的な革新だけでなく、それを取り巻く社会的、倫理的な課題への対応にも依存します。Google は、Gemini を通じてAI技術の未来を形作る責任を持っています。今後も、Gemini の進化とそれがもたらす変化に注目が集まるでしょう。