JP-2026514985-A - 視覚及びオーディオのマルチモーダル検索システム
Abstract
マルチモーダル探索システムが説明されている。システムは、ユーザデバイスのカメラによってキャプチャされた画像データを受信することができる。さらに、システムは、画像データに関連付けられたオーディオデータを受信することができる。オーディオデータは、ユーザデバイスのマイクロフォンによってキャプチャされたオーディオデータを受信することができる。さらに、システムは、視覚的特徴を生成するために画像データを処理することができる。さらに、システムは、複数の単語を生成するために複数の単語を処理することができる。システムは、複数の単語及び視覚的特徴に基づいて複数の検索語を生成することができる。続いて、システムは、複数の検索語に関連付けられた1つまたは複数の検索結果を決定し、1つまたは複数の検索結果を出力として提供することができる。
Inventors
- ハーシット・カルバンダ
- バリント・ミクロス
- ゼヴェリン・ハイニガー
- ルイス・ワン
- ベリンダ・ルナ・ゼン
- ヴィヴィアナ・カソ・コレッラ
- クリストファー・ジェームズ・ケリー
- ジェシカ・リー
- ペンダル・ユーセフィ
- ドゥニア・ベラダ
- サンディープ・ヴァダディ
- カイ・ユ
Assignees
- グーグル エルエルシー
Dates
- Publication Date
- 20260513
- Application Date
- 20240416
- Priority Date
- 20230425
Claims (20)
- マルチモーダル検索のためにコンピュータに実装される方法であって、 1つまたは複数のプロセッサを含むコンピューティングシステムによって、ユーザデバイスのカメラによってキャプチャされた画像データを受信することと、 前記画像データに関連付けられたオーディオデータを受信することであって、前記オーディオデータは、前記ユーザデバイスのマイクロフォンによってキャプチャされる、受信することと、 視覚的特徴を生成するために前記画像データを処理することと、 複数の単語を生成するために前記オーディオデータを処理することと、 前記複数の単語と前記視覚的特徴とに基づいて複数の検索語を生成することであって、前記複数の検索語は、前記複数の単語のうちの1つの単語を、更新された単語に置き換えることによって生成され、前記更新された単語は前記視覚的特徴から導出される、生成することと、 前記複数の検索語に関連付けられた1つまたは複数の検索結果を決定することと、 前記1つまたは複数の検索結果を出力として提供することと、 を含む、方法。
- 入力オーディオシグネチャを生成するために前記オーディオデータを処理することをさらに含み、前記1つまたは複数の検索結果の前記決定は、前記入力オーディオシグネチャにさらに基づく、請求項1に記載の方法。
- 前記1つまたは複数の検索結果の前記決定は、 オーディオシグネチャデータベースから、前記生成されたビジュアル特徴からのビジュアル特徴に基づいて、複数の既知のオーディオシグネチャにアクセスすることと、 前記既知のオーディオシグネチャから一致するオーディオシグネチャを選択することであって、前記一致するオーディオシグネチャの比較スコアが閾値を超え、前記一致するオーディオシグネチャのマッチングスコアは、前記入力オーディオシグネチャと前記一致するオーディオシグネチャとを比較することによって計算される、選択することと、 を含む、請求項2に記載の方法。
- グラフィカルユーザインターフェース上に前記出力を提示させることをさらに含み、前記グラフィカルユーザインターフェースは、前記ユーザデバイスのディスプレイ上に提示される、請求項1に記載の方法。
- 前記オーディオデータは、改良クエリまたはピボットクエリであり、前記1つまたは複数の検索結果を前記決定することは、1つまたは複数の画像を取得するために前記複数の検索語を処理することを含み、前記1つまたは複数の検索結果は、前記1つまたは複数の画像を含む、請求項1に記載の方法。
- 前記複数の検索語を生成することは、1つまたは複数のテキスト埋め込み、及び1つまたは複数の画像埋め込みを生成することを含む、請求項5に記載の方法。
- 前記テキスト埋め込み、及び前記画像埋め込みは、前記1つまたは複数の画像を取得するために組み合わされ、前記画像検索の機械学習済みモデルに入力される、請求項6に記載の方法。
- 前記オーディオデータは情報探索クエリであり、前記1つまたは複数の検索結果を前記決定することは、ウェブ結果を取得するために、ウェブ検索エンジンを使用して前記複数の検索語を処理することを含み、 前記1つまたは複数の検索結果は前記ウェブ結果を含む、請求項1に記載の方法。
- 前記視覚的特徴はオブジェクト名を含み、前記複数の検索語は前記複数の単語及び前記オブジェクト名から導出されたキーワードである、請求項8に記載の方法。
- 前記視覚的特徴は場所データを含み、前記複数の検索語は前記複数の単語及び前記場所データから導出されたキーワードである、請求項8に記載の方法。
- 前記オーディオデータはアクション探索クエリであり、前記1つまたは複数の検索結果を前記決定することは、 生成結果を取得するために、1つまたは複数の大規模言語モデル(LLM)を使用して前記複数の検索語を処理することを含み、 前記1つまたは複数の検索結果は、前記生成結果を含む、請求項1に記載の方法。
- 前記1つまたは複数の検索結果を前記ユーザデバイスのディスプレイ上で提示させることと、 前記提示に応答して、前記ユーザデバイスの前記カメラによってキャプチャされた更新された画像データを受信することと、 前記1つまたは複数の機械学習済みモデルを使用して、前記更新された画像データ内の更新された視覚的特徴を検出することと、 前記複数の検索語及び前記更新された視覚的特徴に関連付けられた1つまたは複数の更新された検索結果を決定することと、 前記1つまたは複数の更新された検索結果を更新された出力として提供することと、 をさらに含む、請求項1に記載の方法。
- 前記1つまたは複数の検索結果を前記ユーザデバイスのディスプレイ上で提示させることと、 前記提示に応答して、前記ユーザデバイスの前記マイクロフォンによってキャプチャされた更新されたオーディオデータを受信することと、 更新された単語を生成するために、前記1つまたは複数の機械学習済みモデルを使用して前記更新されたオーディオデータを処理することと、 前記複数の検索語及び前記更新された単語に関連付けられた1つまたは複数の更新された検索結果を決定することと、 前記1つまたは複数の更新された検索結果を更新された出力として提供することと、 をさらに含む、請求項1に記載の方法。
- 前記オーディオデータは、前記画像データ内のオブジェクトに関連付けられたコンテキスト情報を含み、前記1つまたは複数の検索結果は、前記コンテキスト情報に基づいてさらに決定される、請求項1に記載の方法。
- 前記コンテキスト情報はユーザが要求したブランド名である、請求項14に記載の方法。
- 前記コンテキスト情報はユーザが要求したウェブサイトである、請求項14に記載の方法。
- 前記オーディオデータは、前記画像データ内のオブジェクトに関連付けられた属性を含み、前記1つまたは複数の検索結果は、前記属性に基づいてさらに決定され、前記属性は、前記オブジェクトに関連付けられた色または模様である、請求項1に記載の方法。
- 前記出力は、画像結果、ウェブ結果、または生成的結果であり、前記出力は、前記オーディオデータのカテゴリに基づいている、請求項1に記載の方法。
- 1つまたは複数のプロセッサと、 命令を集合的に格納する1つまたは複数の非一時的コンピュータ可読記録媒体と、を含むコンピューティングシステムであって、前記命令は、前記1つまたは複数のプロセッサによって実行されると、前記コンピューティングシステムに動作を実行させ、前記動作は、 1つまたは複数のプロセッサを含むコンピューティングシステムによって、ユーザデバイスのカメラによってキャプチャされた画像データを受信することと、 前記画像データに関連付けられたオーディオデータを受信することであって、前記オーディオデータは、前記ユーザデバイスのマイクロフォンによってキャプチャされる、受信することと、 視覚的特徴を生成するために前記画像データを処理することと、 複数の単語を生成するために前記オーディオデータを処理することと、 1つまたは複数の機械学習済みモデルを使用して、前記複数の単語及び前記視覚的特徴に基づいて複数の検索語を生成することであって、前記複数の検索語は、前記複数の単語のうちの1つの単語を更新された単語に置き換えることによって生成され、前記更新された単語は前記視覚的特徴から導出される、生成することと、 前記複数の検索語に関連付けられた1つまたは複数の検索結果を決定することと、 前記1つまたは複数の検索結果を出力として提供することと、 を含む、コンピューティングシステム。
- 命令を集合的に格納する1つまたは複数の非一時的コンピュータ可読記録媒体であって、前記命令は、1つまたは複数のコンピューティングデバイスによって実行されると、前記1つまたは複数のコンピューティングデバイスに動作を実行させ、前記動作は、 ユーザデバイスのカメラによってキャプチャされた画像データを受信することと、 前記画像データに関連付けられたオーディオデータを受信することであって、前記オーディオデータは、前記ユーザデバイスのマイクロフォンによってキャプチャされる、受信することと、 視覚的特徴を生成するために前記画像データを処理することと、 複数の単語を生成するために前記オーディオデータを処理することと、 1つまたは複数の機械学習済みモデルを使用して、前記複数の単語及び前記視覚的特徴に基づいて複数の検索語を生成することであって、前記複数の検索語は、前記複数の単語のうちの1つの単語を更新された単語に置き換えることによって生成され、前記更新された単語は前記視覚的特徴から導出される、生成することと、 前記複数の検索語に関連付けられた1つまたは複数の検索結果を決定することと、 前記1つまたは複数の検索結果を出力として提供することと、 を含む、1つまたは複数の非一時的コンピュータ可読記録媒体。
Description
関連出願の相互参照 本出願は、2023年4月25日の出願日を有する米国特許出願第18/306,638号に基づき、その優先権を主張し、その出願は参照により本明細書に組み込まれる。 本開示は、一般に、検索結果を提供するために、検索クエリ中の複数のモダリティ(例えば、視覚的データ及びオーディオデータの両方)を処理することに関する。より具体的には、本開示は、ユーザデバイスのカメラによってキャプチャされた視覚的データ、及びユーザデバイスのマイクロフォンからキャプチャされたオーディオデータに基づいたマルチモーダル検索に関する。 従来のシステムでは、検索クエリは、特定のアイテムまたは特定の知識の一部を検索するために、テキスト入力またはオーディオ入力を含むことができる。しかしながら、検索要求がテキスト及びオーディオデータのみに限定される場合、世界全体を理解することは困難になり得る。個人が、目の前にあるオブジェクトが何であるかを理解しようとしている場合でも、オブジェクトが他の場所で見つかるかどうかを決定しようとしている場合でも、及び/またはインターネットの画像がどこからキャプチャされたかを決定しようとしている場合でも、テキスト及びオーディオ検索だけでは困難な場合がある。特に、ユーザは、どの単語を使用するかを決定するのに苦労することがある。さらに、それらの単語は、所望の結果を生成するのに十分に記述的ではない、及び/または十分な量でない場合がある。 さらに、ユーザが要求しているコンテンツは、ユーザがどこを検索すればよいかを知らないことに基づいて、ユーザがすぐに利用できないことがある。ユーザは、その概念を表現する明確な方法なしに検索結果を要求している場合がある。 さらに、ユーザが自分の要求を表現する入力モードによって制限されるため、テキストまたはオーディオ入力のみに基づく検索結果が制限される可能性がある。その結果、従来のシステムでは、検索結果が限られるか、または正しくないために、検索結果がユーザの満足のいくものでない場合、ユーザは、他のユーザからの応答をクラウドソーシングするためにソーシャルメディアまたはディスカッションウェブサイトにコンテンツを投稿しなければならないことがあった。 本開示の例示的な実施形態による、例示的なマルチモーダル検索システムのブロック図を示す。本開示の例示的な実施形態による、例示的なマルチモーダル検索システムのブロック図を示す。本開示の例示的な実施形態による、例示的なマルチモーダル検索システムを使用する例示的なユースケースを示す。本開示の例示的な実施形態による、例示的なマルチモーダル検索システムを使用する例示的なユースケースを示す。本開示の例示的な実施形態による、例示的なマルチモーダル検索システムを使用する例示的なユースケースを示す。本開示の例示的な実施形態による、例示的なマルチモーダル検索システムを使用する例示的なユースケースを示す。本開示の例示的な実施形態による、例示的なマルチモーダル検索システムを使用する例示的なユースケースを示す。本開示の例示的な実施形態による、例示的なマルチモーダル検索システムを使用する例示的なユースケースを示す。本開示の例示的な実施形態による、例示的なマルチモーダル検索システムを使用する例示的なユースケースを示す。本開示の例示的な実施形態に従ってマルチモーダル検索を行うための例示的な方法のフローチャート図を示す。本開示の例示的な実施形態に従って、更新された画像データを受信することに応答して、その後のマルチモーダル検索を行うための例示的な方法のフローチャート図を示す。本開示の例示的な実施形態に従って、更新されたオーディオデータを受信することに応答して、その後のマルチモーダル検索を行うための例示的な方法のフローチャート図を示す。本開示の例示的な実施形態に従って、マルチモーダル検索を行う例示的なコンピューティングシステムのブロック図を示す。本開示の例示的な実施形態に従って、マルチモーダル検索を行う例示的なコンピューティングシステムのブロック図を示す。 複数の図面にわたって繰り返される参照番号は、様々な実施態様で同じ特徴を識別することを意図している。 概要 一般に、本開示は、検索クエリの一部として視覚的データ及びオーディオデータを使用することにより、検索結果を改善するためのシステム及び方法を対象とする。具体的には、本明細書で開示されるシステム及び方法は、視覚的データ及びオーディオデータを活用して、マルチモーダル(例えば、マルチ検索、オーディオ入力と視覚的入力を組み合わせた検索)の検索機能及びマルチモーダル出力を提供することができる。 例えば、ユーザは、植物のローズマリー写真を撮影して、同時にまたはその後に、「これで何の料理が作れる?」と質問することができる。本明細書に記載の技術は、画像データ及びオーディオデータを1つまたは複数の機械学習済みモデルに入力して、改善された結果を生成することができる。この例で続けると、システムは、画像内のオブジェクトが植物のローズマリーであると決定することができ、「これ」という用語を「ローズマリー」に置き換え、このクエリをウェブ検索に入力して、このクエリのウェブ結果を取得することができる。他の例では、ユーザは、ライブストリームアプリケーションを使用していることがあり、同時に、ユーザのために開かれた検索アプリケーション(例えば、ビューファインダ)を有し、ライブストリームアプリケーションでキャプチャされた画像に関する検索要求を口頭で提出する。さらに他の例では、ユーザは、携帯電話またはアシスタントデバイスに、「写真を撮って、写真にあるものを識別してください」のように、写真を撮影してクエリを発行するように口頭で指示することができる。 いくつかの実施形態によれば、本明細書で説明されるシステムは、ユーザの音声入力、及びカメラから直接ユーザによってキャプチャされた画像の導入を通じて、検索クエリを定式化する際の摩擦を低減することにより、マルチモーダルエクスペリエンスを向上させる。システムは、マルチモーダルエクスペリエンスを可能にし、これは、ユーザが同時に複数のモダリティ(例えば、画像とテキスト、画像とオーディオ)で質問を定式化する新しい方法である。結果として、ユーザは同時に複数のモード(例えば画像とテキスト、画像とオーディオ、テキストとオーディオ)で検索することができる。システムは、情報を求めるクエリストリームの拡張を可能にして、新しいタイプのクエリを導入することができる。さらに、システムは、大規模言語モデル(LLM)を利用して、意見及び行動を求めるクエリに関連付けられた検索結果を改善することができる。システムは、機械学習済みモデルを利用して、人工知能(AI)が生成した応答及び出力を提示することができる。 本明細書に記載されている技術は、マルチモーダルクエリを構築する際の摩擦を大幅に軽減し、その結果、ユーザエクスペリエンスが向上する。例えば、ユーザエクスペリエンスは、ユーザが、モバイルデバイスで製品の写真を撮影し、同時に「これをショッピングリストに追加して」と指示することを可能にすることによって向上させることができる。この要求に応答して、システムは、モバイルデバイスのカメラによってキャプチャされている製品を決定し、その製品をユーザのショッピングリストに追加することができる。 さらに、探索要求に対するデータを入力する新しい方法を可能にすることにより、システムは、潜在的な探索結果のための探索空間を増大させる。オーディオ入力を画像入力と組み合わせて組み込むことにより、システムは、潜在的な検索結果のための検索空間を増やすことができ、結果として、ユーザのエクスペリエンスが向上する。いくつかの実施形態では、システムは、オーディオ入力を複数の単語に転写し、その単語を画像データから抽出された特徴と組み合わせて、ユーザが検索を行うのを容易にする。いくつかの他の実施形態では、システムは、オーディオデータの転写を超えて、システムが画像とともにオーディオを正確に理解することを必要とするユースケースを解決する。例えば、ユーザの食器洗浄機が特定のうなり音を発している場合、その音または問題を言葉で説明することは、不可能ではないにしても困難になり得る。本明細書に記載のシステムは、食器洗浄機の画像とともに、うなり音に関連付けられたオーディオデータを受信し、食器洗浄機を修理するための検索結果を返すことができる。システムは、食器洗浄機の画像で抽出された特徴から食器洗浄機のモデル及びブランドを決定できる。さらに、システムは、オーディオデータからシグネチャを抽出し、オーディオデータのシグネチャが、この特定のモデル及びブランドの排水詰まりに関連付けられたオーディオのシグネチャに類似していると決定することによって、オーディオデータが排水詰まりに関連していることを決定することができる。この例を続けると、検索結果は、食器洗浄機が特定のブランド及びモデルであり、問題が食器洗浄機の詰まりであることを含むことができ、この問題を解決するためのビデオチュートリアルを提示することができる。いくつかの実施態様では、検索結果は、食器洗浄機の問題を解決するための拡張現実命令を含むことができる。 本開示のシステム及び方法は、いくつかの技術的効果及び利点を提供する。一例として、システム及び方法は、マルチモーダル検索機能を可能にすることによって、検索結果を向上させることができる。さらに、画像データ(例えば、画像埋め込み)及びオーディオデータ(例えば、テキスト埋め込み)を同時に使用することにより、システムは、検索に有用なコンテキストを提供する追加の信号でクエリを強化することで、より正確な検索結果を提供することができる。例えば、単語埋め込み及び画像埋め込みは、単語及び/または画像の意味を符号化する実値ベクトルであってもよく、より正確な検索結果を提供するために多次元ベクトル空間内で同時に検索されてもよい。さらに、マルチモーダル検索機能を可能にすることにより、システムは、以前は実行することが不可能であった検索を実行できるようになることで、潜在的な検索結果のための検索空間を増加させる。いくつかの例では、システムは、オーディオデータを処理して、入力オーディオシグネチャを生成し、入力オーディオシグネチャに基づいて検索結果を決定することができる。上記の詰まった食器洗浄機の例で強調しているように、ユーザは、以前は不可能であった検索を実行することができ、システムは、現在、オーディオデータと画像データを同時に分析することによって問題をどのように修正するかについてのチュートリアルを提供することができる。いくつかの例では、ユーザとのインタラクションの数を低減することにより、検索結果はユーザにより速く提供される。特に、本明細書で開示されるシステム及び方法は、ユーザが、画像データ及びオーディオデータの両方を使用することを可能にするインタラクティブユーザインターフェースを活用することができ、より良く、より速く、より正確な検索結果を提供する。さらに、画像データから抽出される視覚的特徴に関連付けられた既知のオーディオシグネチャのサブセットのみを(例えば、特定のメーカー及びモデルの既知のオーディオシグネチャにアクセスして)オーディオデータベースから抽出して、次に、入力オーディオシグネチャをこの既知のオーディオシグネチャのサブセットと比較することによって、検索クエリは、検索結果をリアルタイムで提示するために、従来システムよりも高速で実行され得る。 他の技術的な効果及び利益は、改善した計算効率、及びコンピューティングシステムの機能における改善に関する。例えば、本明細書で開示されるシステム及び方法は、マルチモーダル検索システムを活用して、より包括的なマルチモーダル検索クエリを提供するこ