Search

JP-2026077648-A - 動画上への動画のオーバーレイのためのシステムおよび方法

JP2026077648AJP 2026077648 AJP2026077648 AJP 2026077648AJP-2026077648-A

Abstract

【課題】動画上への動画のオーバーレイのためのシステムおよび方法を提供する。 【解決手段】第2の動画が、邪魔にならない方法で第1の動画の上に被せられるかまたは第1の動画に挿入されてもよい。第1の動画内の第2の動画の位置は、第1の動画の連続するフレーム内の不可欠ではない位置を分析することに基づいて決定されてもよい。第2の動画は、サイズ、継続時間、文脈などの第2の動画のパラメータに基づいて複数の候補動画から選択されてもよい。したがって、合理化された視聴体験を提供し、気を散らすことを最小限に抑えながら、第2の動画を第1の動画内に入れ子にすることによって、第2の動画が第1の動画と同時に表示されてもよい。 【選択図】図1D

Inventors

  • ローラント・ケール
  • パヴェル・ズチェク

Assignees

  • グーグル エルエルシー

Dates

Publication Date
20260513
Application Date
20260202

Claims (20)

  1. 第1の動画内に第2の動画を配置する方法であって、 1つまたは複数のプロセッサによって、前記第1の動画内のフレームのシーケンス内の候補フレーム位置を特定するステップと、 前記1つまたは複数のプロセッサによって、フレームの前記シーケンス内のフレームの間で前記候補フレーム位置を比較するステップと、 前記1つまたは複数のプロセッサによって、前記比較に基づいて候補動画位置を選択するステップであって、前記候補動画位置が、フレームの前記シーケンス内の前記候補フレーム位置の間で一貫しているフレーム位置を含む、ステップと、 前記候補動画位置に関連する1つまたは複数のパラメータに基づいて第2の動画を選択するステップと、 前記第1の動画との同時再生のために、前記第1の動画の前記候補動画位置内に前記第2の動画を挿入するステップと を含む、方法。
  2. 前記候補フレーム位置を特定するステップが、2次元位置を特定することを含み、 第1のフレームにおいて前記2次元位置に表示されるコンテンツと、第2のフレームにおいて前記2次元位置に表示されるコンテンツとの間の差が閾値未満である、請求項1に記載の方法。
  3. 各フレームを複数のセルを含むグリッドに分割するステップをさらに含み、 前記2次元位置が、前記複数のセルのサブセットを含む、請求項2に記載の方法。
  4. 前記候補フレーム位置を特定するステップが、 各フレームに関して、 あらゆる画素に関して局所的な平均値を計算することと、 前記フレームの各行に関して、前記局所的な平均値が第1の閾値を超えたままである最長のラインの長さを記憶することと、 前記フレームの各列に関して、前記局所的な平均値が第2の閾値を超えたままである最大の矩形を記憶することと を含む、請求項1に記載の方法。
  5. 前記第2の動画によって必要とされる最小面積よりも大きい面積を有する記憶された矩形を特定するステップをさらに含む、請求項4に記載の方法。
  6. 少なくともN個の連続するフレームにわたる前記第1の動画内の連続する位置を有する記憶された矩形の1つまたは複数のシーケンスを特定するステップをさらに含む、請求項4に記載の方法。
  7. 記憶された矩形の各シーケンスに関する重みを計算するステップをさらに含み、 前記候補動画位置を選択するステップが、前記重みに基づく、請求項6に記載の方法。
  8. 前記候補動画位置を記憶するステップと、 前記候補動画位置のサイズまたは継続時間のうちの少なくとも一方に基づいて、前記第1の動画の再生中に前記第2の動画を動的に選択するステップと をさらに含む、請求項1に記載の方法。
  9. 前記第2の動画が、フレームの前記シーケンス内の前記候補動画位置の継続時間と、前記第2の動画の継続時間とに基づいて、複数の候補動画から選択される、請求項1に記載の方法。
  10. 前記第1の動画の文脈を特定し、前記第1の動画の前記特定された文脈に対応する前記第2の動画の文脈に基づいて、複数の候補動画から前記第2の動画を選択するステップをさらに含む、請求項1に記載の方法。
  11. 前記特定された文脈に対応する第1のタグによって前記第1の動画をアノテーションするステップをさらに含み、 前記第2の動画を選択するステップが、前記第1のタグと重複する前記第2の動画の第2のタグを特定することを含む、請求項10に記載の方法。
  12. 第1のタグによって前記第1の動画をアノテーションするステップが、前記第1の動画の全体に関連性があるタグによって前記第1の動画をアノテーションすることを含む、請求項11に記載の方法。
  13. 第1のタグによって前記第1の動画をアノテーションするステップが、前記第1の動画内の個々の瞬間またはフレームに関連性があるタグによって前記第1の動画をアノテーションすることを含む、請求項11に記載の方法。
  14. 前記候補フレーム位置を特定するステップおよび比較するステップが、機械学習モデルを実行することを含む、請求項1に記載の方法。
  15. 前記機械学習モデルを訓練するステップであって、 訓練サンプルを収集することであって、前記訓練サンプルが、不可欠ではないエリアのアノテーションされたシーケンスを含む前記第1の動画内のフレームのセットを含む、収集することと、 前記訓練サンプルをディープニューラルネットワーク分類器に入力し、それによって、フレームの前記セット上の各点に関して、各点が不可欠ではない位置である可能性がどれだけ高いかを評価するように前記ディープニューラルネットワーク分類器を訓練することと を含む、ステップをさらに含む、請求項14に記載の方法。
  16. 前記機械学習モデルが、前記動画内の人間の存在を特定し、前記人間を含むフレーム内の位置を前記候補フレーム位置から除外するように訓練される、請求項14に記載の方法。
  17. メモリと、 前記メモリと通信する1つまたは複数のプロセッサと を備え、前記1つまたは複数のプロセッサは、 第1の動画内のフレームのシーケンス内の候補フレーム位置を特定すること、 フレームの前記シーケンス内のフレームの間で前記候補フレーム位置を比較すること、 前記比較に基づいて候補動画位置を選択することであって、前記候補動画位置が、フレームの前記シーケンス内の前記候補フレーム位置の間で一貫しているフレーム位置を含む、選択すること、 前記候補動画位置に関連する1つまたは複数のパラメータに基づいて第2の動画を選択すること、および 前記第1の動画との同時再生のために、前記第1の動画の前記候補動画位置内に前記第2の動画を挿入すること を行うように構成された、システム。
  18. 前記候補フレーム位置が、2次元位置を含み、 第1のフレームにおいて前記2次元位置に表示されるコンテンツと、第2のフレームにおいて前記2次元位置に表示されるコンテンツとの間の差が閾値未満である、請求項17に記載のシステム。
  19. 候補フレーム位置を特定する際に、前記1つまたは複数のプロセッサが、 各フレームに関して、 あらゆる画素に関して局所的な平均値を計算すること、 前記フレームの各行に関して、前記局所的な平均値が第1の閾値を超えたままである最長のラインの長さを記憶すること、および 前記フレームの各列に関して、前記局所的な平均値が第2の閾値を超えたままである最大の矩形を記憶すること を行うようにさらに構成される、請求項17に記載のシステム。
  20. 前記第2の動画が、フレームの前記シーケンス内の前記候補動画位置の継続時間と、前記第2の動画の継続時間とに基づいて、複数の候補動画から選択される、請求項17に記載のシステム。

Description

動画広告は、動画の開始前または動画の終了後に配置されることが多い。ときには、広告を提示するために動画を中断し、広告が完了されると動画を再開することによって、広告は動画全体を通じて断続的に配置される。この中断は、見る者の視聴体験を途切れさせ、視聴者に動画を見ることを完全に断念するか、または動画が再開するまで広告を無視する機会を与える。これは、ユーザのフラストレーションと、阻害された視聴体験を生む。 本開示の態様による第1の動画の様々なフレーム内の候補フレーム位置の例を示す図である。本開示の態様による第1の動画の様々なフレーム内の候補フレーム位置の例を示す図である。本開示の態様による、様々なフレームの候補フレーム位置を比較することに基づいて、第1の動画内への第2の動画の潜在的な挿入のために候補動画位置を特定する例を示す図である。本開示の態様による、同時再生のために第1の動画内に挿入される第2の動画の例を示す図である。本開示の態様による、セルのグリッドを使用して特定された候補フレーム位置の例を示す図である。本開示の態様による、セルのグリッドを使用して特定された候補フレーム位置の例を示す図である。本開示の態様による、セルのグリッドを使用して特定された候補フレーム位置の例を示す図である。本開示の態様による機械学習モデルの訓練を示すブロック図である。本開示の態様による、候補動画位置を特定するための機械学習モデルの実行を示すブロック図である。本開示の態様による、異なる手法に基づいて特定された候補フレーム位置に割り振られた重みを乗算する例を示す図である。本開示の態様による、候補フレーム位置に基づいて候補動画位置を特定する例を示す図である。本開示の態様による、候補動画位置のパラメータに基づいて第2の動画を選択する例を示す図である。本開示の態様による、候補動画位置のパラメータに基づいて第2の動画を選択する別の例を示す図である。本開示の態様による、候補動画位置のパラメータに基づいて第2の動画を選択する別の例を示す図である。本開示の態様による例示的なシステムを示すブロック図である。本開示の態様による例示的な方法を示す流れ図である。 本開示は、概して、1つの動画を別の動画に邪魔にならない方法で被せることに関する。本開示は、第1の動画内の候補領域を特定するシステムおよび方法を提供する。本開示は、特定された候補領域に基づく、第1の動画に被せる第2の動画の選択のためのシステムおよび方法をさらに提供する。 第1の動画に第2の映像をいつおよびどこで被せるべきかを決定する際、第1の動画内のフレーム範囲が第2の動画の配置のために選択されてもよく、フレーム範囲内のフレーム上の2次元位置が選択されてもよい。フレーム範囲およびフレーム位置の選択は、低ユーザ妨害(low user disturbance)手法を使用して実行されてもよい。追加的または代替的に、フレーム範囲およびフレーム位置の選択は、文脈的瞬間選択(contextual moment selection)手法を使用して実行されてもよい。 低ユーザ妨害手法においては、動画位置が、視聴者にとって不可欠ではないものとして特定される。たとえば、不可欠ではない位置は、視聴者が見たい可能性が高い第1の動画のコンテンツに対して最小限しかまたはまったく邪魔にならない位置であってもよい。たとえば、第1の動画がサッカーをしている人間を描写する場合、不可欠ではない位置は、人間、ボール、またはゴールを遮らないが、その代わりに空、芝生などの描写に被さる場合がある位置であってもよい。一部の例によれば、不可欠ではない位置は、それらがどの程度邪魔になるかまたは気を散らすかに基づいてスコア付けされる場合があり、良いスコアほど、より邪魔にならないかまたは気を散らさないことに相関する。 個々のフレーム内の不可欠ではないエリアなどの候補フレーム位置を計算することは、静的なコンテンツ検出手法、機械学習手法、ハイブリッドな手法などの様々な技術を使用して実行されてもよい。 静的なコンテンツ検出手法によれば、ビデオフレームのシーケンスが与えられると、連続するビデオフレームの間の差が計算される。それぞれの結果として得られたフレームは、グリッドに分割される場合があり、グリッド内の各セルに関して、連続するフレームの間の総計した差が計算される。 機械学習手法によれば、訓練サンプルの役目をするようにビデオフレームのセットが選択される。フレームは、ランダムに、または様々な特徴などに基づいて選択され得る。選択されたビデオフレームの各々は、候補フレーム位置または不可欠ではない位置を特定するために手動で精査される場合がある。そのような候補フレーム位置は、アノテーションされる場合がある。その他の例においては、訓練サンプル動画が、不可欠ではないエリアのシーケンスまたは候補動画位置を特定するためにセグメント内でまたはその全体を手動で精査される場合があり、それらの位置が、アノテーションされる場合がある。アノテーションされたフレームおよび/または動画は、フレーム上の各点に関して、その点が不可欠ではない位置である可能性がどれだけ高いかを評価するようにディープニューラルネットワーク分類器を訓練するために使用されてもよい。 ハイブリッドな手法によれば、機械学習モデルが、追加的な情報を提供するために使用されてもよい。たとえば、機械学習モデルは、第1の動画の不可欠な要素を特定するように訓練されてもよく、そのような不可欠な要素を含むすべての位置は、第2の動画の候補位置としての考慮から除外されてもよい。たとえば、1つの可能な発見的方法(heuristic)は、人が第1の動画の不可欠な要素であるということである。分類器は、フレーム内の各位置が人間を含む確率を計算してもよい。 上記の手法のいずれかの結果として、フレームまたはビデオセグメント内の位置が、スコア付けされるかまたは重み付けされてもよい。たとえば、グリッドの各セル、各画素、または任意のその他の方法で定義されたフレームのエリアに重みが割り振られる場合がある。重みは、エリアが第2の動画の配置に関して邪魔にならないかまたは気を散らさないなど不可欠ではないエリアの見込み(likelihood)に対応する場合がある。一部の例によれば、異なる方法による重み付けされた結果が組み合わされてもよい。 第2の動画のための候補動画位置が、候補フレーム位置を使用して第1の動画内で特定されてもよい。たとえば、各画素、セル、またはその他のエリアに関する計算された重みが、フレームのあらゆる画素、セル、またはその他のエリアに関する局所的な平均値を計算するために使用されてもよい。これは、画像をぼかし、候補位置の決定をノイズに影響されにくくする場合がある。フレームの各行に関して、局所的な平均値が第1の閾値を下回らない最長のラインの長さが記憶されてもよい。フレームの各列に関して、局所的な平均値が第2の閾値を下回らない最大の矩形が記憶されてもよい。各フレームに関して、そのような計算に基づくN個の最大の矩形が記憶されてもよい。 一部の例によれば、候補動画位置は、第2の動画の要件に基づいて選択されてもよい。たとえば、そのような要件は、サイズ、長さなどを含む場合がある。第2の動画によって必要とされる最小面積よりも大きい、第2の動画の継続時間に対応する少なくとも最小数のフレームの間、第1の動画において連続する位置を有する等々の候補フレーム位置が、選択される場合がある。候補フレーム位置の各シーケンスに関して、重みが、シーケンスのすべてのフレームにおいて候補フレーム位置によって包含されるすべてのエリアの平均の重みとして計算されてもよい。それらのシーケンスから、各サイズ/継続時間のペアに関して、最も大きな重みを有しながら第2の動画の基準に最も適合するシーケンスが、第2の動画のための動画位置として選択されてもよい。選択された動画位置は、第2の動画が動的に選択され、取り出され、第1の動画に挿入されてもよいように、再生中に取り出すために記憶されてもよい。 文脈的瞬間選択は、第2の動画が挿入される特定のフレームの文脈を特定することと、そのような文脈を第2の動画の文脈と相関させることとを含んでもよい。たとえば、第1の動画のフレームは、関連性がある文脈タグによってアノテーションされる場合がある。そのような文脈タグは、フレーム内のコンテンツが特定のテーマ、主題、対象などに関連性があることを示す場合がある。たとえば、文脈タグは、フレームが特定のスポーツ、行為、製品、心の状態などに関連性があることを示し得る。第2の動画も、関連性があるタグを割り振られてもよい。第1の動画のフレームと第2の動画との間の対応するタグが特定されてもよく、そのような対応するタグに基づいて、第2の動画が第1の動画に挿入するために選択されてもよい。そのような対応するタグは、タグの何らかのサブセットが第1の動画のフレームと第2の動画との間で一致する場合などでは、重複している場合がある。別の例において、そのような対応するタグは、第1の動画の文脈タグが食べ物を含み、第2の動画のタグがダイニングルームの装飾を含んでいた場合などでは、相補的である場合がある。 図1Aは、第1の動画の例示的なビデオフレーム110を示す。ビデオフレーム110は、第1の動画を一緒に形成する複数の連続するフレームのうちの1つであってもよい。各フレーム110は、動画において描写された物体、人、またはその他の特徴などのコンテンツ120を含んでもよい。動画プログレスバー130が、第1の動画の長さまたは継続時間と、所与の瞬間に視聴されているビデオフレームに対応する継続時間内の時点とを示してもよい。たとえば、プログレスインジケータ132が、左端などのプログレスバー130の一方の端から他方の端まで動く場合がある。一部の例においては、プログレスインジケータ132が進むにつれて、動画のどの部分が既に視聴されたかを示すために完了インジケータ134が後に続く場合がある。たとえば、完了インジケータ134は、プログレスインジケータ132に対応するフレーム110よりも前のフレームに対応するプログレスバー130の部分に関して、プログレスバー130を異なる色、形状、太さなどにする場合がある。 ビデオフレーム110の第1の候補フレーム位置150が、特定されてもよい。候補フレーム位置150は、フレーム内の不可欠ではない、邪魔にならない、または気を散らさないエリアに対応してもよい。たとえば、そのようなエリアは、コンテンツ120の主要な特徴と大きく重ならないエリアであってもよい。候補フレーム位置150は、様々な形状および大きさのいずれかを有するエリアを包含する場合がある。この例では1つの候補フレーム位置150が示されるが、その他の例では、フレームは、複数の候補フレーム位置を有する場合がある。 図1Bは、第1の動画の第2のビデオフレーム111を示し、第2のビデオフレーム111は、動画プログレスバー130上のインジケータ132の動きによって示されるように、第1の動画を構成するフレームのシーケンスにおいて後にある。この第2のビデオフレーム111において、コンテンツ120は、第1のフレーム110と比較して、第2のフレーム111内の異なるエリアに移動しているように変化した。したがって、候補フレーム位置151は、表示されるコンテンツ120の変化に基づいて第2のフレーム内の不可欠ではないエリアが異なるので、第1のフレーム110内の候補フレーム位置150と比較して異なるサイズ、形状、および/または位置を有する場合がある。さらにこの例では、コンテンツ120の左側の、第2のフレーム111の別の部分において、追加の候補フレーム位置152が利用可能である。 図1Cは、複数のフレームの間で候補フレーム位置150、151、15