Search

JP-2026514632-A - 双予測ブロックベクトルを用いるビデオコーディングのための方法、コンピューティングシステム及びコンピュータプログラム

JP2026514632AJP 2026514632 AJP2026514632 AJP 2026514632AJP-2026514632-A

Abstract

本明細書に記載される様々な実装は、ビデオをコーディングするための方法及びシステムを含む。一態様では、ビデオビットストリームは、現在の画像フレームと、双予測イントラブロックコピー(IBC)モードの第1シンタックス要素とを含む。第1シンタックス要素に基づいて、現在の画像フレームの現在のコーディングブロックが、双予測IBCモードに従って現在の画像フレームの再構成部分に位置する2つの参照コーディングブロックを用いてコーディングされていると判断される。現在のコーディングブロックに対応する2つの参照コーディングブロックは、現在の画像フレームの再構成部分において識別される。2つの参照コーディングブロックに関連付けられる目標重みは、現在のコーディングブロックに対して適応的に決定され、2つの参照コーディングブロックを組み合わせて現在のコーディングブロックを予測するために使用される。現在の画像フレームは再構成され、現在のコーディングブロックを含む。

Inventors

  • チェン,リン-フェイ
  • チェルニャク,ロマン
  • シュー,シャオジョン
  • リウ,シャン

Assignees

  • テンセント・アメリカ・エルエルシー

Dates

Publication Date
20260513
Application Date
20240425
Priority Date
20240423

Claims (20)

  1. プロセッサによって実行される、ビデオデータを復号するための方法であって、 現在の画像フレームを含むビデオビットストリームを受信するステップであって、前記ビデオビットストリームは、双予測イントラブロックコピー(IBC)モードのための第1シンタックス要素を含む、ステップと、 前記第1シンタックス要素に基づいて、前記現在の画像フレームの現在のコーディングブロックが、前記双予測IBCモードに従って、前記現在の画像フレームの再構成部分に位置する2つの参照コーディングブロックを用いてコーディングされていると判断するステップと、 前記現在の画像フレームの前記再構成部分における前記現在のコーディングブロックに対応する前記2つの参照コーディングブロックを識別するステップと、 前記現在のコーディングブロックについて、前記2つの参照コーディングブロックに関連付けられる目標重みを適応的に決定するステップと、 前記目標重みに基づいて前記2つの参照コーディングブロックを組み合わせて前記現在のコーディングブロックを予測するステップと、 前記現在のコーディングブロックを含む前記現在の画像フレームを再構成するステップと、 を含む、方法。
  2. 前記2つの参照コーディングブロックは、第1参照ブロックと第2参照ブロックとを含み、当該方法は、 前記第1参照ブロックに関連付けられる第1ブロックベクトルを識別するステップと、 前記第2参照ブロックに関連付けられる第2ブロックベクトルを識別するステップと、 を更に含む、請求項1に記載の方法。
  3. 重みインデックスに基づいて、予め定義された重みのリストから前記目標重みを選択するステップを更に含み、前記重みインデックスは、前記ビデオビットストリームで受信される、 請求項1に記載の方法。
  4. 予め定義された重みのリストを取得するステップと、 予め定義された重みのサブセットごとに、 それぞれの予め定義された重みに基づいて、前記2つの参照コーディングブロックの2つの参照テンプレートを組み合わせて、前記現在のコーディングブロックの予測テンプレートを生成するステップと、 前記予測テンプレートと前記現在のコーディングブロックの現在のテンプレートとに基づいて、それぞれのテンプレートマッチングコストを決定するステップと、 前記予め定義された重みの前記サブセットの1つに対応する前記それぞれのテンプレートマッチングコストが予め定義された選択基準を満たすことに従って、前記予め定義された重みのサブセットの前記1つを前記目標重みとして設定するステップと、 を更に含む、請求項1に記載の方法。
  5. 前記予め定義された選択基準に従って、前記目標重みに対応する前記それぞれのテンプレートマッチングコストは、前記予め定義された重みのサブセット内の任意の別個の残りの予め定義された重みに対応する前記それぞれのテンプレートマッチングコスト以下である、 請求項4に記載の方法。
  6. 前記予め定義された重みのサブセットは、継承された双予測重みと、前記予め定義された重みのリスト内の2つの隣接する重みとを含み、当該方法は、 スケール係数を、少なくとも、前記継承された双予測重みに対応する前記それぞれのテンプレートマッチングコストに適用するステップ、 を更に含む、請求項4に記載の方法。
  7. 前記現在のコーディングブロックのうち、前記双予測IBCモードにおいて隣接する重みを使用してコーディングされた隣接するコーディングブロックを識別するステップと、 前記予め定義された重みのサブセットごとに、前記隣接する重みに基づいてそれぞれのスケール係数を決定し、前記それぞれのスケール係数を適用して、前記それぞれのテンプレートマッチングコストをスケーリングするステップと、 を含む、請求項4に記載の方法。
  8. 前記予め定義された重みのサブセットは、等重みモードに対応する第1の予め定義された重みを含み、当該方法は、 第1スケール係数を適用して、前記第1の予め定義された重みに対応する前記それぞれのテンプレートマッチングコストをスケーリングするステップを更に含み、前記第1スケール係数は1未満である、 請求項4に記載の方法。
  9. 前記予め定義された重みのサブセットは、前記第1の予め定義された重みとは別個の1つ以上の残りの予め定義された重みを更に含み、当該方法は、 前記1つ以上の残りの予め定義された重みの各々に対して、残りのスケール係数を適用して、それぞれの残りの予め定義された重みに対応する前記それぞれのテンプレートマッチングコストをスケーリングするステップを更に含み、 前記第1スケール係数は、各々の残りの重みの残りのスケール係数以下である、 請求項8に記載の方法。
  10. 前記予め定義された重みのサブセットごとに、前記それぞれのテンプレートマッチングコストを決定することは、 前記予測テンプレートのサンプルと前記現在のテンプレートのサンプルの絶対差の和(SAD)を決定することを更に含む、 請求項4に記載の方法。
  11. 前記ビデオビットストリームは、前記現在のコーディングブロックの前記目標重みが、前記2つの参照コーディングブロックの2つのテンプレートマッチング重みに基づいて決定されるかどうかを示す第2シンタックス要素を更に含む、 請求項1に記載の方法。
  12. 前記2つの参照コーディングブロックは、第1参照ブロック及び第2参照ブロックを含み、当該方法は、前記第2シンタックス要素が有効であるとき、 前記第1参照ブロックに関連付けられる第1テンプレートマッチングコストを決定するステップと、 前記第2参照ブロックに関連付けられる第2テンプレートマッチングコストを決定するステップと、 前記第1テンプレートマッチングコスト及び前記第2テンプレートマッチングコストに基づいて、前記目標重みを決定するステップと、 を更に含む、請求項11に記載の方法。
  13. 前記2つの参照コーディングブロックのサンプルは、以下のように、前記現在のコーディングブロックのサンプルを予測するために、前記目標重みに基づいて組み合わされ、 ここで、P 1 、P 2 及びPは、前記2つの参照コーディングブロック及び前記現在のコーディングブロックのサンプルのサンプル値を表し、TMcost 1 、TMcost 2 は、それぞれ、前記第1テンプレートマッチングコスト及び前記第2テンプレートマッチングコストを表す、 請求項12に記載の方法。
  14. 前記目標重みを決定することは、 前記第2シンタックス要素が無効であるとき、等重みモードに基づいて前記目標重みを設定することを更に含む、 請求項11に記載の方法。
  15. 前記第2シンタックス要素は、フラグを含み、前記現在のコーディングブロックについてコーディングブロックレベルでシグナリングされる、 請求項11に記載の方法。
  16. 前記第1シンタックス要素は、前記現在のコーディングブロックについてコーディングブロックレベルでシグナリングされる、 請求項1に記載の方法。
  17. コンピュータシステムであって、 制御回路と、 前記制御回路によって実行されるように構成された1つ以上のプログラムを記憶するメモリと、 前記1つ以上のプログラムは、 現在の画像フレームを含むビデオデータを受信することと、 現在のコーディングブロックを含む前記現在の画像フレームを符号化することと、 双予測イントラブロックコピー(IBC)モードが、前記現在の画像フレームの再構成部分に位置する2つの参照コーディングブロックを用いて前記現在の画像フレームの前記現在のコーディングブロックをコーディングするために有効であるかどうかを判断することと、 ビデオビットストリームを介して前記符号化された現在の画像フレームを送信することと、 前記ビデオビットストリームを介して、前記現在の画像フレームの前記現在のコーディングブロックが、前記現在の画像フレームの前記再構成部分に位置する前記2つの参照コーディングブロックを用いてコーディングされているかどうかを示す、前記双予測IBCモードのための第1シンタックス要素をシグナリングすることと、 のための命令を更に含み、前記第1シンタックス要素が、前記双予測IBCモードが有効であることを示すとき、目標重みが前記現在のコーディングブロックについて適応的に決定され、前記2つの参照コーディングブロックを組み合わせて前記現在のコーディングブロックを予測するために使用される、 コンピューティングシステム。
  18. 前記1つ以上のプログラムは、 重みインデックスに基づいて、予め定義された重みのリストから前記目標重みを選択すること、 のための命令を更に含み、前記重みインデックスは、前記ビデオビットストリームとともに受信される、 請求項17に記載のコンピューティングシステム。
  19. コンピューティングシステムの制御回路によって実行されると、前記制御回路に、 現在の画像フレームの現在のコーディングブロックを含むソースビデオシーケンスを取得することと、 前記ソースビデオシーケンスとビデオビットストリームとの間の変換を実行することと、 を実行させるコンピュータプログラムであって、前記ビデオビットストリームは、 前記現在の画像フレームと、 前記現在の画像フレームの再構成部分に位置する2つの参照コーディングブロックを用いて、前記現在の画像フレームの前記現在のコーディングブロックをコーディングするかどうかを示す、双予測イントラブロックコピー(IBC)モードのための第1シンタックス要素と、 を含み、前記第1シンタックス要素が、前記双予測IBCモードが有効であることを示すとき、目標重みが前記現在のコーディングブロックについて適応的に決定され、前記2つの参照コーディングブロックを組み合わせて前記現在のコーディングブロックを予測するために使用される、 コンピュータプログラム。
  20. 前記制御回路によって実行されると、前記制御回路に、 予め定義された重みのリストを取得することと、 予め定義された重みのサブセットごとに、 それぞれの予め定義された重みに基づいて、前記2つの参照コーディングブロックの2つの参照テンプレートを組み合わせて、前記現在のコーディングブロックの予測テンプレートを生成することと、 前記予測テンプレートと前記現在のコーディングブロックの現在のテンプレートとに基づいて、それぞれのテンプレートマッチングコストを決定することと、 前記予め定義された重みのサブセットの1つに対応する前記それぞれのテンプレートマッチングコストが予め定義された選択基準を満たすことに従って、前記予め定義された重みのサブセットの前記1つを前記目標重みとして設定することと、 を更に実行させる、請求項19に記載のコンピュータプログラム。

Description

関連出願 本出願は、2024年4月25日に出願された「Bi-Predictive Block Vector With CU-Level Weight in IBC」という名称の米国仮特許出願第63/461,877号の優先権を主張し、2023年4月23日に出願された「Bi-Predictive Block Vector With CU-Level Weight in IBC」という名称の米国特許出願第18/643,957号の継続出願であり、その優先権を主張する。 技術分野 開示される実施形態は、一般に、ビデオコーディングに関し、ビデオデータから画像サンプルを予測するためのシステム及び方法を含むが、これらに限定されない。 デジタルビデオは、デジタルテレビ、ラップトップ又はデスクトップコンピュータ、タブレットコンピュータ、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲームコンソール、スマートフォン、ビデオテレビ会議デバイス、ビデオストリーミングデバイス等のような様々な電子デバイスによってサポートされる。電子デバイスは、通信ネットワークを介してデジタルビデオデータを送受信するか又は他の方法で通信し、かつ/又はデジタルビデオデータをストレージデバイスに記憶する。通信ネットワークの限られた帯域幅容量と、ストレージデバイスの限られたメモリリソースのために、ビデオデータが通信又は記憶される前に、1つ以上のビデオコーディング標準に従ってビデオデータを圧縮するために、ビデオコーディングが使用されることがある。電子/クライアントデバイス又はクラウドサービスを提供するサーバ上のハードウェア及び/又はソフトウェアによってビデオコーディングを実行することができる。 ビデオコーディングは、一般に、ビデオデータに固有の冗長性を利用する予測方法(例えばインター予測、イントラ予測等)を利用する。ビデオコーディングは、ビデオデータを、より低ビットレートを使用する形式に圧縮する一方で、ビデオ品質の劣化を回避又は最小化することを目的とする。複数のビデオコーデック標準が開発されている。例えばHigh-Efficiency Video Coding(HEVC/H.265)は、MPEG-Hプロジェクトの一部として設計されたビデオ圧縮標準である。ITU-T及びISO/IECは、2013年(バージョン1)、2014年(バージョン2)、2015年(バージョン3)及び2016年(バージョン4)にHEVC/H.265標準を発行した。Versatile Video Coding(VVC/H.266)は、HEVCの後継として意図されたビデオ圧縮標準である。ITU-TとISO/IECは、2020年(バージョン1)及び2022年(バージョン2)にVVC/H.266標準を発行した。AOMedia Video 1(AV1)は、HEVCの代替として設計されたオープンビデオコーディングフォーマットである。2019年1月8日に、仕様書のErrata 1を含む検証済みバージョン1.0.0がリリースされた。 本開示をより詳細に理解することができるように、様々な実施形態の特徴を参照することにより、より特定の説明を行うことができ、様々な実施形態のいくつかは添付の図面に示されている。しかしながら、添付の図面は単に、本開示の関連する特徴を示すものにすぎず、したがって、必ずしも限定的であると見なされるべきではなく、当業者が本明細書を読むと理解するように、本説明は、他の効果的な特徴を含むことができる。 いくつかの実施形態による例示的な通信システムを示すブロック図である。 いくつかの実施形態によるエンコーダ構成要素の例示的な要素を示すブロック図である。 いくつかの実施形態によるデコーダ構成要素の例示的な要素を示すブロック図である。 いくつかの実施形態による例示的なサーバシステムを示すブロック図である。 いくつかの実施形態による双予測IBCモードで現在のコーディングブロックを予測する例示的なプロセスのフロー図である。 いくつかの実施形態によるビデオをコーディングする方法を示すフロー図である。 一般的な実施によると、図面に示される様々な特徴は、必ずしもスケーリングして描かれておらず、明細書及び図面を通して、同様の特徴を示すために同様の参照番号が使用され得る。 本開示は、双予測イントラブロックコピー(IBC)モードを適用して現在のコーディングブロックを予測するための方法、システム及び非一時的コンピュータ読取可能記憶媒体を説明する。現在のコーディングブロックは、2つの参照コーディングブロックを識別する2つのブロックベクトル(BV)を用いて予測される。目標重みを適応的に識別して、2つの参照コーディングブロックのサンプルを組み合わせ、それによって双予測IBCモードの柔軟性を高める。いくつかの実施形態では、目標重みは、ビデオビットストリームを介してシグナリングされるインデックスを使用して、予め定義された重みのリストから選択される。あるいは、いくつかの実施形態では、目標重みは、テンプレートマッチングコストに基づいて、予め定義された重みのリストから選択される。いくつかの実施形態では、目標重みは、参照コーディングブロックのテンプレートマッチングコストに基づいて、適応的に決定される。適応重みを使用する双予測IBCモードは、適応重みを使用しない双予測IBCモードと比較して、ビデオコンテンツ素材のコーディング効率と精度を改善する。 図1は、いくつかの実施形態による通信システム100を示すブロック図である。通信システム100は、ソースデバイス102と、1つ以上のネットワークを介して互いに通信可能に結合される複数の電子デバイス120(例えば電子デバイス120-1から電子デバイス120-m)を含む。いくつかの実施形態では、通信システム100は、例えばビデオ会議アプリケーション、デジタルTVアプリケーション、並びにメディアストレージ及び/又は配信アプリケーションのようなビデオ対応型アプリケーションとともに使用するためのストリーミングシステムである。 ソースデバイス102は、ビデオソース104(例えばカメラ構成要素又はメディアストレージ)及びエンコーダ構成要素106を含む。いくつかの実施形態では、ビデオソース104は、デジタルカメラ(例えば非圧縮ビデオサンプルストリームを生成するように構成される)である。エンコーダ構成要素106は、ビデオストリームから1つ以上の符号化ビデオビットストリームを生成する。ビデオソース104からのビデオストリームは、エンコーダ構成要素106によって生成される符号化ビデオビットストリーム108と比較して、データ量が大きい可能性がある。符号化ビデオビットストリーム108は、ビデオソースからのビデオストリームと比較して、データ量がより少ない(より少ないデータ)であるため、符号化ビデオビットストリーム108は、ビデオソース104からのビデオストリームと比較して、送信するために必要な帯域幅がより少なく、記憶するために必要な記憶スペースがより少ない。いくつかの実施形態では、ソースデバイス102は、エンコーダ構成要素106を含まない(例えば非圧縮ビデオをネットワーク110に送信するように構成される)。 1つ以上のネットワーク110は、ソースデバイス102、サーバシステム112及び/又は電子デバイス120の間で情報を伝達する任意の数のネットワークを表し、例えば有線(wired)及び/又は無線通信ネットワークを含む。1つ以上のネットワーク110は、回線交換チャネル及び/又はパケット交換チャネルでデータを交換し得る。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク及び/又はインターネットを含む。 1つ以上のネットワーク110は、サーバシステム112(例えば分散/クラウドコンピューティングシステム)を含む。いくつかの実施形態では、サーバシステム112は、(例えばソースデバイス102からの符号化ビデオストリームのようなビデオコンテンツを記憶及び/又は配信するように構成された)ストリーミングサーバであるか、これを含む。サーバシステム112は、(例えばビデオデータを符号化及び/又は復号するように構成された)コーダ構成要素114を含む。いくつかの実施形態では、コーダ構成要素114は、エンコーダ構成要素及び/又はデコーダ構成要素を含む。様々な実施形態では、コーダ構成要素114は、ハードウェア、ソフトウェア又はそれらの組合せとしてインスタンス化される。いくつかの実施形態では、コーダ構成要素114は、符号化ビデオビットストリーム108を復号し、異なる符号化標準及び/又は方法論を使用してビデオデータを再符号化して、符号化ビデオデータ116を生成するように構成される。いくつかの実施形態では、サーバシステム112は、符号化ビデオビットストリーム108から複数のビデオフォーマット及び/又は符号化を生成するように構成される。いくつかの実施形態では、サーバシステム112は、メディア認識ネットワーク要素(MANE、Media-Aware Network Element)として機能する。例えばサーバシステム112は、潜在的に異なるビットストリームを電子デバイス120のうちの1つ以上に適合させるために、符号化ビデオビットストリーム108をプルーニングするように構成され得る。いくつかの実施形態では、MANEは、サーバシステム112とは別個に提供される。 電子デバイス120-1は、デコーダ構成要素122及びディスプレイ124を含む。いくつかの実施形態では、デコーダ構成要素122は、符号化ビデオデータ116を復号して、ディスプレイ又は他のタイプのレンダリングデバイス上でレンダリングすることができる出力ビデオストリームを生成するように構成される。いくつかの実施形態では、電子デバイス120のうちの1つ以上は、ディスプレイ構成要素を含まない(例えば外部ディスプレイデバイスに通信可能に結合されるか、かつ/又はメディアストレージを含む)。いくつかの実施形態では、電子デバイス120はストリーミングクライアントである。いくつかの実施形態では、電子デバイス120は、サーバシステム112にアクセスして符号化ビデオデータ116を取得するように構成される。 ソースデバイス及び/又は複数の電子デバイス120は、「端末デバイス」又は「ユーザデバイス」と呼ばれることがある。いくつかの実施形態では、ソースデバイス102及び/又は電子デバイス120のうちの1つ以上は、サーバシステム、パーソナルコンピュータ、ポータブルデバイス(例えばスマートフォン、タブレット又はラップトップ)、ウェアラブルデバイス、ビデオ会議デバイス及び/又は他のタイプの電子デバイスのインスタンスである。 通信システム100の例示的な動作では、ソースデバイス102は、符号化ビデオビットストリーム108をサーバシステム112に伝送する。例えばソースデバイス102は、ソースデバイスによってキャプチャされた画像のストリームをコーディングし得る。サーバシステム112は、符号化ビデオビットストリーム108を受信し、コーダ構成要素114を使用して、符号化ビデオビットストリーム108を復号及び/又は符号化し得る。例えばサーバシステム112は、ネットワーク伝送及び/又は記憶にとってより最適な符号化をビデオデータに適用し得る。サーバシステム112は、符号化ビデオデータ116(例えば1つ以上のコーディングされたビデオビットストリーム)を電子デバイス120のうちの1つ以上に伝送し得る。各電子デバイス120は、符号化ビデオデータ116を復号して、任意選択的にビデオピクチャを表示し得る。 図2Aは、いくつかの実施形態によるエンコー