JP-2026514632-A - 双予測ブロックベクトルを用いるビデオコーディングのための方法、コンピューティングシステム及びコンピュータプログラム

JP2026514632AJP 2026514632 AJP2026514632 AJP 2026514632AJP-2026514632-A

Abstract

本明細書に記載される様々な実装は、ビデオをコーディングするための方法及びシステムを含む。一態様では、ビデオビットストリームは、現在の画像フレームと、双予測イントラブロックコピー（ＩＢＣ）モードの第１シンタックス要素とを含む。第１シンタックス要素に基づいて、現在の画像フレームの現在のコーディングブロックが、双予測ＩＢＣモードに従って現在の画像フレームの再構成部分に位置する２つの参照コーディングブロックを用いてコーディングされていると判断される。現在のコーディングブロックに対応する２つの参照コーディングブロックは、現在の画像フレームの再構成部分において識別される。２つの参照コーディングブロックに関連付けられる目標重みは、現在のコーディングブロックに対して適応的に決定され、２つの参照コーディングブロックを組み合わせて現在のコーディングブロックを予測するために使用される。現在の画像フレームは再構成され、現在のコーディングブロックを含む。

Inventors

チェン，リン－フェイ
チェルニャク，ロマン
シュー，シャオジョン
リウ，シャン

Assignees

テンセント・アメリカ・エルエルシー

Dates

Publication Date: 20260513
Application Date: 20240425
Priority Date: 20240423

Claims (20)

プロセッサによって実行される、ビデオデータを復号するための方法であって、現在の画像フレームを含むビデオビットストリームを受信するステップであって、前記ビデオビットストリームは、双予測イントラブロックコピー（ＩＢＣ）モードのための第１シンタックス要素を含む、ステップと、前記第１シンタックス要素に基づいて、前記現在の画像フレームの現在のコーディングブロックが、前記双予測ＩＢＣモードに従って、前記現在の画像フレームの再構成部分に位置する２つの参照コーディングブロックを用いてコーディングされていると判断するステップと、前記現在の画像フレームの前記再構成部分における前記現在のコーディングブロックに対応する前記２つの参照コーディングブロックを識別するステップと、前記現在のコーディングブロックについて、前記２つの参照コーディングブロックに関連付けられる目標重みを適応的に決定するステップと、前記目標重みに基づいて前記２つの参照コーディングブロックを組み合わせて前記現在のコーディングブロックを予測するステップと、前記現在のコーディングブロックを含む前記現在の画像フレームを再構成するステップと、を含む、方法。
前記２つの参照コーディングブロックは、第１参照ブロックと第２参照ブロックとを含み、当該方法は、前記第１参照ブロックに関連付けられる第１ブロックベクトルを識別するステップと、前記第２参照ブロックに関連付けられる第２ブロックベクトルを識別するステップと、を更に含む、請求項１に記載の方法。
重みインデックスに基づいて、予め定義された重みのリストから前記目標重みを選択するステップを更に含み、前記重みインデックスは、前記ビデオビットストリームで受信される、請求項１に記載の方法。
予め定義された重みのリストを取得するステップと、予め定義された重みのサブセットごとに、それぞれの予め定義された重みに基づいて、前記２つの参照コーディングブロックの２つの参照テンプレートを組み合わせて、前記現在のコーディングブロックの予測テンプレートを生成するステップと、前記予測テンプレートと前記現在のコーディングブロックの現在のテンプレートとに基づいて、それぞれのテンプレートマッチングコストを決定するステップと、前記予め定義された重みの前記サブセットの１つに対応する前記それぞれのテンプレートマッチングコストが予め定義された選択基準を満たすことに従って、前記予め定義された重みのサブセットの前記１つを前記目標重みとして設定するステップと、を更に含む、請求項１に記載の方法。
前記予め定義された選択基準に従って、前記目標重みに対応する前記それぞれのテンプレートマッチングコストは、前記予め定義された重みのサブセット内の任意の別個の残りの予め定義された重みに対応する前記それぞれのテンプレートマッチングコスト以下である、請求項４に記載の方法。
前記予め定義された重みのサブセットは、継承された双予測重みと、前記予め定義された重みのリスト内の２つの隣接する重みとを含み、当該方法は、スケール係数を、少なくとも、前記継承された双予測重みに対応する前記それぞれのテンプレートマッチングコストに適用するステップ、を更に含む、請求項４に記載の方法。
前記現在のコーディングブロックのうち、前記双予測ＩＢＣモードにおいて隣接する重みを使用してコーディングされた隣接するコーディングブロックを識別するステップと、前記予め定義された重みのサブセットごとに、前記隣接する重みに基づいてそれぞれのスケール係数を決定し、前記それぞれのスケール係数を適用して、前記それぞれのテンプレートマッチングコストをスケーリングするステップと、を含む、請求項４に記載の方法。
前記予め定義された重みのサブセットは、等重みモードに対応する第１の予め定義された重みを含み、当該方法は、第１スケール係数を適用して、前記第１の予め定義された重みに対応する前記それぞれのテンプレートマッチングコストをスケーリングするステップを更に含み、前記第１スケール係数は１未満である、請求項４に記載の方法。
前記予め定義された重みのサブセットは、前記第１の予め定義された重みとは別個の１つ以上の残りの予め定義された重みを更に含み、当該方法は、前記１つ以上の残りの予め定義された重みの各々に対して、残りのスケール係数を適用して、それぞれの残りの予め定義された重みに対応する前記それぞれのテンプレートマッチングコストをスケーリングするステップを更に含み、前記第１スケール係数は、各々の残りの重みの残りのスケール係数以下である、請求項８に記載の方法。
前記予め定義された重みのサブセットごとに、前記それぞれのテンプレートマッチングコストを決定することは、前記予測テンプレートのサンプルと前記現在のテンプレートのサンプルの絶対差の和（ＳＡＤ）を決定することを更に含む、請求項４に記載の方法。
前記ビデオビットストリームは、前記現在のコーディングブロックの前記目標重みが、前記２つの参照コーディングブロックの２つのテンプレートマッチング重みに基づいて決定されるかどうかを示す第２シンタックス要素を更に含む、請求項１に記載の方法。
前記２つの参照コーディングブロックは、第１参照ブロック及び第２参照ブロックを含み、当該方法は、前記第２シンタックス要素が有効であるとき、前記第１参照ブロックに関連付けられる第１テンプレートマッチングコストを決定するステップと、前記第２参照ブロックに関連付けられる第２テンプレートマッチングコストを決定するステップと、前記第１テンプレートマッチングコスト及び前記第２テンプレートマッチングコストに基づいて、前記目標重みを決定するステップと、を更に含む、請求項１１に記載の方法。
前記２つの参照コーディングブロックのサンプルは、以下のように、前記現在のコーディングブロックのサンプルを予測するために、前記目標重みに基づいて組み合わされ、ここで、Ｐ１、Ｐ２及びＰは、前記２つの参照コーディングブロック及び前記現在のコーディングブロックのサンプルのサンプル値を表し、TMcost 1 、TMcost 2 は、それぞれ、前記第１テンプレートマッチングコスト及び前記第２テンプレートマッチングコストを表す、請求項１２に記載の方法。
前記目標重みを決定することは、前記第２シンタックス要素が無効であるとき、等重みモードに基づいて前記目標重みを設定することを更に含む、請求項１１に記載の方法。
前記第２シンタックス要素は、フラグを含み、前記現在のコーディングブロックについてコーディングブロックレベルでシグナリングされる、請求項１１に記載の方法。
前記第１シンタックス要素は、前記現在のコーディングブロックについてコーディングブロックレベルでシグナリングされる、請求項１に記載の方法。
コンピュータシステムであって、制御回路と、前記制御回路によって実行されるように構成された１つ以上のプログラムを記憶するメモリと、前記１つ以上のプログラムは、現在の画像フレームを含むビデオデータを受信することと、現在のコーディングブロックを含む前記現在の画像フレームを符号化することと、双予測イントラブロックコピー（ＩＢＣ）モードが、前記現在の画像フレームの再構成部分に位置する２つの参照コーディングブロックを用いて前記現在の画像フレームの前記現在のコーディングブロックをコーディングするために有効であるかどうかを判断することと、ビデオビットストリームを介して前記符号化された現在の画像フレームを送信することと、前記ビデオビットストリームを介して、前記現在の画像フレームの前記現在のコーディングブロックが、前記現在の画像フレームの前記再構成部分に位置する前記２つの参照コーディングブロックを用いてコーディングされているかどうかを示す、前記双予測ＩＢＣモードのための第１シンタックス要素をシグナリングすることと、のための命令を更に含み、前記第１シンタックス要素が、前記双予測ＩＢＣモードが有効であることを示すとき、目標重みが前記現在のコーディングブロックについて適応的に決定され、前記２つの参照コーディングブロックを組み合わせて前記現在のコーディングブロックを予測するために使用される、コンピューティングシステム。
前記１つ以上のプログラムは、重みインデックスに基づいて、予め定義された重みのリストから前記目標重みを選択すること、のための命令を更に含み、前記重みインデックスは、前記ビデオビットストリームとともに受信される、請求項１７に記載のコンピューティングシステム。
コンピューティングシステムの制御回路によって実行されると、前記制御回路に、現在の画像フレームの現在のコーディングブロックを含むソースビデオシーケンスを取得することと、前記ソースビデオシーケンスとビデオビットストリームとの間の変換を実行することと、を実行させるコンピュータプログラムであって、前記ビデオビットストリームは、前記現在の画像フレームと、前記現在の画像フレームの再構成部分に位置する２つの参照コーディングブロックを用いて、前記現在の画像フレームの前記現在のコーディングブロックをコーディングするかどうかを示す、双予測イントラブロックコピー（ＩＢＣ）モードのための第１シンタックス要素と、を含み、前記第１シンタックス要素が、前記双予測ＩＢＣモードが有効であることを示すとき、目標重みが前記現在のコーディングブロックについて適応的に決定され、前記２つの参照コーディングブロックを組み合わせて前記現在のコーディングブロックを予測するために使用される、コンピュータプログラム。
前記制御回路によって実行されると、前記制御回路に、予め定義された重みのリストを取得することと、予め定義された重みのサブセットごとに、それぞれの予め定義された重みに基づいて、前記２つの参照コーディングブロックの２つの参照テンプレートを組み合わせて、前記現在のコーディングブロックの予測テンプレートを生成することと、前記予測テンプレートと前記現在のコーディングブロックの現在のテンプレートとに基づいて、それぞれのテンプレートマッチングコストを決定することと、前記予め定義された重みのサブセットの１つに対応する前記それぞれのテンプレートマッチングコストが予め定義された選択基準を満たすことに従って、前記予め定義された重みのサブセットの前記１つを前記目標重みとして設定することと、を更に実行させる、請求項１９に記載のコンピュータプログラム。

Description

関連出願本出願は、２０２４年４月２５日に出願された「Bi-Predictive Block Vector With CU-Level Weight in IBC」という名称の米国仮特許出願第６３／４６１，８７７号の優先権を主張し、２０２３年４月２３日に出願された「Bi-Predictive Block Vector With CU-Level Weight in IBC」という名称の米国特許出願第１８／６４３，９５７号の継続出願であり、その優先権を主張する。技術分野開示される実施形態は、一般に、ビデオコーディングに関し、ビデオデータから画像サンプルを予測するためのシステム及び方法を含むが、これらに限定されない。デジタルビデオは、デジタルテレビ、ラップトップ又はデスクトップコンピュータ、タブレットコンピュータ、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲームコンソール、スマートフォン、ビデオテレビ会議デバイス、ビデオストリーミングデバイス等のような様々な電子デバイスによってサポートされる。電子デバイスは、通信ネットワークを介してデジタルビデオデータを送受信するか又は他の方法で通信し、かつ／又はデジタルビデオデータをストレージデバイスに記憶する。通信ネットワークの限られた帯域幅容量と、ストレージデバイスの限られたメモリリソースのために、ビデオデータが通信又は記憶される前に、１つ以上のビデオコーディング標準に従ってビデオデータを圧縮するために、ビデオコーディングが使用されることがある。電子／クライアントデバイス又はクラウドサービスを提供するサーバ上のハードウェア及び／又はソフトウェアによってビデオコーディングを実行することができる。ビデオコーディングは、一般に、ビデオデータに固有の冗長性を利用する予測方法（例えばインター予測、イントラ予測等）を利用する。ビデオコーディングは、ビデオデータを、より低ビットレートを使用する形式に圧縮する一方で、ビデオ品質の劣化を回避又は最小化することを目的とする。複数のビデオコーデック標準が開発されている。例えばＨｉｇｈ－ＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ（ＨＥＶＣ／Ｈ．２６５）は、ＭＰＥＧ－Ｈプロジェクトの一部として設計されたビデオ圧縮標準である。ＩＴＵ－Ｔ及びＩＳＯ／ＩＥＣは、２０１３年（バージョン１）、２０１４年（バージョン２）、２０１５年（バージョン３）及び２０１６年（バージョン４）にＨＥＶＣ／Ｈ．２６５標準を発行した。ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ（ＶＶＣ／Ｈ．２６６）は、ＨＥＶＣの後継として意図されたビデオ圧縮標準である。ＩＴＵ－ＴとＩＳＯ／ＩＥＣは、２０２０年（バージョン１）及び２０２２年（バージョン２）にＶＶＣ／Ｈ．２６６標準を発行した。ＡＯＭｅｄｉａＶｉｄｅｏ１（ＡＶ１）は、ＨＥＶＣの代替として設計されたオープンビデオコーディングフォーマットである。２０１９年１月８日に、仕様書のＥｒｒａｔａ１を含む検証済みバージョン１．０．０がリリースされた。本開示をより詳細に理解することができるように、様々な実施形態の特徴を参照することにより、より特定の説明を行うことができ、様々な実施形態のいくつかは添付の図面に示されている。しかしながら、添付の図面は単に、本開示の関連する特徴を示すものにすぎず、したがって、必ずしも限定的であると見なされるべきではなく、当業者が本明細書を読むと理解するように、本説明は、他の効果的な特徴を含むことができる。いくつかの実施形態による例示的な通信システムを示すブロック図である。いくつかの実施形態によるエンコーダ構成要素の例示的な要素を示すブロック図である。いくつかの実施形態によるデコーダ構成要素の例示的な要素を示すブロック図である。いくつかの実施形態による例示的なサーバシステムを示すブロック図である。いくつかの実施形態による双予測ＩＢＣモードで現在のコーディングブロックを予測する例示的なプロセスのフロー図である。いくつかの実施形態によるビデオをコーディングする方法を示すフロー図である。一般的な実施によると、図面に示される様々な特徴は、必ずしもスケーリングして描かれておらず、明細書及び図面を通して、同様の特徴を示すために同様の参照番号が使用され得る。本開示は、双予測イントラブロックコピー（ＩＢＣ）モードを適用して現在のコーディングブロックを予測するための方法、システム及び非一時的コンピュータ読取可能記憶媒体を説明する。現在のコーディングブロックは、２つの参照コーディングブロックを識別する２つのブロックベクトル（ＢＶ）を用いて予測される。目標重みを適応的に識別して、２つの参照コーディングブロックのサンプルを組み合わせ、それによって双予測ＩＢＣモードの柔軟性を高める。いくつかの実施形態では、目標重みは、ビデオビットストリームを介してシグナリングされるインデックスを使用して、予め定義された重みのリストから選択される。あるいは、いくつかの実施形態では、目標重みは、テンプレートマッチングコストに基づいて、予め定義された重みのリストから選択される。いくつかの実施形態では、目標重みは、参照コーディングブロックのテンプレートマッチングコストに基づいて、適応的に決定される。適応重みを使用する双予測ＩＢＣモードは、適応重みを使用しない双予測ＩＢＣモードと比較して、ビデオコンテンツ素材のコーディング効率と精度を改善する。図１は、いくつかの実施形態による通信システム１００を示すブロック図である。通信システム１００は、ソースデバイス１０２と、１つ以上のネットワークを介して互いに通信可能に結合される複数の電子デバイス１２０（例えば電子デバイス１２０－１から電子デバイス１２０－ｍ）を含む。いくつかの実施形態では、通信システム１００は、例えばビデオ会議アプリケーション、デジタルＴＶアプリケーション、並びにメディアストレージ及び／又は配信アプリケーションのようなビデオ対応型アプリケーションとともに使用するためのストリーミングシステムである。ソースデバイス１０２は、ビデオソース１０４（例えばカメラ構成要素又はメディアストレージ）及びエンコーダ構成要素１０６を含む。いくつかの実施形態では、ビデオソース１０４は、デジタルカメラ（例えば非圧縮ビデオサンプルストリームを生成するように構成される）である。エンコーダ構成要素１０６は、ビデオストリームから１つ以上の符号化ビデオビットストリームを生成する。ビデオソース１０４からのビデオストリームは、エンコーダ構成要素１０６によって生成される符号化ビデオビットストリーム１０８と比較して、データ量が大きい可能性がある。符号化ビデオビットストリーム１０８は、ビデオソースからのビデオストリームと比較して、データ量がより少ない（より少ないデータ）であるため、符号化ビデオビットストリーム１０８は、ビデオソース１０４からのビデオストリームと比較して、送信するために必要な帯域幅がより少なく、記憶するために必要な記憶スペースがより少ない。いくつかの実施形態では、ソースデバイス１０２は、エンコーダ構成要素１０６を含まない（例えば非圧縮ビデオをネットワーク１１０に送信するように構成される）。１つ以上のネットワーク１１０は、ソースデバイス１０２、サーバシステム１１２及び／又は電子デバイス１２０の間で情報を伝達する任意の数のネットワークを表し、例えば有線（wired）及び／又は無線通信ネットワークを含む。１つ以上のネットワーク１１０は、回線交換チャネル及び／又はパケット交換チャネルでデータを交換し得る。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又はインターネットを含む。１つ以上のネットワーク１１０は、サーバシステム１１２（例えば分散／クラウドコンピューティングシステム）を含む。いくつかの実施形態では、サーバシステム１１２は、（例えばソースデバイス１０２からの符号化ビデオストリームのようなビデオコンテンツを記憶及び／又は配信するように構成された）ストリーミングサーバであるか、これを含む。サーバシステム１１２は、（例えばビデオデータを符号化及び／又は復号するように構成された）コーダ構成要素１１４を含む。いくつかの実施形態では、コーダ構成要素１１４は、エンコーダ構成要素及び／又はデコーダ構成要素を含む。様々な実施形態では、コーダ構成要素１１４は、ハードウェア、ソフトウェア又はそれらの組合せとしてインスタンス化される。いくつかの実施形態では、コーダ構成要素１１４は、符号化ビデオビットストリーム１０８を復号し、異なる符号化標準及び／又は方法論を使用してビデオデータを再符号化して、符号化ビデオデータ１１６を生成するように構成される。いくつかの実施形態では、サーバシステム１１２は、符号化ビデオビットストリーム１０８から複数のビデオフォーマット及び／又は符号化を生成するように構成される。いくつかの実施形態では、サーバシステム１１２は、メディア認識ネットワーク要素（ＭＡＮＥ、Media-Aware Network Element）として機能する。例えばサーバシステム１１２は、潜在的に異なるビットストリームを電子デバイス１２０のうちの１つ以上に適合させるために、符号化ビデオビットストリーム１０８をプルーニングするように構成され得る。いくつかの実施形態では、ＭＡＮＥは、サーバシステム１１２とは別個に提供される。電子デバイス１２０－１は、デコーダ構成要素１２２及びディスプレイ１２４を含む。いくつかの実施形態では、デコーダ構成要素１２２は、符号化ビデオデータ１１６を復号して、ディスプレイ又は他のタイプのレンダリングデバイス上でレンダリングすることができる出力ビデオストリームを生成するように構成される。いくつかの実施形態では、電子デバイス１２０のうちの１つ以上は、ディスプレイ構成要素を含まない（例えば外部ディスプレイデバイスに通信可能に結合されるか、かつ／又はメディアストレージを含む）。いくつかの実施形態では、電子デバイス１２０はストリーミングクライアントである。いくつかの実施形態では、電子デバイス１２０は、サーバシステム１１２にアクセスして符号化ビデオデータ１１６を取得するように構成される。ソースデバイス及び／又は複数の電子デバイス１２０は、「端末デバイス」又は「ユーザデバイス」と呼ばれることがある。いくつかの実施形態では、ソースデバイス１０２及び／又は電子デバイス１２０のうちの１つ以上は、サーバシステム、パーソナルコンピュータ、ポータブルデバイス（例えばスマートフォン、タブレット又はラップトップ）、ウェアラブルデバイス、ビデオ会議デバイス及び／又は他のタイプの電子デバイスのインスタンスである。通信システム１００の例示的な動作では、ソースデバイス１０２は、符号化ビデオビットストリーム１０８をサーバシステム１１２に伝送する。例えばソースデバイス１０２は、ソースデバイスによってキャプチャされた画像のストリームをコーディングし得る。サーバシステム１１２は、符号化ビデオビットストリーム１０８を受信し、コーダ構成要素１１４を使用して、符号化ビデオビットストリーム１０８を復号及び／又は符号化し得る。例えばサーバシステム１１２は、ネットワーク伝送及び／又は記憶にとってより最適な符号化をビデオデータに適用し得る。サーバシステム１１２は、符号化ビデオデータ１１６（例えば１つ以上のコーディングされたビデオビットストリーム）を電子デバイス１２０のうちの１つ以上に伝送し得る。各電子デバイス１２０は、符号化ビデオデータ１１６を復号して、任意選択的にビデオピクチャを表示し得る。図２Ａは、いくつかの実施形態によるエンコー