JP-2026077642-A - ビデオコーディングのための方法、装置及びコンピュータプログラム

JP2026077642AJP 2026077642 AJP2026077642 AJP 2026077642AJP-2026077642-A

Abstract

【課題】ビデオコーディングのための方法、装置及びコンピュータプログラムを提供する。【解決手段】1つまたは複数のプロセッサに、ビデオデータを取得するステップと、ビデオデータのビデオパラメータセット（VPS）シンタックスをパーシングするステップと、VPSシンタックスのシンタックス要素の値が、ビデオデータのアクセスユニット（AU）の画像順序カウント（POC）値を示すかどうかを判定するステップと、シンタックス要素の値に基づいて、ビデオデータの複数の画像、スライス、およびタイルのうちの少なくとも1つをAUに設定するステップと、を実行させるように構成されたコンピュータコードを含む方法および装置が含まれる。【選択図】図１０

Inventors

ビョンドゥ・チェ
ステファン・ヴェンガー
シャン・リュウ

Assignees

テンセント・アメリカ・エルエルシー

Dates

Publication Date: 20260513
Application Date: 20260120
Priority Date: 20200917

Claims (1)

少なくとも1つのプロセッサによって実行されるビデオコーディングのための方法であって、前記方法は、ビデオデータを取得するステップと、前記ビデオデータのビデオパラメータセット（VPS）シンタックスをパーシングするステップと、前記VPSシンタックスのシンタックス要素の値が、前記ビデオデータのアクセスユニット（AU）の画像順序カウント（POC）値を示すかどうかを判定するステップと、前記シンタックス要素の前記値に基づいて、前記ビデオデータの複数の画像、スライス、およびタイルのうちの少なくとも1つを前記AUに設定するステップと、を含む、ビデオコーディングのための方法。

Description

関連出願の相互参照本願は、2019年9月23日に出願された米国仮特許出願第62／904，338号および2020年9月17日に出願された米国特許出願第17／024，288号の優先権を主張し、その全体が本明細書に組み込まれる。開示される主題は、ビデオコーディングおよびデコーディングに関し、より具体的には、サブ画像分割による時間的／空間的スケーラビリティのサポートのためのプロファイル／階層／レベル情報のシグナリングに関する。動き補償による画像間予測を使用したビデオのコーディングとデコーディングは、何十年も前から知られている。非圧縮デジタルビデオは、一連の画像で構成することができ、各画像は、例えば1920×1080の輝度サンプルおよび関連するクロミナンスサンプルの空間次元を有する。一連の画像は、例えば毎秒60画像または60Hzの固定または可変の画像レート（非公式にはフレームレートとも呼ばれる）を有することができる。非圧縮ビデオは重要なビットレート要件を有する。例えば、サンプルあたり8ビットの1080p60 4：2：0ビデオ（60 Hzフレームレートでの1920×1080輝度サンプル解像度）は、1．5 Gbit／sに近い帯域幅を必要とする。このようなビデオを1時間使用するには、600 GByteを超える記憶スペースが必要である。ビデオのコーディングとデコーディングの1つの目的は、圧縮によって入力ビデオ信号の冗長性を減らすことであり得る。圧縮は、前述の帯域幅または記憶スペースの要件を、場合によっては2桁以上削減するのに役立ち得る。可逆圧縮と非可逆圧縮の両方、およびそれらの組み合わせが使用されてもよい。可逆圧縮とは、圧縮された元の信号から元の信号の正確なコピーを再構築できる手法を指す。非可逆圧縮を使用すると、再構築された信号は元の信号と同一ではない可能性があるが、元の信号と再構築された信号の間の歪みが十分に小さいので、再構築された信号は目的の用途に有用である。ビデオの場合、非可逆圧縮が広く採用されている。許容される歪みの量は用途によって異なり、例えば、特定のコンシューマストリーミング用途のユーザは、テレビ寄与用途のユーザよりも高い歪みを許容することができる。達成可能な圧縮率は、許容可能な／耐えられる歪みが高いほど、より高い圧縮率が得られるということを反映できる。ビデオエンコーダとデコーダは、例えば動き補償、変換、量子化、エントロピーコーディングなど、いくつかの幅広いカテゴリからの技術を利用することができ、これらのいくつかは以下で導入される。歴史的に、ビデオエンコーダおよびデコーダは、ほとんどの場合、コーディング済ビデオシーケンス（CVS）、画像グループ（GOP）、または同様のマルチ画像タイムフレームに対して定義されて一定のままであった所与の画像サイズで動作する傾向があった。例えば、MPEG－2では、システム設計は、I画像においてのみであるが、シーンのアクティビティなどの要因に応じて水平解像度（それによって、画像サイズ）を変更することが公知であり、したがって通常はGOP用である。CVS内の異なる解像度を使用するための参照画像の再サンプリングは、例えばITU－T Rec．H．263 Annex Pで公知である。しかしながら、ここでは画像サイズは変化せず、参照画像のみが再サンプリングされ、画像キャンバスの一部のみが使用される（ダウンサンプリングの場合）、またはシーンの一部のみがキャプチャされる（アップサンプリングの場合）可能性がある。さらに、H．263 Annex Qは、個々のマクロブロックを上方または下方に（各次元で）2倍だけ再サンプリングすることを可能にする。ここでも、画像サイズは同じままである。マクロブロックのサイズはH．263では固定されているため、シグナリングする必要はない。予測画像の画像サイズの変更は、最新のビデオコーディングにおいてより主流になった。例えば、VP9は、参照画像の再サンプリングおよび画像全体の解像度の変更を可能にする。同様に、VVCに向けてなされた特定の提案（例えば、Hendry，et．al，“On adaptive resolution change（ARC）for VVC”，Joint Video Team document JVET－M0135－v1，Jan 9－19，2019が含まれ、その全体は本明細書に組み込まれる）は、異なる－より高いまたはより低い－解像度への参照画像全体の再サンプリングを可能にする。その文書では、シーケンスパラメータセット内でコーディングされ、画像パラメータセット内の画像ごとのシンタックス要素によって参照される異なる候補解像度が提案されている。実施形態による通信システムの簡略化されたブロック図の概略図である。実施形態による通信システムの簡略化されたブロック図の概略図である。実施形態によるデコーダの簡略化されたブロック図の概略図である。実施形態によるエンコーダの簡略化されたブロック図の概略図である。関連技術によるARCパラメータをシグナリングするためのオプションの概略図である。関連技術によるARCパラメータをシグナリングするためのオプションの概略図である。実施形態によるARCパラメータをシグナリングするためのオプションの概略図である。実施形態によるARCパラメータをシグナリングするためのオプションの概略図である。実施形態によるARCパラメータをシグナリングするためのオプションの概略図である。実施形態によるシンタックステーブルの一例を示す図である。実施形態によるコンピュータシステムの概略図である。適応的解像度変更を伴うスケーラビリティのための予測構造の一例を示す図である。実施形態によるシンタックステーブルの一例を示す図である。実施形態による、アクセスユニット当たりのpocサイクルおよびアクセスユニットカウント値をパーシングおよびデコードする簡略ブロック図の概略図である。実施形態による、マルチレイヤサブ画像を含むビデオビットストリーム構造の概略図である。実施形態による、エンハンスされた解像度を有する選択されたサブ画像の表示の概略図である。実施形態による、マルチレイヤサブ画像を含むビデオビットストリームのデコーディングおよび表示プロセスのブロック図である。実施形態による、サブ画像のエンハンスメントレイヤを有する360ビデオ表示の概略図である。実施形態による、サブ画像ならびにその対応するレイヤおよび画像予測構造のレイアウト情報の一例を示す図である。実施形態による、局所領域の空間スケーラビリティ様式を有する、サブ画像ならびにその対応するレイヤおよび画像予測構造のレイアウト情報の一例を示す図である。実施形態による、サブ画像レイアウト情報のためのシンタックステーブルの一例を示す図である。実施形態による、サブ画像レイアウト情報のためのSEIメッセージのシンタックステーブルの一例を示す図である。実施形態による、出力レイヤおよび各出力レイヤセットのプロファイル／階層／レベル情報を示すシンタックステーブルの一例を示す図である。実施形態による各出力レイヤセットの出力レイヤモードを示すシンタックステーブルの一例を示す図である。実施形態による、各出力レイヤセットの各レイヤの現在のサブ画像を示すシンタックステーブルの一例を示す図である。以下で説明する提案された特徴は、別々に使用されてもよいし、任意の順序で組み合わされてもよい。さらに、実施形態は、処理回路（例えば、1つまたは複数のプロセッサまたは1つまたは複数の集積回路）によって実施されてもよい。一例では、1つまたは複数のプロセッサは、非一時的なコンピュータ可読媒体に格納されているプログラムを実行する。最近、複数のセマンティックに独立した画像部分の単一のビデオ画像への圧縮ドメインアグリゲーションまたは抽出が、いくらかの注目を集めている。特に、例えば、360個のコーディングまたは特定の監視アプリケーションのコンテキストでは、複数のセマンティックに独立したソース画像（例えば、立方体投影された360シーンの6つの立方体表面、またはマルチカメラ監視設定の場合の個々のカメラ入力）は、所与の時点における異なるシーンごとのアクティビティに対処するために別々の適応的解像度設定を必要とする場合がある。言い換えれば、エンコーダは、所与の時点において、360全体または監視シーンを構成する異なるセマンティックに独立した画像に対して異なる再サンプリング係数を使用することを選択することができる。単一の画像に結合されると、それは、コーディング済画像の部分に対して、参照画像の再サンプリングが実行され、適応的解像度コーディングシグナリングが利用可能であることを必要とする。図1は、本開示の一実施形態による通信システム（100）の簡略化されたブロック図を示す。システム（100）は、ネットワーク（150）を介して相互接続された少なくとも2つの端末（110、120）を含むことができる。データの一方向送信の場合、第1の端末（110）は、ネットワーク（150）を介して他の端末（120）に送信するためにローカル位置でビデオデータをコーディングすることができる。第2の端末（120）は、ネットワーク（150）から他の端末のコーディング済ビデオデータを受信し、コーディング済データをデコードし、回復されたビデオデータを表示することができる。一方向のデータ送信は、メディアサービングアプリケーションなどでは一般的であり得る。図1は、例えば、ビデオ会議中に発生する可能性があるコーディング済ビデオの双方向送信をサポートするために提供される第2の端末のペア（130、140）を示す。データの双方向送信の場合、各端末（130、140）は、ネットワーク（150）を介して他の端末に送信するためにローカル位置でキャプチャされたビデオデータをコーディングすることができる。各端末（130、140）はまた、他の端末によって送信されたコーディング済ビデオデータを受信することができ、コーディング済データをデコードすることができ、回復されたビデオデータをローカルディスプレイ装置に表示することができる。図1では、端末（110，120，130，140）は、サーバ、パーソナルコンピュータ、およびスマートフォンとして例示され得るが、本開示の原理はそのように限定されない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ、および／または専用のビデオ会議機器での用途を見出す。ネットワーク（150）は、例えば有線および／または無線通信ネットワークを含む、端末（110，120，130，140）間でコーディング済ビデオデータを伝達する任意の数のネットワークを表す。通信ネットワーク（150）は、回路切り替えおよび／またはパケット切り替えチャネルでデータを交換することができる。代表的なネットワークは、通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワークおよび／またはインターネットを含む。本議論の目的のために、ネットワーク（150）のアーキテクチャおよびトポロジーは、以下で本明細書において説明されない限り、本開示の動作にとって重要ではない場合がある。図2は、開示された主題に対する用途の例として、ストリーミング環境におけるビデオエンコーダおよびデコーダの配置を示す。開示された主題は、例えば、ビデオ会議、デジタルTV、CD、DVD、メモリスティックなどを含むデジタルメディアへの圧縮ビデオの格納などを含む他のビデオ対応アプリケーションに等しく適用可能であり得る。ストリーミングシステムは、例えば非圧縮ビデオサンプルストリーム（202）を作成する、例えばデジタルカメラなどのビデオソース（201）を含むことができるキャプチャサブシステム（213）を含むことができる。エンコード済ビデオビット