JP-2026077726-A - マルチビュースケーラビリティのためのOLS
Abstract
【課題】ビデオコーディングメカニズムが開示される。 【解決手段】当該メカニズムは、出力レイヤセット(OLS)及びビデオパラメータセット(VPS)を含むビットストリームを受信することを含む。OLSは、コーディングされたピクチャの1つ以上のレイヤを含み、VPSは、各OLSについて各OLS内の全てのレイヤが出力レイヤであることを指定するOLSモード識別コード(ols_mode_idc)を含む。出力レイヤは、VPS内のols_mode_idcに基づいて決定される。出力レイヤからのコーディングされたピクチャは、復号されたピクチャを生成するように復号される。復号されたピクチャは、復号ビデオシーケンスの一部として表示するために転送される。 【選択図】図7
Inventors
- ワーン,イエ-クイ
Assignees
- 華為技術有限公司
Dates
- Publication Date
- 20260513
- Application Date
- 20260210
- Priority Date
- 20190924
Claims (20)
- デコーダにより実現される方法であって、当該方法は、 ビデオパラメータセット(VPS)を含むビットストリームを受信するステップであり、前記VPSは出力レイヤセット(OLS)モード識別コード(ols_mode_idc)を含み、1に等しい前記ols_mode_idcは、前記VPSにより指定されたOLSの総数が前記VPSにより指定されたレイヤの数に等しく、第iのOLSが0以上i以下のレイヤインデックスを有するレイヤを含み、各OLSについて当該OLS内の全てのレイヤが出力レイヤであることを指定する、ステップと、 前記VPS内の前記ols_mode_idcに基づいて、前記出力レイヤを決定するステップと、 前記出力レイヤを復号し、復号されたピクチャを生成するステップと を含む方法。
- 前記VPSは、前記VPSにより指定されたレイヤの数を指定するVPS最大レイヤマイナス1(vps_max_layers_minus1)を含み、前記vps_max_layers_minus1に1を加えたものは、前記VPSを参照する各コーディング済ビデオシーケンス(CVS)内のレイヤの最大許容数である、請求項1に記載の方法。
- 前記VPSはeach_layer_is_an_ols_flagを含み、1に等しい前記each_layer_is_an_ols_flagは、各出力レイヤセットが1つのレイヤのみを含むことを指定し、0に等しい前記each_layer_is_an_ols_flagは、少なくとも1つのOLSが1つよりも多くのレイヤを含むことを指定する、請求項1に記載の方法。
- 前記vps_max_layers_minus1が0よりも大きいとき、前記VPSはvps_all_independent_layers_flagを更に含み、1に等しい前記vps_all_independent_layers_flagは、CVS内の全てのレイヤがレイヤ間予測を使用せずに独立してコーディングされることを指定し、0に等しい前記vps_all_independent_layers_flagは、前記CVS内の前記レイヤのうち1つ以上がレイヤ間予測を使用することを指定する、請求項2に記載の方法。
- OLSの総数(TotalNumOlss)は、前記ols_mode_idcが0又は1に等しいとき、vps_max_layers_minus1に1を加えたものに等しい、請求項1に記載の方法。
- 第iのOLS内のレイヤの数(NumLayersInOls[i])及び前記第iのOLS内の第jのレイヤのネットワーク抽象レイヤ(NAL)ユニットヘッダレイヤ識別子(nuh_layer_id)値(LayerIdInOLS[i][j])は、以下のように、すなわち、 NumLayersInOls[0]=1 LayerIdInOls[0][0]=vps_layer_id[0] for(i=1,i<TotalNumOlss;i++){ if(each_layer_is_an_ols_flag){ NumLayersInOls[i]=1 LayerIdInOls[i][0]=vps_layer_id[i] }else if(ols_mode_idc==0||ols_mode_idc==1){ NumLayersInOls[i]=i+1 for(j=0;j<NumLayersInOls[i];j++) LayerIdInOls[i][j]=vps_layer_id[j] のように導出され、ここで、vps_layer_id[i]は第iのVPSレイヤ識別子であり、TotalNumOlssは前記VPSにより指定されたOLSの総数であり、each_layer_is_an_ols_flagは、少なくとも1つのOLSが1つよりも多くのレイヤを含むか否かを指定する、各レイヤがOLSであるフラグである、請求項1に記載の方法。
- エンコーダにより実現される方法であって、当該方法は、 ビデオパラメータセット(VPS)をビットストリームに符号化するステップであり、前記VPSは出力レイヤセット(OLS)モード識別コード(ols_mode_idc)を含み、1に等しい前記ols_mode_idcは、前記VPSにより指定されたOLSの総数が前記VPSにより指定されたレイヤの数に等しく、第iのOLSが0以上i以下のレイヤインデックスを有するレイヤを含み、各OLSについて当該OLS内の全てのレイヤが出力レイヤであることを指定する、ステップを含む方法。
- 前記VPSは、前記VPSにより指定されたレイヤの数を指定するVPS最大レイヤマイナス1(vps_max_layers_minus1)を含み、前記vps_max_layers_minus1に1を加えたものは、前記VPSを参照する各コーディング済ビデオシーケンス(CVS)内のレイヤの最大許容数である、請求項7に記載の方法。
- 前記VPSはeach_layer_is_an_ols_flagを含み、1に等しい前記each_layer_is_an_ols_flagは、各出力レイヤセットが1つのレイヤのみを含むことを指定し、0に等しい前記each_layer_is_an_ols_flagは、少なくとも1つのOLSが1つよりも多くのレイヤを含むことを指定する、請求項7に記載の方法。
- 前記vps_max_layers_minus1が0よりも大きいとき、前記VPSはvps_all_independent_layers_flagを更に含み、1に等しい前記vps_all_independent_layers_flagは、CVS内の全てのレイヤがレイヤ間予測を使用せずに独立してコーディングされることを指定し、0に等しい前記vps_all_independent_layers_flagは、前記CVS内の前記レイヤのうち1つ以上がレイヤ間予測を使用することを指定する、請求項8に記載の方法。
- OLSの総数(TotalNumOlss)は、前記ols_mode_idcが0に等しいとき、或いは、前記ols_mode_idcが1に等しいとき、vps_max_layers_minus1に1を加えたものに等しい、請求項7に記載の方法。
- 第iのOLS内のレイヤの数(NumLayersInOls[i])及び前記第iのOLS内の第jのレイヤのネットワーク抽象レイヤ(NAL)ユニットヘッダレイヤ識別子(nuh_layer_id)値(LayerIdInOLS[i][j])は、以下のように、すなわち、 NumLayersInOls[0]=1 LayerIdInOls[0][0]=vps_layer_id[0] for(i=1,i<TotalNumOlss;i++){ if(each_layer_is_an_ols_flag){ NumLayersInOls[i]=1 LayerIdInOls[i][0]=vps_layer_id[i] }else if(ols_mode_idc==0||ols_mode_idc==1){ NumLayersInOls[i]=i+1 for(j=0;j<NumLayersInOls[i];j++) LayerIdInOls[i][j]=vps_layer_id[j] のように導出され、ここで、vps_layer_id[i]は第iのVPSレイヤ識別子であり、TotalNumOlssは前記VPSにより指定されたOLSの総数であり、each_layer_is_an_ols_flagは、少なくとも1つのOLSが1つよりも多くのレイヤを含むか否かを指定する、各レイヤがOLSであるフラグである、請求項7に記載の方法。
- プロセッサと、前記プロセッサに結合されたメモリとを含むデコーダであって、 前記プロセッサは、請求項1乃至6のうちいずれか1講に記載の方法を実行するように構成される、デコーダ。
- プロセッサと、前記プロセッサに結合されたメモリとを含むエンコーダであって、 前記プロセッサは、請求項7乃至12のうちいずれか1講に記載の方法を実行するように構成される、エンコーダ。
- ビデオコーディングデバイスにより使用されるコンピュータプログラム製品を含む非一時的なコンピュータ読み取り可能媒体であって、 前記コンピュータプログラム製品は、プロセッサにより実行されたとき、前記ビデオコーディングデバイスに請求項1乃至12のうちいずれか1項に記載の方法を実行させるように、当該非一時的なコンピュータ読み取り可能媒体に記憶されたコンピュータ実行可能命令を含む、非一時的なコンピュータ読み取り可能媒体。
- デコーダであって、 ビデオパラメータセット(VPS)を含むビットストリームを受信するための受信手段であり、前記VPSは出力レイヤセット(OLS)モード識別コード(ols_mode_idc)を含み、1に等しい前記ols_mode_idcは、前記VPSにより指定されたOLSの総数が前記VPSにより指定されたレイヤの数に等しく、第iのOLSが0以上i以下のレイヤインデックスを有するレイヤを含み、各OLSについて当該OLS内の全てのレイヤが出力レイヤであることを指定する、受信手段と、 前記VPS内の前記ols_mode_idcに基づいて、前記出力レイヤを決定するための決定手段と、 前記出力レイヤを復号し、復号されたピクチャを生成するための復号手段と を含むデコーダ。
- エンコーダであって、 ビデオパラメータセット(VPS)をビットストリームに符号化するための符号化手段であり、前記VPSは出力レイヤセット(OLS)モード識別コード(ols_mode_idc)を含み、1に等しい前記ols_mode_idcは、前記VPSにより指定されたOLSの総数が前記VPSにより指定されたレイヤの数に等しく、第iのOLSが0以上i以下のレイヤインデックスを有するレイヤを含み、各OLSについて当該OLS内の全てのレイヤが出力レイヤであることを指定する、符号化手段を含むエンコーダ。
- 少なくとも1つのメモリ及び少なくとも1つの受信機を含む、ビットストリームを記憶するためのデバイスであって、 前記少なくとも1つの受信機は、1つ以上のビットストリームを受信するように構成され、 前記少なくとも1つのメモリは、前記1つ以上のビットストリームを記憶するように構成され、 前記ビットストリームはビデオパラメータセット(VPS)を含み、前記VPSは出力レイヤセット(OLS)モード識別コード(ols_mode_idc)を含み、 1に等しい前記ols_mode_idcは、前記VPSにより指定されたOLSの総数が前記VPSにより指定されたレイヤの数に等しく、第iのOLSが0以上i以下のレイヤインデックスを有するレイヤを含み、各OLSについて当該OLS内の全てのレイヤが出力レイヤであることを指定する、デバイス。
- ビットストリームを記憶するための方法であって、 1つ以上のビットストリームを受信するステップと、 前記ビットストリームを1つ以上のメモリに記憶するステップと を含み、 前記ビットストリームはビデオパラメータセット(VPS)を含み、前記VPSは出力レイヤセット(OLS)モード識別コード(ols_mode_idc)を含み、 1に等しい前記ols_mode_idcは、前記VPSにより指定されたOLSの総数が前記VPSにより指定されたレイヤの数に等しく、第iのOLSが0以上i以下のレイヤインデックスを有するレイヤを含み、各OLSについて当該OLS内の全てのレイヤが出力レイヤであることを指定する、方法。
- ビットストリームを含む非一時的なコンピュータ読み取り可能記憶媒体であって、 前記ビットストリームはビデオパラメータセット(VPS)を含み、前記VPSは出力レイヤセット(OLS)モード識別コード(ols_mode_idc)を含み、 1に等しい前記ols_mode_idcは、前記VPSにより指定されたOLSの総数が前記VPSにより指定されたレイヤの数に等しく、第iのOLSが0以上i以下のレイヤインデックスを有するレイヤを含み、各OLSについて当該OLS内の全てのレイヤが出力レイヤであることを指定する、非一時的なコンピュータ読み取り可能記憶媒体。
Description
[関連出願への相互参照] この特許出願は、Ye-Kui Wangにより2019年9月24日に出願された「Signalling Of Output Layer Sets For Multiview Scalability」という名称の米国仮特許出願第62/905,132号の優先権を主張し、これを参照することにより援用する。 [技術分野] 本開示は、概してビデオコーディングに関し、具体的には、マルチビュービデオのための空間及び信号対雑音(signal to noise, SNR)スケーラビリティをサポートするために、マルチレイヤビットストリームにおいて出力レイヤセット(output layer set, OLS)を構成することに関連する。 比較的短いビデオですら描写するために必要なビデオデータの量はかなりのものとなる可能性があり、これは、データが限られた帯域幅容量を有する通信ネットワークを横切ってストリーミング又は他の方法で通信されるときに困難を生じることがある。したがって、ビデオデータは、一般的に、今日の電気通信ネットワークを横切って通信される前に圧縮される。メモリリソースが限られることがあるので、ビデオのサイズはまた、ビデオが記憶デバイスに記憶されるときに問題になる可能性がある。ビデオ圧縮デバイスは、しばしば、伝送又は記憶の前にビデオデータをコーディングするために、ソースにおいてソフトウェア及び/又はハードウェアを使用し、それにより、デジタルビデオ画像を表すために必要なデータの量を減少させる。次いで、圧縮データは、宛先において、ビデオデータを復号するビデオ解凍デバイスにより受信される。限られたネットワークリソース及びより高いビデオ品質の増え続ける要求によって、画像品質にほとんど犠牲を払わずに或いは全く犠牲を払わずに圧縮比を改善する改善した圧縮及び解凍技術が望まれる。 一実施形態では、本開示は、デコーダにより実現される方法を含み、当該方法は、デコーダの受信機により、出力レイヤセット(output layer set, OLS)及びビデオパラメータセット(video parameter set, VPS)を含むビットストリームを受信するステップであり、OLSは、コーディングされたピクチャの1つ以上のレイヤを含み、VPSは、各OLSについて各OLS内の全てのレイヤが出力レイヤであることを指定するOLSモード識別コード(ols_mode_idc)を含む、ステップと、デコーダのプロセッサにより、VPS内のols_mode_idcに基づいて、出力レイヤを決定するステップと、デコーダのプロセッサにより、出力レイヤからコーディングされたピクチャを復号し、復号されたピクチャを生成するステップとを含む。 いくつかのビデオコーディングシステムは、1つ以上の指示された下位レイヤと共に、レイヤIDにより示されるように、最高の符号化レイヤを復号して出力するようにのみ構成される。これは、デコーダが最高のレイヤを復号することを望まないことがあるので、スケーラビリティにとって問題を提起する可能性がある。具体的には、デコーダは、一般的にデコーダがサポートできる最高のレイヤを要求するが、デコーダは、一般的に要求されたレイヤよりも高いレイヤを復号することは不可能である。具体的な例として、デコーダは、合計で15個の符号化レイヤのうち第3のレイヤを受信して復号することを望むことがある。第3のレイヤを復号するためにレイヤ4~15が必要とされないので、第3のレイヤは、このようなレイヤなしにデコーダに送信できる。しかし、最高のレイヤ(レイヤ15)が存在せず、ビデオシステムが常に最高のレイヤを復号して表示するように指示されるので、デコーダは、第3のレイヤを適切に復号して表示することは不可能であることがある。これは、このようなシステムにおいてビデオスケーラビリティが試みられるときにエラーを生じる。これは、デコーダが常に最高のレイヤをサポートすることを要求することが、異なるハードウェア及びネットワーク要件に基づいて中間レイヤに対してスケーリングできないシステムを生じるので、有意な問題になることがある。マルチビューが使用されるとき、この問題は複雑になる。マルチビューでは、1つよりも多くのレイヤが表示のために出力される。例えば、ユーザは、ヘッドセットを使用してもよく、異なるレイヤが、三次元(three dimensional, 3D)ビデオの印象を作成するように各眼に表示されてもよい。スケーラビリティをサポートできないシステムはまた、マルチビュースケーラビリティもサポートできない。 本例は、マルチビュースケーラビリティをサポートするためのメカニズムを含む。レイヤは、OLSに含まれる。エンコーダは、サイズ又はSNRのような特定の特性に対してスケーリングするように、レイヤを含むOLSを送信できる。さらに、エンコーダは、例えばVPSにおいて、ols_mode_idcシンタックスエレメントを伝送してもよい。ols_mode_idcシンタックスエレメントは、マルチビュースケーラビリティの使用を示すために1に設定できる。例えば、ols_mode_idcは、OLSの総数がVPSで指定されたレイヤの総数に等しく、第iのOLSが0以上i以下のレイヤを含み、各OLSについて全てのレイヤが出力レイヤとして考えられることを示すことができる。これは、デコーダが特定のOLS内の全てのレイヤを受信して復号できるので、スケーラビリティをサポートする。全てのレイヤは出力レイヤであるので、デコーダは所望の出力レイヤを選択してレンダリングできる。このように、符号化されたレイヤの総数は、復号プロセスに影響を及ぼさないことがあり、依然としてスケーラブルマルチビュービデオを提供しつつ、エラーが回避され得る。したがって、開示のメカニズムは、エンコーダ及び/又はデコーダの機能を向上させる。さらに、開示のメカニズムは、ビットストリームサイズを減少させ、したがって、エンコーダ及びデコーダの双方においてプロセッサ、メモリ及び/又はネットワークリソース利用率を低減し得る。特定の実施形態では、ols_mode_idcを使用することは、多くのデータが共有される複数のOLSを含む符号化ビットストリームにおいてビット節約を提供し、したがって、ストリーミングサーバにおける節約を提供し、このようなビットストリームを伝送するための帯域幅節約を提供する。例えば、ols_mode_idcを1に設定することの利点は、マルチビューアプリケーションのようなユースケースをサポートすることであり、それぞれが1つのレイヤにより表される2つ以上のビューが同時に出力されて表示される。 任意選択で、上記の態様のいずれかにおいて、当該態様の他の実現方式は、ols_mode_idcが、VPSにより指定されたOLSの総数がVPSにより指定されたレイヤの数に等しいことを指定することを提供する。 任意選択で、上記の態様のいずれかにおいて、当該態様の他の実現方式は、ols_mode_idcが、第iのOLSが0以上i以下のレイヤインデックスを有するレイヤを含むことを指定することを提供する。 任意選択で、上記の態様のいずれかにおいて、当該態様の他の実現方式は、ols_mode_idcが1に等しいことを提供する。 任意選択で、上記の態様のいずれかにおいて、当該態様の他の実現方式は、VPSが、VPSを参照する各コーディング済ビデオシーケンス(coded video sequence, CVS)内のレイヤの最大許容数である、VPSにより指定されたレイヤの数を指定するVPS最大レイヤマイナス1(vps_max_layers_minus1)を含むことを提供する。 任意選択で、上記の態様のいずれかにおいて、当該態様の他の実現方式は、OLSの総数(TotalNumOlss)が、ols_mode_idcが0に等しいとき、或いは、ols_mode_idcが1に等しいとき、vps_max_layers_minus1に1を加えたものに等しいことを提供する。 任意選択で、上記の態様のいずれかにおいて、当該態様の他の実現方式は、第iのOLS内のレイヤの数(NumLayersInOls[i])及び第iのOLS内の第jのレイヤのネットワーク抽象レイヤ(network abstraction layer, NAL)ユニットヘッダレイヤ識別子(nuh_layer_id)値(LayerIdInOLS[i][j])が、以下のように、すなわち、 NumLayersInOls[0]=1 LayerIdInOls[0][0]=vps_layer_id[0] for(i=1,i<TotalNumOlss;i++){ if(each_layer_is_an_ols_flag){ NumLayersInOls[i]=1 LayerIdInOls[i][0]=vps_layer_id[i] }else if(ols_mode_idc==0||ols_mode_idc==1){ NumLayersInOls[i]=i+1 for(j=0;j<NumLayersInOls[i];j++) LayerIdInOls[i][j]=vps_layer_id[j] のように導出され、ここで、vps_layer_id[i]は第iのVPSレイヤ識別子であり、TotalNumOlssはVPSにより指定されたOLSの総数であり、each_layer_is_an_ols_flagは、少なくとも1つのOLSが1つよりも多くのレイヤを含むか否かを指定する、各レイヤがOLSであるフラグであることを提供する。 一実施形態では、本開示は、エンコーダにより実現される方法を含み、当該方法は、エンコーダのプロセッサにより、コーディングされたピクチャの1つ以上のレイヤを含む1つ以上のOLSを含むビットストリームを符号化するステップと、プロセッサにより、VPSをビットストリームに符号化するステップであり、VPSは、各OLSについて各OLS内の全てのレイヤが出力レイヤであることを指定するols_mode_idcを含む、ステップと、プロセッサに結合されたメモリにより、デコーダに向けて通信するためにビットストリームを記憶するステップとを含む。 いくつかのビデオコーディングシステムは、1つ以上の指示された下位レイヤと共に、レイヤIDにより示されるように、最高の符号化レイヤを復号して出力するようにのみ構成される。これは、デコーダが最高のレイヤを復号することを望まないことがあるので、スケーラビリティにとって問題を提起する可能性がある。具体的には、デコーダは、一般的にデコーダがサポートできる最高のレイヤを要求するが、デコーダは、一般的に要求されたレイヤよりも高いレイヤを復号することは不可能である。具体的な例として、デコーダは、合計で15個の符号化レイヤのうち第3のレイヤを受信して復号することを望むことがある。第3のレイヤを復号するためにレイヤ4~15が必要とされないので、第3のレイヤは、このようなレイヤなしにデコーダに送信できる。しかし、最高のレイヤ(レイヤ15)が存在せず、ビデオシステムが常に最高のレイヤを復号して表示するように指示されるので、デコーダは、第3のレイヤを適切に復号して表示することは不可能であることがある。これは、このようなシステムにおいてビデオスケーラビリティが試みられるときにエラーを生じる。これは、デコーダが常に最高のレイヤをサポートすることを要求することが、異なるハードウェア及びネットワーク要件に基づいて中間レイヤに対してスケーリングできないシステムを生じるので、有意な問題になることがある。