Search

JP-2026515005-A - ビデオコーディングおよびデコーディングのための装置、方法、およびコンピュータプログラム

JP2026515005AJP 2026515005 AJP2026515005 AJP 2026515005AJP-2026515005-A

Abstract

エンコーダの入力データの初期の再構築、エンコーディングされた残差を含む入力データを受信することであって、エンコーディングされた残差は、エンコーダのグラウンドトゥルースデータと、入力データの初期の再構築と、デコーダへの適応信号とに少なくとも基づいて決定され、前記デコーダは、少なくとも第1のサブデコーダ、構文生成ユニット、および確率モデルを備える、受信することと、エンコーディングされた残差成分と確率モデルの1つまたは複数の確率とに少なくとも基づいて、エントロピーデコーディングされた残差成分を取得することであって、エントロピーデコーディングされた残差は、複数のデコーディングされた潜在テンソル要素として表される、取得することと、エントロピーデコーディングされた残差成分を第1のサブデコーダに提供することと、適応信号に基づいて1つまたは複数の構文を生成するために適応信号を構文生成ユニットに提供することと、前記1つまたは複数の構文に基づいて第1のサブデコーダにおける残差成分のデコーディングを適応させることと、第1のサブデコーダの出力から、再構築された残差成分を取得することと、再構築された残差成分を入力データの初期の再構築と組み合わせて、入力データの最終的な再構築を取得することとを含む、方法。

Inventors

  • ゾウ ナンナン
  • クリクリ フランチェスコ
  • ジャン ホンレイ

Assignees

  • ノキア テクノロジーズ オサケユイチア

Dates

Publication Date
20260513
Application Date
20240328
Priority Date
20230425

Claims (16)

  1. 第1のグラウンドトゥルースデータを含む入力データを受信するための手段と、 前記第1のグラウンドトゥルースデータを第1のエンコーダに提供するための手段であって、前記グラウンドトゥルースデータは、少なくとも前記入力データの第1の部分を含む、提供するための手段と、 前記第1のエンコーダの出力から初期のエンコーディングされた入力データを取得するための手段と、 前記初期のエンコーディングされた入力データを第1のデコーダに提供するための手段と、 前記第1のデコーダの出力から前記入力データの初期の再構築を取得するための手段と、 前記第1のグラウンドトゥルースデータと前記入力データの前記初期の再構築とに少なくとも基づいて残差を決定するための手段と、 少なくとも前記残差を含む第2のグラウンドトゥルースデータを第2のエンコーダに提供するための手段であって、前記第2のエンコーダは、少なくとも第1のサブエンコーダと確率モデルとを備える、提供するための手段と、 前記第2のグラウンドトゥルースデータを前記第1のサブエンコーダに提供するための手段と、 前記第1のサブエンコーダの出力を前記確率モデルに提供するための手段と、 前記確率モデルの出力から1つまたは複数の第1の確率を取得するための手段と、 前記第1のサブエンコーダの前記出力と前記1つまたは複数の確率とに基づいて、前記第2のエンコーダの出力から、エンコーディングされた残差情報を取得するための手段と を備える、装置。
  2. 前記第1のエンコーダ、前記第1のデコーダ、および前記第2のエンコーダは、エンドツーエンド学習型イントラフレームコーデックに属する、請求項1に記載の装置。
  3. 前記第1のエンコーダは、ニューラルエンコーダ、確率モデル、およびエントロピーエンコーダを備え、 前記ニューラルエンコーダは、前記入力データを複数の潜在テンソル要素に変換するための手段を備え、 前記確率モデルは、前記複数の潜在テンソル要素のうちの1つまたは複数の確率を推定するための手段を備え、 前記エントロピーエンコーダは、前記複数の潜在テンソル要素と前記複数の潜在テンソル要素のうちの1つまたは複数の前記確率とに少なくとも部分的に基づいてエンコーディングされたビットストリームを出力するための手段を備える、請求項1または2に記載の装置。
  4. 前記第1のデコーダの前記出力からの前記入力データの前記初期の再構築、または前記入力データの前記初期の再構築から得られたデータを、第2のデコーダの第1のサブデコーダの入力に提供するための手段を備える、請求項1~3のいずれかに記載の装置。
  5. 前記第1のデコーダの前記出力からの前記入力データの前記初期の再構築、または前記入力データの前記初期の再構築から得られたデータを、前記第2のエンコーダの前記第1のサブエンコーダの入力に提供するための手段を備える、請求項1~4のいずれかに記載の装置。
  6. 前記第1のデコーダの前記出力からの前記入力データの前記初期の再構築、または前記入力データの前記初期の再構築から得られたデータを、前記第2のエンコーダで使用される前記確率モデルの入力と、前記第2のデコーダで使用される前記確率モデルの入力とに提供するための手段を備える、請求項1~5のいずれかに記載の装置。
  7. 第1のグラウンドトゥルースデータを含む入力データを受信することと、 前記第1のグラウンドトゥルースデータを第1のエンコーダに提供することであって、前記グラウンドトゥルースデータは、少なくとも前記入力データの第1の部分を含む、提供することと、 前記第1のエンコーダの出力から初期のエンコーディングされた入力データを取得することと、 前記初期のエンコーディングされた入力データを第1のデコーダに提供することと、 前記第1のデコーダの出力から前記入力データの初期の再構築を取得することと、 前記第1のグラウンドトゥルースデータと前記入力データの前記初期の再構築とに少なくとも基づいて残差を決定することと、 少なくとも前記残差を含む第2のグラウンドトゥルースデータを第2のエンコーダに提供することであって、前記第2のエンコーダは、少なくとも第1のサブエンコーダと確率モデルとを備える、提供することと、 前記第2のグラウンドトゥルースデータを前記第1のサブエンコーダに提供することと、 前記第1のサブエンコーダの出力を前記確率モデルに提供することと、 前記確率モデルの出力から1つまたは複数の第1の確率を取得することと、 前記第1のサブエンコーダの前記出力と前記1つまたは複数の確率とに基づいて、前記第2のエンコーダの出力から、エンコーディングされた残差情報を取得することと を含む、方法。
  8. エンコーダの入力データの初期の再構築、エンコーディングされた残差を含む入力データを受信するための手段であって、前記エンコーディングされた残差は、前記エンコーダのグラウンドトゥルースデータと、前記入力データの前記初期の再構築と、デコーダへの適応信号とに少なくとも基づいて決定され、前記デコーダは、少なくとも第1のサブデコーダ、構文生成ユニット、および確率モデルを備える、受信するための手段と、 前記エンコーディングされた残差と前記確率モデルの1つまたは複数の確率とに少なくとも基づいて、エントロピーデコーディングされた残差を取得するための手段であって、前記エントロピーデコーディングされた残差は、複数のデコーディングされた潜在テンソル要素として表される、取得するための手段と、 前記エントロピーデコーディングされた残差を前記第1のサブデコーダに提供するための手段と、 前記適応信号に基づいて1つまたは複数の構文を生成するために前記適応信号を前記構文生成ユニットに提供するための手段と、 前記1つまたは複数の構文に基づいて前記第1のサブデコーダにおける前記残差のデコーディングを適応させるための手段と、 前記第1のサブデコーダの出力から、再構築された残差を取得するための手段と、 前記再構築された残差を前記入力データの初期の再構築と組み合わせて、前記入力データの最終的な再構築を取得するための手段と を備える、装置。
  9. 前記デコーダは、エントロピーデコーダとニューラルデコーダとを備え、 前記デコーダの前記確率モデルは、前記複数のデコーディングされた潜在テンソル要素内の1つまたは複数の要素の確率を推定するための手段を備え、 前記エントロピーデコーダは、前記入力データと前記複数の潜在テンソル要素内の1つまたは複数の要素の前記確率とに少なくとも部分的に基づいて、複数のデコーディングされた潜在テンソル要素を出力するための手段を備え、 前記ニューラルデコーダは、前記複数のデコーディングされた潜在テンソル要素を前記再構築されたクロマ成分に変換するための手段を備える、請求項8に記載の装置。
  10. 前記デコーダの前記第1のサブデコーダは、前記1つまたは複数の構文を受信し、前記残差成分の前記デコーディングを適応させるための1つまたは複数の空間アテンションユニットを備えるニューラルデコーダである、請求項8または9に記載の装置。
  11. 前記構文生成ネットワークに入力される前記適応信号は、別のコーデックによって出力された逆量子化された潜在テンソルである、請求項8~10のいずれかに記載の装置。
  12. 前記構文生成ネットワークに入力される前記適応信号は、入力データの前記初期の再構築である、請求項8~10のいずれかに記載の装置。
  13. 前記構文生成ネットワークに入力される前記適応信号は、補助エンコーダの出力である、請求項8~10のいずれかに記載の装置。
  14. 前記デコーダは、エンドツーエンド学習型イントラフレームコーデックに属する、請求項8~13のいずれかに記載の装置。
  15. 組み合わせるための前記手段は、前記入力データの前記最終的な再構築を取得すると、前記入力データの前記初期の再構築を省略するように構成される、請求項8~14のいずれかに記載の装置。
  16. エンコーダの入力データの初期の再構築、エンコーディングされた残差を含む入力データを受信することであって、前記エンコーディングされた残差は、前記エンコーダのグラウンドトゥルースデータと、前記入力データの前記初期の再構築と、デコーダへの適応信号とに少なくとも基づいて決定され、前記デコーダは、少なくとも第1のサブデコーダ、構文生成ユニット、および確率モデルを備える、受信することと、 前記エンコーディングされた残差成分と前記確率モデルの1つまたは複数の確率とに少なくとも基づいて、エントロピーデコーディングされた残差を取得することであって、前記エントロピーデコーディングされた残差は、複数のデコーディングされた潜在テンソル要素として表される、取得することと、 前記エントロピーデコーディングされた残差を前記第1のサブデコーダに提供することと、 前記適応信号に基づいて1つまたは複数の構文を生成するために前記適応信号を前記構文生成ユニットに提供することと、 前記1つまたは複数の構文に基づいて前記第1のサブデコーダにおける前記残差のデコーディングを適応させることと、 前記第1のサブデコーダの出力から、再構築された残差を取得することと、 前記再構築された残差を前記入力データの初期の再構築と組み合わせて、前記入力データの最終的な再構築を取得することと を含む、方法。

Description

本発明は、ビデオコーディングおよびデコーディングのための装置、方法、およびコンピュータプログラムに関する。 ビデオコーディングにおいて、ビデオおよび画像サンプルは、通常、Yとも表記される1つの輝度(ルーマ)チャネルと、U、Vとも、またはCb、Crとも表記される2つの色差(クロマ)チャネルとで構成される、YUVまたはYCbCrなどの色表現を使用してエンコーディングされる。これらの場合、シーンの照明を大半が表す輝度チャネルは、通常、ある一定の解像度でコーディングされる一方で、ある一定の色成分間の差を通常表す色差チャネルは、輝度信号の解像度よりも低い第2の解像度でしばしばコーディングされる。この種の差分表現の目的は、色成分の相関を失わせること、およびデータをより効率的に圧縮できるようにすることである。 ニューラルネットワーク(NN)は、従来のコーデックの成分のうちの1つまたは複数を置き換えることによって、またはエンドツーエンド学習型圧縮を利用することによって、画像およびビデオの圧縮の観点で使用されてきた。 しかしながら、エンドツーエンド学習型圧縮に基づく解決法を含むNNベースのビデオコーディングアプローチは、コーデックのレート歪み性能を最適化するという点では不十分であることが示されている。 上記の問題を少なくとも軽減するために、レート歪み性能を改善するための強化された方法が本明細書で紹介される。 本発明の様々な実施形態の保護範囲は、独立請求項によって規定される。もしあるならば、独立請求項の範囲に入らない、本明細書に説明する実施形態および特徴は、本発明の様々な実施形態を理解するのに有用な例として解釈されるべきである。 第1の態様による方法は、第1のグラウンドトゥルースデータ(ground truth data)を含む入力データを受信することと、第1のグラウンドトゥルースデータを第1のエンコーダに提供することであって、前記グラウンドトゥルースデータは少なくとも入力データの第1の部分を含む、提供することと、第1のエンコーダの出力から初期のエンコーディングされた入力データを取得することと、初期のエンコーディングされた入力データを第1のデコーダに提供することと、第1のデコーダの出力から入力データの初期の再構築を取得することと、第1のグラウンドトゥルースデータと入力データの初期の再構築とに少なくとも基づいて残差を決定することと、少なくとも残差を含む第2のグラウンドトゥルースデータを第2のエンコーダに提供することであって、前記第2のエンコーダは、少なくとも第1のサブエンコーダと確率モデルとを備える、提供することと、第2のグラウンドトゥルースデータを第1のサブエンコーダに提供することと、第1のサブエンコーダの出力を確率モデルに提供することと、確率モデルの出力から1つまたは複数の第1の確率を取得することと、第1のサブエンコーダの出力と1つまたは複数の確率とに基づいて、第2のエンコーダの出力から、エンコーディングされた残差情報を取得することとを含む。 第2の態様による方法は、エンコーダの入力データの初期の再構築、エンコーディングされた残差を含む入力データを受信することであって、エンコーディングされた残差は、エンコーダのグラウンドトゥルースデータと、入力データの初期の再構築と、デコーダへの適応信号とに少なくとも基づいて決定され、前記デコーダは、少なくとも第1のサブデコーダ、構文生成ユニット、および確率モデルを備える、受信することと、エンコーディングされた残差成分と確率モデルの1つまたは複数の確率とに少なくとも基づいて、エントロピーデコーディングされた残差を取得することであって、エントロピーデコーディングされた残差は、複数のデコーディングされた潜在テンソル要素として表される、取得することと、エントロピーデコーディングされた残差を第1のサブデコーダに提供することと、適応信号に基づいて1つまたは複数の構文を生成するために適応信号を構文生成ユニットに提供することと、前記1つまたは複数の構文に基づいて第1のサブデコーダにおける残差のデコーディングを適応させることと、第1のサブデコーダの出力から、再構築された残差を取得することと、再構築された残差を入力データの初期の再構築と組み合わせて、入力データの最終的な再構築を取得することとを含む。 第3の態様による装置は、第1のグラウンドトゥルースデータを含む入力データを受信するための手段と、第1のグラウンドトゥルースデータを第1のエンコーダに提供するための手段であって、前記グラウンドトゥルースデータは、少なくとも入力データの第1の部分を含む、提供するための手段と、第1のエンコーダの出力から初期のエンコーディングされた入力データを取得するための手段と、初期のエンコーディングされた入力データを第1のデコーダに提供するための手段と、第1のデコーダの出力から入力データの初期の再構築を取得するための手段と、第1のグラウンドトゥルースデータと入力データの初期の再構築とに少なくとも基づいて残差を決定するための手段と、少なくとも残差を含む第2のグラウンドトゥルースデータを第2のエンコーダに提供するための手段であって、前記第2のエンコーダは、少なくとも第2のグラウンドトゥルースデータのための第1のサブエンコーダと確率モデルとを備える、提供するための手段と、第2のグラウンドトゥルースデータを第1のサブエンコーダに提供するための手段と、第1のサブエンコーダの出力を確率モデルに提供するための手段と、確率モデルの出力から1つまたは複数の第1の確率を取得するための手段と、第1のサブエンコーダの出力と1つまたは複数の確率とに基づいて、第2のエンコーダの出力から、エンコーディングされた残差情報を取得するための手段とを備える。 一実施形態によれば、第1のエンコーダ、第1のデコーダ、および第2のエンコーダは、エンドツーエンド学習型イントラフレームコーデック(intra-frame codec)に属する。 一実施形態によれば、前記第1のエンコーダは、ニューラルエンコーダ、確率モデル、およびエントロピーエンコーダを備え、ニューラルエンコーダは、入力データを複数の潜在テンソル要素に変換するための手段を備え、確率モデルは、複数の潜在テンソル要素(latent tensor elements)のうちの1つまたは複数の確率を推定するための手段を備え、エントロピーエンコーダは、複数の潜在テンソル要素と、複数の潜在テンソル要素のうちの1つまたは複数の確率とに少なくとも部分的に基づいてエンコーディングされたビットストリームを出力するための手段を備える。 第4の態様による装置は、エンコーダの入力データの初期の再構築、エンコーディングされた残差を含む入力データを受信するための手段であって、エンコーディングされた残差は、エンコーダのグラウンドトゥルースデータと、入力データの初期の再構築と、デコーダへの適応信号とに少なくとも基づいて決定され、前記デコーダは、少なくとも第1のサブデコーダ、構文生成ユニット、および確率モデルを備える、受信するための手段と、エンコーディングされた残差と確率モデルの1つまたは複数の確率とに少なくとも基づいて、エントロピーデコーディングされた残差を取得するための手段であって、エントロピーデコーディングされた残差は、複数のデコーディングされた潜在テンソル要素として表される、取得するための手段と、エントロピーデコーディングされた残差を第1のサブデコーダに提供するための手段と、適応信号に基づいて1つまたは複数の構文を生成するために適応信号を構文生成ユニットに提供するための手段と、前記1つまたは複数の構文に基づいて第1のサブデコーダにおける残差のデコーディングを適応させるための手段と、第1のサブデコーダの出力から、再構築された残差を取得するための手段と、再構築された残差を入力データの初期の再構築と組み合わせて、入力データの最終的な再構築を取得するための手段とを備える。 一実施形態によれば、前記デコーダは、エントロピーデコーダ(entropy decoder)とニューラルデコーダ(neural decoder)とを備え、デコーダの確率モデルは、複数のデコーディングされた潜在テンソル要素内の1つまたは複数の要素の確率を推定するための手段を備え、エントロピーデコーダは、入力データと複数の潜在テンソル要素内の1つまたは複数の要素の確率とに少なくとも部分的に基づいて、複数のデコーディングされた潜在テンソル要素を出力するための手段を備え、ニューラルデコーダは、複数のデコーディングされた潜在テンソル要素を再構築されたクロマ成分に変換するための手段を備える。 一実施形態によれば、デコーダの前記第1のサブデコーダは、前記1つまたは複数の構文を受信し、残差成分のデコーディングを適応させるための1つまたは複数の空間アテンションユニットを備えるニューラルデコーダである。 一実施形態によれば、構文生成ネットワークに入力される適応信号は、別のコーデックによって出力された逆量子化された潜在テンソルである。 一実施形態によれば、構文生成ネットワークに入力される適応信号は、入力データの初期の再構築である。 一実施形態によれば、構文生成ネットワークに入力される適応信号は、補助エンコーダの出力である。 一実施形態によれば、デコーダは、エンドツーエンド学習型イントラフレームコーデックに属する。 第5の態様として、少なくとも1つのプロセッサと少なくとも1つのメモリとを備える装置が提供され、前記少なくとも1つのメモリはその上にコードを有し、コードは、前記少なくとも1つのプロセッサによって実行されると、第1のグラウンドトゥルースデータを含む入力データを受信することと、第1のグラウンドトゥルースデータを第1のエンコーダに提供することであって、前記グラウンドトゥルースデータは、少なくとも入力データの第1の部分を含む、提供することと、第1のエンコーダの出力から初期のエンコーディングされた入力データを取得することと、初期のエンコーディングされた入力データを第1のデコーダに提供することと、第1のデコーダの出力から入力データの初期の再構築を取得することと、第1のグラウンドトゥルースデータと入力データの初期の再構築とに少なくとも基づいて残差を決定することと、少なくとも残差を含む第2のグラウンドトゥルースデータを第2のエンコーダに提供することであって、前記第2のエンコーダは、少なくとも第2のグラウンドトゥルースデータのための第1のサブエンコーダと確率モデルとを備える、提供することと、第2のグラウンドトゥルースデータを第1のサブエンコーダに提供することと、第1のサブエンコーダの出力を確率モデルに提供することと、確率モデルの出力から1つまたは複数の第1の確率を取得することと、第1のサブエンコーダの出力と1つまたは複数の確率とに基づいて、第2のエンコーダの出力から、エンコーディングされた残差情報を取得することとを装置に少なくとも実施させる。 第6の態様による装置は、少なくとも1つのプロセッサと少なくとも1つのメモリとを備え、前記少なくとも1つのメモリはその上にコードを有し、コードは、前記少なくとも1つのプロセッサによって実行されると、エンコーダの入力データの初期の再構築、エンコーディングされた残差を含む入力データを受信することであって、エンコーディングされた残差は、エンコーダのグラウンドトゥルースデータと、入力データの初期の再構築と、デコーダへの適応信号とに少なくとも基づいて決定され、前記デコーダは、少なくとも第1のサブデコーダ、構文生成ユニット、および確率モデルを備える、受信することと、エンコーディングされた残差と確率モデルの1つまたは複数の確率とに少なくとも基づいて、エントロピーデコーディングされた残