JP-2026515005-A - ビデオコーディングおよびデコーディングのための装置、方法、およびコンピュータプログラム

JP2026515005AJP 2026515005 AJP2026515005 AJP 2026515005AJP-2026515005-A

Abstract

エンコーダの入力データの初期の再構築、エンコーディングされた残差を含む入力データを受信することであって、エンコーディングされた残差は、エンコーダのグラウンドトゥルースデータと、入力データの初期の再構築と、デコーダへの適応信号とに少なくとも基づいて決定され、前記デコーダは、少なくとも第１のサブデコーダ、構文生成ユニット、および確率モデルを備える、受信することと、エンコーディングされた残差成分と確率モデルの１つまたは複数の確率とに少なくとも基づいて、エントロピーデコーディングされた残差成分を取得することであって、エントロピーデコーディングされた残差は、複数のデコーディングされた潜在テンソル要素として表される、取得することと、エントロピーデコーディングされた残差成分を第１のサブデコーダに提供することと、適応信号に基づいて１つまたは複数の構文を生成するために適応信号を構文生成ユニットに提供することと、前記１つまたは複数の構文に基づいて第１のサブデコーダにおける残差成分のデコーディングを適応させることと、第１のサブデコーダの出力から、再構築された残差成分を取得することと、再構築された残差成分を入力データの初期の再構築と組み合わせて、入力データの最終的な再構築を取得することとを含む、方法。

Inventors

ゾウナンナン
クリクリフランチェスコ
ジャンホンレイ

Assignees

ノキアテクノロジーズオサケユイチア

Dates

Publication Date: 20260513
Application Date: 20240328
Priority Date: 20230425

Claims (16)

第１のグラウンドトゥルースデータを含む入力データを受信するための手段と、前記第１のグラウンドトゥルースデータを第１のエンコーダに提供するための手段であって、前記グラウンドトゥルースデータは、少なくとも前記入力データの第１の部分を含む、提供するための手段と、前記第１のエンコーダの出力から初期のエンコーディングされた入力データを取得するための手段と、前記初期のエンコーディングされた入力データを第１のデコーダに提供するための手段と、前記第１のデコーダの出力から前記入力データの初期の再構築を取得するための手段と、前記第１のグラウンドトゥルースデータと前記入力データの前記初期の再構築とに少なくとも基づいて残差を決定するための手段と、少なくとも前記残差を含む第２のグラウンドトゥルースデータを第２のエンコーダに提供するための手段であって、前記第２のエンコーダは、少なくとも第１のサブエンコーダと確率モデルとを備える、提供するための手段と、前記第２のグラウンドトゥルースデータを前記第１のサブエンコーダに提供するための手段と、前記第１のサブエンコーダの出力を前記確率モデルに提供するための手段と、前記確率モデルの出力から１つまたは複数の第１の確率を取得するための手段と、前記第１のサブエンコーダの前記出力と前記１つまたは複数の確率とに基づいて、前記第２のエンコーダの出力から、エンコーディングされた残差情報を取得するための手段とを備える、装置。
前記第１のエンコーダ、前記第１のデコーダ、および前記第２のエンコーダは、エンドツーエンド学習型イントラフレームコーデックに属する、請求項１に記載の装置。
前記第１のエンコーダは、ニューラルエンコーダ、確率モデル、およびエントロピーエンコーダを備え、前記ニューラルエンコーダは、前記入力データを複数の潜在テンソル要素に変換するための手段を備え、前記確率モデルは、前記複数の潜在テンソル要素のうちの１つまたは複数の確率を推定するための手段を備え、前記エントロピーエンコーダは、前記複数の潜在テンソル要素と前記複数の潜在テンソル要素のうちの１つまたは複数の前記確率とに少なくとも部分的に基づいてエンコーディングされたビットストリームを出力するための手段を備える、請求項１または２に記載の装置。
前記第１のデコーダの前記出力からの前記入力データの前記初期の再構築、または前記入力データの前記初期の再構築から得られたデータを、第２のデコーダの第１のサブデコーダの入力に提供するための手段を備える、請求項１～３のいずれかに記載の装置。
前記第１のデコーダの前記出力からの前記入力データの前記初期の再構築、または前記入力データの前記初期の再構築から得られたデータを、前記第２のエンコーダの前記第１のサブエンコーダの入力に提供するための手段を備える、請求項１～４のいずれかに記載の装置。
前記第１のデコーダの前記出力からの前記入力データの前記初期の再構築、または前記入力データの前記初期の再構築から得られたデータを、前記第２のエンコーダで使用される前記確率モデルの入力と、前記第２のデコーダで使用される前記確率モデルの入力とに提供するための手段を備える、請求項１～５のいずれかに記載の装置。
第１のグラウンドトゥルースデータを含む入力データを受信することと、前記第１のグラウンドトゥルースデータを第１のエンコーダに提供することであって、前記グラウンドトゥルースデータは、少なくとも前記入力データの第１の部分を含む、提供することと、前記第１のエンコーダの出力から初期のエンコーディングされた入力データを取得することと、前記初期のエンコーディングされた入力データを第１のデコーダに提供することと、前記第１のデコーダの出力から前記入力データの初期の再構築を取得することと、前記第１のグラウンドトゥルースデータと前記入力データの前記初期の再構築とに少なくとも基づいて残差を決定することと、少なくとも前記残差を含む第２のグラウンドトゥルースデータを第２のエンコーダに提供することであって、前記第２のエンコーダは、少なくとも第１のサブエンコーダと確率モデルとを備える、提供することと、前記第２のグラウンドトゥルースデータを前記第１のサブエンコーダに提供することと、前記第１のサブエンコーダの出力を前記確率モデルに提供することと、前記確率モデルの出力から１つまたは複数の第１の確率を取得することと、前記第１のサブエンコーダの前記出力と前記１つまたは複数の確率とに基づいて、前記第２のエンコーダの出力から、エンコーディングされた残差情報を取得することとを含む、方法。
エンコーダの入力データの初期の再構築、エンコーディングされた残差を含む入力データを受信するための手段であって、前記エンコーディングされた残差は、前記エンコーダのグラウンドトゥルースデータと、前記入力データの前記初期の再構築と、デコーダへの適応信号とに少なくとも基づいて決定され、前記デコーダは、少なくとも第１のサブデコーダ、構文生成ユニット、および確率モデルを備える、受信するための手段と、前記エンコーディングされた残差と前記確率モデルの１つまたは複数の確率とに少なくとも基づいて、エントロピーデコーディングされた残差を取得するための手段であって、前記エントロピーデコーディングされた残差は、複数のデコーディングされた潜在テンソル要素として表される、取得するための手段と、前記エントロピーデコーディングされた残差を前記第１のサブデコーダに提供するための手段と、前記適応信号に基づいて１つまたは複数の構文を生成するために前記適応信号を前記構文生成ユニットに提供するための手段と、前記１つまたは複数の構文に基づいて前記第１のサブデコーダにおける前記残差のデコーディングを適応させるための手段と、前記第１のサブデコーダの出力から、再構築された残差を取得するための手段と、前記再構築された残差を前記入力データの初期の再構築と組み合わせて、前記入力データの最終的な再構築を取得するための手段とを備える、装置。
前記デコーダは、エントロピーデコーダとニューラルデコーダとを備え、前記デコーダの前記確率モデルは、前記複数のデコーディングされた潜在テンソル要素内の１つまたは複数の要素の確率を推定するための手段を備え、前記エントロピーデコーダは、前記入力データと前記複数の潜在テンソル要素内の１つまたは複数の要素の前記確率とに少なくとも部分的に基づいて、複数のデコーディングされた潜在テンソル要素を出力するための手段を備え、前記ニューラルデコーダは、前記複数のデコーディングされた潜在テンソル要素を前記再構築されたクロマ成分に変換するための手段を備える、請求項８に記載の装置。
前記デコーダの前記第１のサブデコーダは、前記１つまたは複数の構文を受信し、前記残差成分の前記デコーディングを適応させるための１つまたは複数の空間アテンションユニットを備えるニューラルデコーダである、請求項８または９に記載の装置。
前記構文生成ネットワークに入力される前記適応信号は、別のコーデックによって出力された逆量子化された潜在テンソルである、請求項８～１０のいずれかに記載の装置。
前記構文生成ネットワークに入力される前記適応信号は、入力データの前記初期の再構築である、請求項８～１０のいずれかに記載の装置。
前記構文生成ネットワークに入力される前記適応信号は、補助エンコーダの出力である、請求項８～１０のいずれかに記載の装置。
前記デコーダは、エンドツーエンド学習型イントラフレームコーデックに属する、請求項８～１３のいずれかに記載の装置。
組み合わせるための前記手段は、前記入力データの前記最終的な再構築を取得すると、前記入力データの前記初期の再構築を省略するように構成される、請求項８～１４のいずれかに記載の装置。
エンコーダの入力データの初期の再構築、エンコーディングされた残差を含む入力データを受信することであって、前記エンコーディングされた残差は、前記エンコーダのグラウンドトゥルースデータと、前記入力データの前記初期の再構築と、デコーダへの適応信号とに少なくとも基づいて決定され、前記デコーダは、少なくとも第１のサブデコーダ、構文生成ユニット、および確率モデルを備える、受信することと、前記エンコーディングされた残差成分と前記確率モデルの１つまたは複数の確率とに少なくとも基づいて、エントロピーデコーディングされた残差を取得することであって、前記エントロピーデコーディングされた残差は、複数のデコーディングされた潜在テンソル要素として表される、取得することと、前記エントロピーデコーディングされた残差を前記第１のサブデコーダに提供することと、前記適応信号に基づいて１つまたは複数の構文を生成するために前記適応信号を前記構文生成ユニットに提供することと、前記１つまたは複数の構文に基づいて前記第１のサブデコーダにおける前記残差のデコーディングを適応させることと、前記第１のサブデコーダの出力から、再構築された残差を取得することと、前記再構築された残差を前記入力データの初期の再構築と組み合わせて、前記入力データの最終的な再構築を取得することとを含む、方法。

Description

本発明は、ビデオコーディングおよびデコーディングのための装置、方法、およびコンピュータプログラムに関する。ビデオコーディングにおいて、ビデオおよび画像サンプルは、通常、Ｙとも表記される１つの輝度（ルーマ）チャネルと、Ｕ、Ｖとも、またはＣｂ、Ｃｒとも表記される２つの色差（クロマ）チャネルとで構成される、ＹＵＶまたはＹＣｂＣｒなどの色表現を使用してエンコーディングされる。これらの場合、シーンの照明を大半が表す輝度チャネルは、通常、ある一定の解像度でコーディングされる一方で、ある一定の色成分間の差を通常表す色差チャネルは、輝度信号の解像度よりも低い第２の解像度でしばしばコーディングされる。この種の差分表現の目的は、色成分の相関を失わせること、およびデータをより効率的に圧縮できるようにすることである。ニューラルネットワーク（ＮＮ）は、従来のコーデックの成分のうちの１つまたは複数を置き換えることによって、またはエンドツーエンド学習型圧縮を利用することによって、画像およびビデオの圧縮の観点で使用されてきた。しかしながら、エンドツーエンド学習型圧縮に基づく解決法を含むＮＮベースのビデオコーディングアプローチは、コーデックのレート歪み性能を最適化するという点では不十分であることが示されている。上記の問題を少なくとも軽減するために、レート歪み性能を改善するための強化された方法が本明細書で紹介される。本発明の様々な実施形態の保護範囲は、独立請求項によって規定される。もしあるならば、独立請求項の範囲に入らない、本明細書に説明する実施形態および特徴は、本発明の様々な実施形態を理解するのに有用な例として解釈されるべきである。第１の態様による方法は、第１のグラウンドトゥルースデータ（ｇｒｏｕｎｄｔｒｕｔｈｄａｔａ）を含む入力データを受信することと、第１のグラウンドトゥルースデータを第１のエンコーダに提供することであって、前記グラウンドトゥルースデータは少なくとも入力データの第１の部分を含む、提供することと、第１のエンコーダの出力から初期のエンコーディングされた入力データを取得することと、初期のエンコーディングされた入力データを第１のデコーダに提供することと、第１のデコーダの出力から入力データの初期の再構築を取得することと、第１のグラウンドトゥルースデータと入力データの初期の再構築とに少なくとも基づいて残差を決定することと、少なくとも残差を含む第２のグラウンドトゥルースデータを第２のエンコーダに提供することであって、前記第２のエンコーダは、少なくとも第１のサブエンコーダと確率モデルとを備える、提供することと、第２のグラウンドトゥルースデータを第１のサブエンコーダに提供することと、第１のサブエンコーダの出力を確率モデルに提供することと、確率モデルの出力から１つまたは複数の第１の確率を取得することと、第１のサブエンコーダの出力と１つまたは複数の確率とに基づいて、第２のエンコーダの出力から、エンコーディングされた残差情報を取得することとを含む。第２の態様による方法は、エンコーダの入力データの初期の再構築、エンコーディングされた残差を含む入力データを受信することであって、エンコーディングされた残差は、エンコーダのグラウンドトゥルースデータと、入力データの初期の再構築と、デコーダへの適応信号とに少なくとも基づいて決定され、前記デコーダは、少なくとも第１のサブデコーダ、構文生成ユニット、および確率モデルを備える、受信することと、エンコーディングされた残差成分と確率モデルの１つまたは複数の確率とに少なくとも基づいて、エントロピーデコーディングされた残差を取得することであって、エントロピーデコーディングされた残差は、複数のデコーディングされた潜在テンソル要素として表される、取得することと、エントロピーデコーディングされた残差を第１のサブデコーダに提供することと、適応信号に基づいて１つまたは複数の構文を生成するために適応信号を構文生成ユニットに提供することと、前記１つまたは複数の構文に基づいて第１のサブデコーダにおける残差のデコーディングを適応させることと、第１のサブデコーダの出力から、再構築された残差を取得することと、再構築された残差を入力データの初期の再構築と組み合わせて、入力データの最終的な再構築を取得することとを含む。第３の態様による装置は、第１のグラウンドトゥルースデータを含む入力データを受信するための手段と、第１のグラウンドトゥルースデータを第１のエンコーダに提供するための手段であって、前記グラウンドトゥルースデータは、少なくとも入力データの第１の部分を含む、提供するための手段と、第１のエンコーダの出力から初期のエンコーディングされた入力データを取得するための手段と、初期のエンコーディングされた入力データを第１のデコーダに提供するための手段と、第１のデコーダの出力から入力データの初期の再構築を取得するための手段と、第１のグラウンドトゥルースデータと入力データの初期の再構築とに少なくとも基づいて残差を決定するための手段と、少なくとも残差を含む第２のグラウンドトゥルースデータを第２のエンコーダに提供するための手段であって、前記第２のエンコーダは、少なくとも第２のグラウンドトゥルースデータのための第１のサブエンコーダと確率モデルとを備える、提供するための手段と、第２のグラウンドトゥルースデータを第１のサブエンコーダに提供するための手段と、第１のサブエンコーダの出力を確率モデルに提供するための手段と、確率モデルの出力から１つまたは複数の第１の確率を取得するための手段と、第１のサブエンコーダの出力と１つまたは複数の確率とに基づいて、第２のエンコーダの出力から、エンコーディングされた残差情報を取得するための手段とを備える。一実施形態によれば、第１のエンコーダ、第１のデコーダ、および第２のエンコーダは、エンドツーエンド学習型イントラフレームコーデック（ｉｎｔｒａ－ｆｒａｍｅｃｏｄｅｃ）に属する。一実施形態によれば、前記第１のエンコーダは、ニューラルエンコーダ、確率モデル、およびエントロピーエンコーダを備え、ニューラルエンコーダは、入力データを複数の潜在テンソル要素に変換するための手段を備え、確率モデルは、複数の潜在テンソル要素（ｌａｔｅｎｔｔｅｎｓｏｒｅｌｅｍｅｎｔｓ）のうちの１つまたは複数の確率を推定するための手段を備え、エントロピーエンコーダは、複数の潜在テンソル要素と、複数の潜在テンソル要素のうちの１つまたは複数の確率とに少なくとも部分的に基づいてエンコーディングされたビットストリームを出力するための手段を備える。第４の態様による装置は、エンコーダの入力データの初期の再構築、エンコーディングされた残差を含む入力データを受信するための手段であって、エンコーディングされた残差は、エンコーダのグラウンドトゥルースデータと、入力データの初期の再構築と、デコーダへの適応信号とに少なくとも基づいて決定され、前記デコーダは、少なくとも第１のサブデコーダ、構文生成ユニット、および確率モデルを備える、受信するための手段と、エンコーディングされた残差と確率モデルの１つまたは複数の確率とに少なくとも基づいて、エントロピーデコーディングされた残差を取得するための手段であって、エントロピーデコーディングされた残差は、複数のデコーディングされた潜在テンソル要素として表される、取得するための手段と、エントロピーデコーディングされた残差を第１のサブデコーダに提供するための手段と、適応信号に基づいて１つまたは複数の構文を生成するために適応信号を構文生成ユニットに提供するための手段と、前記１つまたは複数の構文に基づいて第１のサブデコーダにおける残差のデコーディングを適応させるための手段と、第１のサブデコーダの出力から、再構築された残差を取得するための手段と、再構築された残差を入力データの初期の再構築と組み合わせて、入力データの最終的な再構築を取得するための手段とを備える。一実施形態によれば、前記デコーダは、エントロピーデコーダ（ｅｎｔｒｏｐｙｄｅｃｏｄｅｒ）とニューラルデコーダ（ｎｅｕｒａｌｄｅｃｏｄｅｒ）とを備え、デコーダの確率モデルは、複数のデコーディングされた潜在テンソル要素内の１つまたは複数の要素の確率を推定するための手段を備え、エントロピーデコーダは、入力データと複数の潜在テンソル要素内の１つまたは複数の要素の確率とに少なくとも部分的に基づいて、複数のデコーディングされた潜在テンソル要素を出力するための手段を備え、ニューラルデコーダは、複数のデコーディングされた潜在テンソル要素を再構築されたクロマ成分に変換するための手段を備える。一実施形態によれば、デコーダの前記第１のサブデコーダは、前記１つまたは複数の構文を受信し、残差成分のデコーディングを適応させるための１つまたは複数の空間アテンションユニットを備えるニューラルデコーダである。一実施形態によれば、構文生成ネットワークに入力される適応信号は、別のコーデックによって出力された逆量子化された潜在テンソルである。一実施形態によれば、構文生成ネットワークに入力される適応信号は、入力データの初期の再構築である。一実施形態によれば、構文生成ネットワークに入力される適応信号は、補助エンコーダの出力である。一実施形態によれば、デコーダは、エンドツーエンド学習型イントラフレームコーデックに属する。第５の態様として、少なくとも１つのプロセッサと少なくとも１つのメモリとを備える装置が提供され、前記少なくとも１つのメモリはその上にコードを有し、コードは、前記少なくとも１つのプロセッサによって実行されると、第１のグラウンドトゥルースデータを含む入力データを受信することと、第１のグラウンドトゥルースデータを第１のエンコーダに提供することであって、前記グラウンドトゥルースデータは、少なくとも入力データの第１の部分を含む、提供することと、第１のエンコーダの出力から初期のエンコーディングされた入力データを取得することと、初期のエンコーディングされた入力データを第１のデコーダに提供することと、第１のデコーダの出力から入力データの初期の再構築を取得することと、第１のグラウンドトゥルースデータと入力データの初期の再構築とに少なくとも基づいて残差を決定することと、少なくとも残差を含む第２のグラウンドトゥルースデータを第２のエンコーダに提供することであって、前記第２のエンコーダは、少なくとも第２のグラウンドトゥルースデータのための第１のサブエンコーダと確率モデルとを備える、提供することと、第２のグラウンドトゥルースデータを第１のサブエンコーダに提供することと、第１のサブエンコーダの出力を確率モデルに提供することと、確率モデルの出力から１つまたは複数の第１の確率を取得することと、第１のサブエンコーダの出力と１つまたは複数の確率とに基づいて、第２のエンコーダの出力から、エンコーディングされた残差情報を取得することとを装置に少なくとも実施させる。第６の態様による装置は、少なくとも１つのプロセッサと少なくとも１つのメモリとを備え、前記少なくとも１つのメモリはその上にコードを有し、コードは、前記少なくとも１つのプロセッサによって実行されると、エンコーダの入力データの初期の再構築、エンコーディングされた残差を含む入力データを受信することであって、エンコーディングされた残差は、エンコーダのグラウンドトゥルースデータと、入力データの初期の再構築と、デコーダへの適応信号とに少なくとも基づいて決定され、前記デコーダは、少なくとも第１のサブデコーダ、構文生成ユニット、および確率モデルを備える、受信することと、エンコーディングされた残差と確率モデルの１つまたは複数の確率とに少なくとも基づいて、エントロピーデコーディングされた残