JP-2026076630-A - 情報処理方法、情報処理システムおよびプログラム

JP2026076630AJP 2026076630 AJP2026076630 AJP 2026076630AJP-2026076630-A

Abstract

【課題】音響信号に対する多様な処理を簡便な構成により実現する。【解決手段】情報処理システム１００は、相異なる複数の処理の何れかを指定する条件トークンＸと、音響信号Ｓの周波数特性を表す音響トークンＹと含む入力データＡを取得する入力データ取得部２１と、機械学習済の生成モデルＭにより入力データＡを処理することで、音響トークンＹが表す音響信号Ｓに対して、複数の処理のうち条件トークンＸが指定する処理を実行した結果を表す出力データＢを生成する出力データ生成部２２とを具備する。【選択図】図２

Inventors

鈴木正博

Assignees

ヤマハ株式会社

Dates

Publication Date: 20260512
Application Date: 20241024

Claims (17)

相異なる複数の処理の何れかを指定する条件トークンと、音響信号の周波数特性を表す音響トークンと含む入力データを取得し、機械学習済の生成モデルにより前記入力データを処理することで、前記音響トークンが表す音響信号に対して、前記複数の処理のうち前記条件トークンが指定する処理を実行した結果を表す出力データを生成するコンピュータシステムにより実現される情報処理方法。
前記音響信号は、音楽音を表す請求項１の情報処理方法。
前記複数の処理は、前記音響信号が表す音楽音に対応する楽器を推定する楽器推定処理を含む請求項２の情報処理方法。
前記複数の処理は、前記音響信号が表す音楽音に対応する音符の時系列を推定する採譜処理を含む請求項２の情報処理方法。
前記条件トークンは、楽器の指定を含み、前記採譜処理は、前記音響信号が表す音楽音のうち前記条件トークンが指定する楽器の演奏音に対応する音符の時系列を推定する処理である請求項４の情報処理方法。
前記複数の処理は、前記音響信号が表す音楽音に含まれるコードの時系列を推定するコード推定処理を含む請求項２の情報処理方法。
前記複数の処理は、前記音響信号が表す音楽音に対応する調を推定する調推定処理を含む請求項２の情報処理方法。
前記複数の処理は、前記音響信号が表す音楽音に対応する拍節を推定する拍節推定処理を含む請求項２の情報処理方法。
前記音響トークンは、前記音響信号の周波数特性を、前記音楽音の拍周期に対応する基準長の単位期間毎に表し、前記出力データは、前記条件トークンが指定する処理を前記音響信号に対して実行した結果を、前記基準長を単位として表す請求項２の情報処理方法。
前記音響トークンは、前記音響信号の周波数特性を、前記音楽音とは無関係な所定の基準長の単位期間毎に表し、前記出力データは、前記条件トークンが指定する処理を前記音響信号に対して実行した結果を、前記基準長を単位として表す請求項１の情報処理方法。
前記音響トークンは、前記音響信号に対して定Ｑ変換を実行した結果であるスペクトログラムを、前記周波数特性として表す請求項１の情報処理方法。
前記入力データの取得においては、前記複数の処理のうち利用者が選択した処理を指定する前記条件トークンを生成する請求項１の情報処理方法。
前記入力データの取得においては、前記音響信号の特徴量に応じて前記複数の処理の何れかを選択し、当該処理を指定する前記条件トークンを生成する請求項１の情報処理方法。
相異なる複数の処理のうち第１処理を指定する第１条件トークンと、音楽音を表す音響信号の周波数特性を表す音響トークンと含む第１入力データを取得し、前記第１入力データを生成モデルにより処理することで、前記音響トークンが表す音響信号に対して前記第１処理を実行した結果を表す第１出力データを生成し、前記複数の処理のうち前記第１出力データに対応する第２処理を指定する第２条件トークンと、前記音響トークンとを含む第２入力データを取得し、前記第２入力データを前記生成モデルにより処理することで、前記音響トークンが表す音響信号に対して前記第２処理を実行した結果を表す第２出力データを生成するコンピュータシステムにより実現される情報処理方法。
前記第１処理は、前記音響信号が表す音楽音に対応する楽器を推定する楽器推定処理であり、前記第２処理は、前記音響信号が表す音楽音のうち、前記第１処理により推定された楽器の演奏音に対応する音符の時系列を推定する採譜処理である請求項１４の情報処理方法。
相異なる複数の処理の何れかを指定する条件トークンと、音響信号の周波数特性を表す音響トークンと含む入力データを取得する入力データ取得部と、機械学習済の生成モデルにより前記入力データを処理することで、前記音響トークンが表す音響信号に対して、前記複数の処理のうち前記条件トークンが指定する処理を実行した結果を表す出力データを生成する出力データ生成部とを具備する情報処理システム。
相異なる複数の処理の何れかを指定する条件トークンと、音響信号の周波数特性を表す音響トークンと含む入力データを取得する入力データ取得部、および、機械学習済の生成モデルにより前記入力データを処理することで、前記音響トークンが表す音響信号に対して、前記複数の処理のうち前記条件トークンが指定する処理を実行した結果を表す出力データを生成する出力データ生成部、としてコンピュータシステムを機能させるプログラム。

Description

本開示は、音響信号を処理する技術に関する。音響信号を処理する各種の技術が従来から提案されている。例えば特許文献１には、音響信号を処理することで、当該音響信号が表す歌唱音声の音符の時系列を推定（すなわち採譜）する技術が開示されている。また、例えば特許文献２には、音響信号を処理することで、演奏音を発音する楽器を推定する技術が開示されている。特開２０１７－１２９７８７号公報特開２０１７－０６７９０１号公報第１実施形態における情報処理システムの構成を例示するブロック図である。情報処理システムの機能的な構成を例示するブロック図である。入力データの模式図である。音楽トークンの説明図である。条件トークンが楽器推定処理を指定する場合の出力データＢの具体例である。条件トークンが採譜処理を指定する場合の出力データＢの具体例である。条件トークンがコード推定処理を指定する場合の出力データＢの具体例である。条件トークンが調推定処理を指定する場合の出力データＢの具体例である。条件トークンが拍節推定処理を指定する場合の出力データＢの具体例である。出力データ生成処理のフローチャートである。生成モデルの機械学習に関する説明図である。訓練データにおける音響トークンを準備する処理の説明図である。学習処理のフローチャートである。第２実施形態における出力データの模式図である。第３実施形態における情報処理システムの機能的な構成を例示するブロック図である。第４実施形態において条件トークンを生成する処理のフローチャートである。変形例における表示装置の表示例である。Ａ：第１実施形態図１は、第１実施形態における情報処理システム１００の構成を例示するブロック図である。情報処理システム１００は、音響信号Ｓに対して各種の処理（以下「音響処理」という）を実行するコンピュータシステムである。音響信号Ｓは、音楽を構成する音（以下「音楽音」という）を表す時間信号である。例えば、音響信号Ｓが表す音楽音は、楽曲の演奏により複数の楽器が発音する楽音の混合音である。情報処理システム１００は、例えばスマートフォン、タブレット端末またはパーソナルコンピュータ等の情報装置により実現される。情報処理システム１００は、制御装置１１と記憶装置１２と操作装置１３と表示装置１４とを具備する。情報処理システム１００は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。制御装置１１は、情報処理システム１００の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置１１は、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＳＰＵ（Sound Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサにより構成される。記憶装置１２は、制御装置１１が実行するプログラムと、制御装置１１が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置１２は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成される。記憶装置１２は、複数種の記録媒体の組合せで構成されてもよい。また、情報処理システム１００に対して着脱される可搬型の記録媒体、または通信網を介して制御装置１１が書込または読出を実行可能な記録媒体（例えばクラウドストレージ）が、記憶装置１２として利用されてもよい。記憶装置１２は、音響信号Ｓを記憶する。例えば、音響信号Ｓは、例えばＷＡＶ形式またはＭＰ３形式等の任意の形式の音楽ファイルとして記憶装置１２に記憶される。操作装置１３は、利用者からの指示を受付ける入力機器である。操作装置１３は、例えば、利用者が操作する操作子、または、利用者による接触を検知するタッチパネルである。表示装置１４は、制御装置１１による制御のもとで各種の画像を表示する。表示装置１４は、例えば液晶パネルまたは有機ＥＬ（Electroluminescence）パネル等の表示パネルで構成される。図２は、情報処理システム１００の機能的な構成を例示するブロック図である。制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、音響信号Ｓを処理するための複数の機能（入力データ取得部２１、出力データ生成部２２、出力制御部２３）を実現する。入力データ取得部２１は、入力データＡを生成する。図３は、入力データＡの模式図である。図３に例示される通り、入力データＡは、条件トークンＸと複数の音響トークンＹとを含む。条件トークンＸは、音響信号Ｓに対して実行されるべき音響処理（すなわちタスク）を指定するデータである。複数の音響トークンＹの各々は、音響信号Ｓの周波数特性を表すデータである。図２に例示される通り、入力データ取得部２１は、条件トークン生成部３１と音響トークン生成部３２とを含む。条件トークン生成部３１は、条件トークンＸを生成する。条件トークンＸは、相異なる複数の音響処理の何れかを指定する。具体的には、条件トークン生成部３１は、複数の音響処理のうち、操作装置１３に対する操作により利用者が選択した音響処理を指定する条件トークンＸを生成する。利用者は、操作装置１３を操作することで、所望の指示文Ｐ（プロンプト）を入力可能である。指示文Ｐは、音響信号Ｓに対する所望の音響処理の実行を指示する文字列である。例えば、指示文Ｐは、「採譜処理を実行して」のように自然言語で表現される。条件トークン生成部３１は、指示文Ｐにより利用者から指示された音響処理を表す埋込ベクトル（embedding vector）を、条件トークンＸとして生成する。例えば、条件トークン生成部３１は、既存の埋込モデルにより指示文Ｐを処理することで、条件トークンＸを生成する。以上の説明の通り、条件トークンＸは、相異なる複数の音響処理のうち利用者が選択した音響処理を指定する。利用者による選択の候補となる複数の音響処理は、例えば、楽器推定処理、採譜処理、コード推定処理、調推定処理、および拍節推定処理を含む。楽器推定処理は、音響信号Ｓが表す音楽音に対応する楽器を推定する音響処理である。すなわち、楽器推定処理は、音響信号Ｓの音楽音を構成する複数の楽音の各々に対応する楽器の種類（例えばピアノ，ドラム，弦楽器等）を推定する音響処理である。楽器推定処理を所望する利用者は、「音楽に含まれる楽器を推定して」等の指示文Ｐを入力する。採譜処理は、音響信号Ｓが表す音楽音に対応する音符の時系列（すなわち楽譜）を推定する音響処理である。具体的には、採譜処理は、音響信号Ｓが表す音楽音のうち利用者が指定した楽器の演奏音に対応する音符の時系列を推定する音響処理である。すなわち、相異なる楽器が担当する複数の演奏パートのうち、利用者が指定した楽器の演奏パートにおける音符の時系列が推定される。採譜処理を所望する利用者は、「ピアノの楽譜を生成して」等、採譜対象となる楽器の指定を含む指示文Ｐを入力する。採譜処理を指定する条件トークンＸは、採譜対象として利用者が選択した楽器の指定を含む。コード推定処理は、音響信号Ｓが表す音楽音に含まれるコード（和音）の時系列を推定する音響処理である。コード推定処理を所望する利用者は、「音楽に含まれるコードを推定して」等の指示文Ｐを入力する。また、調推定処理は、音響信号Ｓが表す音楽音に対応する調（キー）を推定する音響処理である。調推定処理を所望する利用者は、「音楽の調を推定して」等の指示文Ｐを入力する。拍節推定処理は、音響信号Ｓが表す音楽音に対応する拍節を推定する音響処理である。拍節は、楽曲における音楽的な区切の時点を意味する。例えば楽曲内の拍点または小節線等の拍節が、拍節推定処理により推定される。拍節推定処理を所望する利用者は、「音楽の拍節を推定して」等の指示文Ｐを入力する。図２の音響トークン生成部３２は、音響信号Ｓの解析により複数の音響トークンＹの時系列を生成する。前述の通り、各音響トークンＹは、音響信号Ｓの周波数特性を表すデータである。具体的には、図３に例示される通り、音響トークン生成部３２は、音響信号Ｓを解析することでスペクトログラムＦを生成する。スペクトログラムＦは、音響信号Ｓの時間－周波数表現である。具体的には、音響トークン生成部３２は、音響信号Ｓに対して定Ｑ変換（ＣＱＴ：Constant-Q Transform）を実行することでスペクトログラムＦを算定する。すなわち、第１実施形態のスペクトログラムＦは、周波数軸が対数スケールで表現された定Ｑスペクトログラムである。音響トークン生成部３２は、音響信号ＳのスペクトログラムＦを時間軸上で複数の単位期間Ｕに区分し、相異なる単位期間Ｕを表す複数の音響トークンＹの時系列を生成する。すなわち、音響トークンＹは、音響信号Ｓに対して定Ｑ変換を実行した結果であるスペクトログラムＦのうち１個の単位期間Ｕ内の部分を、音響信号Ｓの周波数特性として表すデータである。入力データＡを構成する音響トークンＹの個数は、音響信号Ｓの時間長に応じた可変値である。なお、入力データＡに含まれる音響トークンＹの個数は１個でもよい。単位期間Ｕの時間長は、音響信号Ｓが表す音楽音の拍周期に対応する時間長（以下「基準長」という）である。拍周期は、時間軸上において相前後する各拍点の間隔（拍間隔）である。単位期間Ｕの時間長は、基準長の整数倍または整数分の１の時間長に設定される。第１実施形態においては、基準長が、音響信号Ｓが表す音楽音の1/12拍に相当する時間長に設定される。音響トークン生成部３２は、音響信号Ｓの解析により拍周期を推定し、当該拍周期に対応する基準長の単位期間Ｕ毎に音響トークンＹを生成する。以上の説明の通り、音響トークンＹは、音響信号Ｓの周波数特性を、音楽音の拍周期に対応する基準長の単位期間Ｕ毎に表すデータである。以上に説明した通り、入力データＡは、条件トークン生成部３１が生成した条件トークンＸと、音響トークン生成部３２が生成した複数の音響トークンＹとを含む。前述の通り、条件トークンＸが指定する音響処理は、利用者からの指示に応じて選択される。したがって、音響信号Ｓに対応する複数の音響トークンＹは共通する一方、条件トークンＸが利用者からの指示に応じて相違する複数通りの入力データＡが生成される。図２の出力データ生成部２２は、入力データＡから出力データＢを生成する。出力データＢは、入力データＡの複数の音響トークンＹが表す音響信号Ｓに対して、複数の音響処理のうち当該入力データＡの条件トークンＸが指定する音響処理を実行した結果を表すデータである。出力制御部２３は、出力データ生成部２２が生成した出力データＢを利用者に対して出力する。具体的には、出力制御部２３は、出力データＢを表す画像を表示装置１４に表示する。第１実施形態の出力データ生成部２２は、機械学習済の生成モデルＭにより入力データＡを処理することで出力データＢを生成する。生成モデルＭは、入力データＡと出力データＢとの関係を事前の機械学習により習得した統計モデルである。具体的には、生成モデルＭは、入力データＡから出力データＢを生成する演算を制御装置１１に実行させるプログラムと、当該演算に適用される複数の変数（例えばバイアスおよび加重値）との組合せで実現される。複数の変数の各々の数値は、機械学習により事前に設定される。例えば、セルフアテンション機構（具体的にはマルチヘッドアテンション機構）を含むエンコーダ－デコーダモデルであるトランスフォーマーが、生成モデルＭとして利用される。トランスフォーマーについては、例えばAshish Vaswani, N