JP-2026076630-A - 情報処理方法、情報処理システムおよびプログラム
Abstract
【課題】音響信号に対する多様な処理を簡便な構成により実現する。 【解決手段】情報処理システム100は、相異なる複数の処理の何れかを指定する条件トークンXと、音響信号Sの周波数特性を表す音響トークンYと含む入力データAを取得する入力データ取得部21と、機械学習済の生成モデルMにより入力データAを処理することで、音響トークンYが表す音響信号Sに対して、複数の処理のうち条件トークンXが指定する処理を実行した結果を表す出力データBを生成する出力データ生成部22とを具備する。 【選択図】図2
Inventors
- 鈴木 正博
Assignees
- ヤマハ株式会社
Dates
- Publication Date
- 20260512
- Application Date
- 20241024
Claims (17)
- 相異なる複数の処理の何れかを指定する条件トークンと、音響信号の周波数特性を表す音響トークンと含む入力データを取得し、 機械学習済の生成モデルにより前記入力データを処理することで、前記音響トークンが表す音響信号に対して、前記複数の処理のうち前記条件トークンが指定する処理を実行した結果を表す出力データを生成する コンピュータシステムにより実現される情報処理方法。
- 前記音響信号は、音楽音を表す 請求項1の情報処理方法。
- 前記複数の処理は、前記音響信号が表す音楽音に対応する楽器を推定する楽器推定処理を含む 請求項2の情報処理方法。
- 前記複数の処理は、前記音響信号が表す音楽音に対応する音符の時系列を推定する採譜処理を含む 請求項2の情報処理方法。
- 前記条件トークンは、楽器の指定を含み、 前記採譜処理は、前記音響信号が表す音楽音のうち前記条件トークンが指定する楽器の演奏音に対応する音符の時系列を推定する処理である 請求項4の情報処理方法。
- 前記複数の処理は、前記音響信号が表す音楽音に含まれるコードの時系列を推定するコード推定処理を含む 請求項2の情報処理方法。
- 前記複数の処理は、前記音響信号が表す音楽音に対応する調を推定する調推定処理を含む 請求項2の情報処理方法。
- 前記複数の処理は、前記音響信号が表す音楽音に対応する拍節を推定する拍節推定処理を含む 請求項2の情報処理方法。
- 前記音響トークンは、前記音響信号の周波数特性を、前記音楽音の拍周期に対応する基準長の単位期間毎に表し、 前記出力データは、前記条件トークンが指定する処理を前記音響信号に対して実行した結果を、前記基準長を単位として表す 請求項2の情報処理方法。
- 前記音響トークンは、前記音響信号の周波数特性を、前記音楽音とは無関係な所定の基準長の単位期間毎に表し、 前記出力データは、前記条件トークンが指定する処理を前記音響信号に対して実行した結果を、前記基準長を単位として表す 請求項1の情報処理方法。
- 前記音響トークンは、前記音響信号に対して定Q変換を実行した結果であるスペクトログラムを、前記周波数特性として表す 請求項1の情報処理方法。
- 前記入力データの取得においては、 前記複数の処理のうち利用者が選択した処理を指定する前記条件トークンを生成する 請求項1の情報処理方法。
- 前記入力データの取得においては、 前記音響信号の特徴量に応じて前記複数の処理の何れかを選択し、 当該処理を指定する前記条件トークンを生成する 請求項1の情報処理方法。
- 相異なる複数の処理のうち第1処理を指定する第1条件トークンと、音楽音を表す音響信号の周波数特性を表す音響トークンと含む第1入力データを取得し、 前記第1入力データを生成モデルにより処理することで、前記音響トークンが表す音響信号に対して前記第1処理を実行した結果を表す第1出力データを生成し、 前記複数の処理のうち前記第1出力データに対応する第2処理を指定する第2条件トークンと、前記音響トークンとを含む第2入力データを取得し、 前記第2入力データを前記生成モデルにより処理することで、前記音響トークンが表す音響信号に対して前記第2処理を実行した結果を表す第2出力データを生成する コンピュータシステムにより実現される情報処理方法。
- 前記第1処理は、前記音響信号が表す音楽音に対応する楽器を推定する楽器推定処理であり、 前記第2処理は、前記音響信号が表す音楽音のうち、前記第1処理により推定された楽器の演奏音に対応する音符の時系列を推定する採譜処理である 請求項14の情報処理方法。
- 相異なる複数の処理の何れかを指定する条件トークンと、音響信号の周波数特性を表す音響トークンと含む入力データを取得する入力データ取得部と、 機械学習済の生成モデルにより前記入力データを処理することで、前記音響トークンが表す音響信号に対して、前記複数の処理のうち前記条件トークンが指定する処理を実行した結果を表す出力データを生成する出力データ生成部と を具備する情報処理システム。
- 相異なる複数の処理の何れかを指定する条件トークンと、音響信号の周波数特性を表す音響トークンと含む入力データを取得する入力データ取得部、および、 機械学習済の生成モデルにより前記入力データを処理することで、前記音響トークンが表す音響信号に対して、前記複数の処理のうち前記条件トークンが指定する処理を実行した結果を表す出力データを生成する出力データ生成部、 としてコンピュータシステムを機能させるプログラム。
Description
本開示は、音響信号を処理する技術に関する。 音響信号を処理する各種の技術が従来から提案されている。例えば特許文献1には、音響信号を処理することで、当該音響信号が表す歌唱音声の音符の時系列を推定(すなわち採譜)する技術が開示されている。また、例えば特許文献2には、音響信号を処理することで、演奏音を発音する楽器を推定する技術が開示されている。 特開2017-129787号公報特開2017-067901号公報 第1実施形態における情報処理システムの構成を例示するブロック図である。情報処理システムの機能的な構成を例示するブロック図である。入力データの模式図である。音楽トークンの説明図である。条件トークンが楽器推定処理を指定する場合の出力データBの具体例である。条件トークンが採譜処理を指定する場合の出力データBの具体例である。条件トークンがコード推定処理を指定する場合の出力データBの具体例である。条件トークンが調推定処理を指定する場合の出力データBの具体例である。条件トークンが拍節推定処理を指定する場合の出力データBの具体例である。出力データ生成処理のフローチャートである。生成モデルの機械学習に関する説明図である。訓練データにおける音響トークンを準備する処理の説明図である。学習処理のフローチャートである。第2実施形態における出力データの模式図である。第3実施形態における情報処理システムの機能的な構成を例示するブロック図である。第4実施形態において条件トークンを生成する処理のフローチャートである。変形例における表示装置の表示例である。 A:第1実施形態 図1は、第1実施形態における情報処理システム100の構成を例示するブロック図である。情報処理システム100は、音響信号Sに対して各種の処理(以下「音響処理」という)を実行するコンピュータシステムである。音響信号Sは、音楽を構成する音(以下「音楽音」という)を表す時間信号である。例えば、音響信号Sが表す音楽音は、楽曲の演奏により複数の楽器が発音する楽音の混合音である。情報処理システム100は、例えばスマートフォン、タブレット端末またはパーソナルコンピュータ等の情報装置により実現される。 情報処理システム100は、制御装置11と記憶装置12と操作装置13と表示装置14とを具備する。情報処理システム100は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。 制御装置11は、情報処理システム100の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置11は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより構成される。 記憶装置12は、制御装置11が実行するプログラムと、制御装置11が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置12は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成される。記憶装置12は、複数種の記録媒体の組合せで構成されてもよい。また、情報処理システム100に対して着脱される可搬型の記録媒体、または通信網を介して制御装置11が書込または読出を実行可能な記録媒体(例えばクラウドストレージ)が、記憶装置12として利用されてもよい。 記憶装置12は、音響信号Sを記憶する。例えば、音響信号Sは、例えばWAV形式またはMP3形式等の任意の形式の音楽ファイルとして記憶装置12に記憶される。 操作装置13は、利用者からの指示を受付ける入力機器である。操作装置13は、例えば、利用者が操作する操作子、または、利用者による接触を検知するタッチパネルである。表示装置14は、制御装置11による制御のもとで各種の画像を表示する。表示装置14は、例えば液晶パネルまたは有機EL(Electroluminescence)パネル等の表示パネルで構成される。 図2は、情報処理システム100の機能的な構成を例示するブロック図である。制御装置11は、記憶装置12に記憶されたプログラムを実行することで、音響信号Sを処理するための複数の機能(入力データ取得部21、出力データ生成部22、出力制御部23)を実現する。 入力データ取得部21は、入力データAを生成する。図3は、入力データAの模式図である。図3に例示される通り、入力データAは、条件トークンXと複数の音響トークンYとを含む。条件トークンXは、音響信号Sに対して実行されるべき音響処理(すなわちタスク)を指定するデータである。複数の音響トークンYの各々は、音響信号Sの周波数特性を表すデータである。図2に例示される通り、入力データ取得部21は、条件トークン生成部31と音響トークン生成部32とを含む。 条件トークン生成部31は、条件トークンXを生成する。条件トークンXは、相異なる複数の音響処理の何れかを指定する。具体的には、条件トークン生成部31は、複数の音響処理のうち、操作装置13に対する操作により利用者が選択した音響処理を指定する条件トークンXを生成する。 利用者は、操作装置13を操作することで、所望の指示文P(プロンプト)を入力可能である。指示文Pは、音響信号Sに対する所望の音響処理の実行を指示する文字列である。例えば、指示文Pは、「採譜処理を実行して」のように自然言語で表現される。条件トークン生成部31は、指示文Pにより利用者から指示された音響処理を表す埋込ベクトル(embedding vector)を、条件トークンXとして生成する。例えば、条件トークン生成部31は、既存の埋込モデルにより指示文Pを処理することで、条件トークンXを生成する。 以上の説明の通り、条件トークンXは、相異なる複数の音響処理のうち利用者が選択した音響処理を指定する。利用者による選択の候補となる複数の音響処理は、例えば、楽器推定処理、採譜処理、コード推定処理、調推定処理、および拍節推定処理を含む。 楽器推定処理は、音響信号Sが表す音楽音に対応する楽器を推定する音響処理である。すなわち、楽器推定処理は、音響信号Sの音楽音を構成する複数の楽音の各々に対応する楽器の種類(例えばピアノ,ドラム,弦楽器等)を推定する音響処理である。楽器推定処理を所望する利用者は、「音楽に含まれる楽器を推定して」等の指示文Pを入力する。 採譜処理は、音響信号Sが表す音楽音に対応する音符の時系列(すなわち楽譜)を推定する音響処理である。具体的には、採譜処理は、音響信号Sが表す音楽音のうち利用者が指定した楽器の演奏音に対応する音符の時系列を推定する音響処理である。すなわち、相異なる楽器が担当する複数の演奏パートのうち、利用者が指定した楽器の演奏パートにおける音符の時系列が推定される。採譜処理を所望する利用者は、「ピアノの楽譜を生成して」等、採譜対象となる楽器の指定を含む指示文Pを入力する。採譜処理を指定する条件トークンXは、採譜対象として利用者が選択した楽器の指定を含む。 コード推定処理は、音響信号Sが表す音楽音に含まれるコード(和音)の時系列を推定する音響処理である。コード推定処理を所望する利用者は、「音楽に含まれるコードを推定して」等の指示文Pを入力する。また、調推定処理は、音響信号Sが表す音楽音に対応する調(キー)を推定する音響処理である。調推定処理を所望する利用者は、「音楽の調を推定して」等の指示文Pを入力する。 拍節推定処理は、音響信号Sが表す音楽音に対応する拍節を推定する音響処理である。拍節は、楽曲における音楽的な区切の時点を意味する。例えば楽曲内の拍点または小節線等の拍節が、拍節推定処理により推定される。拍節推定処理を所望する利用者は、「音楽の拍節を推定して」等の指示文Pを入力する。 図2の音響トークン生成部32は、音響信号Sの解析により複数の音響トークンYの時系列を生成する。前述の通り、各音響トークンYは、音響信号Sの周波数特性を表すデータである。 具体的には、図3に例示される通り、音響トークン生成部32は、音響信号Sを解析することでスペクトログラムFを生成する。スペクトログラムFは、音響信号Sの時間-周波数表現である。具体的には、音響トークン生成部32は、音響信号Sに対して定Q変換(CQT:Constant-Q Transform)を実行することでスペクトログラムFを算定する。すなわち、第1実施形態のスペクトログラムFは、周波数軸が対数スケールで表現された定Qスペクトログラムである。 音響トークン生成部32は、音響信号SのスペクトログラムFを時間軸上で複数の単位期間Uに区分し、相異なる単位期間Uを表す複数の音響トークンYの時系列を生成する。すなわち、音響トークンYは、音響信号Sに対して定Q変換を実行した結果であるスペクトログラムFのうち1個の単位期間U内の部分を、音響信号Sの周波数特性として表すデータである。入力データAを構成する音響トークンYの個数は、音響信号Sの時間長に応じた可変値である。なお、入力データAに含まれる音響トークンYの個数は1個でもよい。 単位期間Uの時間長は、音響信号Sが表す音楽音の拍周期に対応する時間長(以下「基準長」という)である。拍周期は、時間軸上において相前後する各拍点の間隔(拍間隔)である。単位期間Uの時間長は、基準長の整数倍または整数分の1の時間長に設定される。第1実施形態においては、基準長が、音響信号Sが表す音楽音の1/12拍に相当する時間長に設定される。音響トークン生成部32は、音響信号Sの解析により拍周期を推定し、当該拍周期に対応する基準長の単位期間U毎に音響トークンYを生成する。以上の説明の通り、音響トークンYは、音響信号Sの周波数特性を、音楽音の拍周期に対応する基準長の単位期間U毎に表すデータである。 以上に説明した通り、入力データAは、条件トークン生成部31が生成した条件トークンXと、音響トークン生成部32が生成した複数の音響トークンYとを含む。前述の通り、条件トークンXが指定する音響処理は、利用者からの指示に応じて選択される。したがって、音響信号Sに対応する複数の音響トークンYは共通する一方、条件トークンXが利用者からの指示に応じて相違する複数通りの入力データAが生成される。 図2の出力データ生成部22は、入力データAから出力データBを生成する。出力データBは、入力データAの複数の音響トークンYが表す音響信号Sに対して、複数の音響処理のうち当該入力データAの条件トークンXが指定する音響処理を実行した結果を表すデータである。出力制御部23は、出力データ生成部22が生成した出力データBを利用者に対して出力する。具体的には、出力制御部23は、出力データBを表す画像を表示装置14に表示する。 第1実施形態の出力データ生成部22は、機械学習済の生成モデルMにより入力データAを処理することで出力データBを生成する。生成モデルMは、入力データAと出力データBとの関係を事前の機械学習により習得した統計モデルである。具体的には、生成モデルMは、入力データAから出力データBを生成する演算を制御装置11に実行させるプログラムと、当該演算に適用される複数の変数(例えばバイアスおよび加重値)との組合せで実現される。複数の変数の各々の数値は、機械学習により事前に設定される。 例えば、セルフアテンション機構(具体的にはマルチヘッドアテンション機構)を含むエンコーダ-デコーダモデルであるトランスフォーマーが、生成モデルMとして利用される。トランスフォーマーについては、例えばAshish Vaswani, N