Search

JP-2026077612-A - 次のトークンを予測する装置及び方法

JP2026077612AJP 2026077612 AJP2026077612 AJP 2026077612AJP-2026077612-A

Abstract

【課題】トランスフォーマに基づく機械学習システムによって、トークンシーケンスが与えられた場合に次のトークンを予測するコンピュータ実装された方法に関する。 【解決手段】本方法は、トークンシーケンスの埋め込みを、複数の層によって処理することと、層の出力において、層の出力埋め込みを重み行列と乗算することによって個々のトークンに対する信頼度スコアを決定することと、予め決定されたp番目の層において、次のトークンである可能性が最も高いK個のトークンを決定することと、その他のトークンに対応する行を除去することによって、剪定された重み行列を作成することと、予め定義された後続する層に対して、剪定された重み行列を使用してK個のトークンのみについての信頼度スコアを決定することと、層固有の閾値を超えている最も高い信頼度スコアを有するトークンを返すことと、を含む。 【選択図】図2

Inventors

  • メトッド ヤズベック
  • ダン ヂャン

Assignees

  • ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング

Dates

Publication Date
20260513
Application Date
20251023
Priority Date
20241025

Claims (10)

  1. トランスフォーマに基づく機械学習システム(2)によって、トークンシーケンスが与えられた場合に次のトークン(x t+1 )を予測するコンピュータ実装された方法であって、 前記機械学習システムは、自然言語の入力テキスト(10)を受信(100)し、当該入力テキストを、前記機械学習システムの語彙から初期トークンシーケンスへとトークン化し、前記機械学習システムの語彙から次のトークンを反復的に予測して、進展するトークンシーケンス(x 1 ,x 2 ,・・・,x t )へと付加し、 前記機械学習システムは、前記トークンシーケンスの埋め込みを決定(200)し、当該埋め込みを複数の層(1,p,p+1,j,L)によって処理し、前記複数の層のうちの1つの層は、少なくとも1つのマルチヘッド注意ブロック及び/又はフィードフォワードブロックを含み、 特定の層の出力において、前記語彙からの個々のトークンに対する信頼度スコアが決定(300)され、個々のトークン(x t+1 )に対する前記信頼度スコアは、それぞれの前記特定の層の出力埋め込み を重み行列 と乗算することによって決定される信頼度スコアベクトル の対応するエントリによって表される、 方法において、 前記方法は、 ・予め決定されたp番目の層に対して、当該p番目の層の出力 から計算された各自のそれぞれの信頼度スコアに基づいて次のトークンである可能性が最も高いK個のトークンを決定するステップ(400)と、 ・前記重み行列 のうち、決定された最も可能性の高い前記K個のトークンに対応する行を除いた全ての行を除去することによって、前記重み行列 から、剪定された重み行列 を決定するステップ(500)と、 ・前記p番目の層(p)に後続する特定の層(p+1,j,L)に対して、前記決定された最も可能性の高いK個のトークンのみについての信頼度スコアを決定するステップ(600)であって、それぞれの前記層の前記出力埋め込み を前記剪定された重み行列 と乗算することによって決定される、剪定された信頼度スコアベクトル を決定することによって、前記信頼度スコアを決定するステップ(600)と、 ・前記剪定された信頼度スコアベクトルにおける最も高い信頼度スコアが、その層の予め定義された層固有の閾値を超えている場合に、当該最も高い信頼度スコアに対応するトークンを、次のトークン(x t+1 )として返すステップ(700)と、 を含むことを特徴とする方法。
  2. 前記信頼度スコアベクトル/前記剪定された信頼度スコアベクトルは、前記重み行列/前記剪定された重み行列と、それぞれの前記層の前記出力埋め込みとの積のソフトマックスとして決定される、 請求項1に記載の方法(1000)。
  3. p及びKは、それぞれ、層(L)の総数、及び、前記機械学習システムの前記語彙のトークンの総数よりも小さい自然数によって定義された値を取る、 請求項1又は2に記載の方法(1000)。
  4. 前記複数の層(1,p,p+1,j,L)における前記層は、デコーダ層であり、 それぞれのデコーダ層は、マルチヘッド注意ブロック及びフィードフォワードブロックを含む、 請求項1乃至3のいずれか一項に記載の方法(1000)。
  5. ・前記機械学習システムを、それぞれ種々異なるp及びKの値を有する検証データセットに基づいて評価すること(100a)と、 ・性能メトリックを最大化するp及びKの値を選択すること(100b)と によって、p及びKの値が最適化される、 請求項1乃至4のいずれか一項に記載の方法(1000)。
  6. 前記方法のステップは、装置のプロセッサによって実行され、 前記Kの値及び/又は前記pの値は、前記装置の特定のハードウェアリソースに基づいて決定される、 請求項1乃至5のいずれか一項に記載の方法(1000)。
  7. 前記機械学習システム(2)は、対応するセンサによって記録されたセンサデータと、任意選択的にテキストデータとを入力として受信するマルチモーダル機械学習システムの一部であり、 前記機械学習システム(2)は、トークンシーケンスが与えられた場合に次のトークンを予測するための方法を使用して、受信した前記センサデータのテキスト分類を生成し、 生成された前記テキスト分類に基づいて、ロボットのアクチュエータ、製造機械又は製造機械の一部が制御される、 請求項1乃至6のいずれか一項に記載の方法(1000)。
  8. 請求項1乃至7のいずれか一項に記載の方法(1000)を実施するように構成されたプロセッサを含むデータ処理システム。
  9. コンピュータプログラムであって、当該コンピュータプログラムは、前記プログラムがコンピュータによって実行された場合に、請求項1乃至7のいずれか一項に記載の方法を前記コンピュータに実施させるための命令を含む、コンピュータプログラム。
  10. 請求項9に記載のコンピュータプログラムが格納されているコンピュータ可読データ担体。

Description

特許法第30条第2項適用申請有り 令和6年(2024年)10月24日、コーネル大学(Cornell University)のアーカイブサイト(https://arxiv.org/)上で公開された論文掲載ページ(https://arxiv.org/abs/2410.18952)に論文「Dynamic Vocabulary Pruning in Early-Exit LLMs(早期終了LLMにおける動的語彙剪定)」を掲載 技術分野 本発明は、トークンシーケンスが与えられた場合に次のトークンを予測するコンピュータ実装された方法と、対応するシステムと、コンピュータプログラムと、機械可読記憶媒体とに関する。 大規模言語モデル(LLM)のサイズを増加させることにより、機械学習システムの性能がより良好になることが判明している。しかしながら、そのためには、推論の速度低下及びコスト増加という代償を伴う。例えば、Tal Schuster, Adam Fisch, Jai Gupta, Mostafa Dehghani, Dara Bahri, Vinh Q. Tran, Yi Tay, Donald Metzler著の「“Confident Adaptive Language Modeling”(https://arxiv.org/abs/2207.07061)」において提案されているような早期終了(Early-exiting)は、中間層におけるトークン予測を可能にすることによってLLM推論の効率を改善するための有望なアプローチである。早期終了モデルの鍵となるコンポーネントの1つは、それぞれの早期終了の候補において計算される信頼度スコアであり、この信頼度スコアは、現在の予測が、フォワードパスを停止させて早期予測を返すために十分な品質を有するかどうかを決定する。 Tal Schuster, Adam Fisch, Jai Gupta, Mostafa Dehghani, Dara Bahri, Vinh Q. Tran, Yi Tay, Donald Metzler著、「“Confident Adaptive Language Modeling”(https://arxiv.org/abs/2207.07061)」 例示的な一実施形態のフローチャートである。例示的な一実施形態のフローチャートである。 実施形態の説明 以下の実施形態の説明において例示する目的のために、機械学習システムの語彙空間をYとし、そのサイズを|Y|=dvocabとする。さらに、(x1,・・・,xt),xi∈Yが、所与のトークンシーケンスを表すものとし、このトークンシーケンスには、トークン化された入力テキストと、これまでに予測されて付加されたトークンとの両方が含まれるものとする。 図1は、一実施形態による本方法のステップのフローチャートを示している。ステップ100において、機械学習システム2(図2を参照のこと)は、自然言語の入力テキスト10を受信する。当該入力テキストは、機械学習システムの語彙から初期トークンシーケンスへとトークン化され、機械学習システム2は、機械学習システム2の語彙から次のトークンを反復的に予測して、進展するトークンシーケンスへと付加する。特に、初期トークンシーケンスは、(x1,x2,・・・,xi)によって表されるものとしてよく、(数回又は複数回の)反復ステップの後には、進展するトークンシーケンスは、(x1,x2,・・・,xi,xi+1,・・・,xt)によって表されるものとしてよい。本明細書に記載されている方法においては、シーケンスは、初期シーケンスと一致しているものとしてもよいし、又は、数回若しくは複数回の反復後のシーケンスによって表されるものとしてもよいということに留意すべきである。記述の便宜上、以下においては、シーケンスを(x1,x2,・・・,xt)によって表すものとし、t=i又はt>iとする。 次のステップ200において、機械学習システム2は、トークンシーケンスの埋め込みを決定し、当該埋め込みを複数の層によって処理する。例示的に、図2には、層l,p,p+1,j,及びLが示されている。次いで、ステップ300において、特定の層の出力において、語彙からの個々のトークンに対する信頼度スコアが決定される。個々のトークンに対する信頼度スコアは、層の出力埋め込み を重み行列 と乗算することによって決定される信頼度スコアベクトル の対応するエントリによって表され、これについては、図2も参照されたい。本方法のステップ400において、予め決定された層pに対して、各自のそれぞれの信頼度スコアに基づいて次のトークンである可能性が最も高いK個のトークンが決定され、この場合、信頼度スコアは、層pの出力埋め込み から計算される。次のステップ500において、重み行列 のうち、決定された最も可能性の高いK個のトークンに対応する行を除いた全ての行を除去することによって、重み行列 から、剪定された重み行列 が決定される。ステップ600において、層pに後続する層に対して、決定された最も可能性の高いK個のトークンのみについての信頼度スコアが計算される。このことは、それぞれの層の出力埋め込み を剪定された重み行列 と乗算することによって決定される、剪定された信頼度スコアベクトル を決定することによって行われる。ステップ700において、剪定された信頼度スコアベクトルにおける最も高い信頼度スコアが、その層(図2の層j)の予め定義された層固有の閾値を超えている場合に、当該最も高い信頼度スコアに対応するトークンが、次のトークンxt+1として返される。 任意選択的に、ステップ100a及び100bにおいて、p及びKの値が最適化される。ステップ100aにおいて、機械学習システムが、それぞれ種々異なるp及びKの値を有する検証データセットに基づいて評価される。続いて、ステップ100bにおいて、性能メトリックを最大化するp及びKの値が選択される。 図2をさらに参照すると、本方法の一実施形態がフローチャートで示されている。機械学習システム2は、トランスフォーマアーキテクチャを含み、これについては、Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin著の「“Attention Is All You Need”(https://arxiv.org/abs/1706.03762)」を参照されたい。一般的に、トランスフォーマモデルにおいては、入力シーケンスは、L個の層を通過し、L個の層の各々は、マルチヘッド注意機構及びフィードフォワードブロックから構成されており、隠れ表現のシーケンス を生成し、ただし、 であり、ここで、dmodelは、埋め込み空間の次元を表す。全ての層を通過して処理された後、 によって、最終的な次のトークン分布が得られる。この分布は、ベクトルであり、図2を参照すると、 によって表されるものとしてもよい。 は、一般的にトランスフォーマに基づく機械学習システムにおいて、最終的な隠れ状態 をトークン空間Yへと戻すように投射することができる、埋め込み解除行列とも称される重み行列を表す。新たに予測されたトークンxt+1が入力シーケンスに追加され、予め決定された終了基準が満たされるまで(自己回帰型)生成プロセスを繰り返すことができる。 を決定する際には、トークンシーケンスにおける最後のトークンxtを参照する埋め込み だけを考慮することができるということに留意されたい。このことは、トークンシーケンスにおけるさらなる先行するトークンに関する知識が、注意機構を介して最後のトークン の隠れ表現(すなわち、埋め込み)の中に符号化されているという仮定を示唆することができる。 図2の機械学習システム2は、機械学習システムが十分な信頼度を有する場合には、次のトークンxt+1を、早期終了(early exiting)としても知られているように、中間層jにおいて既に予測して返すことができる。個々のトークンに対する信頼度スコアを、信頼度スコアベクトル の対応するエントリによって定義することができ、ここで、インデックスlは、それぞれの層を表す。その場合、層jにおいて早期終了するための基準を、 によって表すことができ、ここで、 は、層固有の閾値を表す。機械学習システム2の場合には、 であるということに留意されたい。機械学習システム2における第1のp層(l=1,・・・,p)に対して、信頼度スコアベクトル は、 によって決定される。信頼度ベクトル から、すなわち、重み行列 と、層の出力 との積のソフトマックスから、信頼度ベクトルにおける各自のそれぞれのエントリに従って最も高い確率を有するK個のトークンとして、次のトークンである可能性が最も高いK個のトークンが決定される。後続の層に対して、信頼度スコアベクトルを計算する際には、決定された最も可能性の高いK個のトークンに対応する行を除いた全ての行を除去することによって、重み行列 から決定された、剪定された重み行列 が使用される。 を選択することにより、信頼度推定のコストが著しく削減されるが、その一方で、性能は、概ね同程度に維持され得ることが観察されており、任意選択的に、pを調整することによって性能をさらに最適化することもできる。しかしながら、計算コスト削減の観点からは、pの値が小さい方が好ましい場合があり、その場合、予測されるべき次のトークンが、可能性が最も高いK個のトークンの中に、十分な可能性をもって実際に含まれているということが保証されなければならない。あるトークンが次のトークンであるという信頼度が閾値を超えていることに依存して、層jの後に動的に早期終了することと、(ある特定の層以降に)剪定され、それに伴って大幅に小さくなった重み行列とを組み合わせることにより、必要とされるメモリ及び処理能力に関して著しい改善をもたらすことができる。 最後に、本明細書全体を通して使用されているように、一般的に、複数のものにはインデックスが付されているものと理解することができることに留意されたい。すなわち、複数の要素の各々には、好ましくは複数の要素に含まれる各要素に対して連続する整数を割り当てることによって、一意のインデックスを割り当てることができる。好ましくは、複数の要素がN個の要素を含み、かつ、Nがその複数の要素における要素の個数である場合には、各要素に対して1からNまでの整数が割り当てられる。複数の要素には、各自のインデックスによってアクセスすることができるということも理解されたい。