JP-2026077612-A - 次のトークンを予測する装置及び方法

JP2026077612AJP 2026077612 AJP2026077612 AJP 2026077612AJP-2026077612-A

Abstract

【課題】トランスフォーマに基づく機械学習システムによって、トークンシーケンスが与えられた場合に次のトークンを予測するコンピュータ実装された方法に関する。【解決手段】本方法は、トークンシーケンスの埋め込みを、複数の層によって処理することと、層の出力において、層の出力埋め込みを重み行列と乗算することによって個々のトークンに対する信頼度スコアを決定することと、予め決定されたｐ番目の層において、次のトークンである可能性が最も高いＫ個のトークンを決定することと、その他のトークンに対応する行を除去することによって、剪定された重み行列を作成することと、予め定義された後続する層に対して、剪定された重み行列を使用してＫ個のトークンのみについての信頼度スコアを決定することと、層固有の閾値を超えている最も高い信頼度スコアを有するトークンを返すことと、を含む。【選択図】図２

Inventors

メトッドヤズベック
ダンヂャン

Assignees

ローベルトボツシユゲゼルシヤフトミツトベシユレンクテルハフツング

Dates

Publication Date: 20260513
Application Date: 20251023
Priority Date: 20241025

Claims (10)

トランスフォーマに基づく機械学習システム（２）によって、トークンシーケンスが与えられた場合に次のトークン（ｘｔ＋１）を予測するコンピュータ実装された方法であって、前記機械学習システムは、自然言語の入力テキスト（１０）を受信（１００）し、当該入力テキストを、前記機械学習システムの語彙から初期トークンシーケンスへとトークン化し、前記機械学習システムの語彙から次のトークンを反復的に予測して、進展するトークンシーケンス（ｘ１，ｘ２，・・・，ｘｔ）へと付加し、前記機械学習システムは、前記トークンシーケンスの埋め込みを決定（２００）し、当該埋め込みを複数の層（１，ｐ，ｐ＋１，ｊ，Ｌ）によって処理し、前記複数の層のうちの１つの層は、少なくとも１つのマルチヘッド注意ブロック及び／又はフィードフォワードブロックを含み、特定の層の出力において、前記語彙からの個々のトークンに対する信頼度スコアが決定（３００）され、個々のトークン（ｘｔ＋１）に対する前記信頼度スコアは、それぞれの前記特定の層の出力埋め込みを重み行列と乗算することによって決定される信頼度スコアベクトルの対応するエントリによって表される、方法において、前記方法は、・予め決定されたｐ番目の層に対して、当該ｐ番目の層の出力から計算された各自のそれぞれの信頼度スコアに基づいて次のトークンである可能性が最も高いＫ個のトークンを決定するステップ（４００）と、・前記重み行列のうち、決定された最も可能性の高い前記Ｋ個のトークンに対応する行を除いた全ての行を除去することによって、前記重み行列から、剪定された重み行列を決定するステップ（５００）と、・前記ｐ番目の層（ｐ）に後続する特定の層（ｐ＋１，ｊ，Ｌ）に対して、前記決定された最も可能性の高いＫ個のトークンのみについての信頼度スコアを決定するステップ（６００）であって、それぞれの前記層の前記出力埋め込みを前記剪定された重み行列と乗算することによって決定される、剪定された信頼度スコアベクトルを決定することによって、前記信頼度スコアを決定するステップ（６００）と、・前記剪定された信頼度スコアベクトルにおける最も高い信頼度スコアが、その層の予め定義された層固有の閾値を超えている場合に、当該最も高い信頼度スコアに対応するトークンを、次のトークン（ｘｔ＋１）として返すステップ（７００）と、を含むことを特徴とする方法。
前記信頼度スコアベクトル／前記剪定された信頼度スコアベクトルは、前記重み行列／前記剪定された重み行列と、それぞれの前記層の前記出力埋め込みとの積のソフトマックスとして決定される、請求項１に記載の方法（１０００）。
ｐ及びＫは、それぞれ、層（Ｌ）の総数、及び、前記機械学習システムの前記語彙のトークンの総数よりも小さい自然数によって定義された値を取る、請求項１又は２に記載の方法（１０００）。
前記複数の層（１，ｐ，ｐ＋１，ｊ，Ｌ）における前記層は、デコーダ層であり、それぞれのデコーダ層は、マルチヘッド注意ブロック及びフィードフォワードブロックを含む、請求項１乃至３のいずれか一項に記載の方法（１０００）。
・前記機械学習システムを、それぞれ種々異なるｐ及びＫの値を有する検証データセットに基づいて評価すること（１００ａ）と、・性能メトリックを最大化するｐ及びＫの値を選択すること（１００ｂ）とによって、ｐ及びＫの値が最適化される、請求項１乃至４のいずれか一項に記載の方法（１０００）。
前記方法のステップは、装置のプロセッサによって実行され、前記Ｋの値及び／又は前記ｐの値は、前記装置の特定のハードウェアリソースに基づいて決定される、請求項１乃至５のいずれか一項に記載の方法（１０００）。
前記機械学習システム（２）は、対応するセンサによって記録されたセンサデータと、任意選択的にテキストデータとを入力として受信するマルチモーダル機械学習システムの一部であり、前記機械学習システム（２）は、トークンシーケンスが与えられた場合に次のトークンを予測するための方法を使用して、受信した前記センサデータのテキスト分類を生成し、生成された前記テキスト分類に基づいて、ロボットのアクチュエータ、製造機械又は製造機械の一部が制御される、請求項１乃至６のいずれか一項に記載の方法（１０００）。
請求項１乃至７のいずれか一項に記載の方法（１０００）を実施するように構成されたプロセッサを含むデータ処理システム。
コンピュータプログラムであって、当該コンピュータプログラムは、前記プログラムがコンピュータによって実行された場合に、請求項１乃至７のいずれか一項に記載の方法を前記コンピュータに実施させるための命令を含む、コンピュータプログラム。
請求項９に記載のコンピュータプログラムが格納されているコンピュータ可読データ担体。

Description

特許法第３０条第２項適用申請有り令和６年（２０２４年）１０月２４日、コーネル大学（ＣｏｒｎｅｌｌＵｎｉｖｅｒｓｉｔｙ）のアーカイブサイト（ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／）上で公開された論文掲載ページ（ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２４１０．１８９５２）に論文「ＤｙｎａｍｉｃＶｏｃａｂｕｌａｒｙＰｒｕｎｉｎｇｉｎＥａｒｌｙ－ＥｘｉｔＬＬＭｓ（早期終了ＬＬＭにおける動的語彙剪定）」を掲載技術分野本発明は、トークンシーケンスが与えられた場合に次のトークンを予測するコンピュータ実装された方法と、対応するシステムと、コンピュータプログラムと、機械可読記憶媒体とに関する。大規模言語モデル（ＬＬＭ）のサイズを増加させることにより、機械学習システムの性能がより良好になることが判明している。しかしながら、そのためには、推論の速度低下及びコスト増加という代償を伴う。例えば、Tal Schuster, Adam Fisch, Jai Gupta, Mostafa Dehghani, Dara Bahri, Vinh Q. Tran, Yi Tay, Donald Metzler著の「“Confident Adaptive Language Modeling”（https://arxiv.org/abs/2207.07061）」において提案されているような早期終了（Early-exiting）は、中間層におけるトークン予測を可能にすることによってＬＬＭ推論の効率を改善するための有望なアプローチである。早期終了モデルの鍵となるコンポーネントの１つは、それぞれの早期終了の候補において計算される信頼度スコアであり、この信頼度スコアは、現在の予測が、フォワードパスを停止させて早期予測を返すために十分な品質を有するかどうかを決定する。 Tal Schuster, Adam Fisch, Jai Gupta, Mostafa Dehghani, Dara Bahri, Vinh Q. Tran, Yi Tay, Donald Metzler著、「“Confident Adaptive Language Modeling”（https://arxiv.org/abs/2207.07061）」例示的な一実施形態のフローチャートである。例示的な一実施形態のフローチャートである。実施形態の説明以下の実施形態の説明において例示する目的のために、機械学習システムの語彙空間をＹとし、そのサイズを｜Ｙ｜＝ｄｖｏｃａｂとする。さらに、（ｘ１，・・・，ｘｔ），ｘｉ∈Ｙが、所与のトークンシーケンスを表すものとし、このトークンシーケンスには、トークン化された入力テキストと、これまでに予測されて付加されたトークンとの両方が含まれるものとする。図１は、一実施形態による本方法のステップのフローチャートを示している。ステップ１００において、機械学習システム２（図２を参照のこと）は、自然言語の入力テキスト１０を受信する。当該入力テキストは、機械学習システムの語彙から初期トークンシーケンスへとトークン化され、機械学習システム２は、機械学習システム２の語彙から次のトークンを反復的に予測して、進展するトークンシーケンスへと付加する。特に、初期トークンシーケンスは、（ｘ１，ｘ２，・・・，ｘｉ）によって表されるものとしてよく、（数回又は複数回の）反復ステップの後には、進展するトークンシーケンスは、（ｘ１，ｘ２，・・・，ｘｉ，ｘｉ＋１，・・・，ｘｔ）によって表されるものとしてよい。本明細書に記載されている方法においては、シーケンスは、初期シーケンスと一致しているものとしてもよいし、又は、数回若しくは複数回の反復後のシーケンスによって表されるものとしてもよいということに留意すべきである。記述の便宜上、以下においては、シーケンスを（ｘ１，ｘ２，・・・，ｘｔ）によって表すものとし、ｔ＝ｉ又はｔ＞ｉとする。次のステップ２００において、機械学習システム２は、トークンシーケンスの埋め込みを決定し、当該埋め込みを複数の層によって処理する。例示的に、図２には、層ｌ，ｐ，ｐ＋１，ｊ，及びＬが示されている。次いで、ステップ３００において、特定の層の出力において、語彙からの個々のトークンに対する信頼度スコアが決定される。個々のトークンに対する信頼度スコアは、層の出力埋め込みを重み行列と乗算することによって決定される信頼度スコアベクトルの対応するエントリによって表され、これについては、図２も参照されたい。本方法のステップ４００において、予め決定された層ｐに対して、各自のそれぞれの信頼度スコアに基づいて次のトークンである可能性が最も高いＫ個のトークンが決定され、この場合、信頼度スコアは、層ｐの出力埋め込みから計算される。次のステップ５００において、重み行列のうち、決定された最も可能性の高いＫ個のトークンに対応する行を除いた全ての行を除去することによって、重み行列から、剪定された重み行列が決定される。ステップ６００において、層ｐに後続する層に対して、決定された最も可能性の高いＫ個のトークンのみについての信頼度スコアが計算される。このことは、それぞれの層の出力埋め込みを剪定された重み行列と乗算することによって決定される、剪定された信頼度スコアベクトルを決定することによって行われる。ステップ７００において、剪定された信頼度スコアベクトルにおける最も高い信頼度スコアが、その層（図２の層ｊ）の予め定義された層固有の閾値を超えている場合に、当該最も高い信頼度スコアに対応するトークンが、次のトークンｘｔ＋１として返される。任意選択的に、ステップ１００ａ及び１００ｂにおいて、ｐ及びＫの値が最適化される。ステップ１００ａにおいて、機械学習システムが、それぞれ種々異なるｐ及びＫの値を有する検証データセットに基づいて評価される。続いて、ステップ１００ｂにおいて、性能メトリックを最大化するｐ及びＫの値が選択される。図２をさらに参照すると、本方法の一実施形態がフローチャートで示されている。機械学習システム２は、トランスフォーマアーキテクチャを含み、これについては、Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin著の「“Attention Is All You Need”（https://arxiv.org/abs/1706.03762）」を参照されたい。一般的に、トランスフォーマモデルにおいては、入力シーケンスは、Ｌ個の層を通過し、Ｌ個の層の各々は、マルチヘッド注意機構及びフィードフォワードブロックから構成されており、隠れ表現のシーケンスを生成し、ただし、であり、ここで、ｄｍｏｄｅｌは、埋め込み空間の次元を表す。全ての層を通過して処理された後、によって、最終的な次のトークン分布が得られる。この分布は、ベクトルであり、図２を参照すると、によって表されるものとしてもよい。は、一般的にトランスフォーマに基づく機械学習システムにおいて、最終的な隠れ状態をトークン空間Ｙへと戻すように投射することができる、埋め込み解除行列とも称される重み行列を表す。新たに予測されたトークンｘｔ＋１が入力シーケンスに追加され、予め決定された終了基準が満たされるまで（自己回帰型）生成プロセスを繰り返すことができる。を決定する際には、トークンシーケンスにおける最後のトークンｘｔを参照する埋め込みだけを考慮することができるということに留意されたい。このことは、トークンシーケンスにおけるさらなる先行するトークンに関する知識が、注意機構を介して最後のトークンの隠れ表現（すなわち、埋め込み）の中に符号化されているという仮定を示唆することができる。図２の機械学習システム２は、機械学習システムが十分な信頼度を有する場合には、次のトークンｘｔ＋１を、早期終了（early exiting）としても知られているように、中間層ｊにおいて既に予測して返すことができる。個々のトークンに対する信頼度スコアを、信頼度スコアベクトルの対応するエントリによって定義することができ、ここで、インデックスｌは、それぞれの層を表す。その場合、層ｊにおいて早期終了するための基準を、によって表すことができ、ここで、は、層固有の閾値を表す。機械学習システム２の場合には、であるということに留意されたい。機械学習システム２における第１のｐ層（ｌ＝１，・・・，ｐ）に対して、信頼度スコアベクトルは、によって決定される。信頼度ベクトルから、すなわち、重み行列と、層の出力との積のソフトマックスから、信頼度ベクトルにおける各自のそれぞれのエントリに従って最も高い確率を有するＫ個のトークンとして、次のトークンである可能性が最も高いＫ個のトークンが決定される。後続の層に対して、信頼度スコアベクトルを計算する際には、決定された最も可能性の高いＫ個のトークンに対応する行を除いた全ての行を除去することによって、重み行列から決定された、剪定された重み行列が使用される。を選択することにより、信頼度推定のコストが著しく削減されるが、その一方で、性能は、概ね同程度に維持され得ることが観察されており、任意選択的に、ｐを調整することによって性能をさらに最適化することもできる。しかしながら、計算コスト削減の観点からは、ｐの値が小さい方が好ましい場合があり、その場合、予測されるべき次のトークンが、可能性が最も高いＫ個のトークンの中に、十分な可能性をもって実際に含まれているということが保証されなければならない。あるトークンが次のトークンであるという信頼度が閾値を超えていることに依存して、層ｊの後に動的に早期終了することと、（ある特定の層以降に）剪定され、それに伴って大幅に小さくなった重み行列とを組み合わせることにより、必要とされるメモリ及び処理能力に関して著しい改善をもたらすことができる。最後に、本明細書全体を通して使用されているように、一般的に、複数のものにはインデックスが付されているものと理解することができることに留意されたい。すなわち、複数の要素の各々には、好ましくは複数の要素に含まれる各要素に対して連続する整数を割り当てることによって、一意のインデックスを割り当てることができる。好ましくは、複数の要素がＮ個の要素を含み、かつ、Ｎがその複数の要素における要素の個数である場合には、各要素に対して１からＮまでの整数が割り当てられる。複数の要素には、各自のインデックスによってアクセスすることができるということも理解されたい。