DE-102025140018-A1 - VERFAHREN UND VORRICHTUNGEN ZUR EFFIZIENTEN FEINABSTIMMUNG BEI UNSTRUKTURIERTEN, SPÄRLICHEN UND UNGENAUEN GROSSEN VORTRAINIERTEN FUNDAMENTMODELLEN

DE102025140018A1DE 102025140018 A1DE102025140018 A1DE 102025140018A1DE-102025140018-A1

Abstract

Eine beispielhafte Vorrichtung enthält eine Schnittstellenschaltung, maschinenlesbare Anweisungen und mindestens eine Prozessorschaltung, die durch die maschinenlesbaren Anweisungen programmiert wird, um ein Basismodell eines Fundamentmodells zu sparsifizieren, um ein spärliches Basismodell zu erzeugen, eine neuronale Low-Rank-Adaptersuche auf das spärliche Basismodell anzuwenden und ein fein abgestimmtes Basismodell auszugeben, das auf der Anwendung der neuronalen Low-Rank-Adaptersuche auf das spärliche Basismodell basiert.

Inventors

Juan Pablo Munoz Chiabrando
Jinjie Yuan
Nilesh Kumar Jain

Assignees

INTEL CORPORATION

Dates

Publication Date: 20260507
Application Date: 20251001
Priority Date: 20241101

Claims (20)

Vorrichtung, die Folgendes umfasst: eine Schnittstellenschaltung; maschinenlesbare Anweisungen; und mindestens eine Prozessorschaltung, die durch die maschinenlesbaren Anweisungen programmiert wird, um Folgendes durchzuführen: Sparsifizieren eines Basismodells eines Fundamentmodells, um ein spärliches Basismodell zu erzeugen; Anwenden einer neuronalen Low-Rank-Adaptersuche auf das spärliche Basismodell; und Ausgeben eines fein abgestimmten Basismodells, das auf der Anwendung der neuronalen Low-Rank-Adaptersuche auf das spärliche Basismodell beruht.
Vorrichtung nach Anspruch 1 , wobei eine oder mehrere der mindestens einen Prozessorschaltung(en) das Basismodell sparsifizieren, indem sie ein mit sparsifizierten Gewichten des Basismodells verbundenes Spärlichkeitsmuster identifizieren.
Vorrichtung nach Anspruch 2 , wobei eine oder mehrere der mindestens einen Prozessorschaltung(en) die sparsifizierten Gewichte auf der Grundlage einer Bewertungsfunktion identifizieren, die auf vorher trainierte Gewichte des Basismodells angewendet wird.
Vorrichtung nach Anspruch 3 , wobei, wenn das fein abgestimmte Basismodell ein sparsifiziertes und quantisiertes Basismodell ist, der eine oder mehrere der mindestens einen Prozessorschaltung(en) das sparsifizierte und quantisierte Basismodell durch Quantisieren der sparsifizierten Gewichte auf eine geringere Genauigkeit identifizieren soll.
Vorrichtung nach einem der Ansprüche 1 , 2 , 3 oder 4 , wobei eine oder mehrere der mindestens einen Prozessorschaltung(en) eine binäre Maske auf der Grundlage des spärlichen Basismodells erzeugen, wobei die binäre Maske von einer anfänglichen Sparsifizierung einer Gewichtungsmatrix des Basismodells abgeleitet ist.
Vorrichtung nach einem der Ansprüche 1 , 2 , 3 , 4 oder 5 , wobei eine oder mehrere der mindestens einen Prozessorschaltung(en) die neuronale Low-Rank-Adaptersuche anwenden, um elastische Adapter mit variablen Konfigurationen zu trainieren, um die Genauigkeit des fein abgestimmten Basismodells zu verbessern.
Vorrichtung nach Anspruch 6 , wobei die variablen Konfigurationen variable Rangwerte im Vergleich zu festen Rangwerten darstellen.
Vorrichtung nach Anspruch 7 , wobei die neuronale Low-Rank-Adaptersuche die variablen Rangwerte auf die elastischen Adapter anwendet, um eine einzelne elastische Adapterkonfiguration aus einem Raum von elastischen Adapterkonfigurationen zu identifizieren.
Vorrichtung nach Anspruch 6 , wobei eine oder mehrere der mindestens einen Prozessorschaltung(en) dazu dient (dienen), die elastischen Adapter und Modellgewichte des Basismodells nach der Feinabstimmung unter Beibehaltung der Spärlichkeit der Modellgewichte zu fusionieren.
Mindestens ein maschinenlesbares Medium, das maschinenlesbare Anweisungen enthält, um mindestens eine Prozessorschaltung zu mindestens dem Folgenden zu veranlassen: Sparsifizieren eines Basismodells eines Fundamentmodells, um ein spärliches Basismodell zu erzeugen; Anwenden einer neuronalen Low-Rank-Adaptersuche auf das spärliche Basismodell; und Ausgeben eines fein abgestimmten Basismodells, das auf der Anwendung der neuronalen Low-Rank-Adaptersuche auf das spärliche Basismodell beruht.
Mindestens ein maschinenlesbares Medium nach Anspruch 10 , wobei die maschinenlesbaren Anweisungen eine oder mehrere der mindestens einen Prozessorschaltung veranlassen sollen, das Basismodell zu sparsifizieren, indem ein Spärlichkeitsmuster identifiziert wird, das mit sparsifizierten Gewichten des Basismodells verbunden ist.
Mindestens ein maschinenlesbares Medium nach Anspruch 11 , wobei die maschinenlesbaren Anweisungen eine oder mehrere der mindestens einen Prozessorschaltung veranlassen sollen, die sparsifizierten Gewichte auf der Grundlage einer Bewertungsfunktion zu identifizieren, die auf vortrainierte Gewichte des Basismodells angewendet wird.
Mindestens ein maschinenlesbares Medium nach Anspruch 12 , wobei das fein abgestimmte Basismodell ein sparsifiziertes und quantisiertes Basismodell ist und die maschinenlesbaren Anweisungen einen oder mehrere der mindestens einen Prozessorschaltung veranlassen sollen, das sparsifizierte und quantisierte Basismodell zu identifizieren, indem die sparsifizierten Gewichte auf eine geringere Genauigkeit quantisiert werden.
Mindestens ein maschinenlesbares Medium nach einem der Ansprüche 10 , 11 , 12 oder 13 , wobei die maschinenlesbaren Anweisungen eine oder mehrere der mindestens einen Prozessorschaltung veranlassen sollen, eine binäre Maske auf der Grundlage des spärlichen Basismodells zu erzeugen, wobei die binäre Maske von einer anfänglichen Sparsifizierung einer Gewichtungsmatrix des Basismodells abgeleitet ist.
Mindestens ein maschinenlesbares Medium nach einem der Ansprüche 10 , 11 , 12 , 13 oder 14 , wobei die maschinenlesbaren Anweisungen eine oder mehrere der mindestens einen Prozessorschaltung veranlassen sollen, die neuronale Low-Rank-Adaptersuche anzuwenden, um elastische Adapter mit variablen Ausbildungen zu trainieren, um die Genauigkeit des fein abgestimmten Basismodells zu verbessern.
Mindestens ein maschinenlesbares Medium nach Anspruch 15 , wobei die variablen Konfigurationen variable Rangwerte im Vergleich zu festen Rangwerten darstellen.
Mindestens ein maschinenlesbares Medium nach Anspruch 16 , wobei die neuronale Low-Rank-Adaptersuche die variablen Rangwerte auf die elastischen Adapter anwendet, um eine einzelne elastische Adapterkonfiguration aus einem Raum von elastischen Adapterkonfigurationen zu identifizieren.
Mindestens ein maschinenlesbares Medium nach Anspruch 16 , wobei die maschinenlesbaren Anweisungen eine oder mehrere der mindestens einen Prozessorschaltung veranlassen sollen, die elastischen Adapter und Modellgewichte des Basismodells nach der Feinabstimmung zu fusionieren, während die Spärlichkeit der Modellgewichte beibehalten wird.
Vorrichtung, die Folgendes umfasst: Mittel zum Sparsifizieren eines Basismodells eines Fundamentmodells zur Erzeugung eines spärlichen Basismodells; Mittel zur Anwendung einer neuronalen Low-Rank-Adaptersuche auf das spärliche Basismodell; und Mittel zur Ausgabe eines fein abgestimmten Basismodells, das auf der Anwendung der neuronalen Low-Rank-Adaptersuche auf das spärliche Basismodell beruht.
Vorrichtung nach Anspruch 19 , wobei die Mittel zum Sparsifizieren das Identifizieren eines Spärlichkeitsmusters umfassen, das mit sparsifizierten Gewichten des Basismodells verbunden ist.

Description

HINTERGRUND Fundamentmodelle (z. B. vortrainierte Large Language Models (LLMs)) sind neuronale Netzwerke, die auf künstlicher Intelligenz (KI) basierende Aufgaben erfüllen. Diese Modelle verwenden Millionen oder Milliarden von Parametern, die für einen neuen Datensatz oder eine nachgelagerte Aufgabe, wie z. B. mathematische Schlussfolgerungen, eine Feinabstimmung erfordern können. LLMs umfassen reine Encoder-Modelle für Klassifizierungsaufgaben, reine Decoder-Modelle für Aufgaben der Inhaltsgenerierung und Encoder-Decoder-Modelle für Aufgaben der Inhaltsbewertung und - generierung, wie Übersetzung und Zusammenfassung. KURZBESCHREIBUNG DER ZEICHNUNGEN 1 veranschaulicht die bestehenden Grenzen bekannter Ansätze zur Feinabstimmung spärlicher und quantisierter Modelle und zur Fusion von Low-Rank-Adaptern (LoRA).2 ist ein Blockdiagramm einer beispielhaften Implementierung einer Modell-Tuner-Schaltung, die in Übereinstimmung mit den Lehren dieser Offenbarung konstruiert wurde, um vortrainierte LLMs auf nachgelagerte Aufgaben fein abzustimmen.3 ist ein Flussdiagramm, das beispielhafte maschinenlesbare Anweisungen und/oder beispielhafte Operationen darstellt, die von beispielhaften programmierbaren Schaltungen ausgeführt, instanziiert und/oder durchgeführt werden können, um die beispielhafte Modell-Tuner-Schaltung von 2 zu implementieren.4 ist ein Flussdiagramm, das beispielhafte maschinenlesbare Anweisungen und/oder beispielhafte Operationen darstellt, die von beispielhaften programmierbaren Schaltungen ausgeführt, instanziiert und/oder durchgeführt werden können, um die beispielhafte Modell-Tuner-Schaltung von 2, um eine Sparsifizierung und Quantisierung des Basismodells durchzuführen.5 ist ein Flussdiagramm, das beispielhafte maschinenlesbare Anweisungen und/oder beispielhafte Operationen darstellt, die von beispielhaften programmierbaren Schaltungen ausgeführt, instanziiert und/oder durchgeführt werden können, um die beispielhafte Modell-Tuner-Schaltung von 2 zur Wiederherstellung der Modellgenauigkeit mittels neuronaler Low-Rank-Adaptersuche (NLS) zu implementieren.6 veranschaulicht beispielhafte Pipeline-Konfigurationen, die zur effizienten Feinabstimmung großer Modelle eingesetzt werden können, darunter (1) eine erste Pipeline für die parametereffiziente Feinabstimmung von spärlichen und quantisierten Modellen unter Verwendung elastischer Adapter, was zu einem nicht-fusionierten Modell und Adaptern führt, (2) eine zweite Pipeline für die parametereffiziente Feinabstimmung von spärlichen Modellen unter Verwendung von Sparse Awareness (SparsePEFT), die eine anschließende Fusion von Modell und Adaptern ermöglicht, und (3) eine dritte Pipeline für die parametereffiziente Feinabstimmung von spärlichen und quantisierten Modellen mit Quantisierung und Sparse-Aware-Adapter-Merging.7 zeigt ein Beispiel für bekannte Low-Rank-Adapter (LoRA) im Vergleich zu elastischen Adaptern, die mit einer hierin offenbarten neuronalen Low-Rank-Suche (NLS) verbunden sind.8 zeigt eine beispielhafte Übersicht über die Feinabstimmung von vortrainierten LLMs auf der Grundlage der Modellsparsifizierung, die Wiederherstellung der Genauigkeit des Basismodells unter Verwendung der NLS-Adapter von 7, und Identifizierung einer sparsifizierten, fein abgestimmten Architektur auf der Grundlage einer Unteradaptersuche.9 veranschaulicht die sparsifizierte parametereffiziente Feinabstimmung (SparsePEFT) unter Verwendung einer binären Maske, die aus sparsifizierten Gewichten gewonnen wird.10 veranschaulicht eine beispielhafte Verringerung der für die Feinabstimmung eines LLM erforderlichen Parameter bei gleichzeitiger Erzielung einer höheren Genauigkeit unter Verwendung der hier offenbarten Verfahren im Vergleich zu bekannten spärlichen Feinabstimmungsmethoden.11A veranschaulicht die Ergebnisse für die Bewertung der Feinabstimmung eines ersten beispielhaften Modells unter Verwendung bekannter Feinabstimmung im Vergleich zu den hier offenbarten Ansätzen (z. B. Feinabstimmung von spärlichen und quantisierten Modellen (SQFT), SQFT in Kombination mit SparsePEFT und SQFT in Kombination mit SparsePEFT einschließlich Quantisierung und Sparse-Aware-Adapter-Merging (QA-SparsePEFT)).11B zeigt die Ergebnisse einer Ablationsstudie zur Feinabstimmung unter Verwendung bekannter Low-Rank-Adapter (LoRA) im Vergleich zu elastischen Adaptern, die mit der neuronalen Low-Rank-Suche (NLS) von 7 bei der Bewertung der hier offenbarten Feinabstimmung, einschließlich SQFT mit SparsePEFT und SQFT mit quantisierungsfähigem SparsePEFT assoziiert sind.12 veranschaulicht eine beispielhafte Kostenanalyse für verschiedene Pipelines im Zusammenhang mit der Modellfeinabstimmung, einschließlich einer Bewertung der Modellspeicherung, der Feinabstimmungszeit und der Genauigkeit.13 ist ein Blockdiagramm einer beispielhaften Verarbeitungsplattform mit einer programmierbaren Schaltung, die so strukturiert ist, dass sie die beispielhaften maschinenlesbaren Anweisungen ausführen, instanziier