DeepSeek v3: Snapshot zur Behandlung in der KI-Verordnung

DeepSeek v3: Snapshot zur Behandlung in der KI-Verordnung

Die in 2025 stufenweise in Kraft tretende KI-Verordnung fordert von Entwicklern und Anbietern von KI-Modellen diverse Transparenzangaben, abgestuft nach Komplexität und Flexibilität der vorliegenden KI-Lösung. Wie unterstützt Sie BDO bei der Erstellung oder prüferischen Absicherung dieser Angaben? Hierzu wollen wir uns exemplarisch dem aktuellen DeepSeek-Modell widmen.

DeepSeek hat mit der dritten Standardversion seines Sprachmodells für großes Aufsehen gesorgt. Gemessen an den fundamentalen Maßgrößen der Informatik „Zeit“ (Rechenbedarf) und „Band“ (Speicherbedarf) übertrifft es nach gegenwärtiger Informationslage die Performance vergleichbarer Modelle:

  • Reduzierung des Speicherbedarfs durch Verarbeitung kompromierter Daten (Multi-Headed Latent Attention)
  • Allokation des Berechnungsprozesses auf spezialisierte neuronale Netze (Mixture of Experts)
  • Beschleunigung des Trainings durch Vorhersageannahmen von mehreren Token gleichzeitig in einem Trainingsdurchgang (Multi-Token Prediction)

Abseits dieser Betrachtung wollen wir in diesem Artikel einen ersten Ansatz über die mögliche Regulierung von DeepSeek- Implementierungen nach Kapitel 5 der KI-Verordnung (KI-VO) basierend auf öffentlich verfügbaren Angaben darstellen. Im Vordergrund steht hier die Transparenzpflicht von KI-Modellanbietern mit allgemeinem Verwendungszweck, die ab dem 2. August 2025 zu erfüllen sind. Diese unterscheiden sich im Wesentlichen danach, ob das Modell zusätzlich ein systemisches Risiko entfalten kann.

 

Systemisches Risiko oder nicht?

Wann liegt ein KI-Modell mit allgemeinem Verwendungszweck mit systemischem Risiko vor? Gemäß Artikel 53 der KI-Verordnung genügt es hierzu, wenn ein nachweisbar hoher Wirkungsgrad vorliegt, der bei einem Trainingsvolumen von mehr 225 FLOPS (=Gleitkommaberechnungen) angenommen wird. Bezogen auf ChatGPT wird dies schon beim Standardmodell von GPT-3 mit seinen 175 Milliarden Parametern vermutet. Dies vor allem, weil jeder Trainingsdurchgang über alle diese Parameter in einem „Forward Pass“ (Verarbeitung der Eingabedaten) und einem „Backward Pass“ (Aktualisieren der Parameter) die zweifache Berechnungsmenge erfordert. Bei einer angenommenen Steigerung der Parameteranzahl bei GPT-4 auf 175 Billionen Parameter liegt die Annahme erst recht nahe, dass die obige Schwelle überschritten wurde. Bei DeepSeek v3 wäre zu berücksichtigen, dass bei angabegemäß 671 Milliarden Parametern regelmäßig „nur“ 37 Milliarden trainiert werden, doch dürfte auch hier der Schwellenwert überschritten werden.

Unabhängig hiervon dürften derartig große Sprachmodelle zumindest als KI-Modelle mit allgemeinem Verwendungszweck (Art. 3 Nr. 63 KI-VO) eingestuft werden. Doch was ist die Folge? Eine wesentliche Obliegenheit besteht darin, dass die Modellanbieter bestimmte Informationen (Anhang XII der KI-VO) über Fähigkeiten und Grenzen des Modells an Anbieter von KI-Systemen bereitstellen müssen, welche diese Modelle in ihre Systeme integrieren wollen.

 

Welches Format für die Transparenzinformationen?

Auch wenn es hierzu gegenwärtig noch kein verbindliches Formblatt gibt, kann man sich zur Erstellung der Transparenzinformationen bspw. an IEC/IEEE 82079-1 (Erstellung von Nutzungsinformationen für Produkte) oder an Vorschlägen aus der Praxis orientieren. In jedem Format wird ein umfangreicher Bericht mit zahlreichen technischen und quantitativen Angaben zu erarbeiten sein. Hier wollen wir uns auf einen Überblick beschränken, der in Anlehnung an einen Vorschlag von Google Research ([1810.03993] Model Cards for Model Reporting) gestaltet werden kann:

Beispielhafte Illustration Model Card – DeepSeek v31

  • Allgemeine Beschreibung

DeepSeek-V3 ist ein Sprachmodell mit 671 Milliarden Parametern, von denen 37 Milliarden aktiv sind, um die Berechnungen bei der Verarbeitung von Tokens zu ermöglichen. Es wurde auf einem umfangreichen Korpus von 14,8 Billionen Tokens trainiert, wobei Ansätze wie Multi-head Latent Attention (MLA) und Mixture-of-Experts (MoE) genutzt werden.

  • Architektur und Anzahl der Parameter

Das Modell basiert auf einer Transformer-Architektur, einem Verfahren, das Beziehungen in Daten erkennt, mit 671 Milliarden Parametern, von denen bei jeder Verarbeitungseinheit nur 37 Milliarden aktiv sind.

  • Modalität und Format der Ein- und Ausgaben

Die Ein- und Ausgaben des Modells bestehen hauptsächlich aus Text, wobei die Eingaben in Form von Textsequenzen vorliegen und die Ausgaben als Textantworten generiert werden. Das Modell verarbeitet diese Eingaben in einem standardisierten Format, in dem die Textlängen und der Kontextumfang an die Kapazität des Modells angepasst sind.

  • Lizenz des Modells

Das Modell steht unter einer „Open-Source-Lizenz“, die es Nutzerinnen und Nutzern ermöglicht, den Quellcode frei zu nutzen, zu modifizieren und weiterzugeben.

DeepSeek Grafik1

(Quelle: https://doi.org/10.48550/arXiv.2412.19437)

  • Primäre beabsichtigte Verwendungen

Das Modell wurde hauptsächlich entwickelt, um natürliche Sprachverarbeitung zu ermöglichen, einschließlich Aufgaben wie Textgenerierung, Textklassifikation, Sprachübersetzung und Fragebeantwortung. Es ist darauf ausgelegt, in Kundenservice-Anwendungen, Chatbots, Content-Erstellung und automatisierten Übersetzungsdiensten verwendet zu werden.

  • Out-of-Scope Use Cases

Das Modell ist nicht für den Einsatz in sicherheitskritischen Bereichen, wie zum Beispiel medizinischer Diagnostik, Rechtsprechung oder automatisierten Entscheidungen in finanziellen Transaktionen, vorgesehen. Es ist ebenfalls nicht für die Verarbeitung sensibler oder vertraulicher Daten entwickelt, bei denen eine hohe Genauigkeit und Zuverlässigkeit erforderlich sind, um rechtliche oder ethische Standards zu erfüllen. Weitere Beschränkungen sind in Paragraph 5 i.V.m. Attachment A des DEEPSEEK LICENSE AGREEMENT v1.0 vom 23.Oktober 2023 aufgeführt.

  • Relevante Faktoren

Relevante Faktoren für DeepSeek v3 beinhalten demografische und sprachliche Unterschiede der Nutzerdaten, weil das Modell in unterschiedlichen Sprach- und Kulturkontexten variieren kann. Hinsichtlich der technischen Attribute ist festzuhalten, dass DeepSeek v3 unter Verwendung von 2.048 Nvidia H800 GPUs mit einer 8-Bit-Präzision trainiert wurde. Als weiterer relevanter Faktor ist der Trainingskorpus von 14,8 Billionen Token zu nennen.

  • Evaluationsfaktoren

Evaluationsfaktoren für das Modell umfassen Verarbeitungsgenauigkeit, FLOPs und Speicheranforderungen, um die Effizienz des Modells unter verschiedenen Bedingungen zu bewerten. Zudem wird die Reaktionszeit bei Inferenzaufgaben und die Skalierbarkeit des Modells in großen Systemumgebungen berücksichtigt. Weitere Evaluationsfaktoren können die Anwenderzufriedenheit und die Modellgenauigkeit in spezifischen Anwendungsbereichen, wie Textklassifikation und Fragebeantwortung, sein.

  • Performance-Metriken

Eine wesentliche Metrik ist die RewardBench, welche die Leistung von Modellen anhand von strukturierten, vielseitig formulierbaren Anfragen in Bereichen wie Chat und Argumentation bewertet. Hier bestand eine Durchschnittsgenauigkeit von 89,6 %. Weitere Metriken sind bspw. das MMLU für den Umgang mit komplexen, vielfältigen Aufgaben sowie HumanEval, das auf das Verständnis und die Formulierung von Programmcode bezogen ist. Die Performance von DeepSeek v3 ist hier insbesondere von der Zahl der aktivierten Parameter und den verwendeten Trainingstokens abhängig.

  • Schwellenbezogene Metriken

Hier ist die Pass@1-Metrik hervorzuheben. Diese bewertet, ob das Modell beim ersten Versuch eine korrekte Antwort liefert. Bezogen auf das Sprachverständnis ist die Pass@1-Metrik bei DeepSeek v3 bei 85,6 %.

  • Verwendete Datensätze

Kombination aus öffentlich zugänglichen Textkorpora, die Daten aus unterschiedlichen Quellen wie Wikipedia, Büchern, Foren, und anderen digitalen Texten beinhalten. Außerdem wurden spezialisierte Datensätze verwendet, um die Leistung in bestimmten Bereichen zu verbessern, wie zum Beispiel wissenschaftliche Literatur, technische Dokumentationen oder domänenspezifische Daten.

  • Vorverarbeitung

Die Vorverarbeitung der Daten für DeepSeek v3 umfasst typischerweise die Zerlegung (Tokenisierung), Entfernung von irrelevanten Daten (Bereinigung), Vereinheitlichung von Text (Normalisierung) sowie die Längenkontrolle, um die Textdaten für das Modell effizient und standardisiert verarbeitbar zu machen.

  • Einzelergebnisse

DeepSeek v3 wurde auf verschiedenen Benchmarks wie MMLU, MATH, GPQA und weiteren getestet. Die Ergebnisse zeigen eine gute Leistung des Modells in den Bereichen Textverständnis, Fragebeantwortung und Mathematik, wobei es in mehreren Aufgaben vergleichbare Ergebnisse mit anderen großen Modellen wie GPT-4 und Claude-3 erzielt hat.

  • Intersektionale Ergebnisse

Die intersektionale Analyse zeigt Unterschiede in der Leistung von DeepSeek v3 für verschiedene Sprach- und Datenkontexte. Besonders auffällig sind Leistungsunterschiede in Bezug auf Faktenwissen und sprachliche Präferenzen, wobei das Modell in bestimmten Kontexten, wie z. B. in Bezug auf chinesische Daten, besser abschneidet als Modelle wie GPT-4 und Claude-3. Diese Ergebnisse ermöglichen eine differenzierte Betrachtung der Modellleistung in Bezug auf spezifische demografische oder thematische Gruppen.

  • Trainingsmethode

Das Modell nutzt ein gemischtes Präzisions-Framework unter Verwendung des FP8-Formats. Dies bietet vielversprechende Ergebnisse für das Training großer Modelle, kann jedoch durch Ausreißer in den Berechnungen begrenzt werden, was zusätzliche Herausforderungen bei der Stabilität und Genauigkeit des Trainings mit sich bringt. Hierzu wurden weitere Maßnahmen getroffen wie bspw. die Aufteilung der Trainingsdaten in kleinere Datenblöcke (Tile-wise Grouping). Weiterhin werden kritische Berechnungen zur Fehlerverringerung (Gradient) und zur Anpassung der Wichtigkeit der einzelnen Parameter (Gewichtung) mit einer höheren Präzision (FP16/FP32) durchgeführt.

DeepSeek Grafik2

(Quelle:  https://doi.org/10.48550/arXiv.2412.19437)


  • Trainingsdaten

Das Modell wurde mit rund 1 Billion Token trainiert, um die Generalisierungsfähigkeit und Leistung zu maximieren. Insgesamt ist die Fehlerquote des Modells konstant unter 0,25 % (Abweichung interner Berechnungen von Referenzwerten) geblieben.


Die KI-Verordnung bietet eine breite Grundlage für vertrauenswürdige, transparente KI-Technologien, die im EU-Raum entwickelt, angeboten oder angewendet werden.

Haben Sie Fragen? Unsere Expertinnen und Experten aus IT Audit / Implementation (Dr. Aykut Bußian, Karsten Thomas, Philipp Tiedt) sowie Governance / Datenschutz (Corinna Kulp, Matthias Niebuhr (unser Kooperationspartner BDO Legal Rechtsanwaltsgesellschaft mbH) stehen Ihnen mit ihren engagierten Teams gerne zur Seite. 


1Hierbei handelt es sich um eine unverbindliche Darstellung zu Demonstrationszwecken; Inhalte wurden öffentlichen Quellen entnommen, insbesondere dem Technical Report DeepSeek-V3.