DeepSeek v3: Snapshot zur Behandlung in der KI-Verordnung
DeepSeek v3: Snapshot zur Behandlung in der KI-Verordnung
Die in 2025 stufenweise in Kraft tretende KI-Verordnung fordert von Entwicklern und Anbietern von KI-Modellen diverse Transparenzangaben, abgestuft nach Komplexität und Flexibilität der vorliegenden KI-Lösung. Wie unterstützt Sie BDO bei der Erstellung oder prüferischen Absicherung dieser Angaben? Hierzu wollen wir uns exemplarisch dem aktuellen DeepSeek-Modell widmen.
DeepSeek hat mit der dritten Standardversion seines Sprachmodells für großes Aufsehen gesorgt. Gemessen an den fundamentalen Maßgrößen der Informatik „Zeit“ (Rechenbedarf) und „Band“ (Speicherbedarf) übertrifft es nach gegenwärtiger Informationslage die Performance vergleichbarer Modelle:
- Reduzierung des Speicherbedarfs durch Verarbeitung kompromierter Daten (Multi-Headed Latent Attention)
- Allokation des Berechnungsprozesses auf spezialisierte neuronale Netze (Mixture of Experts)
- Beschleunigung des Trainings durch Vorhersageannahmen von mehreren Token gleichzeitig in einem Trainingsdurchgang (Multi-Token Prediction)
Abseits dieser Betrachtung wollen wir in diesem Artikel einen ersten Ansatz über die mögliche Regulierung von DeepSeek- Implementierungen nach Kapitel 5 der KI-Verordnung (KI-VO) basierend auf öffentlich verfügbaren Angaben darstellen. Im Vordergrund steht hier die Transparenzpflicht von KI-Modellanbietern mit allgemeinem Verwendungszweck, die ab dem 2. August 2025 zu erfüllen sind. Diese unterscheiden sich im Wesentlichen danach, ob das Modell zusätzlich ein systemisches Risiko entfalten kann.
Systemisches Risiko oder nicht?
Wann liegt ein KI-Modell mit allgemeinem Verwendungszweck mit systemischem Risiko vor? Gemäß Artikel 53 der KI-Verordnung genügt es hierzu, wenn ein nachweisbar hoher Wirkungsgrad vorliegt, der bei einem Trainingsvolumen von mehr 225 FLOPS (=Gleitkommaberechnungen) angenommen wird. Bezogen auf ChatGPT wird dies schon beim Standardmodell von GPT-3 mit seinen 175 Milliarden Parametern vermutet. Dies vor allem, weil jeder Trainingsdurchgang über alle diese Parameter in einem „Forward Pass“ (Verarbeitung der Eingabedaten) und einem „Backward Pass“ (Aktualisieren der Parameter) die zweifache Berechnungsmenge erfordert. Bei einer angenommenen Steigerung der Parameteranzahl bei GPT-4 auf 175 Billionen Parameter liegt die Annahme erst recht nahe, dass die obige Schwelle überschritten wurde. Bei DeepSeek v3 wäre zu berücksichtigen, dass bei angabegemäß 671 Milliarden Parametern regelmäßig „nur“ 37 Milliarden trainiert werden, doch dürfte auch hier der Schwellenwert überschritten werden.
Unabhängig hiervon dürften derartig große Sprachmodelle zumindest als KI-Modelle mit allgemeinem Verwendungszweck (Art. 3 Nr. 63 KI-VO) eingestuft werden. Doch was ist die Folge? Eine wesentliche Obliegenheit besteht darin, dass die Modellanbieter bestimmte Informationen (Anhang XII der KI-VO) über Fähigkeiten und Grenzen des Modells an Anbieter von KI-Systemen bereitstellen müssen, welche diese Modelle in ihre Systeme integrieren wollen.
Welches Format für die Transparenzinformationen?
Auch wenn es hierzu gegenwärtig noch kein verbindliches Formblatt gibt, kann man sich zur Erstellung der Transparenzinformationen bspw. an IEC/IEEE 82079-1 (Erstellung von Nutzungsinformationen für Produkte) oder an Vorschlägen aus der Praxis orientieren. In jedem Format wird ein umfangreicher Bericht mit zahlreichen technischen und quantitativen Angaben zu erarbeiten sein. Hier wollen wir uns auf einen Überblick beschränken, der in Anlehnung an einen Vorschlag von Google Research ([1810.03993] Model Cards for Model Reporting) gestaltet werden kann: