Wenn die KI Kohlenhydrate zählt

Immer mehr Menschen mit Diabetes nutzen LLMs zur Mahlzeitenanalyse und Dosisberechnung. Warum die Antworten zwar professionell klingen, aber häufig grob falsch sind.

KI in der Mahlzeiten-Erkennung: gängige Praxis, aber ohne Validierung

KI-Recherche zum Kohlenhydratgehalt (KH) von Mahlzeiten? Das ist längst gängige Praxis, bestätigte Cengiz. Das Einspeisen fotografierter Mahlzeiten in die KI sei mit der Erwartung verbunden, dass die mentale Belastung durch manuelles Kohlenhydrate-Zählen entfällt. Es gibt auch spezielle Apps, über die Fotos hochgeladen werden können, etwa GluciCheck, DiabHealth oder Snaq. Sie nutzen Computer Vision, um Lebensmittel zu erkennen oder Portionen zu schätzen. Oft werden diese Apps direkt vermarktet – ohne medizinische Zulassung, berichtete Cengiz. Das Problem: „Die Ergebnisse können falsch sein.“ Auch an Large Language Models (LLMs) wie ChatGPT, Gemini oder Claude werden Fotos mit der Frage nach dem Kohlenhydratgehalt gesendet. Doch eine klinische Validierung fehlt, ebenso eine Regulierung als Medizinprodukt.

Das eigentliche Risiko sei Cengiz´ Einschätzung nach jedoch die hybride AID-Integration: KI-generierte Schätzungen werden direkt in die AID-Systeme eingespeist und steuern dann Insulindosierungen an. „Tritt dabei ein Fehler auf, sind wir in einem automatisierten Kontext unterwegs. Es gibt keinen Sicherheitspuffer durch menschliches Urteil“, warnte Cengiz.

Generative KI und die Illusion der Volumenanalyse

Cengiz erklärte, dass ein LLM, das auf Token und Sprache trainiert sei, Fotos nicht richtig analysieren könnte: Es könne verborgene Schichten, Zutaten unter Oberflächen und die innere Zusammensetzung von Gerichten nicht erfassen. Bei einfachen Lebensmitteln (Obst, Gemüse) gelingt das noch mit einer Übereinstimmung von 95 %. Bei komplexen Gerichten hingegen (Lasagne, Eintöpfe) wird nur eine Übereinstimmung von 43,3 % erreicht. Und das Paradoxe: Das Hinzufügen einer physischen Größenreferenz verschlechtert die Genauigkeit der KI – wegen konkurrierender räumlicher Daten.

Was die KI nicht sehen kann:

Füllungen und Schichten in Sandwiches, Wraps, Pasteten
Öl- und Fettgehalt von gebratenen Speisen
Portionsdichte bei Eintöpfen, Currys, Aufläufen
Zutaten unter Soßen oder Toppings
hausgemachte Rezepte mit unbekannten Proportionen

Ohne menschliche Kontrolle lässt sich keine Genauigkeit erreichen, betonte Cengiz und fügte hinzu: “Die KI schätzt, sie misst nicht.”

In einer kontrollierten klinischen Studie schätzten geschulte Medizinstudenten den KH-Gehalt von 246 Krankenhausmahlzeiten anhand von fünf Tools.¹ Die Referenzwerte wurden von erfahrenen Ernährungsberatern auf der Grundlage gewogener Lebensmittel und standardisierter Fotos ermittelt. Der primäre Endpunkt war der absolute Fehler bei der Kohlenhydratschätzung. GluciCheck, DiabHealth und EkiYou lieferten die genauesten und konsistentesten Kohlenhydratberechnungen, wobei es immer Abweichungen um 20 g gab, betonte Cengiz. Das entspreche bereits zwei Einheiten Insulin. ChatGPT-5 erzielte, obwohl nicht für die Ernährungsanalyse konzipiert, eine mittlere Genauigkeit, während Gluroo die größte Schwankungsbreite aufwies. Wie Cengiz berichtete, zeigten Erkenntnisse aus fünf Studien das Ausmaß der Genauigkeitslücke: ≥ 20 g Überschätzung in bis zu 38 % der Abfragen.

Das Risiko: Fehlerhafte Insulindosierungen

KI versagt auch bei Insulindosierungen: Datensätze werden übersprungen, es kommt zu Überreaktionen auf Ausreißer, Ursache und Wirkung werden verwechselt. So kann die KI nicht unterscheiden, ob ein Blutzuckeranstieg von einer Mahlzeit, von Stress, Sport oder einem zweiten Snack stammt. Sie empfiehlt dann die falsche Korrektur. Kernproblem laut Cengiz: LLMs erzeugen selbstsicher klingende Dosierungsempfehlungen, anstatt zuzugeben, dass sie die Daten nicht verstehen.

Was passiert, wenn Patienten LLMs als digitale Endokrinologen nutzen? Typisch sei etwa, dass CGM-und Pumpendaten in ChatGPT oder andere LLMs exportiert werden, um die KI zu bitten, als digitaler Endokrinologe zu fungieren. „Das Problem: Die Antwort klingt glaubwürdig, enthält aber einfach grobe Fehler“, berichtete Cengiz. Die Erwartungshaltung der Nutzers sei jedoch: „Das klingt professionell, das muss richtig sein.“ Das Resultat: Die KI generiert selbstsicher klingende Dosisempfehlungen, auch wenn sie die Datenlage nicht versteht.

Der direkte Schaden:

Falsche Basalraten verursachen nächtliche Hypo- oder Hyperglykämie.
Falsche KH-Faktoren bedeuten: Jeder Mahlzeitenbolus ist falsch.
Im Gegensatz zu Einzelfehlern betreffen diese Einstellungen jeden Bolus – über Tage und Wochen.
Fehler akkumulieren sich lautlos zur Krise.

Die verborgene Gefahr:

Betroffene teilen Ärzten nicht mit, dass sie Einstellungen verändert haben.
Behandelnde therapieren Symptome ohne Kenntnis der Ursache.
KI-Output wirkt professionell genug, dass Betroffene damit medizinische Beratung ersetzen.
Es entsteht potenziell ein paralleler, unsichtbarer Behandlungspfad.

Cengiz erinnerte daran, dass jede Einstellungsänderung nicht eine, sondern Hunderte Dosen betrifft. Das Risiko summiere sich still, bevor es sichtbar wird. KI könne das klinische Urteilsvermögen, das für die Einstellung von Insulinpumpen- und AID-Parametern erforderlich sei, nicht sicher ersetzen. Entsprechend heißt es in den DTN-UK-Leitlinien 2026: Generische LLMs (ChatGPT, Grok etc.) könnten NICHT sicher Insulindosierungsempfehlungen liefern. Die KI sei akzeptabel für die breite Mustererkennung – aber niemals als Ersatz für klinische Expertise. LLMs dürften niemals als autonome Beratungstools für die Insulindosierung eingesetzt werden.

Das Versprechen, die kognitive Belastung des Typ-1-Diabetes-Managements drastisch zu reduzieren, könne die KI nicht halten, bilanzierte Cengiz. Denn die Realität sei: Generalisierte KI, 2D-Computer Vision und LLMs, angewendet auf biologische Daten, sind derzeit nicht sicher für autonome klinischen Anwendungen. Künftig sollten strikte Hybridarchitekturen, absolute mathematische Sicherheit und Patientensicherheit über die konversationelle Kompetenz gestellt werden, forderte er und fügte hinzu: „Die nächste Generation der KI-basierten Diabetes-Technologie darf sich nicht durch ihre Sprachgewandtheit auszeichnen, sondern durch ein unbeirrbares Bekenntnis zur Sicherheit der Nutzer.“

Quellen

Diabetes Kongress (DDG) City Cube Berlin, 13. bis 16. Mai 2026. https://diabeteskongress.de/. Sitzung: ChatGPT will see you now – Large Language Models in der Diabetologie zwischen Hype und Realität. 14. Mai 2026.

Kontrollierte Studie: https://pubmed.ncbi.nlm.nih.gov/41424217/