Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-46292
Titel: Prospektive Evaluation von Anwendungen der künstlichen Intelligenz in der gastroenterologischen Endoskopie
VerfasserIn: Simon, Mandy Thérèse Marthe
Sprache: Deutsch
Erscheinungsjahr: 2025
Erscheinungsort: Homburg/Saar
DDC-Sachgruppe: 610 Medizin, Gesundheit
Dokumenttyp: Dissertation
Abstract: Hintergrund: Die publizierten Studien von Guimarães P. et al. von 2020 [29] und 2022 [30] testeten in einem vorselektierten Validierungsdatensatz zwei selbst etablierte Algorithmen zur Erkennung präkanzeröser Bedingungen des proximalen Magens und der eosinophilen Ösophagitis und erzielten eine diagnostische Genauigkeit von 93% bzw. 91%. Die vorliegende Studie testet die entsprechenden Algorithmen nun prospektiv unter reellen Bedingungen in einem nicht vorselektierten Kollektiv. Patienten und Methoden: Insgesamt wurden 650 Patienten mittels Ösophagogastroduodenoskopie untersucht. Dabei wurden vom Untersuchenden bis zu 6 Bilder in vorher definierten endoskopischen Positionen (Loc 1-4 proximaler Magen, davon 2 in Inversion; Loc 5 und 6 Ösophagus) aufgenommen und für die Auswertung ausgewählt. Es erfolgte eine Einschätzung hinsichtlich des Vorliegens einer proximalen Atrophie bzw. eosinophilen Ösophagitis durch den Untersucher. Nach Analyse der ausgewählten Bilder durch die künstlichen Intelligenzen wurden die Ergebnisse statistisch ausgewertet und mit denen der Untersucher verglichen. Das tatsächliche Vorliegen der Erkrankung (Grundwahrheit) wurde für die Atrophie histopathologisch und für die eosinophile Ösophagitis histopathologisch bzw. kombiniert klinisch/histopathologisch definiert. Letztendlich konnten für die Atrophie 1.681 Bilder (Loc 1 392, Loc 2 339, Loc 3 446, Loc 4 504 Bilder) von 583 Patienten mit vorliegender Histologie ausgewertet werden. Für die eosinophile Ösophagitis wurden 351 Bilder (Loc 5 169, Loc 6 182 Bilder) von 204 Patienten mit Biopsie bzw. 936 Bilder (Loc 5 438, Loc 6 498 Bilder) von 550 Patienten mit klinisch/histopathologisch definierter Erkrankungssituation ausgewertet. Ergebnisse: In der Gesamtkohorte wiesen 22 von 583 auswertbaren Patienten eine atrophische Gastritis und 7 von 550 auswertbaren Patienten eine eosinophile Ösophagitis auf. Für die präkanzerösen Bedingungen des proximalen Magens finden sich für die Loc 1-4 33, 146, 90 und 37 falsch-positive bzw. 3, 1, 6 und 10 falsch-negative Beurteilungen durch den Algorithmus. Es zeigt sich eine balanced Accuracy für Loc 1-4 von 86%, 74%, 72% und 67%, eine Sensitivität von 81%, 94%, 65% und 41% und eine Spezifität von 91%, 55%, 79% und 92%. Durch Kombination der einzelnen Lokalisationen konnte keine relevante Verbesserung der Ergebnisse erzielt werden. Die Untersucher geben auf Patientenebene 16 falsch-positive und 13 falsch-negative Beurteilungen ab und erzielen eine balanced Accuracy von 69%, eine Sensitivität von 41% und eine Spezifität von 97%. Der Algorithmus für die eosinophile Ösophagitis weist in der Histologie-Kohorte für Loc 5 und Loc 6 10 bzw. 16 falsch-positive und 0 bzw. 3 falsch-negative Befunde auf. Dadurch zeigt sich für Loc 5 und Loc 6 eine balanced Accuracy von 97% bzw. 74%, eine Sensitivität von 100% bzw. 57% sowie eine Spezifität von 94% bzw. 91%. In der klinisch/histopathologisch definier-ten Kohorte ergeben sich für Loc 5 und Loc 6 21 bzw. 30 falsch-positive und 0 bzw. 3 falsch-negative Befunde mit einer balanced Accuracy von 95% bzw. 98%, eine Sensitivität von 100% für beide und eine Spezifität von 91% bzw. 95%. Durch Kombination der Lokalisationen 5 und 6 konnte keine relevante Verbesserung der Ergebnisse erreicht werden. Die Untersu-cher geben auf Patientenebene bei beiden Kohorten 7 falsch-positive und 1 falsch-negative Beurteilung ab. Für die Histologie-Kohorte ergeben sich eine balanced Accuracy von 91%, eine Sensitivität von 86% und eine Spezifität von 96%. In der klinisch/histopathologischen Kohorte liegen die entsprechenden Werte bei 92%, 86% und 99%. In der Fehleranalyse fand sich eine relevante Anzahl an Untersuchungen mit in der Qualität des Bildmaterials begründeten erklärbaren Ursachen für eine Fehleinschätzung (Loc 1-6: 58%, 9,5%, 52%, 55%, 95%, 100%). Weiterhin sind Normalbefunde aus Loc 2 im ursprünglichen Trainingsdatensatz stark unterrepräsentiert (4%). Somit dürfte die hohe Rate an sonst nicht erklärbaren falsch-positiven Befunden durch eine Unterrepräsentation vergleichbarer Normalbefunde im ursprünglichen Trainingsdatensatz begründet sein. Schlussfolgerung: Diese Arbeit zeigt klar, dass zur Beurteilung der klinischen Nutzbarkeit von KI-Algorithmen prospektive Validierungen in unselektierten Kohorten unabdingbar sind. Der Algorithmus zur Erkennung von präkanzerösen Bedingungen des proximalen Magens offenbarte deutliche Schwächen mit zahlreichen falsch-positiven und falsch-negativen Auswertungen. Dies ist durch den limitierten Trainingsdatensatz bei einem Krankheitsbild mit großer Bandbreite an endoskopischen Erscheinungsbildern und großem Organ mit variablem Bildwinkeln erklärt. Bei Verwendung von Bildern aus einer endoskopischen Standardposition (Loc 1) zeigt der Algorithmus unter Realbedingungen durchaus eine zufriedenstellende Performance, während der Algorithmus zur Beurteilung von Bildern aus anderen Positionen (ins-besondere Loc 2) aufgrund unzureichender Abbildung im Trainingsdatensatz nicht nutzbar ist. Für die eosinophile Ösophagitis ergibt sich eine deutlich stabilere Performance des Algorithmus unter Realbedingungen. Dies ist durch die deutlich geringere Variabilität der Bilddarstellung erklärt, sodass das Spektrum der Erscheinungsbilder in dem größeren initialen Trainingsdatensatz besser abgebildet wurde. Die Unterschiede zwischen Loc 5 und 6 sind am ehesten durch weniger repräsentatives Bildmaterial in Loc 6 bedingt, weswegen die Benutzung von Bildern der unteren Speiseröhre (Loc 5) zu empfehlen ist.
Background: The published studies by Guimarães P. et al. from 2020 [29] and 2022 [30] tested two self-established algorithms for the detection of precancerous conditions of the proximal stomach and eosinophilic esophagitis in a preselected validation dataset and achieved a diagnostic accuracy of 93% and 91%, respectively. The present study now pro-spectively tests the corresponding algorithms under real-life conditions in a non-pre-selected population. Patients and methods: A total of 650 patients were examined using esophagogastroduo-denoscopy. The examiner took up to 6 images in predefined endoscopic positions (Loc 1-4 proximal stomach, 2 of them in inversion; Loc 5 and 6 esophagus) and selected them for evaluation. The examiner assessed the presence of proximal atrophy or eosinophilic esopha-gitis. After analysis of the selected images by artificial intelligence, the results were statistically evaluated and compared with those of the examiners. The actual presence of the disease (ground truth) was defined as histopathologically for atrophy and histopathologically or com-bined clinically/histopathologically for eosinophilic esophagitis. Ultimately, 1,681 images (Loc 1 392, Loc 2 339, Loc 3 446, Loc 4 504 images) of 583 patients with available histology were analyzed for atrophy. For eosinophilic esophagitis, 351 images (Loc 5 169, Loc 6 182 images) of 204 patients with biopsy and 936 images (Loc 5 438, Loc 6 498 images) of 550 patients with clinically/histopathologically defined disease were analyzed. Results: In the total cohort, 22 of 583 evaluable patients had atrophic gastritis and 7 of 550 evaluable patients had eosinophilic esophagitis. For the precancerous conditions of the proxi-mal stomach, there were 33, 146, 90, 37 false-positive and 3, 1, 6, 10 false-negative evalua-tions by the algorithm for Loc 1-4. There was a balanced accuracy for Loc 1-4 of 86%, 74%, 72% and 67%, a sensitivity of 81%, 94%, 65% and 41% and a specificity of 91%, 55%, 79% and 92%. No relevant improvement in the results could be achieved by combining the individ-ual localizations. The examiners made 16 false-positive and 13 false-negative assessments at patient level and achieved a balanced accuracy of 69%, a sensitivity of 41% and a specificity of 97%. The algorithm for eosinophilic esophagitis shows 10 and 16 false-positive and 0 and 3 false-negative findings in the histology cohort for Loc 5 and Loc 6, respectively. This results in a balanced accuracy of 97% and 74% for Loc 5 and Loc 6, a sensitivity of 100% and 57% and a specificity of 94% and 91%. In the clinically/histopathologically defined cohort, there were 21 and 30 false-positive and 0 and 3 false-negative findings for Loc 5 and Loc 6, respec-tively, with a balanced accuracy of 95% and 98%, a sensitivity of 100% for both and a speci-ficity of 91% and 95%. No relevant improvement in the results could be achieved by combin-ing localizations 5 and 6. The investigators gave 7 false-positive and 1 false-negative assess-ment at patient level for both cohorts. For the histology cohort, there was a balanced accura-cy of   91%, a sensitivity of 86% and a specificity of 96%. In the clinical/histopathological cohort, the corresponding values are 92%, 86% and 99%. In the error analysis, a relevant number of examinations were found with explainable causes for a misjudgment due to the quality of the image material (Loc 1-6: 58%, 9,5%, 52%, 55%, 95%, 100%). Furthermore, normal findings from Loc 2 are strongly underrepresented in the original training data set (4%). Thus, the high rate of otherwise unexplained false-positive find-ings may be due to an underrepresentation of comparable normal findings in the original training dataset. Conclusion: This work clearly shows that prospective validations in unselected cohorts are essential to assess the clinical utility of AI algorithms. The algorithm for the detection of pre-cancerous conditions of the proximal stomach revealed significant weaknesses with numer-ous false-positive and false-negative evaluations. This is explained by the limited training data set for a disease with a wide range of endoscopic appearances and a large organ with variable image angles. When using images from a standard endoscopic position (Loc 1), the algo-rithm performs satisfactorily under real conditions, while the algorithm cannot be used to evaluate images from other positions (especially Loc 2) due to insufficient mapping in the training data set. For eosinophilic oesophagitis, the performance of the algorithm is significantly more stable under real conditions. This is due to the significantly lower variability of the image representa-tion, so that the spectrum of symptoms was better represented in the larger initial training data set. The differences between Loc 5 and 6 are most likely due to less representative image material in Loc 6, which is why the use of images of the lower esophagus (Loc 5) is recommended.
Link zu diesem Datensatz: urn:nbn:de:bsz:291--ds-462925
hdl:20.500.11880/40654
http://dx.doi.org/10.22028/D291-46292
Erstgutachter: Casper, Markus
Tag der mündlichen Prüfung: 11-Sep-2025
Datum des Eintrags: 7-Okt-2025
Fakultät: M - Medizinische Fakultät
Fachrichtung: M - Innere Medizin
Professur: M - Prof. Dr. Jörn Schattenberg
Sammlung:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:
Datei Beschreibung GrößeFormat 
Doktorarbeit_Mandy_Simon_SciDok.pdf2,53 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.