Please use this identifier to cite or link to this item:
doi:10.22028/D291-44980
Title: | Etablierung und Evaluation von Algorithmen der künstlichen Intelligenz zur Differenzierung von Kolitiden |
Author(s): | Finkler, Helen Caroline |
Language: | German |
Year of Publication: | 2024 |
Place of publication: | Homburg/Saar |
DDC notations: | 610 Medicine and health |
Publikation type: | Dissertation |
Abstract: | Die Entzündung des Dickdarms, genannt Kolitis, stellt ein klinisch relevantes Krankheitsbild in der Gastroenterologie dar. Dabei bereitet die therapieentscheidende Differenzierung zwischen den verschiedenen Formen der Kolitis (z.B. chronisch entzündliche Darmerkrankungen, ischämische Kolitis und infektiöse Kolitis) dem behandelnden Arzt häufig Schwierigkeiten. In vielen Bereichen des alltäglichen Lebens und auch in der Medizin wurde in den letzten Jahren intensive Forschung im Bereich der künstlichen Intelligenz betrieben, um den Anwender bei komplizierten Fragestellungen zu unterstützen. Ziel der vorgelegten Studie war es Algorithmen der künstlichen Intelligenz zu etablieren und evaluieren, welche zwischen chronisch entzündlicher Darmerkrankung mit Dickdarmbefall, ischämischer Kolitis und infektiöser Kolitis unterscheiden können. Hierzu wurden zunächst alle Koloskopiebefunde des Zeitraums 01/2009 bis 01/2020 nach den Begriffen „Colitis“, „Kolitis“, „Ischämie“, „ischämisch“ und „Crohn“ sowie den entsprechenden ICD-10-Codes durchsucht. Von den insgesamt 1 880 identifizierten Patienten wurden alle verfügbaren Befunde, das heißt Arztbriefe, endoskopische, radiologische, histologische und mikrobiologische Befunde sowie Laborwerte gesichtet. Im Anschluss erfolgte wegen Ausschlusses einer Kolitis, nicht vorhandenem oder verwertbarem Bildmaterial und nicht sicher klassifizierbarer Befunde bzw. Mischformen einer Kolitis eine Reduktion der Studienpopulation um 1 386 Patienten. Von den verbliebenen 494 Patienten (212 mit chronisch entzündlichen Darmerkrankungen, 157 mit ischämischer Kolitis und 125 mit infektiösen Kolitiden) wurden alle verwertbaren endoskopischen Bilder selektiert und insgesamt 16 klinische Parameter retrospektiv erfasst. Diese umfassen demografische Merkmale wie Alter und Geschlecht, Vorerkrankungen wie Diabetes mellitus, arterielle Hypertonie, koronare Herzkrankheit, periphere arterielle Verschlusskrankheit, chronische Nierenerkrankung, Schlaganfall bzw. transitorische ischämische Attacke, Nikotinabusus, vorangegangene Operation, Zustand nach Reanimation und kürzlich erfolgte Antibiotikaeinnahme sowie Laborwerte wie Hämoglobin, Leukozyten, C-reaktives Protein und Kreatinin. Es erfolgte eine zufällige Aufteilung in zwei Datensätze: Datensatz 1 mit 444 Patienten inklusive klinischer Daten und 1 635 Endoskopiebildern diente zum Training, Datensatz 2 mit klinischen Daten und 161 Bildern von 50 Patienten zur Evaluation. Im Folgenden wurde als erster Ansatz ein Convolutional Neural Network zur Klassifizierung mittels endoskopischer Bilder entwickelt. Als zweiter Ansatz diente die Klassifizierung auf Grundlage klinischer Daten mittels Gradient Boosted Decision Trees. Hier zeigte ein Algorithmus unter Nutzung der fünf Parameter Patientenalter, Höhe des C-reaktiven Proteins, kürzlich erfolgte Operation, Antibiotikaeinnahme und Leukozytenzahl die besten Ergebnisse. Schließlich wurden die beiden Modelle zu einem Hybrid-Algorithmus kombiniert, welcher analog zur Realität im klinischen Alltag sowohl Endoskopiebilder als auch klinische Parameter zur Entscheidungsfindung nutzt. Die verschiedenen Ansätze zur Klassifizierung mittels künstlicher Intelligenz wurden darüber hinaus auch mit dem Ergebnis dreier erfahrener Endoskopiker verglichen. Für die drei Ansätze unter Nutzung eines Convolutional Neural Networks zur Analyse von endoskopischem Bildmaterial, Gradient Boosted Decision Trees auf Basis klinischer Daten und der Kombination beider ergaben sich eine Sensitivität von 0,565, 0,683 bzw. 0,640, eine Spezifität von 0,787, 0,852 bzw. 0,835 und eine Genauigkeit von 0,709, 0,792 bzw. 0,766. Positiver und negativer prädiktiver Wert lagen bei 0,602 bzw. 0,768 (Endoskopiebilder), 0,702 bzw. 0,846 (klinische Daten) und 0,657 bzw. 0,815 (Kombination). Die Areas under the curve der Receiver-Operating-Characteristic- und Precision-Recall-Kurve betrugen 0,727 bzw. 0,585 (Endoskopiebilder), 0,888 bzw. 0,823 (klinische Daten unter Nutzung von fünf Parametern) und 0,838 bzw. 0,733 (Hybridalgorithmus). Im Vergleich dazu erreichten die Endoskopiker bei ihrer Klassifikation eine Sensitivität von 0,578, eine Spezifität von 0,814, eine Genauigkeit von 0,721, einen positiven prädiktiven Wert von 0,637 und einen negativen prädiktiven Wert von 0,785. Insgesamt ergaben sich die besten Ergebnisse für den Algorithmus auf Basis klinischer Daten mittels Gradient Boosted Decision Trees. Der Algorithmus zur Analyse endoskopischen Bildmaterials zeigte demgegenüber schlechtere Ergebnisse. Diese waren jedoch vergleichbar mit denjenigen der erfahrenen Endoskopiker. Der Hybrid-Algorithmus unter Nutzung endoskopischer Bilder und klinischer Daten wies eine bessere Performance als der rein bildbasierte Algorithmus auf, war jedoch schlechter als der Algorithmus ausschließlich auf Grundlage klinischer Daten. Die Ergebnisse zeigen, dass für den Menschen schwierige medizinische Fragestellungen auch Algorithmen der künstlichen Intelligenz vor nur schwer lösbare Herausforderungen stellen. Die hier entwickelten Modelle zur Klassifizierung einer Kolitis mithilfe künstlicher Intelligenz sind daher noch nicht bereit für den Einsatz in der klinischen Praxis. Der Ansatz auf Grundlage klinischer Daten, welcher sich in dieser Studie am vielversprechendsten präsentiert, könnte in Zukunft mittels prospektiver Studien weiter evaluiert werden. Zur Verbesserung der Bild-basierten Modelle bedarf es größerer repräsentativer Datensätze. Idealerweise würden Videodatensätze genutzt werden, welche jedoch noch nicht in ausreichender Zahl zur Verfügung stehen. Obwohl die in dieser Studie entwickelten Algorithmen in ihrer aktuellen Form also noch nicht nutzbar sind, könnten sie Ausgangspunkt für weitere Forschungen mit dem Ziel der Erstellung optimierter Algorithmen sein. Andererseits zeigt die Arbeit aber auch die Limitationen der künstlichen Intelligenz auf und erbringt die Erkenntnis, dass noch nicht alle medizinischen Fragestellungen durch sie zufriedenstellend lösbar sind. Artificial-intelligence-based decision support tools for the differential diagnosis of colitis The inflammation of the large intestine, called colitis, constitutes a relevant disease in gastroenterology. Differentiating between the different types of colitis (e.g. inflammatory bowel disease, ischemic colitis and infectious colitis) poses problems for physicians quite often. In many areas of daily life, as well as in medicine, extensive research has been done in the field of artificial intelligence in order to support the user concerning complex issues. The aim of this study was therefore to establish and evaluate algorithms of artificial intelligence, which are able to differentiate between inflammatory bowel disease with affection of the large intestine, ischemic colitis and infectious colitis. Thus, a survey of the search terms “Colitis”, “Kolitis“, “Ischämie“, “ischämisch“, “Crohn“ and their corresponding ICD-10-codes was conducted in all endoscopy results from 01/2009 to 01/2020. Of the 1 880 identified patients all available reports, such as doctors’ letters, endoscopic, radiologic, histologic and microbiologic results, as well as laboratory values were viewed. As a result, 1 386 patients were left out of this study due to exclusion of a colitis, non-existing or non-usable images and uncertain classification or combination of causes. Of the remaining 494 patients (212 with inflammatory bowel disease, 157 with ischemic colitis, 125 with infectious colitis), all usable endoscopic images and 16 clinical parameters were collected retrospectively. These contain demographic features like age and sex, previous illnesses such as diabetes mellitus, arterial hypertension, coronary heart disease, peripheral arterial occlusive disease, chronic kidney disease, stroke or transient ischemic attack, nicotine abuse, preceding surgery, state after cardiopulmonary resuscitation and recent use of antibiotics and laboratory values (haemoglobin, leukocytes, C-reactive protein and creatinine). The findings were randomly divided into two datasets: dataset 1 with 444 patients including clinical data and 1 635 endoscopic images was used for training, dataset 2 with 50 patients including clinical data and 161 endoscopic images was used for evaluation. In the following, a convolutional neural network, which uses endoscopic images for its classification, was developed as a first approach. Furthermore, as a second approach, a model using gradient boosted decision trees was designed for the classification based on clinical data alone. The best results were computed for the combination of the five clinical parameters age, C-reactive protein, recent surgery, use of antibiotics and leukocytes count. Eventually, both approaches were combined into a reality-resembling hybrid model using endoscopic images as well as clinical parameters. The different approaches were compared to each other and to three experienced endoscopists. For the convolutional neural network based on the analysis of endoscopic images, gradient boosted decision trees using clinical data and the hybrid approach sensitivities of 0.565, 0.683 and 0.640, specificities of 0.787, 0.852 and 0.835 and accuracies of 0.709, 0.792 and 0.766 were computed. Positive and negative predictive values were 0.602/0.768 (images), 0.702/0.846 (clinical data) and 0.657/0.815 (hybrid), respectively. Global areas under the receiver operating characteristic and precision-recall curve were 0.727/0.585 (endoscopic images), 0.888/0.823 (clinical data using five parameters) and 0.838/0.733 (images and clinical data combined). In comparison, the endoscopists achieved a sensitivity of 0.578, specificity of 0.814, accuracy of 0.721, positive predictive value of 0.637 and negative predictive value of 0.785, respectively. The best performance overall showed the algorithm based on clinical data using gradient boosted decision trees. In contrast, the algorithm using endoscopic images achieved inferior results. However, those were comparable to the endoscopists’ results. The hybrid algorithm based on endoscopic images and clinical data demonstrated a better performance than the algorithm using images only, but showed a worse performance compared to the algorithm based on clinical data. Therefore, the results indicate that difficult medical questions for humans pose challenges, which are hard to solve for artificial intelligence as well. In conclusion, the here developed models aiming to classify colitis according to its underlying cause seem not yet ready for application in everyday clinical practice. The most promising approach of this study, the clinical data-based model, could be further evaluated in prospective studies. To improve the training and consequently performance of the approaches using endoscopic images, larger representative datasets are required. Ideally, video data should be used, however, a sufficient amount of such data is not available at present. Although the in this study presented decision support tools for the differentiation of colitis cannot be used quite yet, they could be a starting point for further research aiming to develop optimised algorithms. On the other hand, this study demonstrates the limitations of artificial intelligence and acknowledges its current inability to provide a satisfactory solution to all medical questions. |
Link to this record: | urn:nbn:de:bsz:291--ds-449808 hdl:20.500.11880/39902 http://dx.doi.org/10.22028/D291-44980 |
Advisor: | Lammert, Frank |
Date of oral examination: | 13-Mar-2025 |
Date of registration: | 7-Apr-2025 |
Faculty: | M - Medizinische Fakultät |
Department: | M - Innere Medizin |
Professorship: | M - Prof. Dr. Frank Lammert |
Collections: | SciDok - Der Wissenschaftsserver der Universität des Saarlandes |
Files for this record:
File | Description | Size | Format | |
---|---|---|---|---|
Etablierung und Evaluation von Algorithmen der künstlichen Intelligenz zur Differenzierung von Kolitiden_Onlineversion_neu.pdf | Dissertation | 2,4 MB | Adobe PDF | View/Open |
Items in SciDok are protected by copyright, with all rights reserved, unless otherwise indicated.