Identifying biological associations from high-throughput datasets

Barghash, Ahmad

Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-26622

Titel:	Identifying biological associations from high-throughput datasets
VerfasserIn:	Barghash, Ahmad
Sprache:	Englisch
Erscheinungsjahr:	2015
Kontrollierte Schlagwörter:	Bioinformatik Krebs <Medizin> Ausreißer <Statistik> Exon Epigenetik
Freie Schlagwörter:	bioinformatics cancer outliers exon epigenetic
DDC-Sachgruppe:	004 Informatik
Dokumenttyp:	Dissertation
Abstract:	High-throughput biological datasets are the basis for most modern basic research in the fields of genomics, systems biology, and disease diagnostics. Currently, one sample can contain thousands of measurements in some datasets. The omnipresence of such huge datasets created the urgent need for efficient and robust computational approaches to handle and analyze such database and to identify informative associations. This thesis deals with different types of large scale datasets and aims to identify with high confidence underlying biological associations. Our computational approach consists of four core parts. In the first part, we analyzed amino acid datasets of membrane transporters from different organisms for the purpose of transferring functional annotations of the transporters across species. Here, we mapped the experimentally validated functions of one protein to another one from a different organism based on their sequence similarity. Sequence similarity results in this work were combinations of similarity decisions of several tools (BLAST, HMMER, MEME). Initially, we defined confidence thresholds and which we then applied for predictions. We found that, up to certain thresholds, membrane transporters sharing high sequence similarity have similar functions or transporting mechanisms even if they exist in different organisms. Our second computational approach was designed to deal with expression and methylation datasets. We found that expression and methylation datasets often suffer from outliers at gene or sample levels. Performing analyses before dealing with outliers might lead to misleading results. Thus, we present an approach that includes several outlier detection algorithms for detecting sample and gene outliers in expression/methylation datasets. As some outlier algorithms report at least one outlier value even if there is none, we first defined the margin of allowed outlier observations. We tested how many outlier observations are needed to ruin a perfect co-expression and then fixed that threshold for the rest of analyses. Additionally, in this work we considered the distribution underlying he gene expression/methylation before outlier detection. However, outliers might carry useful information. Therefore, we labelled only extreme outliers for removal and marked those possibly carrying useful information for further analysis. In the next step, we used published expression and methylation datasets from GEO to analyse and confirm possible tumor markers for HCC, liver diseases, and breast cancer. These were later validated in the wetlab through our collaboration with the group of Prof. Kiemer in pharmacy. In addition to their possible roles in the change of survival rates, we also tested the role of several possible markers in tumor initiation and progression. The final part of this thesis dealt with large scale exon expression, methylation, and chromatin modification datasets for 11 different developmental stages from the Human Epigenome Atlas. Our aim in this genome wide analysis was to identify cases of differential exon usage in different dataset. Our findings suggested a set of strong associations of epigenetic modifications and alternative splicing especially in early human developmental stages. In summary, the combination of the approaches presented in this thesis may advance the current stages of tumor marker identification. Membrane transporters play key roles in cancer progression. Once their function is defined with the help of similar transporters in other organisms, one may compare their expression and methylation profiles in normal and tumor tissues. The expression/methylation datasets should be cleared first from outliers. Once a tumor marker is defined or confirmed, further analysis is suggested especially for possible different splice variants. Biologische Datensätze aus Hochdurchsatzverfahren sind meist die Basis zeitgemäßer Grundlagenforschung in Genomik, Systembiologie und Krankheitsdiagnstik. Eine Probe kann in manchen Datensätzen momentan tausende Messungen umfassen. Die Allgegenwärtigkeit solch enormer Datenmengen brachte den dringenden Bedarf an effizienten und robusten computergestützten Ansätzen mit sich, die diese Daten verarbeiten und analysieren können und die informative Assoziationen ermitteln. Diese Arbeit beschäftigt sich mit unterschiedlichen Arten von umfangreichen Datensätzen und beabsichtigt zu Grunde liegende biologische Zusammenhänge mit hoher Zuverlässigkeit zu erkennen. Unsere Methodik besteht aus vier Kernteilen. Im ersten Teil analysierten wir Aminosäure-Daten von Transporterproteinen aus verschiedenen Organismen um funktionelle Annotierungen der Membranproteine speziesübergreifend transferieren zu können. In unserem Fall bildeten wir anhand der Sequenzähnlichkeit die experimentell validierte Funktionen eines Proteins auf ein anderes aus einem anderen Organismus ab. Die Sequenzähnlichkeit in dieser Studie war eine Kombination aus Ähnlichkeitsmaßen verschiedener Softwarewerkzeuge (BLAST, HMMER, MEME). Zuerst definierten wir Vertrauensgrenzwerte (für besagte Werkzeuge) die wir dann für die Vorhersage anwendeten. Wir fanden heraus, dass Membrantransporter mit hoher Sequenzähnlichkeit bis zu gewissen Schwellenwerten sogar dann ähnliche Funktionen oder Transportmechanismen haben wenn sie aus unterschiedlichen Organismen stammen. Unser zweiter rechnergestützter Ansatz wurde entworfen um Expressions- und Methylierungsdaten zu handhaben. Wir sahen, dass diese Daten oft durch Ausreißer auf Gen- oder Probenebene in Mitleidenschaften gezogen werden. Das Durchführen von Untersuchungen vor einer Bereinigung dieser Ausreißer kann irreführende Ergebnisse zur Folge haben. Daher bieten wir eine Methode die mehrere Ausreißererkennungsalgorithmen beinhaltet um Proben- und Gensonderfälle in Expressions-/Methylierungsdatensätzen zu erkennen. Da einige Ausreißererkennungsmethoden auch dann zumindest einen Ausreißer melden wenn eigentlich keiner vorhanden ist, legten wir zuerst einen Grenzwert für erlaubte Ausnahmefälle fest. Wir prüften wie viele Ausreißerbeobachtungen benötigt wurden um perfekte Koexpression zunichte zu machen und setzten diesen Grenzwert dann für die verbleibende Analyse fest. Zusätzlich haben wir in dieser Arbeit die Verteilung von Genexprimierung/Methylierung vor der Ausreißererkennung bedacht. Dennoch könnten Ausreißer dienliche Information mit sich bringen. Daher markierten wir nur extreme Ausreißer explizit zur Entfernung und solche, die für weitere Untersuchungen potentiell nützliche Information beinhalteten, markierten wir gesondert. Im nächsten Schritt nutzten wir publizierte Expressions- und Methylierungsdatensätze von GEO um mögliche Tumormarker für HCC, Leberkrankheiten und Brustkrebs zu analysieren und zu bestätigen. Diese wurden später durch unsere pharmazeutischen Kollaborationspartner der Gruppe von Prof. Kiemer im Labor validiert. Zusätzlich zu ihren eventuellen Rollen in der Veränderung von Überlebensraten haben wir auch die Funktion mehrerer möglicher Marker bezüglich Tumorinitiierung- und progression untersucht. Der letzte Teil dieser Arbeit befasste sich mit umfangreichen Datensätzen für Exonexpression, Methylierung und Chromatinmodifikationen über 11 verschiedenen Entwicklungsstadien aus dem Human Epigenome Atlas. In dieser genomweiten Untersuchung war es unser Ziel Fälle von veränderter Exonnutzung in verschiedenen Datensätzen zu finden. Unsere Resultate legen insbesondere in frühen menschlichen Entwicklungsstadien einige gewichtige Zusammenhänge zwischen epigenetischen Modifikationen und alternativem Spleißen nahe. Zusammenfassend lässt sich sagen, dass die Kombination der hier präsentierten Ansätze gegenwärtige Stufen der Tumormarkererkennung beschleunigen/verbessern könnte. Membrantransporter haben Schlüsselrollen in der Krebsprogression inne. Sobald ihre Funktion mit der Hilfe ähnlicher Transporter in anderen Lebewesen aufgeklärt ist, könnte man ihre Expressions- und Methylierungsverläufe in gesundem und in Tumorgewebe vergleichen. Die Expressions/Methylierungsdaten sollten hierbei erst von Aureißern bereinigt werden. Sobald ein Tumormarker definiert oder bestätigt ist, ist weitere Untersuchung insbesondere im Hinblick auf verschiedene Spleißvarianten angeraten.
Link zu diesem Datensatz:	urn:nbn:de:bsz:291-scidok-62658 hdl:20.500.11880/26678 http://dx.doi.org/10.22028/D291-26622
Erstgutachter:	Helms, Volkhard
Tag der mündlichen Prüfung:	30-Sep-2015
Datum des Eintrags:	5-Okt-2015
Fakultät:	MI - Fakultät für Mathematik und Informatik
Fachrichtung:	MI - Informatik
Sammlung:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:

Datei	Beschreibung	Größe	Format
thesis_4.pdf		23,05 MB	Adobe PDF	Öffnen/Anzeigen

Export: BibTex Statistik anzeigen

Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.