Please use this identifier to cite or link to this item:
doi:10.22028/D291-26780
Title: | Probabilistic graphical models for credibility analysis in evolving online communities |
Author(s): | Mukherjee, Subhabrata |
Language: | English |
Year of Publication: | 2017 |
SWD key words: | Online-Community Glaubwürdigkeit Text Mining |
Free key words: | Online-Communities nutzergenerierte Inhalte semi-überwachtes Lernen credibility analysis Online-Communities text mining information retrieval truth finding expert finding |
DDC notations: | 004 Computer science, internet |
Publikation type: | Dissertation |
Abstract: | One of the major hurdles preventing the full exploitation of information from online communities is the widespread concern regarding the quality and credibility of user-contributed content. Prior works in this domain operate on a static snapshot of the community, making strong assumptions about the structure of the data (e.g., relational tables), or consider only shallow features for text classification. To address the above limitations, we propose probabilistic graphical models that can leverage the joint interplay between multiple factors in online communities --- like user interactions, community dynamics, and textual content --- to automatically assess the credibility of user-contributed online content, and the expertise of users and their evolution with user-interpretable explanation. To this end, we devise new models based on Conditional Random Fields for different settings like incorporating partial expert knowledge for semi-supervised learning, and handling discrete labels as well as numeric ratings for fine-grained analysis. This enables applications such as extracting reliable side-effects of drugs from user-contributed posts in healthforums, and identifying credible content in news communities. Online communities are dynamic, as users join and leave, adapt to evolving trends, and mature over time. To capture this dynamics, we propose generative models based on Hidden Markov Model, Latent Dirichlet Allocation, and Brownian Motion to trace the continuous evolution of user expertise and their language model over time. This allows us to identify expert users and credible content jointly over time, improving state-of-the-art recommender systems by explicitly considering the maturity of users. This also enables applications such as identifying helpful product reviews, and detecting fake and anomalous reviews with limited information. Eine der größten Hürden, die die vollständige Nutzung von Informationen aus sogenannten Online-Communities verhindert, sind weitverbreitete Bedenken bezüglich der Qualität und Glaubwürdigkeit von nutzergenerierten Inhalten. Frühere Arbeiten in diesem Bereich gehen von einer statischen Version einer Community aus, machen starke Annahmen bezüglich der Struktur der Daten (z.B. relationale Tabellen) oder berücksichtigen nur oberflächliche Merkmale zur Klassifikation von Texten. Um die oben genannten Einschränkungen zu adressieren, schlagen wir eine Reihe von probabilistischen graphischen Modellen vor, die das Zusammenspiel mehrerer Faktoren in Online-Communities berücksichtigen: Interaktionen zwischen Nutzern, die Dynamik in Communities und der textuell Inhalt. Dadurch können die Glaubwürdigkeit von Nutzergenerierten Online Inhalten sowie die Expertise von Nutzern und ihrer Entwicklung mit interpretierbaren Erklärungen bewertet werden. Hierfür konstruieren wir neue, auf Conditional Random Fields basierende Modelle für verschiedene Szenarien, um beispielsweise partielles Expertenwissen mittels semi-überwachtem Lernen zu berücksichtigen. Genauso können diskrete Labels sowie numerische Ratings für präzise Analysen genutzt werden. Somit werden Anwendungen ermöglicht wie etwa das automatische Extrahieren von Nebenwirkungen von Medikamenten aus nutzererstellten Inhalten in Gesundheitsforen und das Identifizieren von vertrauenswürdigen Inhalten aus Nachrichten-Communities. Online-Communities sind dynamisch, da Nutzer zu Communities hinzustoßen oder diese verlassen. Sie passen sich entstehenden Trends an und entwickeln sich über die Zeit. Um diese Dynamik abzudecken, schlagen wir generative Modelle vor, die auf Hidden Markov Modellen, Latent Dirichlet Allocation und Brownian Motion basieren. Diese können die kontinuierliche Entwicklung von Nutzer-Erfahrung sowie ihrer Sprachentwicklung über die Zeit nachzeichnen. Dies ermöglicht uns, Expertennutzer und glaubwürdigen Inhalt über die Zeit gemeinsam zu identifizieren, sodass die aktuell besten Recommender-Systeme durch das explizite Berücksichtigen der Entwicklung und der Expertise von Nutzern verbessert werden können. Dadurch wiederum können Anwendungen entwickelt werden, die nützliche Produktbewertungen erkennen sowie fingierte und anomale Bewertungen mit geringem Informationsgehalt identifizieren. |
Link to this record: | urn:nbn:de:bsz:291-scidok-69269 hdl:20.500.11880/26793 http://dx.doi.org/10.22028/D291-26780 |
Advisor: | Weikum, Gerhard |
Date of oral examination: | 6-Jul-2017 |
Date of registration: | 25-Jul-2017 |
Faculty: | MI - Fakultät für Mathematik und Informatik |
Department: | MI - Informatik |
Collections: | SciDok - Der Wissenschaftsserver der Universität des Saarlandes |
Files for this record:
File | Description | Size | Format | |
---|---|---|---|---|
credibility_analysis.pdf | 3,26 MB | Adobe PDF | View/Open |
Items in SciDok are protected by copyright, with all rights reserved, unless otherwise indicated.