Probabilistic graphical models for credibility analysis in evolving online communities

Mukherjee, Subhabrata

Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-26780

Titel:	Probabilistic graphical models for credibility analysis in evolving online communities
VerfasserIn:	Mukherjee, Subhabrata
Sprache:	Englisch
Erscheinungsjahr:	2017
Kontrollierte Schlagwörter:	Online-Community Glaubwürdigkeit Text Mining
Freie Schlagwörter:	Online-Communities nutzergenerierte Inhalte semi-überwachtes Lernen credibility analysis Online-Communities text mining information retrieval truth finding expert finding
DDC-Sachgruppe:	004 Informatik
Dokumenttyp:	Dissertation
Abstract:	One of the major hurdles preventing the full exploitation of information from online communities is the widespread concern regarding the quality and credibility of user-contributed content. Prior works in this domain operate on a static snapshot of the community, making strong assumptions about the structure of the data (e.g., relational tables), or consider only shallow features for text classification. To address the above limitations, we propose probabilistic graphical models that can leverage the joint interplay between multiple factors in online communities --- like user interactions, community dynamics, and textual content --- to automatically assess the credibility of user-contributed online content, and the expertise of users and their evolution with user-interpretable explanation. To this end, we devise new models based on Conditional Random Fields for different settings like incorporating partial expert knowledge for semi-supervised learning, and handling discrete labels as well as numeric ratings for fine-grained analysis. This enables applications such as extracting reliable side-effects of drugs from user-contributed posts in healthforums, and identifying credible content in news communities. Online communities are dynamic, as users join and leave, adapt to evolving trends, and mature over time. To capture this dynamics, we propose generative models based on Hidden Markov Model, Latent Dirichlet Allocation, and Brownian Motion to trace the continuous evolution of user expertise and their language model over time. This allows us to identify expert users and credible content jointly over time, improving state-of-the-art recommender systems by explicitly considering the maturity of users. This also enables applications such as identifying helpful product reviews, and detecting fake and anomalous reviews with limited information. Eine der größten Hürden, die die vollständige Nutzung von Informationen aus sogenannten Online-Communities verhindert, sind weitverbreitete Bedenken bezüglich der Qualität und Glaubwürdigkeit von nutzergenerierten Inhalten. Frühere Arbeiten in diesem Bereich gehen von einer statischen Version einer Community aus, machen starke Annahmen bezüglich der Struktur der Daten (z.B. relationale Tabellen) oder berücksichtigen nur oberflächliche Merkmale zur Klassifikation von Texten. Um die oben genannten Einschränkungen zu adressieren, schlagen wir eine Reihe von probabilistischen graphischen Modellen vor, die das Zusammenspiel mehrerer Faktoren in Online-Communities berücksichtigen: Interaktionen zwischen Nutzern, die Dynamik in Communities und der textuell Inhalt. Dadurch können die Glaubwürdigkeit von Nutzergenerierten Online Inhalten sowie die Expertise von Nutzern und ihrer Entwicklung mit interpretierbaren Erklärungen bewertet werden. Hierfür konstruieren wir neue, auf Conditional Random Fields basierende Modelle für verschiedene Szenarien, um beispielsweise partielles Expertenwissen mittels semi-überwachtem Lernen zu berücksichtigen. Genauso können diskrete Labels sowie numerische Ratings für präzise Analysen genutzt werden. Somit werden Anwendungen ermöglicht wie etwa das automatische Extrahieren von Nebenwirkungen von Medikamenten aus nutzererstellten Inhalten in Gesundheitsforen und das Identifizieren von vertrauenswürdigen Inhalten aus Nachrichten-Communities. Online-Communities sind dynamisch, da Nutzer zu Communities hinzustoßen oder diese verlassen. Sie passen sich entstehenden Trends an und entwickeln sich über die Zeit. Um diese Dynamik abzudecken, schlagen wir generative Modelle vor, die auf Hidden Markov Modellen, Latent Dirichlet Allocation und Brownian Motion basieren. Diese können die kontinuierliche Entwicklung von Nutzer-Erfahrung sowie ihrer Sprachentwicklung über die Zeit nachzeichnen. Dies ermöglicht uns, Expertennutzer und glaubwürdigen Inhalt über die Zeit gemeinsam zu identifizieren, sodass die aktuell besten Recommender-Systeme durch das explizite Berücksichtigen der Entwicklung und der Expertise von Nutzern verbessert werden können. Dadurch wiederum können Anwendungen entwickelt werden, die nützliche Produktbewertungen erkennen sowie fingierte und anomale Bewertungen mit geringem Informationsgehalt identifizieren.
Link zu diesem Datensatz:	urn:nbn:de:bsz:291-scidok-69269 hdl:20.500.11880/26793 http://dx.doi.org/10.22028/D291-26780
Erstgutachter:	Weikum, Gerhard
Tag der mündlichen Prüfung:	6-Jul-2017
Datum des Eintrags:	25-Jul-2017
Fakultät:	MI - Fakultät für Mathematik und Informatik
Fachrichtung:	MI - Informatik
Sammlung:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:

Datei	Beschreibung	Größe	Format
credibility_analysis.pdf		3,26 MB	Adobe PDF	Öffnen/Anzeigen

Export: BibTex Statistik anzeigen

Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.