Intern
MOTIV - Digital Interaction Literacy

Structured Sentiment Analysis Paper Accepted

11.04.2022

wir freuen uns mitteilen zu können, dass unser Forschungsprojekt zur Nutzung von sprachbasierten interaktiven Systemen durch eine Veröffentlichung im Bereich der strukturierten Sentimentanalyse erweitert wurde. Das bedeutet, dass wir hiermit in der Lage sind, besser auch online verfügbare Daten wie Bewertungen von Smart Speakern zu analysieren und somit ein besseres Verständnis dafür zu erlangen, wie Nutzerinnen und Nutzer diese Systeme wahrnehmen.

Die strukturierte Sentimentanalyse ist ein Verfahren zur Extraktion von Bewertungen aus Texten und ermöglicht es uns, komplexe Zusammenhänge zwischen verschiedenen Aspekten eines Produkts oder einer Technologie zu erkennen. Mit Hilfe des adaptierten Modells "BARTABSA" sind wir nun in der Lage, diese Methode auch auf andere Sprachen als Englisch anzuwenden und damit noch umfassendere Erkenntnisse zu gewinnen.

Durch die Analyse von Online-Daten wie Bewertungen können wir im Rahmen unseres Projekts nun noch besser verstehen, wie Anwenderinnen und Anwender sprachbasierte interaktive Systeme nutzen und welche Vorstellungen und Fehlannahmen sie dabei haben. Ziel ist es, zu einem souveränen Umgang mit digitaler Technik beizutragen und die Nutzung von sprachbasierten interaktiven Systemen zu verbessern.

Zum Paper

Structured Sentiment Analysis is the task of extracting sentiment tuples in a graph structure commonly from review texts. We adapt the Aspect-Based Sentiment Analysis pointer network BARTABSA to model this tuple extraction as a sequence prediction task and extend their output grammar to account for the increased complexity of Structured Sentiment Analysis. To predict structured sentiment tuples in languages other than English we swap BART for a multilingual mT5 and introduce a novel Output Length Regularization to mitigate overfitting to common target sequence lengths, thereby improving the performance of the model by up to 70%. We evaluate our approach on seven datasets in five languages including a zero shot crosslingual setting.