Künstliche Intelligenz und Kreativität

Koivisto & Grassini (2023) vergleichen die Leistungen von Menschen und KI in einer Aufgabe des kreativen Denken (alternate uses task). Hierbei sollen alternative Nutzungsmöglichkeiten für Gegenstände gefunden werden. Durch eine KI und menschliche Rater wird die Originalität (Neuartigkeit/Einzigartigkeit der Antworten bestimmt). Es zeigt sich, dass KI durchschnittlich kreativere Antworten liefert.

Diese Studie wurde repliziert und erweitert (Carolus, Koch & Feng, under review). So wurden die Instruktionen und die Bearbeitugngszeit angepasst. In einigen Bedingungen verschwinden so die Unterschiede zwischen Mensch und KI in der Alternate uses tas. Es sind jedoch immer noch Fragen offen. Wäre ein solche Frage etwas für Ihre Abschlussarbeit?

Thema I: Was kann methodisch an der Studie optimiert werden?

Carolus, Koch & Feng (under review) nennen Limitationen ihres Ansatzes, die Sie in Ihrer Abschlussarbeit angehen können. Beispielsweise können Sie einer dieser Ideen nachgehen:

Das „subjective Rating“ der kreativen Antworten kann verbessert werden. In unserer Studie erfolgte es nur durch jeweils zwei Personen mit kurzer Vorbereitungszeit. Entsprechend war die Interrater-Reliabilität gering. Entweder kann mit den vorhandenen Daten gearbeitet oder neue Daten erhoben und geratet werden.

In der Studie wurde divergentes Denken nur durch den Indikator Originality (Neuheit/Einzigartigkeit von kreativen Ideen) erfasst. Der Indikator Fluency (Anzahl der kreativen Ideen) wurde lediglich als Kontrolvariable betrachtet. Die Indikatoren Flexibility (Anzahl der kreativen Ideen aus unterschiedlichen Kategorien) und Elaboration (Ausarbeitung der kreativen Ideen) wurden bisher nicht betrachtet. Auch hier kann mit vorhandenen oder neuen Daten gearbeitet werden.

Eine Power-Analyse im Vorfeld empirischer Arbeiten soll Aufschluss über die benötigte Stichprobengröße geben. Dies gestaltet sich aufgrund der verwendeten statistischen Methode (lineares mixed model für Gruppenunterschiede zwischen Mensch und KI) als komplexer als für einfache lineare Modelle (z.B. t-Test oder Regression).

Bisher wurden die KIs manuell befragt. Die Instruktionen wurden händisch eingegeben, die Antworten kopiert, in eine Tabelle übertragen. Anschließend wurde die Session zurückgesetzt. Über eine Schnittstelle (API, Application Programming Interface) kann Abfrage und Erfassung der KI-Antworten automatisieren werden. Die erfordert technisches Wissen und Können.

Wichtig: Vorhandenes Material (SoSci, R, etc.) kann genutzt werden

Thema II: Wie schneiden kreative Menschen im Vergleich mit KI ab?

Sowohl Grassini und Koivisto (2023) als auch Carolus et al. (under review) untersuchen in ihren Studien Stichproben, die zuvor nicht nach bestimmten Kreativitäts-bezogenen Kriterien ausgewählt wurden. Damit bleibt die Frage offen, ob Menschen, die besonders kreativ sind, sich besser gegen die KI behaupten könnten. Sie können folglich einer dieser Ideen nachgehen:

Replikation unserer Studie (oder Teile davon) mit verschieden-kreativen menschlichen Stichproben (Pbn aus kreativen Tätigkeiten + Pbn, die an Kreativitätstraining teilnahmen)

Kreativitätstraining entwickeln, dass Pbn vor Versuchsteilnahme durchlaufen

Einschlusskriterien „Kreative Tätigkeiten“ definieren (verschiedene Gruppen möglich)

Regelmäßig malen, kunsthandwerklich tätig sein, ein Instrument spielen

In einer kreativen Branche arbeiten (Design, Marketing, Musik, Tanz, Theater, Architektur, etc.)

Künstlerische Auszeichnungen erhalten haben

à Idee zur Operationalisierung: Fragebogen zu kreativen Tätigkeiten (ICAA, Diedrich et al., 2018)

Gruppenunterschiede in Post-Hoc-Effekten betrachten, ggf. reicht ein „approach“ (modified)

Wichtig: Vorhandenes Material (SoSci, R, etc.) kann genutzt werden

Thema III: Wie schneiden Menschen vs. K in Aufgaben ab, die enger an der Lebensrealität sind?

Die Kreativitätsaufgaben, die in den Studien genutzt wurden, weisen nur eine geringe Alltagsrelevanz auf. Zudem ist von Ermüdungseffekten bei den Teilnehmenden auszugehen, die die Aufgaben wiederholt ausführen mussten. Es stellt sich die Frage: Sind Menschen in lebensnäheren Aufgaben kreativer. Oder anders: Ist KI in lebensnahen kreativen Aufgaben besser? Kann KI die kreative Arbeit von Menschen bald übernehmen? Mögliche ANsatzpunkte für Sie:

Weg von den Aufgaben, hin zum kreativen Denken und hin zu Aufgaben kreativer Tätigkeit

Kreative Produkte erzeugen und diese blind bewerten lassen

Gedichte, Liedtexte, Prosa

Rhythmus, Melodie

Sachtext

Design (viele Optionen von handwerklichen Dingen bis zu Gebäuden möglich)

Kunstwerk

Rating könnte durch Prolific erfolgen (größere Gruppe von unabhängigen Personen bewerten lassen) à gewinnt durch „Repräsentativität“ an Validität („was findet die Bevölkerung kreativ)

Thema IV: Wie schneiden Menschen vs. K in Aufgaben berufsbezogener Kreativität ab?

Auch die unter Studie III beschriebenen kreativen Leistungen/Tätigkeiten haben wenig mit tatsächlicher berufsbezogener Kreativität zu tun. Sie können also nur für wenige Menschen auf einen professionellen Kontext übertragen werden. Da es schweirig ist, berufsbezogenen Kreativität durch Aufgaben zu messen, kann hier ein validiertes Instrument genutzt werden. Es kann die Frage beantwortet werden: Ist KI in berufsbezogenen kreativen Aufgaben besser? Kann KI die kreative Arbeit von Menschen bald übernehmen? Sie könnten untersuchen:

Erfassung berufsbezogener Kreativität

mögliche Messinstrumente

Diagnose berufsbezogener Kreativität – Planung und Gestaltung (DBK-PG; Schuler, Gelléri, Winzen & Görlich, 2013)

Möglicherweise exisitieren Alternativen

Stichproben: Menschen in kreativen Berufen und/oder Allgemeinbevölkerung

Thema V: Systematische Variation der Bearbeitungszeits und Prompts

Ein zentraler Befund der Studie von Carolus, Koch & Feng ist, dass die Bearbeitungszeit und die Instruktionen einen Einfluss auf die Unterschiede hinsichtlich der Kreativität zwischen Menschen und KI haben. Es wurden jedoch nur zwei (miteinander konfundierte) Aspekte getestet: Die Bearbeitungszeit und die Instruktion, die entweder nur Qualität oder Qualität UND Quantität fokussierte, wurden gemeinsam variiert (30 sec + Qualitätsinstruktion oder 2 min und Qulitäts-Quantitätsinstruktion).

Weiterdenken unseres zentralen Ansatzes: die KI ist nicht zwingend kreativer, sondern die Rahmenbedingungen sind förderlicher für sie

Bearbeitungszeit und Instrultionen/Prompts sollten unabhängig voneinander variiert werden

Systematische Variation der Bearbeitungszeit und Instruktionen/Prompts, um zu schauen, wo der „break even“ point erreicht ist: feinere Abstufungen etwa der Bearbeitungszeit

Die Auswirkung könnte in verschiedene Tasks und unter nutzung verschiedener Operationalisierungen (Fluency, Flexibility, Originality, Elaboration) unterschiedlich stark sein, dies sollte als zusätzlicher Faktor mit erfasst werden.

Hubland Nord, Geb. 82

Bildnachweise