Information

Wie verwende ich Mechanical Turk für längere Studien (d. h. über 30 Minuten)?

Wie verwende ich Mechanical Turk für längere Studien (d. h. über 30 Minuten)?

Ich interessiere mich dafür, Mechanical Turk zu nutzen, um Teilnehmer für Online-Psychologiestudien zu gewinnen. Ich habe es noch nie für irgendwelche Forschungen verwendet. Viele meiner Studien dauern jedoch etwa 30 Minuten bis eine Stunde. Eine typische Studie könnte die Beantwortung einer Reihe von Fragebögen mit Inquisit beinhalten. Mein Eindruck ist, dass Mechanical Turk am besten mit kurzen Studien (d. h. ein bis fünf Minuten) funktioniert.

  • Ist es möglich, Mechanical Turk für längere Studien zu verwenden?
  • Gibt es wichtige Tipps für den effektiven Einsatz von Mechanical Turk für längere Studien?
  • Gibt es Tutorials oder Fallstudien, die erfolgreiche Methoden zum Einsatz von Mechanical Turk für längere Studien dokumentieren?
  • Oder gibt es alternativ bessere Systeme, um bezahlte Teilnehmer für längere Online-Studien zu rekrutieren?

Generell schätze ich, dass ein längeres Studium viel mehr Vergütung erfordern würde, wahrscheinlich mehr als nur ein Vielfaches der Zeit. Ich kann mir auch vorstellen, dass es zusätzliche Probleme der Qualitätskontrolle geben würde.


Ich habe gerade angefangen, mich über Mechanical Turk zu informieren. Dies ist eine Zusammenfassung einiger der Tipps, die ich gefunden habe. Zugegeben, das meiste gilt allgemein für psychologische Experimente und nicht speziell für längere.

David Sharek bespricht seinen Workflow, der explizit Studien im 30-Minuten-Bereich umfasst. Somit ist dieser Beitrag einer der relevantesten, um sich mit dem Thema längere Studien zu beschäftigen.

Verschiedene Ressourcen

Hier sind einige andere verschiedene Ressourcen; siehe auch die Referenzen unten.

  • Interoperating Inquisit mit anderen Tools
  • TurkGate ist ein Open-Source-Tool, um die Verwendung von Mechanical Turk mit externen psychologischen Experimenten zu erleichtern.
  • Mason und Suri (2012) untersuchen den potenziellen Nutzen, die Implementierung und die Ethik von Mechanical Turk.
  • Michael Bühmester hat einen Leitfaden für Sozialwissenschaftler. Er gibt einen Überblick über seinen Arbeitsablauf bei der Durchführung von Studien.

Verschiedene Blogs, die für Mechanical Turk relevant sind, erwähnt von Bührmester

  • http://behind-the-enemy-lines.blogspot.com.
  • http://experimentalturk.wordpress.com.
  • http://groups.csail.mit.edu/uid/deneme.
  • http://blog.crowdflower.com.

Externe Umfragen konfigurieren

Das allgemeine Modell scheint einen Link zu einer externen Site zu haben (stellen Sie sicher, dass sie in einem neuen Tab oder Fenster geöffnet wird), auf der die Umfrage geliefert wird, und ein Feld für die Eingabe des Abschlusscodes.

Buhrmester bespricht verschiedene Vervollständigungscode-Systeme und entschied sich für die relativ technisch anspruchslose Möglichkeit, die Teilnehmer dazu zu bringen, eine 4- oder 5-stellige Zahl zu erfinden und diese sowohl in die Umfrage als auch in die mturk einzugeben. Anschließend verwendet er Zeitstempeldaten, um den ursprünglichen Vervollständiger zu überprüfen.

Zahlung

Mason und Suri-Staat

Jüngste Untersuchungen zum Verhalten von Arbeitnehmern (Chilton et al., 2010) haben jedoch gezeigt, dass Arbeitnehmer einen Reservierungslohn (den niedrigsten Lohnbetrag, für den sie die Aufgabe erledigen würden) von nur 1,38 $ pro Stunde hatten, mit einem durchschnittlichen effektiven Stundenlohn Lohn von 4,80 $ für Arbeiter (Ipeirotis, 2010a).

Hinsichtlich des Zusammenhangs zwischen Bezahlung und Qualität des Arbeitnehmers zitieren sie Studien, die darauf hindeuten, dass es einen anfänglichen positiven Zusammenhang gibt, der sich an einem bestimmten Punkt einpendelt, so dass an einem bestimmten Punkt die zusätzliche Bezahlung die Leistung nicht verbessert. Masson und Suri schlagen dann vor:

Daher ist es oft ratsam, zunächst weniger als den erwarteten Reservierungslohn zu zahlen und dann den Lohn zu erhöhen, wenn die Arbeitsleistung zu niedrig ist.

Ebenso sollten Löhne bis zu einem gewissen Punkt die Geschwindigkeit der Datenerhebung erhöhen.

Ablehnung von Treffern

Was das Ablehnen von Treffern angeht, hat Michael einfach alle Treffer akzeptiert. Dies kann einfacher sein, als herauszufinden, welche Treffer legitim sind. Dies war auch sinnvoll, da er für 10-Minuten-Experimente oft nur 10 Cent pro Teilnehmer zahlte. Es hat auch den Vorteil, dass Sie Ihrem Ruf nicht schaden.

Qualitätssicherung

Hier gibt es zwei Probleme. Hat der Teilnehmer die Studie überhaupt abgeschlossen? Und haben sie die Studie in angemessener Weise abgeschlossen (z. B. Aufführungsaufgabe ausprobieren, Anweisungen richtig lesen usw.)?

Ein allgemeiner Ansatz besteht darin, zusätzliche Mittel zu den üblichen zum Erfassen zweifelhafter Daten zu integrieren. Wenn es einfach ist, solche Teilnehmer herauszufiltern, beschädigen sie den endgültigen Datensatz nicht.

Ein paar Ideen:

  • Maßnahmen zur Reaktionszeit auf Artikelebene
  • Antwortmuster auf negativ und positiv formulierte Items
  • Wiederholung von Items, die identische Antworten ergeben sollten
  • Leistungsmaße
  • Fügen Sie sehr einfache Richtig-Falsch-Fragen ein (z. B. 2+2; Wer ist der Präsident der Vereinigten Staaten); Mason und Suri erwähnen, dass von 500 Antworten nur sechs falsch verstanden und drei nicht geantwortet haben.

Buhrmester macht die kausale Beobachtung, dass die Qualität der Antworten je nach Land der Antwortenden variieren kann, so dass beispielsweise die begrenzte Teilnahme von US-Teilnehmern ein grobes Mittel zur Qualitätsfilterung ist.

Reputation als Anforderer verwalten

Buhrmester erwähnt, dass alle Treffer sowohl aus Gründen der Einfachheit als auch zur Verwaltung von Reputationen akzeptiert werden.

Mason und Suri (2012) diskutieren, wie Reputation auf externen Seiten diskutiert und überwacht wird.

Turkopticon ist eine Website, die es Mitarbeitern ermöglicht, Anfragende entlang von vier Achsen zu bewerten: Kommunikationsfähigkeit, Großzügigkeit, Fairness und Schnelligkeit. Turker Nation ist ein Online-Bulletin-Board, in dem Mitarbeiter routinemäßig Anfragen zu Anforderern kommentieren und über einzelne HITs kommunizieren. Es wird dringend empfohlen, dass sich neue Anfragende der Mechanical Turk Community „vorstellen“, indem sie zuerst bei Turker Nation posten, bevor sie HITs veröffentlichen.

Verweise

  • Rand, D.G. (2012). Das Versprechen von Mechanical Turk: Wie Online-Arbeitsmärkte Theoretikern helfen können, Verhaltensexperimente durchzuführen. Zeitschrift für Theoretische Biologie, 299, 172-179.
  • Buhrmester, M., Kwang, T. & Gosling, S.D. (2011). Amazons Mechanical Turk: Eine neue Quelle für kostengünstige und dennoch hochwertige Daten? Perspektiven der psychologischen Wissenschaft, 6(1), 3-5.
  • Mason, W. & Suri, S. (2012). Durchführung von Verhaltensforschungen zu Amazons Mechanical Turk. Methoden der Verhaltensforschung, 44(1), 1-23.
  • Berinsky, A. J., Huber, G. A. & Lenz, G. S. (2011). Verwendung von Mechanical Turk als Rekrutierungsinstrument für die experimentelle Forschung. Zur Überprüfung eingereicht.
  • Berinsky, A. J., Huber, G. A. & Lenz, G. S. (2012). Bewertung von Online-Arbeitsmärkten für experimentelle Forschung: Amazon. coms mechanischer Türke. Politische Analyse, 20(3), 351-368.

Sehen Sie sich SurveyComet.com und TurkPrime.com an. Beide bieten eine hübsche Reihe von Tools, um extern gehostete Umfragen durchzuführen (wie bei Qualtrics und SurveyMonkey) und ermöglichen Ihnen, Folgeumfragen zu erstellen, frühere Mitarbeiter auszuschließen, spezifische demografische Panels zu verwenden und vieles mehr.

Eine lange Umfrage kann in zwei Teile unterteilt werden. Starten Sie Teil 1 und später Teil 2 als Folgemaßnahme, die nur für diejenigen zugänglich ist, die an Teil 1 teilgenommen haben.

Haftungsausschluss: Ich bin Teil des Softwareentwicklungsteams und arbeite derzeit an diesen Websites.


Donnerstag, 28. Oktober 2010

Unterlassen und unterlassen.

Das war einfach zu lustig, um dem Posten zu widerstehen.

Hier der Hintergrund: Im Rahmen des grundständigen Grundstudiums „Informationstechnologie in Wirtschaft und Gesellschaft“ müssen die Studierenden eine Website erstellen. Um die Sache interessanter zu machen, bitte ich sie, einige Suchanfragen bei Google auszuwählen und zu versuchen, eine Website zu erstellen, die bei diesen Suchanfragen oben in den Ergebnissen angezeigt wird. Im Wesentlichen ist es eine Mischung aus technischen Fähigkeiten mit der Fähigkeit zu verstehen, wie Seiten gerankt werden und wie man die "Konkurrenz" für diese Keywords analysiert.

Also hat ein Schüler von mir (John Cintolo) eine Website über "Hit Club Music Summer 2010" erstellt, mit Links zu YouTube-Videos. Keine Urheberrechtsverletzung oder irgendetwas Illegales.

Und einen Tag später bekommt er einen „Unterlassungsbrief“ von HotNewClubSongs. Es hat so viele Juwelen, dass ich es hier auflisten werde, um Ihr Sehvergnügen zu genießen.

Mir ist aufgefallen, dass Ihre Website "Hit Club Music Summer 2010" unter dieser URL Potenzial, mein Alexa-Seitenranking zu bedrohen. Dies kann dazu führen, dass unsere Website verlieren lebenswichtige Einnahmen, die aus Werbeflächen generiert werden und es wird nicht geduldet. Aufgrund der Art Ihrer Handlungen bitte ich um eine formelle Entfernung Ihrer Website aufgrund von Urheberrechtsverletzungen, da die auf Ihren "http://www.youtube.com"-Links veröffentlichte Musik nicht wie empfohlen von den rechtmäßigen Autoren unterstützt wird von meinem Anwalt. Da Sie auch über den Server der New York University gehen, können Ihre Handlungen Sie und Ihre Bildungseinrichtung kosten, es sei denn, Sie beenden die oben genannte Urheberrechtsverletzung. Wenn Sie Ihren Dienst weiterhin hosten Ich werde gezwungen sein, eine Zivilklage einzureichen, in der Ihnen alle entgangenen Werbeeinnahmen in Rechnung gestellt werden, durchschnittlich

Donnerstag, 21. Oktober 2010

Ein Plädoyer an Amazon: Mechanischen Türken reparieren!

Es ist jetzt fast vier Jahre her, dass ich angefangen habe, mit Mechanical Turk zu experimentieren. In all diesen Jahren war ich ein großer Evangelist dieser Idee.

Aber da Mechanical Turk zum Mainstream wird, ist es jetzt an der Zeit, dass der Service die grundlegenden Dinge richtig macht. In den letzten Wochen habe ich immer wieder die gleichen Dinge wiederholt, also wurde mir klar, dass es jetzt an der Zeit ist, diese Dinge aufzuschreiben.

Mechanischer Türke, es ist Zeit, erwachsen zu werden

Der Betatest ist beendet. Wenn die Plattform erfolgreich sein will, muss sie sich weiterentwickeln. Viele wollen auf MTurk aufbauen, und es fehlen im Fundament wichtige Strukturelemente.

  • Hochskalieren
  • Verwaltung der komplexen API
  • Ausführungszeit verwalten
  • Qualität sichern

Der aktuelle Status Quo kann einfach nicht weitergehen. Es ist nicht gut für die Anforderer, es ist nicht gut für die Arbeiter, es ist nicht gut, um die Aufgaben auch nur zu erledigen. Amazon, aufgepasst. Dies sind nicht nur Funktionsanfragen. Dies sind grundlegende Voraussetzungen für das Funktionieren eines Marktplatzes.

Amazon präsentiert Mechanical Turk gerne als strategische Wahl: So wie EC2, S3 und viele andere Webdienste auf Entwickler ausgerichtet sind, ist Mechanical Turk eine neutrale Verrechnungsstelle für Arbeitskräfte. Es bietet nur die Möglichkeit, Anforderer und Arbeiter zuzuordnen. Alles andere liegt in der Verantwortung der beiden zustimmenden Parteien.

Anforderer brauchen: Eine bessere Schnittstelle zum Posten von Aufgaben

Eine Hauptaufgabe eines Marktplatzes besteht darin, Overhead, Reibung, Transaktionskosten und Suchkosten zu reduzieren. Je schneller und einfacher Transaktionen erfolgen, desto besser ist der Markt. Und in dieser Hinsicht scheitert MTurk kläglich.

Ich finde es toll, dass der letzte HauptÄnderung bei Mechanical Turk für die Anforderer war die Einführung einer Benutzeroberfläche zum Senden von Batch-Aufgaben. Das war im Sommer 2008. George Bush war der Präsident, Lehman Brothers war eine Investmentbank, Griechenland hatte eines der am stärksten wachsenden BIP in Europa, Facebook hatte weniger als 100 Millionen Nutzer und Twitter war immer noch ein Novum. Es würde noch 8 Monate dauern, bis FourSquare auf den Markt kommt.

Es ist höchste Zeit den Anforderern das Posten von Aufgaben zu erleichtern. Es ist lächerlich, die Kommandozeilen-Tools als benutzerfreundlich zu bezeichnen!

Was ist der Vorteil des Zugangs zu Arbeitskräften für MikroAufgaben, wenn ein Anforderer muss Stellen Sie einen Vollzeitentwickler ein (Kosten mindestens 60.000 USD) nur um mit all den komplexitäten fertig zu werden? Wie viele Mikrotasks sollte jemand ausführen, um die Entwicklungskosten zu amortisieren?

Wenn jeder Anforderer, um gute Ergebnisse zu erzielen, muss: (a) ein Qualitätssicherungssystem von Grund auf neu aufbauen, (b) die richtige Zuordnung von Qualifikationen sicherstellen, (c) lernen, Aufgaben richtig in einen Arbeitsablauf zu unterteilen, (d) stratifizieren Arbeiter nach Qualität, (e) [was auch immer. ], dann ist die Barriere einfach zu hoch. Nur sehr ernsthafte Anfragende werden die notwendige Zeit und Mühe aufwenden.

Was ist das erwartete Ergebnis dieser Barriere? Wir erwarten, dass einige große Anforderer und eine lange Reihe kleiner Anforderer kleine Aufgaben veröffentlichen. (Oh warte, das ist schon so.) Mit anderen Worten: Für kleine Kerle ist es sehr schwer zu wachsen.

Da wir über das einfache Posten von Aufgaben sprechen: Amazon, bitte schau mal bei TürkIt. Kaufen, kopieren, was auch immer tun, aber bitte erlauben Sie die einfache Implementierung solcher Workflows auf dem Markt. Nur sehr wenige Requester haben einfache One-Pass-Aufgaben. Die meisten Anfragenden möchten Crowdsourcing haben Arbeitsabläufe. Geben Sie ihnen die Werkzeuge, um dies einfach zu tun.

MTurk schießt sich selbst in den Fuß von Ermutigung der Anforderer, ihre eigenen Schnittstellen und eigenen Workflow-Systeme von Grund auf neu zu erstellen! Für viele viele HITs besteht die einzige Möglichkeit, eine anständige Schnittstelle zu haben, darin, sie selbst in einem iframe zu erstellen. Was ist das Problem mit iframe? Auf diese Weise macht es MTurk dem Anforderer extrem einfach, den Arbeitskanal zu wechseln. Der Anforderer, der ein iframe-gestütztes HIT erstellt hat, kann problemlos auch nicht-türkische Mitarbeiter dazu bringen, an diesen HITs zu arbeiten. (Tipp: Verwenden Sie einfach andere Worker-IDs für andere Arbeitskanäle und bringen Sie die anderen Arbeiter dazu, direkt die iframe-HTML-Seite zu besuchen, um die Aufgabe abzuschließen.) Ja, es ist auf lange Sicht gut für den Anforderer, nicht eingesperrt zu sein, aber ich denke alle Anforderer wären glücklicher, wenn sie die App nicht von Grund auf neu erstellen müssten.


Anforderer brauchen: Ein echtes Reputationssystem für Arbeiter

Meine andere große Beschwerde. Das aktuelle Rufsystem auf Mechanical Turk ist einfach schlecht. "Anzahl abgeschlossener HITs" und "Genehmigungsrate" sind einfach zu spielen.

Anforderer benötigen ein besseres Reputationsprofil für Mitarbeiter. Wieso den? Ein Markt ohne Reputationsmechanismus wird schnell zu ein Markt für Zitronen: Wenn Anforderer gute von schlechten Arbeitern nicht leicht unterscheiden können, neigen sie dazu, anzunehmen, dass jeder Arbeiter schlecht ist. Dies führt dazu, dass gute Arbeiter genauso viel bezahlt werden wie die schlechten. Bei so niedrigen Löhnen verlassen gute Arbeiter den Markt. Am Ende sind die einzigen Türken, die auf dem Markt bleiben, die Bösen (oder die verrückten Guten, die bereit sind, für die gleiche Bezahlung wie die schlechten Arbeiter zu arbeiten).

Dies wiederum erfordert, dass von vielen Arbeitern die gleiche Aufgabe erledigt wird. viel zu oft, um die Qualität zu gewährleisten. Ich bin nicht gegen Entlassungen! (Ganz im Gegenteil!) Aber es sollte eine Technik sein, um Eingaben von mittlerer Qualität zu verwenden, um eine Ausgabe von hoher Qualität zu erzielen. Eine Technik zum Erfassen unterschiedlicher Standpunkte für denselben HIT. Wiederholte Kennzeichnung sollte NICHT die primäre Waffe gegen Spam sein.

Das Fehlen eines starken Reputationssystems schadet allen und schadet dem Markt! Will Amazon einen Markt für Zitronen betreiben? Ich bin sicher, dass die Margen nicht hoch sein werden.

  • Mehr öffentliche Qualifikationstests durchführen:Verfügt der Arbeitnehmer über die erforderlichen Englischkenntnisse? Kann der Arbeiter Korrektur lesen?Die meisten Marktplätze (eLance, oDesk, vWorker, Guru) ermöglichen es den Teilnehmern, Zertifizierungstests zu bestehen, um ihre Qualität und ihr Wissen in verschiedenen Bereichen zu signalisieren. Das gleiche sollte bei Turk passieren. Wenn Amazon solche Tests nicht bauen möchte, Anforderer ihre eigenen Qualifizierungstests gegen Gebühr anderen Anforderern zur Verfügung stellen lassen? Ich selbst würde dafür bezahlen, die von CastingWords und CrowdFlower zugewiesenen Qualifikationen zu verwenden. Diese Anforderer würden als Zertifizierungsstellen für MTurk fungieren, so wie Universitäten Fähigkeiten für den Arbeitsmarkt zertifizieren.
  • Behalten Sie den Arbeitsverlauf im Auge: Für welchen Anforderer hat der Arbeiter in der Vergangenheit gearbeitet? Wie viele HITs für welche Zahlung? Für wie lange? Die langjährige Zusammenarbeit mit seriösen Anforderern ist ein gutes Zeichen. In der realen Welt zählt die Arbeitsgeschichte. Die Leute listen ihren beruflichen Werdegang in ihren Lebensläufen auf. Warum nicht auf MTurk?
  • Einstufung von Arbeitnehmern zulassen:Welche Bewertung hat der Arbeiter für die eingereichte Arbeit erhalten? Bitte erlauben Sie den Anforderern, Arbeiter zu bewerten. Wir haben es überall sonst. Wir bewerten Filme, Bücher, Elektronik, wir bewerten so ziemlich alles.
  • Zahlung von Bewertung trennen: Die Reputation an die Akzeptanzrate zu binden, ist schlichtweg falsch. Derzeit können wir entweder die Arbeit annehmen und bezahlen oder die Arbeit ablehnen und die Zahlung verweigern. Das ist einfach falsch. Wir bewerten Restaurants nicht danach, wie oft sich die Kunden geweigert haben, für das Essen zu bezahlen! Ich sollte die Arbeit nicht ablehnen und nicht bezahlen müssen, wenn ich nur sagen möchte, dass die Qualität nicht perfekt war. Die Ablehnung von Arbeiten sollte Spammern vorbehalten sein. Es sollte niemals gegen ehrliche Arbeitnehmer verwendet werden, die nicht den Erwartungen des Antragstellers entsprechen.
  • Trennen Sie HITs und Bewertungen nach Typ:Was war die Art der eingereichten Arbeit? Transkription? Bild-Tagging? Einstufung? Content-Generierung? Twitter-Spam? Arbeiter sind nicht in allen Arten von Aufgaben gleich gut. Das Schreiben eines Artikels erfordert ganz andere Fähigkeiten als die für die Transkription, die sich wiederum von den Fähigkeiten zum Tagging von Bildern unterscheiden. Ermöglichen Sie den Anforderern, die Bewertung in diesen verschiedenen Kategorien zu sehen. Fast so gut wie die öffentlichen Qualifikationstests.
  • Und machen Sie all dies über eine API zugänglich, um automatische Einstellungsentscheidungen zu treffen.

(Amazons Antwort zum Reputationssystem. )

In einem kürzlichen Meeting stellte ich dieselbe Frage: Warum nicht ein echtes Reputationssystem?

Der MTurk-Vertreter verteidigte die aktuelle Aufstellung mit folgendem Argument:

Ich hielt die Antwort für sinnvoll: Zweiseitige Reputationssysteme weisen tatsächlich Mängel auf. Sie führen oft zu Schemata der gegenseitigen Bewunderung, so dass solche Systeme am Ende leicht zu hacken sind (nicht, dass das aktuelle System zu schwer zu schlagen wäre). Ich war also mit der gegebenen Antwort zufrieden. Etwa 10 Minuten lang! Dann wurde mir klar: Humbug!

Es gibt kein Reputationssystem für Produktkäufer auf dem Marktplatz von Amazon.com erforderlich! Es ist nicht wie bei eBay, wo ein Käufer die Auktion gewinnen und niemals bezahlen kann! Der Ruf des Käufers auf Amazon.com ist unerheblich. Wenn ein Käufer bei Amazon ein Produkt kauft, solange die Kreditkartenzahlung klar ist, spielt der Ruf des Käufers einfach keine Rolle. Es gibt keine Unsicherheit, und Sie müssen nichts über den Käufer wissen.

Vergleichen wir nun den Produktmarktplatz von Amazon.com mit MTurk: The Unsicherheit bei MTurk betrifft die Arbeiter (Wer sind diejenigen, die Dienstleistungen von unsicherer Qualität verkaufen). Die Anforderer ist der Käufer auf dem MTürkischen Markt. Es sollte also in der Tat kein Reputationssystem für Anforderer erforderlich sein, aber die Arbeiter sollten bewertet werden.

Und an diesem Punkt werden die Leute protestieren: Warum haben wir die Hall of Fame/Shame auf Turker Nation, warum haben wir TurkOpticon? Hält Panos diese Bemühungen für irrelevant und sinnlos?

Und hier ist meine Antwort: Allein die Tatsache, dass wir solche Systeme haben, bedeutet, dass mit dem Markt von Mtürk etwas nicht stimmt. Ich erweitere unten.


Arbeitnehmerbedarf: Eine Vertrauenswürdigkeitsgarantie für Anforderer

Amazon sollte wirklich von seinem eigenen Marktplatz auf Amazon.com lernen. Tatsächlich ist es auf Amazon.com nicht möglich, Käufer zu bewerten. Amazon stellt lediglich sicher, dass der Käufer, wenn er ein Produkt online kauft, den Händler bezahlt. Somit stellt Amazon als Marktplatzbesitzer die Vertrauenswürdigkeit mindestens einer Seite des Marktes sicher.

Leider garantiert MTurk nicht wirklich die Vertrauenswürdigkeit der Anforderer.Es steht den Anforderern frei, gute Arbeit abzulehnen und nicht für Arbeit zu bezahlen, die sie behalten dürfen. Anforderer müssen nicht pünktlich bezahlen. In gewisser Weise dienen die Anforderer als Slave-Master. Der einzige Unterschied besteht darin, dass auf MTurk die Slaves ihren Master wählen können.

Und genau aus diesem Grund wurden Turker Nation und TurkOpticon geboren: Damit Arbeiter mehr über ihre Meister erfahren können. Zu erfahren, welche Anforderer sich richtig verhalten, welche Anforderer ihre Macht missbrauchen.

Dies erzeugt jedoch eine falsche Dynamik im Markt. Wieso den? Mal sehen, wie die Dinge funktionieren.

Der Prozess zur Initiierung des Anforderers

Wenn neue Nachfrager auf den Markt kommen, werden sie von den erfahrenen, guten Mitarbeitern mit Vorsicht behandelt. Legitime Arbeiter werden einfach nicht viele HITs eines neuen Anforderers abschließen, bis die Arbeiter wissen, dass der Anforderer legitim ist, prompt zahlt und Arbeit nicht unfair ablehnt. Die meisten guten Arbeiter werden nur ein paar HITs des Neuankömmlings abschließen und dann warten und beobachten, wie sich der Anforderer verhält.

Versuchen Sie nun, auf der Seite des Anforderers zu stehen.

Wenn der Anforderer kleine Chargen veröffentlicht, kann es gut gehen. Ein paar gute Arbeiter leisten ein bisschen gute Arbeit und die Ergebnisse kommen wie von Zauberhand zurück. Der Anforderer ist glücklich, zahlt, alle sind glücklich. Der kleine Anforderer kommt nach einer Weile zurück, postet einen weiteren kleinen Stapel und so weiter. Dieser Prozess erzeugt eine große Anzahl von glücklichen kleinen Anfragenden.

Was passiert jedoch, wenn die Newcomer große Mengen an HITs veröffentlichen? Legitime Arbeiter werden ein wenig Arbeit machen und dann abwarten und sehen. Niemand will eine Massenablehnung riskieren, die für den Ruf des Arbeiters tödlich sein kann. Wer sind in Anbetracht der obigen Ausführungen die Arbeiter, die bereit sind, an HITs des neuen, unbewiesenen Anforderers zu arbeiten? Du hast richtig geraten: Spammer und unerfahrene Mitarbeiter. Ergebnis? Der Anforderer erhält Ergebnisse von geringer Qualität, wird enttäuscht und fragt sich, was schief gelaufen ist.

Im besten Fall suchen die neuen Anforderer fachmännische Hilfe auf (sofern sie es sich leisten können). Im schlimmsten Fall verlassen die neuen Nachfrager den Markt und nutzen konventionellere Lösungen.

An dieser Stelle sollte klar sein, dass nur ein subjektives Reputationssystem für Anforderer zu haben, reicht einfach nicht aus. Wir brauchen eine Vertrauenswürdigkeitsgarantie für die Anforderer. Arbeitnehmer sollten keine Angst haben, für einen bestimmten Anforderer zu arbeiten.

Online-Händler auf dem Amazon-Marktplatz müssen den Ruf der Personen, an die sie verkaufen, nicht überprüfen. Amazon stellt sicher, dass die Byer legitim sind und keine Betrüger. Können Sie sich vorstellen, dass jeder Verkäufer bei Amazon die Kreditwürdigkeit und die Vertrauenswürdigkeit jedes Käufers, an den er verkauft, überprüfen müsste? Was hast du gesagt? Es wäre eine Katastrophe? Dass die Leute nur an wenige ausgewählte Käufer verkaufen würden? Nun, werden Sie Zeuge der entsprechenden Katastrophe auf Mechanical Turk.

  • Zahlungsgeschwindigkeit anzeigen: Die Zahlung des Anforderers geht bereits auf ein von Amazon kontrolliertes "Treuhandkonto". Die Arbeitskraft sollte wissen, wie schnell der Anforderer die Zahlung normalerweise freigibt.
  • Ablehnungsquote für den Anforderer anzeigen: Ist ein bestimmter Anforderer streitig und meldet die Arbeit der Mitarbeiter häufig als Spam?
  • Anzeige der Einspruchsquote für den Anforderer: Ein bestimmter Anforderer kann nur aufgrund eines Angriffs von Spammern eine hohe Ablehnungsrate haben. Wenn die abgelehnten Arbeiter jedoch Berufung einlegen und häufig gewinnen, dann stimmt etwas mit dem Anforderer nicht.
  • Verbieten Sie die Möglichkeit, Arbeiten abzulehnen, die kein Spam sind: Der Anforderer sollte nicht in der Lage sein, eingereichte Arbeiten ohne Bezahlung abzulehnen. Ablehnung sollte ein letzter Ausweg sein und nur offensichtlich schlechter Arbeit vorbehalten sein. Der Arbeitnehmer sollte das Recht haben, Einspruch einzulegen (und möglicherweise die eingereichte Arbeit automatisch von Kollegen überprüfen zu lassen). Dies sollte eine erhebliche Unsicherheit auf dem Markt beseitigen und den Arbeitnehmern mehr Selbstvertrauen geben, mit einem neuen Antragsteller zusammenzuarbeiten.
  • Gesamtvolumen der veröffentlichten Arbeit anzeigen: Arbeiter wollen wissen, ob der Anforderer wieder auf den Markt kommt. Das Volumen der entsandten Arbeit und die Lebenszeit des Arbeitnehmers auf dem Markt sind wichtige Merkmale: Arbeitnehmer können anhand dieser Informationen entscheiden, ob es sinnvoll ist, die Zeit zu investieren, um die Aufgaben des Antragstellers zu erlernen.
  • Machen Sie alles oben Genannte über eine API zugänglich: Lassen Sie andere Personen auf MTurk mitarbeiterorientierte Anwendungen erstellen.

Sehen wir uns den letzten Teil an, der fehlt.


Mitarbeiter brauchen: Eine bessere Benutzeroberfläche

Wie bereits erwähnt, besteht die andere wichtige Rolle des Marktes neben dem Vertrauen darin, den Transaktionsaufwand und die Suchkosten so weit wie möglich zu minimieren. Die handelnden Parteien sollten sich so schnell wie möglich finden, ihre Ziele erfüllen und weiterziehen. Der Marktplatz sollte fast unsichtbar sein. In diesem Markt, in dem Anforderer Aufgaben veröffentlichen und die Aufgaben auf die Mitarbeiter warten, ist es wichtig, es den Mitarbeitern so einfach wie möglich zu machen, Aufgaben zu finden, an denen die Mitarbeiter arbeiten möchten.

Aktuelles Problem: Unvorhersehbare Fertigstellungszeiten

Leider sind die Arbeiter derzeit durch die aktuelle Schnittstelle stark eingeschränkt, in ihrer Fähigkeit, Aufgaben zu finden. Arbeiter können nicht nach einem Anforderer suchen, es sei denn, der Anforderer hat seinen Namen in die Schlüsselwörter eingegeben. Außerdem haben Mitarbeiter keine Möglichkeit, durch die verfügbaren Aufgaben zu navigieren und zu durchsuchen, um interessante Dinge zu finden.

Am Ende verwenden die Arbeiter hauptsächlich zwei Hauptsortiermechanismen: Sehen Sie sich die neuesten HITs an oder sehen Sie sich die HIT-Gruppen mit den meisten HITs an. Dies bedeutet, dass Mitarbeiter verwenden Prioritätswarteschlangen, um die zu bearbeitenden Aufgaben auszuwählen.

Was ist das Ergebnis, wenn Aufgaben nach Prioritäten erledigt werden? Die Erledigungszeiten der Aufgaben folgen einem Potenzgesetz! (Einzelheiten zur Analyse finden Sie im Preprint des XRDS-Berichts „Analyzing the Amazon Mechanical Turk Marketplace“.) Was ist die Implikation? Es ist praktisch unmöglich, die Fertigstellungszeit der veröffentlichten Aufgaben vorherzusagen. Für den aktuellen Markt (mit einem Potenzgesetz-Exponenten a = 1,5) kann die Verteilung nicht einmal verwendet werden, um die durchschnittliche Wartezeit vorherzusagen: Der theoretische Durchschnitt ist unendlich, dh in der Praxis wird erwartet, dass die durchschnittliche Fertigstellungszeit kontinuierlich steigt, wenn wir den Markt über längere Zeit beobachten.

    Habe ein Browsersystem mit Aufgaben, die unter Aufgabenkategorien veröffentlicht werden. Siehe zum Beispiel die Hauptseite von oDesk, auf der Aufgaben unter einer oder mehreren Kategorien veröffentlicht werden. Ist das wirklich schwer?

Wettbewerb wartet


Wiederholen Sie nach mir: Ein Arbeitsmarkt ist nicht dasselbe wie ein Computerdienst. Auch wenn alles eine API ist, ist das Design des Marktes dennoch wichtig.

Es ist zu riskant anzunehmen, dass MTurk einfach ein einfaches Clearinghouse für Arbeitskräfte sein kann, genauso wie S3 ein einfacher Anbieter von Cloud-Speicher sein kann. Es gibt einfach keinen nachhaltigen Vorteil und keinen nennenswerten Mehrwert. Netzwerkeffekte sind nicht stark (insbesondere in Ermangelung von Reputation), und nur das Clearing von Zahlungen und der Umgang mit Patriot Act und KYC ist kein wesentlicher Mehrwert.

Andere Marktplätze tun dies bereits, bauen APIs und haben auch ein besseres Design. Es wird nicht schwer sein, in das Mikrosegment des Crowdsourcing-Marktes zu gelangen, und es kann viel schneller gehen, als Amazon erwartet. Imho, oDesk und eLance bewegen sich in Richtung des Weltraums, indem sie starke APIs für das Mitarbeitermanagement und gute Reputationssysteme haben. Aktuelle MTurk-Anforderer, die ihre HITs mit iframes erstellen, können sehr einfach eLance- und oDesk-Mitarbeiter einstellen, anstatt MTurk zu verwenden.

Der jüngste Anstieg von Microcrowdsourcing-Diensten zeigt, dass viele glauben, dass die Position von MTurk auf dem Markt bereit ist, herausgefordert zu werden.

Lohnt es sich, MTurk herauszufordern? Luis von Ahn twitterte, als er sich einen früheren Beitrag von mir ansah:

0,52 pro Tag
.

Darüber hinaus zeigt Ihr HTML-Markup Ihre Unfähigkeit im Online-Webdesign, was Ihre Website zu einer ineffizienten Option für Besucher macht, die sich wirklich für die Club-Song-Branche interessieren. Die Auflistung der Daten in Ihren monatlichen Playlists erfolgt in aufsteigender und nicht absteigender Reihenfolge. Dies ist nur einer von vielen Mängeln Ihrer offensichtlich willkürlich gestalteten Website. Ich gebe Ihnen jedoch weder meine Website-URL noch meine konstruktive Kritik, da Sie eindeutig versuchen, in einer Branche Geld zu verdienen, in der Ihr Mangel an Musik- und Website-Design-Kenntnissen keinen Platz hat. Meine Seitenbesucher haben mir viele Male Komplimente für das Layout und den Inhalt meiner Seite gemacht.

Sie können mich bei weiteren Anliegen unter dieser E-Mail kontaktieren, obwohl es klar ist, dass es nicht viel mehr zu sagen gibt. Ihre Nachlässigkeit, Ineffizienz und völlige Inkompetenz haben Sie in dieses Loch gebracht, und wenn Sie nicht bis zum 31. Oktober einen Ausweg finden, wenn meine Werbeflächeneinnahmen eingehen, werden weitere Maßnahmen ergriffen. Wann und wo wurde diese Website aus rechtlichen Gründen erstellt? Für den Fall, dass es vor dem 30. September 2010 erstellt wurde, wegen des offensichtlichen Rückgangs der Einnahmen aus meinen Anzeigen im letzten Monat in Höhe von insgesamt 7,34 US-Dollar wird eine Klage eingereicht.

HotNewClubSongs - Ein Vorreiter in der Clubmusikindustrie


Laienkonzepte von Quellenliebe, Vertrauenswürdigkeit, Expertise und Macht: Eine Prototypanalyse

In der bisherigen Forschung zur Überzeugungskraft wurden von Forschern erstellte Exemplare verwendet, um Quellenmerkmale wie Sympathie, Vertrauenswürdigkeit, Expertise oder Macht zu manipulieren. Dieser Ansatz hat sich als fruchtbar erwiesen, beruht jedoch bis zu einem gewissen Grad auf einer Überschneidung zwischen dem Verständnis dieser Variablen durch Forscher und dem Verständnis dieser Variablen durch Laien. Darüber hinaus können diese beispielhaften Manipulationen unbeabsichtigt mehrere Charakteristika beeinflusst haben und auf bestimmte Themen oder Zeiträume beschränkt sein. In der aktuellen Arbeit wollten wir Überzeugungsforschern ein methodisches Werkzeug an die Hand geben, um die Konstrukt- und potenziell externe Validität zu erhöhen, indem wir eine prototypische Analyse der vier traditionellen Quellenmerkmale durchführen: Sympathie, Vertrauenswürdigkeit, Expertise und Macht. Dieser Bottom-up-Ansatz lieferte Einblicke in die Art und Weise, wie Rezipienten Quellen wahrnehmen, und ermöglichte es uns, die Beziehungen zwischen den Merkmalen zu untersuchen. In Zukunft wird ein Bottom-up-Verständnis der Quelleneigenschaften es Forschern ermöglichen, Manipulationen effektiver zu entwickeln, die Zeit und Thema überschreiten und ihre Auswirkungen auf die beabsichtigten Quelleneigenschaften zu isolieren.

Dies ist eine Vorschau von Abonnementinhalten, auf die Sie über Ihre Institution zugreifen können.


5. Implikationen, Einschränkungen und zukünftige Studien

5.1. Theoretische Implikationen

Angesichts der Tatsache, dass die unterschiedlichen Eigenschaften von Mahlzeitensets es den Verbrauchern ermöglichen, hochwertige Gerichte in Restaurantqualität mit einer Vielzahl frischer/saisonaler Zutaten zuzubereiten und zu konsumieren, und angesichts der wachsenden Zahl von Einpersonenhaushalten in den USA bietet unsere Studie aktuelle und nützliche Informationen, die den sich ständig ändernden Anforderungen der Verbraucher gerecht werden. Basierend auf unseren Ergebnissen werden mehrere wichtige theoretische Implikationen bereitgestellt.

Als Hauptfaktoren für den Erfolg von Essenssets für die Verbraucher wurden vier spezifische Attribute identifiziert: die Bereitstellung hochwertiger Speisen, Arbeitseinsparungen, Menüvielfalt und angemessene Preise. Insbesondere die beiden Attribute, die hochwertige Lebensmittelgerichte und Menüvielfalt repräsentieren, erwiesen sich als die wichtigsten Attribute von Mahlzeitensets, da sie beide den hedonischen und funktionalen Wert für die Verbraucher stark verbesserten. Dies sind sehr wichtige Informationen im Zusammenhang mit Verbrauchern und Unternehmen mit Essenssets. Die Verbraucher von heute stehen vor der Herausforderung, täglich drei Mahlzeiten zuzubereiten. Die Ergebnisse deuten darauf hin, dass Essenssets den Verbrauchern die Möglichkeit bieten, sich schnell selbst zuzubereiten und ausgezeichnete Vorspeisen mit perfekt ausgewogenen Aromen und Zutaten in ihren eigenen vier Wänden zu genießen, ähnlich wie beim Essen in Gourmetrestaurants.

Es wurde festgestellt, dass zwei zusätzliche Essenssetattribute, 𠆌onvenience’ und 𠆊ngemessener Preis’, eine bedeutende Rolle bei der Verbesserung des funktionalen Wertes spielen. Da der funktionale Wert in der Funktionalität eines Produkts verwurzelt ist (z. B. niedriger Preis, gut zum Abnehmen oder Bequemlichkeit), überrascht es nicht, dass diese Studie die signifikanten Auswirkungen identifiziert hat, die �quemlichkeit’ und 𠆊ngemessener Preis’ hatten funktionaler Wert. Es muss jedoch auf Ergebnisse hingewiesen werden, die die Fähigkeit der Benutzer von Speisesets betonen, hochwertige Gerichte in Restaurantqualität zu Hause zuzubereiten, und dass die Attraktivität dieser Speisesets auf die Fähigkeit des Produkts zurückzuführen ist, eine breite Palette von Menüoptionen anzubieten. Diese wurden als die wichtigsten Eigenschaften von Mahlzeitensets identifiziert, die den Verbrauchern hedonische und funktionale Vorteile bieten. Dies bedeutet, dass die Verbraucher von heute, die am Kochen zu Hause interessiert sind, dies jetzt ohne den mühsamen Einkauf aller notwendigen Zutaten tun können, die durch die Mahlzeit-Kit-Lösung bereitgestellt werden, was diese Kategorie von den traditionellen und stark komfortorientierten HMR-Produkten unterscheidet.

Diese Studie bestätigte Ergebnisse, die in der früheren wissenschaftlichen Literatur berichtet wurden, in denen es um Beziehungen zwischen dem wahrgenommenen Wert des Verbrauchers und seinem zukünftigen Verhalten in Bezug auf eine neue Mahlzeitlösung ging. Die Ergebnisse unterstützten die Position, dass hedonische und funktionale Werte signifikante Vorläufer der Rückkaufabsicht waren. Obwohl die Aussagekraft der Dimension des funktionalen Werts in Bezug auf die Rückkaufabsicht stärker war, sollte die signifikante Beziehung zwischen hedonischem Wert und Rückkaufabsicht für Vermarkter von Essenssets von Interesse sein. Diese Assoziation weist darauf hin, dass Verbraucher Essenssets als interessante Lebensmittel betrachten und Essenssets kaufen, die als formelle Mahlzeitenlösungen dienen, während traditionelle HMR-Produkte dafür bekannt sind, eine Mahlzeit am bequemsten bereitzustellen.

Es wurde berichtet, dass moderne Verbraucher zwar ständig nach Lösungen suchen, die ihren Zeit- und Arbeitsaufwand bei der Zubereitung von Mahlzeiten und Beschaffungsmethoden minimieren, sie jedoch nicht unbedingt mehr Convenience-orientierte Lebensmittel oder zubereitete Zutaten verwenden (Hill & Maddock, 2019). Vielmehr haben sie aufgrund ihres moralischen Urteils und aus anderen Gründen einen zunehmenden Wunsch, von Grund auf neu zu kochen (Lyon & Kinney, 2013). Die Studie von Mintel (2016) über den US-Markt ergab, dass sich etwa 112 Millionen Erwachsene als ‘Kochbegeisterte’ bezeichnen und dass etwa 80 Prozent aller Amerikaner ein- oder zweimal pro Woche Mahlzeiten zu Hause zubereiteten. Eine andere vom Report Linker (2016) durchgeführte Studie bestätigte, dass ein Drittel der Amerikaner mehr als ein selbstgemachtes Gericht auf den Tisch nahm, selbst wenn es etwas Einfaches oder bereits Vorbereitetes war. Die Verbraucher sind heute eher bereit, viel Zeit mit der Zubereitung von Mahlzeiten zu Hause zu verbringen, weil sie mehr daran interessiert sind, frische Lebensmittel zu konsumieren, und sie genießen auch die Erfahrung der Beteiligung an der Zubereitung von Speisen zu Hause ( Goble, 2019 ). Somit spiegeln unsere Ergebnisse zu zwei Essenssetattributen (Lebensmittelqualität und Menüvielfalt) und ihren signifikanteren Auswirkungen auf den hedonischen Wert den Wunsch der heutigen Verbraucher wider, Essen in Restaurantqualität zu Hause mit vielfältigeren Menüs zuzubereiten, die saisonale und frische Zutaten enthalten.

Unsere Ergebnisse zeigten, dass die Lebensmittelqualität der Mahlzeitensets positivere Auswirkungen auf den wahrgenommenen Wert für das Segment der Mehrpersonenhaushalte im Vergleich zur Gruppe der Einpersonenhaushalte hat. Dies ist eine wichtige Beobachtung, da die Stichprobe der Studie zeigt, dass das größte Segment einer Einzelperson (38,0%) nur drei oder weniger Mal pro Monat Essenssets kauft, wobei die Ausgaben bei weniger als 100 US-Dollar pro Monat liegen. Im Vergleich dazu kaufen 38,2 % der Mehrpersonenhaushalte fünf- bis achtmal im Monat Mahlzeitensets im Vergleich zu Einpersonenhaushalten (27,2 %). % der Einpersonenhaushalte geben diesen Betrag aus).

Costa (2013) behauptete, dass ein Gefühl der moralischen Verpflichtung Verbraucher dazu veranlasst, negative Bewertungen von HMR-Produkten zu bilden, und eine tiefe Abneigung gegen stark Convenience-orientierte Lebensmittel hervorruft, wodurch ihre Absicht, HMR-Produkte zu kaufen, verringert wird. Dies deutet darauf hin, dass die moralische Verpflichtung des Verbrauchers zu der psychischen Belastung führt, die eigene Pflicht zur Zubereitung von Mahlzeiten zu beeinträchtigen. Roh und Park (2019) haben empirisch nachgewiesen, dass Menschen, die von einem hohen moralischen Verpflichtungsgefühl geleitet werden, sich nur ungern als stark komfortbetonte Tendenzen ausdrücken und stattdessen versuchen, der Überzeugung zu folgen, dass Mahlzeiten zubereitet und mit anderen Familienmitgliedern geteilt werden sollten . So haben Personen, die einem Mehrpersonenhaushalt angehören, eher ein hohes Maß an moralischer Verpflichtung, was dazu führt, dass sie Mahlzeiten zubereiten, um sie mit Familienmitgliedern zu teilen. Vielleicht hat das Segment der fast 80% verheirateten Mehrhaushalte auch Kinder, die einen einfachen Geschmack haben. Obwohl Haushalte mit Kindern in unserer Studie nicht untersucht wurden, liegt es nahe, dass ein Teil der 80% Verheirateten auch Kinder in ihren Haushalten haben würde. Dies könnte erklären, warum die Lebensmittelqualität für Mehrpersonenhaushalte signifikant wichtiger war als für Einpersonenhaushalte. Dementsprechend könnten Mahlzeitenset-Lösungen, die den Verbrauchern dabei helfen, qualitativ hochwertige Gerichte in den eigenen vier Wänden zuzubereiten, aufgrund des Nutzungs- und Ausgabeverhaltens von der Gruppe der Mehrpersonenhaushalte als wertvoller wahrgenommen werden als von der Gruppe der Einpersonenhaushalte aus unserer Studienstichprobe.

Im Gegensatz dazu stellten wir fest, dass die Auswirkungen der Menüvielfalt der Mahlzeitensets auf den wahrgenommenen Wert des Verbrauchers in der Einpersonenhaushaltsgruppe positiver waren als in der Mehrpersonenhaushaltsgruppe. Restaurants, die eine Vielzahl von Menüoptionen anbieten, sind als entscheidender Faktor für das kulinarische Erlebnis dokumentiert. Han (2018) untersuchte Solo-Dining-Erlebnisse und stellte fest, dass Solo-Diner zögern, alleine zu essen, da Restaurants eine begrenzte Auswahl an Menüs anbieten. Darüber hinaus werden einige Restaurantmenüs für zwei oder mehr Gäste zubereitet und serviert, während die meisten Restaurants der gehobenen Küche als ungeeignet empfunden werden, allein zu besuchen. Einzelgänger bemerkten auch, dass die Möglichkeit, das zu bestellen, was sie essen möchten, ihr kulinarisches Erlebnis angenehmer macht. Unser Ergebnis impliziert daher, dass Einpersonenhaushaltsmitglieder großen Wert auf Mahlzeitensets legen würden, die eine Vielzahl von Menüpunkten bieten. Einpersonenfamilien würden positivere Vorteile beim Kochen von Mahlzeitensets zu Hause erfahren, was zu einer hohen Rückkaufabsicht führt.

Schließlich gaben Mehrpersonenhaushalte an, einen signifikant höheren hedonischen Wert im Vergleich zum funktionalen Wert zu erhalten, was darauf hindeutet, dass sie mit größerer Wahrscheinlichkeit Essensdrachen zurückkaufen als diese Einfamilienhaushalte. Da der hedonische Wert darin besteht, dass die Verbraucher unmittelbare Befriedigung aus der Erfahrung des Essenspakets in Bezug auf Produktion und Konsum erhalten, wird angenommen, dass Mehrpersonenhaushalte Familien umfassen, die unmittelbare Vorteile im Zusammenhang mit dem Verzehr eines selbst zubereiteten Gourmet-Entrພ für ihre Familienmitglieder erhalten. Die Unterstützung für den Rückkauf von Essenssets durch Mehrfamilienhaushalte ist in Tabelle 1 zu erkennen, wo mehr als 27 % dieser Verbraucher acht oder mehr Mal pro Monat Essenssets kauften, verglichen mit 19 % der Einfamilienhaushalte.Außerdem betrug der Zeitraum, in dem Mehrpersonenhaushalte Mahlzeitensets ein Jahr und länger nutzten, über 30 %, verglichen mit etwas mehr als 20 % bei Einpersonenhaushalten.

5.2. Auswirkungen auf das Management

Mit der sich ändernden Demografie der US-Haushalte entwickeln sich auch die Vorlieben, Wünsche und Bedürfnisse der Verbraucher. Mehr Single-US-Haushalte haben dazu geführt, dass sich der Geschmack und die Wünsche der Verbraucher im Bereich Foodservice-Produkte verändert haben. Heutige Singlehaushalte benötigen unterschiedliche Produkte für ihren individuellen Lebensstil. Wie in unseren Ergebnissen festgestellt, waren Elemente der Verbraucherinspiration durch kulinarische Bildung offensichtlich. Begleitet von dem Erfahrungskonstrukt, das vielleicht mit der gesamten Erfahrung der Kreation eines Gourmet-Menüs verbunden ist, dringt das Essenspaket-Phänomen viel tiefer in den Lebensstil des Verbrauchers ein, als zu Beginn dieses Forschungsprojekts zunächst erwartet wurde. In diesem Sinne wurden Herausforderungen im Zusammenhang mit Essenssets und Verbraucherabonnements identifiziert. Eine Studie dokumentierte, dass über die Hälfte aller Abonnenten von Essenssets ihre Abonnements innerhalb der ersten sechs Monate gekündigt haben und etwa drei Viertel der Verbraucher ihre Abonnements innerhalb von 12 Monaten kündigen (Wells, 2020). Weitere Untersuchungen deuten jedoch darauf hin, dass Abonnenten von Essenssets aufgrund von Preisnachlässen und Wettbewerbsproblemen von einem Unternehmen zum anderen wechseln (Woods, 2020). Darüber hinaus werden die Verbraucher mit dem Bildungs- oder Lernaspekt der Zubereitung von Mahlzeitensets nicht mehr herausgefordert, sobald die Neuheit abgenommen hat, was auf die begrenzte Produktvielfalt zurückgeführt wird. Daher würde die Übernahme der folgenden Ideen von den Gurus der Abo-Wirtschaft Abonnenten halten. Tzuo und Weisert (2018) schlugen die Subscription Economy vor, die besagt, dass ihre inhärenten Ergebnisse Bequemlichkeit und Zeitersparnis sind. Sie schlugen auch vor, dass das Modell der Subscription Economy durch die Fähigkeit eines Unternehmens erfolgreich sein kann, in der sich schnell verändernden Welt kontinuierlich neue Ergebnisse zu identifizieren und zu fördern. Dies sollte auf das Abonnementmodell für Mahlzeitensets angewendet werden. Beispielsweise kann ab Juli 2020 während der COVID-19-Pandemie das Ergebnis von Werbeaktionen für Essensabonnements ein Gefühl der Sicherheit unterstreichen, das von der Möglichkeit einer Pandemieübertragung entfernt ist. Um dies zu untermauern, schlug Manu (2017) auch vor, dass eine erfolgreiche Abonnementplattform Abonnenten dazu bringt, sich in der aufkommenden Gegenwart zurechtzufinden und einen intrinsischen Wert zu gewinnen, um ihren Wunsch nach personalisierten Diensten zu befriedigen. Daher können Hersteller von Kochutensilien erwägen, eine Plattform zu schaffen, auf der Abonnenten ihre Familienrezepte mit anderen teilen und auch alternative Zutaten vorschlagen können, die in ihren lokalen Gemeinschaften erhältlich sind. Schließlich könnte die Möglichkeit für Verbraucher, Lieferungen zu überspringen oder ihre Abonnements auszusetzen, den Managern von Essenssets Strategien zur Erhöhung der Kundenbindung bieten (Woods, 2020).

Was sind dann die Botschaften, die aus diesen Erkenntnissen für den Sektor der Herstellung von Kochutensilien gezogen werden? Bildung in jeglicher Erfahrung hat sich als von erheblicher Bedeutung für Verbraucher und insbesondere für moderne Verbraucher erwiesen. Insbesondere fanden wir, dass in der Gruppe der Mehrpersonenhaushalte die Essensqualität des Mahlzeitensets einen signifikanten positiven Einfluss auf die Wahrnehmung des hedonischen Wertes hatte. Außerdem hatten die Lebensmittelqualität und preiswerte Mahlzeitensets einen signifikanten positiven Einfluss auf ihre Wahrnehmung des funktionellen Wertes. Daher sollten Mahlzeitensets die Dimensionen in Bezug auf Bildung, Spannung, Unterhaltung und Erfolg bei der Zubereitung hochwertiger Gourmetgerichte verbessern. Gerade moderne Verbraucher werden von einzigartigen Erlebnissen angezogen und sind nicht unbedingt markentreu. Je höher die Qualität der Speisen, die diesen Verbrauchern angeboten werden, desto höher ist das Potenzial, das sie in Richtung Essenssets ziehen.

Im Vergleich dazu zeigte die Ein-Haushalts-Gruppe, dass die Menüvielfalt einen signifikant positiven Einfluss auf ihre Wahrnehmung von hedonischem und funktionalem Wert hat. Dies führt zur Entwicklung fortschrittlicherer Mahlzeitensets, die eine breitere Vielfalt von Menüoptionen erfordern und enthalten, die sich an Einzelpersonenhaushaltsverbraucher richten, die für längere Zeit Mahlzeitenset-Abonnenten sind. Basierend auf diesen Ergebnissen besteht die klare Möglichkeit, dass dieses Haushaltssegment Untersegmente darstellt, die möglicherweise unterschiedliche Vorteile aus dem Kaufprozess von Essenssets ziehen. Es schlägt interessante Managementanwendungen vor, die es wert sind, in Zukunft untersucht zu werden, um weitere Details zu erhalten. Daher sollten die Hersteller von Essenssets weiterhin diese Attribute betonen, die mit Essenssets verbunden sind, sowie hedonische und funktionale Wertperspektiven, um die Wiederkaufabsicht der Verbraucher zu verbessern.

Wählt ein Verbraucher ein Essenset-Unternehmen aus, das nicht mit seinem besonderen Geschmack und seinen Vorlieben vereinbar ist, kommen das jeweilige Unternehmen und das Abonnement in Frage. Somit könnten von Verbrauchern auf der Grundlage von Werbung getroffene Entscheidungen den Lebenszeitwert der Beziehung zwischen dem Geschäft mit Essenssets und dem Verbraucher gefährden. Viele Unternehmen für Essenssets haben begonnen, mit Lebensmittelketten zusammenzuarbeiten, bei denen Verbraucher mit der Erfahrung mit Essenssets experimentieren können, ohne sich auf einen langfristigen Zeitraum festlegen zu müssen. Obwohl die Vielfalt begrenzt ist, bieten diese einzeln vermarkteten Mahlzeitensets Geschmackskombinationen, die den Verbrauchern bereits bekannt sind. Italienische Speisen, Steaks und Kartoffeln, mediterrane Vorspeisen, Lachs mit Gemüse und Curryreis werden jetzt regelmäßig bei Lebensmittelketten wie Whole Foods, Safeway, Kroger und Publix angeboten. Die Übernahme von Whole Foods durch Amazon hat zu dem Geschäft mit Essenssets namens 𠇊mazonFresh” geführt. Die Beziehungen von Amazon zu Unternehmen wie Whole Foods ermöglichen die Integration von konsistent frischen und ausgewogenen Vorspeisen, die öffentlich vermarktet werden. Daher kann es für Unternehmen mit Essenssets pragmatischer sein, Verbrauchern die Möglichkeit zu geben, wöchentliche Abonnements anstelle von längerfristigen Plänen zu erwerben.

5.3. Einschränkungen und Empfehlungen für zukünftige Forschung

Diese Untersuchung basierte auf einem Convenience-Sampling eines Online-Verbraucherpanels. Obwohl diese Methode nachweislich geografisch repräsentative Stichproben erzeugt, ist es notwendig, diese Studie mit einer wissenschaftlicheren und strengeren Stichprobenmethode zu wiederholen. Um diese Ergebnisse weiter zu verfeinern, wäre es auch erforderlich, verschiedene ethnische Gruppen innerhalb von Ein- und Mehrpersonenhaushalten über verschiedene Altersgruppen und die tatsächliche Größe von Mehrfamilienhaushalten (Anzahl der Personen) hinweg zu vergleichen. Diese Untersuchung basierte auf einem Convenience-Sampling eines Online-Verbraucherpanels. Obwohl diese Methode nachweislich geografisch repräsentative Stichproben generiert, ist es notwendig, diese Studie mit einer wissenschaftlicheren und strengeren Stichprobenmethode zu wiederholen. Um diese Ergebnisse weiter zu verfeinern, wäre es auch erforderlich, verschiedene ethnische Gruppen innerhalb von Ein- und Mehrpersonenhaushalten über verschiedene Altersgruppen und die tatsächliche Größe von Mehrfamilienhaushalten (Anzahl der Personen) hinweg zu vergleichen. Bei der Messung der ȁKaufabsicht” als Ergebnisvariable haben wir nicht gefragt, ob die Verbraucher beabsichtigen, dasselbe Produkt oder dieselbe Marke wiederzukaufen. Zukünftige Studien sollten daher Assoziationen zwischen Attributen, wahrgenommenem Wert und Markentreue bzw. Produkttreue gezielter behandeln. Außerdem konzentrierte sich diese Studie nur auf die Produktattribute von Mahlzeitensets. Andere wichtige Produktattribute von Mahlzeitensets sollten identifiziert werden. Daher wird empfohlen, zusätzliche Skalenelemente zu testen, die umfassendere produkt- und servicequalitätsorientierte Attributdimensionen fokussieren.

Schließlich hat die Covid-19-Pandemie zusätzliche Möglichkeiten für das Marketing und den Verkauf von Essenssets geschaffen. Einschränkungen für Restaurantbetriebe in Bezug auf ihre Fähigkeit, Essenserlebnisse mit sozialer Distanz zu bieten, zusammen mit den unbekannten Aspekten rund um die Verbraucher und ihrer Wahrnehmung der Sicherheit in Bezug auf das Essen in Restaurants haben den Unternehmen von Kochutensilien und ihrer Zukunft noch größere Chancen eröffnet Produkte und Dienstleistungen, die für die breite Öffentlichkeit entwickelt wurden. Dies bietet spannende Möglichkeiten für die zukünftige Erforschung von Mahlzeitensets und Fragen zum Verbraucherverhalten.


Qualitätssicherung

Der Nachteil schneller und billiger Daten ist das Potenzial für eine geringe Qualität. Aus Sicht der Arbeiter verdienen sie das meiste Geld, indem sie den schnellsten und einfachsten Weg finden, um HITs abzuschließen. Wie bereits erwähnt, sind die meisten Arbeitnehmer nicht in erster Linie durch die finanziellen Erträge motiviert und kümmern sich wirklich um die Qualität ihrer Arbeit, aber fast alle kümmern sich zumindest ein wenig darum, wie effizient sie ihre Zeit verbringen. Es gibt jedoch einige Arbeitnehmer, denen die Qualität der von ihnen geleisteten Arbeit egal ist, solange sie Geld verdienen (sie werden typischerweise als Spammer). Außerdem gibt es Berichte über Programme (Bots) entwickelt, um HITs automatisch zu vervollständigen (McCreadie et al., 2010), und diese liefern im Wesentlichen garantiert schlechte Daten.

Um sicherzustellen, dass die Anweisungen für die HIT klar sind, können Anforderer ihrer HIT ein Textfeld hinzufügen, in dem sie gefragt werden, ob ein Teil davon verwirrend war. Darüber hinaus wurde intensiv an Methoden zur Verbesserung und Sicherung der Datenqualität geforscht. Die einfachste und wahrscheinlich am häufigsten verwendete Methode besteht darin, Mehrfachantworten zu erhalten. Für viele der üblichen Aufgaben auf Mechanical Turk ist dies eine sehr effektive und kosteneffiziente Strategie. Snow und Kollegen verglichen beispielsweise Arbeiter auf Mechanical Turk mit Experten-Kennzeichnern für Aufgaben in natürlicher Sprache und stellten fest, wie viele Antworten von Mechanical Turk-Mitarbeitern erforderlich waren, um eine Genauigkeit auf Expertenebene zu erreichen (Snow et al., 2008), die von zwei bis neun mit reichten eine einfache Mehrheitsregel und ein oder zwei mit ausgefeilteren Lernalgorithmen. Sheng, Provost und Ipeirotis (2008) verwendeten Labels, die über Mechanical Turk als Input für einen Machine-Learning-Klassifikator erworben wurden, und zeigten über 12 Datensätze, die unter Verwendung des aus mehreren Labels erhaltenen "Mehrheitsvotums" die Klassifikationsgenauigkeit in allen Fällen verbesserten. In Folgearbeiten entwickelten Ipeirotis, Provost und Wang (2010) einen Algorithmus, der sowohl Klassifikationsfehler pro Element als auch Verzerrungen pro Arbeiter berücksichtigt, um Fehler mit noch weniger Arbeitern und Labels zu reduzieren.

Bei den meisten Umfrage- und experimentellen Daten, bei denen die individuelle Variabilität ein wichtiger Teil der erhaltenen Daten ist, ist der Erhalt von Mehrfachantworten jedoch möglicherweise keine Option zur Bestimmung „richtiger“ Antworten. Bei Umfragen und einigen experimentellen Designs besteht eine Möglichkeit darin, eine Frage einzufügen, die Spammer und Bots abschrecken soll. Dies erfordert menschliches Wissen und den gleichen Aufwand wie andere Fragen in der Umfrage, hat jedoch eine überprüfbare Antwort, die verwendet werden kann, um die eingereichte Arbeit. Kittur, Chi und Suh (2008) ließen Mechanical Turk-Mitarbeiter die Qualität von Wikipedia-Artikeln bewerten und mit Experten vergleichen. Sie stellten eine signifikante Steigerung der Qualität der erhaltenen Daten fest, wenn sie zusätzliche Fragen mit nachprüfbaren Antworten einschlossen: Der Anteil der ungültigen Antworten stieg von 48,6% auf 2,5%, und die Korrelation der Antworten mit Expertenbewertungen wurde statistisch signifikant. Wenn Sie diese „Captcha“- oder „Reverse-Turing-Test“-Fragen einbeziehen, ist es ratsam, deutlich zu machen, dass Arbeiter nicht bezahlt werden, wenn die Antworten auf die überprüfbaren Fragen nicht richtig beantwortet werden. Auch wenn die Fragen sehr inkongruent mit dem Rest der Studie sind, sollte klar sein, dass sie einbezogen werden, um die Legitimität der anderen Antworten zu überprüfen. Zwei Beispiele für solche Fragen sind „Wer ist der Präsident der Vereinigten Staaten?“ und „Was ist 2 + 2?“ Die erstgenannte Frage haben wir in einer der in Abb. 5 beschriebenen Umfragen als Captcha-Frage gestellt. Von 500 Antworten haben nur sechs Personen die Frage falsch beantwortet und drei Personen haben die Frage nicht beantwortet.

In einigen Fällen kann es möglich sein, dass die Arbeiter ihre eigene Arbeit überprüfen. Wenn Antworten in einer Studie nicht Korrekt Antworten aber habe unvernünftig Antworten kann es möglich sein, Mitarbeiter von Mechanical Turk zu verwenden, um die Antworten der Arbeit anderer zu überprüfen. Wenn beispielsweise eine Antwort auf eine Studie eine Freitextantwort erfordert, könnte man eine weitere HIT erstellen, um die Antwort zu validieren. Es wäre eine sehr schnelle und einfache Aufgabe für Arbeitnehmer (und daher kostengünstig für Anfragende), diese Antworten zu lesen und zu überprüfen, ob sie eine kohärente und vernünftige Antwort auf die gestellte Frage sind. Little, Chilton, Goldman und Miller (2010) fanden heraus, dass diese Art der Selbstkorrektur ein sehr effizienter Weg sein kann, um gute Daten zu erhalten.

Schließlich besteht ein weiterer effektiver Weg, um schlechte Antworten zu filtern, darin, sich die Muster der Antworten anzusehen. Zhu und Carterette (2010) untersuchten das Antwortmuster in Umfragen und stellten fest, dass Antworten von geringer Qualität sehr niedrige Antwortmuster aufwiesen – sie wählten immer eine Option (z. B. die erste Antwort auf jede Frage) oder wechselte zwischen einer kleinen Zahl von Optionen in einem regelmäßigen Muster (zB Wechsel zwischen der ersten und der letzten Antwort). Die Zeit, die für die Erledigung einzelner Aufgaben aufgewendet wird, kann auch ein schnelles und einfaches Mittel sein, um schlechte/aufwendige Reaktionen zu identifizieren – so sehr, dass die Filterung der Arbeit nach Zeitaufwand in die Mechanical Turk-Site integriert ist, um die Ergebnisse zu überprüfen. Wenn Kittur et al. (2008) überprüfbare Antworten in ihre Studie einschlossen, stellten sie fest, dass die Zeit, die für das Ausfüllen jeder Umfrage aufgewendet wurde, von 1,5 Minuten auf über 4 Minuten gestiegen ist. Es ist in der Regel möglich, eine untere Grenze für den Zeitaufwand für die tatsächliche Teilnahme an der Studie zu bestimmen und Antworten, die diesen Schwellenwert unterschreiten, herauszufiltern.

Sicherheit

Wie oben erwähnt, befindet sich der Code für eine externe HIT typischerweise auf dem Server des Anforderers. Der Code für den HIT ist anfällig für Angriffe der allgemeinen Internetbevölkerung, da er von jedem Computer im Internet ausgeführt werden muss, um auf Mechanical Turk zu funktionieren. Hier geben wir einen allgemeinen Überblick über einige Sicherheitsprobleme, die sich auf eine Studie auswirken könnten, die als externer HIT ausgeführt wird, und Möglichkeiten, die Probleme zu mildern. Im Allgemeinen ist es ratsam, beim Hosten einer öffentlichen Website einen Experten für Computersicherheit zu konsultieren.

Zunächst plädieren wir dafür, dass die Anforderer eine automatische nächtliche Sicherung der von den Arbeitern eingereichten Arbeiten durchführen. Um die Integrität der erhobenen Daten zu gewährleisten, sind bei externen HITs verschiedene Sicherheitsvorkehrungen notwendig. Zwei der häufigsten Angriffe auf webbasierte Anwendungen sind Datenbankinjektionsangriffe (am häufigsten SQL) und Cross Site Scripting (XSS)-Angriffe. Ein Datenbankinjektionsangriff kann auf jedem System erfolgen, das eine Datenbank zum Speichern von Benutzereingaben und Experimentparametern verwendet, was eine gängige Methode zum Entwerfen webbasierter Software ist. Ein Datenbankinjektionsangriff kann an jeder Stelle auftreten, an der der Code Benutzereingaben entgegennimmt. Es gibt eine Vielzahl von Eingaben, die ein böswilliger Benutzer geben könnte, um die Datenbank, die der Software des Anforderers zugrunde liegt, dazu zu bringen, sie auszuführen. Ein solcher Code könnte dazu führen, dass die Datenbank einen willkürlichen Befehl ausführt, der vom böswilligen Benutzer angegeben wurde, und einige Befehle könnten die gespeicherten Daten gefährden. Um diese Art von Angriff zu verhindern, ist es relativ einfach, Benutzereingaben für Datenbankbefehle zu säubern – zum Beispiel durch Entfernen von Zeichen, die von der Datenbank als Befehl erkannt werden. Es gibt eine Vielzahl von Softwarebibliotheken in vielen Programmiersprachen, die bei diesem Unterfangen helfen, speziell für die spezielle Implementierung der Datenbank und Software, die kostenlos online zu finden sind.

Cross-Site-Scripting-Angriffe (XSS) sind eine weitere Art von Code-Injection-Angriffen. Hier würde ein böswilliger Benutzer versuchen, beliebigen Skriptcode, wie z. Auch hier ist eine der wichtigsten Methoden zur Verhinderung dieser Art von Angriff die Eingabevalidierung. Wenn die Eingabe beispielsweise eine Zahl sein muss, sollte der Code des Anforderers sicherstellen, dass die einzigen Zeichen in der Eingabe Zahlen, ein Plus- oder Minuszeichen oder ein Dezimalpunkt sind. Eine weitere vorbeugende Maßnahme ist das „HTML-Escape“ der Benutzereingabe, wodurch sichergestellt wird, dass jeglicher Code, der von einem böswilligen Benutzer in die Eingabe eingefügt wird, nicht ausgeführt wird. Wir warnen potenzielle Anforderer, die externe HITs verwenden, diese Maßnahmen ernst zu nehmen.

Codesicherheit ist nicht die einzige Sicherheitsart, die für Experimente mit Mechanical Turk erforderlich ist. Das Protokoll, das der Anforderer zur Durchführung des Experiments verwendet, muss ebenfalls sicher sein. Wir demonstrieren dies an einem Beispiel. Der zweite Autor dieses Artikels versuchte ein synchrones Experiment, das aus vielen HITs bestand. Der erste Teil des HIT bestand darin, ein Quiz zu absolvieren, um das Verständnis des Experiments sicherzustellen. Wenn ein Arbeiter das Quiz bestanden hatte, betrat er oder sie das Wartezimmer und ging schließlich in das Experiment. Arbeiter wurden bezahlt

Turker-Gemeinde

Rund um Mechanical Turk ist eine reiche Online-Community entstanden, die sich größtenteils auf den Ruf der Anfragenden konzentriert. Es gibt eine Asymmetrie im Ruf von Arbeitern und Anforderern auf Mechanical Turk. Anforderer können ohne Angabe von Gründen jede oder alle von einem Arbeitnehmer geleistete Arbeit ablehnen (d. h. die Zahlung verweigern). Darüber hinaus kann jeder Antragsteller Arbeitnehmer ablehnen, deren Prozentsatz der abgelehnten Arbeit über einem bestimmten Schwellenwert liegt. Diese Merkmale machen den Ruf der Arbeiter, der durch ihre Akzeptanzrate kodiert wird, zu einem grundlegenden Merkmal von Mechanical Turk. Es gibt jedoch keinen systematischen Reputationsmechanismus für Anforderer. Als Ergebnis wurden externe Reputationssysteme entwickelt, darunter Turkopticon Footnote 7 und Turker Nation. Fußnote 8 Turkopticon ist eine Website, die es Mitarbeitern ermöglicht, Anfragende entlang von vier Achsen zu bewerten: Kommunikationsfähigkeit, Großzügigkeit, Fairness und Schnelligkeit. Turker Nation ist ein Online-Bulletin-Board, in dem Mitarbeiter routinemäßig Anfragen zu Anforderern kommentieren und über einzelne HITs kommunizieren. Es wird dringend empfohlen, dass sich neue Anfragende der Mechanical Turk Community „vorstellen“, indem sie zuerst bei Turker Nation posten, bevor sie HITs veröffentlichen. Diese externen Seiten können einen starken Einfluss auf die Akzeptanzrate von HITs haben und dienen daher effektiv als Wachhund bei missbräuchlichen Anfragenden. Darüber hinaus ermöglichen die Foren, die Reaktionen der Arbeitnehmer auf die Studie zu verfolgen, was manchmal Einblicke in die eigenen Methoden oder sogar die inhaltlichen Schwerpunkte der Forschung selbst geben kann.

Es gibt viele Fälle, in denen Anforderer direkt mit Mitarbeitern interagieren können. Die Mechanical Turk-Schnittstelle ermöglicht es Arbeitern, dem Anforderer eines HIT eine Nachricht zu senden. Zum Beispiel möchten Arbeitnehmer möglicherweise Anfragende kontaktieren, wenn ein Teil ihrer HIT unklar oder verwirrend ist. Ebenso können Arbeitnehmer Kommentare zu Turker Nation zu positiven oder negativen Aspekten eines HIT abgeben. Wir treten dafür ein, dass die Anforderer eine professionelle Beziehung zu ihren Mitarbeitern pflegen, als wären sie Mitarbeiter des Unternehmens. Dies wird dem Anforderer zugute kommen, indem es bei den Arbeitern ein hohes Ansehen behält, was dazu führt, dass in Zukunft mehr Arbeiter ihre HITs durchführen.

Schließlich stellen wir fest, dass es eine Reihe von Blogs gibt, in denen Forscher, die entweder Experimente mit Mechanical Turk durchführen oder Mechanical Turk selbst studieren, häufig posten. Diese Seiten – „Ein Informatiker an einer Business School“, Fußnote 9 „Experimental Turk“, Fußnote 10 „Deneme“, Fußnote 11 und „Crowdflower“ Fußnote 12 – sind nützlich für Forscher, die sich über die neuesten Forschungsergebnisse von Mechanical Turk auf dem Laufenden halten möchten.

.50 für das Bestehen des Quiz, zusammen mit einem Bonus, abhängig von ihren Aktionen im Experiment. Zwei böswillige Arbeiter akzeptierten dann so viele HITs wie möglich auf einmal. In der Zwischenzeit nahmen die wohlwollenden Arbeiter jeweils einen HIT an, bestanden das Quiz, gingen in den Warteraum und begannen schließlich mit dem Experiment. Nachdem sie so viele wie möglich akzeptiert hatten, füllten die böswilligen Arbeiter das Quiz für jeden HIT korrekt aus und schickten es nach Beginn des Experiments ab. So wurden die böswilligen Arbeiter für ihre Tests bezahlt und durften nicht in das Experiment. Der zweite Autor wurde um etwa 200 Dollar geprellt. Die Lösung bestand darin, das Experiment einfach zu einem HIT mit vielen Zuweisungen zu machen, sodass jeder Türker nur einen HIT gleichzeitig akzeptieren konnte.


Methode

Teilnehmer

Es wurden zwei Proben entnommen, die erste von einem traditionellen Teilnehmerpool der Psychologie und die zweite von Mechanical Turk. Die Stichprobe bestand aus 270 Bachelor-Studenten, die an einer großen Forschungsuniversität im Südosten der USA in einem Psychologie-Einstiegsstudiengang eingeschrieben waren. Die Stichprobe von Mechanical Turk umfasste 270 Erwachsene, die in den USA bezahlt wurden

Ergebnisse

Forschungsfrage 1 betraf die demografische Zusammensetzung der Crowdsourcing-Stichprobe im Vergleich zu einer Hochschulstichprobe. Tabelle 1 enthält einen Vergleich der beiden Stichproben für demografische Merkmale, einschließlich Alter, Geschlecht, ethnische Zugehörigkeit, Nationalität, abgeschlossene Ausbildung, Beschäftigungsstatus und Beruf. Die Stichproben waren in Bezug auf Geschlecht und ethnische Zugehörigkeit ähnlich, beide Stichproben waren überwiegend weiblich und kaukasisch. Die Crowdsourcing-Stichprobe war in Bezug auf Bildung, Beschäftigungsstatus und Beruf deutlich vielfältiger, wobei ein breites Spektrum an Berufen und Bildungsabschlüssen vertreten war. Es gab signifikante mittlere Altersunterschiede, so dass die Crowdsourcing-Stichprobe (m = 32.93, SD = 10,68) war signifikant älter als die Bachelor-Stichprobe (m = 18.68, SD = 1.35), T(527) = 21.48, P < .001, D = 1,87, im Einklang mit den Erwartungen. Ein dramatisch höherer Prozentsatz der Crowdsourcing-Stichprobe war entweder Vollzeit oder Teilzeit beschäftigt. Darüber hinaus war für Befragte aus einer der beiden Stichproben, die erwerbstätig waren, die Anstellung in ihrem aktuellen Job in der Crowdsourcing-Stichprobe erheblich länger (m = 5,11 Jahre, SD = 5,33 als in der Hochschulstichprobe (m = 1.54, SD = 1.51), T(291) = 5.96, P < .001, D = 0,78. Insgesamt deuten diese Informationen darauf hin, dass die Crowdsourcing-Stichprobe in Bezug auf die Generalisierbarkeit für Organisationsforscher attraktiver war.

Forschungsfrage 2 betraf Unterschiede in der Antwortqualität, gemessen an Unterschieden in der sozialen Erwünschtheit, der Zuverlässigkeit der Skalen, der Bearbeitungszeit, der Länge der offenen Antworten sowie der Datenkonsistenz und -vollständigkeit. Es wurde demonstriert von T testet, dass die Crowdsourcing-Stichprobe eine signifikant höhere soziale Erwünschtheit aufwies (siehe Tabelle 4) . Es wurden keine signifikanten Unterschiede in Bezug auf die Bearbeitungszeit oder die Wortanzahl gefunden. Der Long String Index zeigte keine Unterschiede zwischen den Proben. Schließlich wurde ein ähnlicher Anteil von Fällen in jeder Stichprobe aufgrund von Unvollständigkeit oder Datenkonsistenz gekennzeichnet. Insgesamt deuten diese Informationen darauf hin, dass die Daten in der Crowdsourcing-Stichprobe von gleicher oder vielleicht sogar besserer Qualität waren, wenn auch etwas anfälliger für sozial erwünschte Antworten.

Forschungsfrage 3 betraf die Messinvarianz häufig verwendeter Skalen – nämlich Big-5-Maßnahmen für Persönlichkeit und Zielorientierung. Wie aus Tabelle 3 ersichtlich ist, funktionierten die meisten Items insgesamt tendenziell in allen Stichproben gleich, mit nur einem oder zwei DF-Items pro Skala. Ausnahmen von diesen allgemeinen Befunden waren die Skalen Offenheit (vier DF-Items) und Gewissenhaftigkeit (drei DF-Items). Items in diesen Skalen, die DF anzeigen, waren wie folgt: „bin voller Ideen“, „habe einen reichen Wortschatz“, „lese gerne anspruchsvollen Lesestoff“, „habe Schwierigkeiten, sich Dinge vorzustellen“, „erledige Hausarbeiten sofort, „bin anspruchsvoll“ in meiner Arbeit“ und „sich vor meinen Pflichten drücken“. Eine Untersuchung dieser Items legt nahe, dass Personen in der Crowdsourcing-Stichprobe mit mehr Berufserfahrung diese Items vernünftigerweise anders interpretieren könnten als diejenigen mit geringer Berufserfahrung. Im Gegensatz dazu ist nicht zu erwarten, dass Items wie „eher für liberale politische Kandidaten stimmen“ auf der Grundlage der Berufserfahrung in ihrer Interpretation variieren, und tatsächlich zeigten Items wie diese in der vorliegenden Studie keine DF an.

Trotz dieser statistisch signifikanten Unterschiede waren die DF-Effektstärken über alle Skalen hinweg recht klein. Für die Gewissenhaftigkeitsskala beispielsweise lag der mögliche Skalenwertbereich zwischen 17 und 56 (Bereich = 39). Die erwartete mittlere Differenz der beobachteten Werte zwischen den beiden Gruppen allein aufgrund von DF betrug jedoch 0,151, weniger als ein Fünftel eines Skalenpunktes von 39 möglichen. Die Effektstärken waren für die Skalen Offenheit und Verträglichkeit etwas höher, jedoch immer noch nicht besonders groß. Zum Beispiel zeigten die ETSSD-Indizes für die Offenheitsskala an, dass Unterschiede im Gruppenmittelwert voraussichtlich 0,065 . betragen würden SD allein aufgrund von DF in der Mechanical Turk-Probe höher.

Angesichts der minimalen Rolle von DF in den beobachteten Daten konnten wir Forschungsfrage 4 untersuchen, die mittlere Unterschiede in Bezug auf individuelle Unterschiede, einschließlich Persönlichkeit, Einstellungen und Computerkenntnisse/-erfahrung, betraf. Die Stichprobe von Mechanical Turk war signifikant höher in den Computer- und Internetkenntnissen. Die Mechanical Turk Stichprobe war auch höher in der Offenheit für Erfahrung und Lernzielorientierung und niedriger in der Extraversion (siehe Tabelle 2). Effektgrößen (D) waren nach den Kriterien von Cohen (1969) typischerweise klein. Bivariate Korrelationen nach Stichprobe sind in Abb. 1 dargestellt.

Forschungsfrage 5 schließlich befasste sich mit den primären Motivationen für die Teilnahme von Personen am Crowdsourcing. Die meisten Befragten gaben an, dass finanzielle Anreize der Hauptgrund für die Nutzung von Mechanical Turk waren, obwohl auch Bildungs- und Unterhaltungsvorteile aufgeführt wurden (siehe Tabelle 5). Die Mehrheit der Befragten bezeichnete sich selbst als Gelegenheitsnutzer, obwohl eine sehr kleine Untergruppe der Nutzer angab, mehr als 1.000 einzelne HITs abgeschlossen zu haben und mehr als 100 Stunden pro Monat auf der Website verbracht zu haben, was ihre Erfahrung einer Teilzeitbeschäftigung entspricht. Daher ist das finanzielle Element der Teilnahme am Crowdsourcing für die Nutzer wichtig, obwohl die Teilnahme immer noch freiwillig ist und die Attraktivität einer bestimmten Studie bei Teilnahmeentscheidungen möglicherweise mehr Gewicht hat als der genaue Dollarbetrag der Vergütung. Bei langen, aufwendigen oder sich wiederholenden Studien muss man die Teilnehmer möglicherweise zu einem höheren Satz entlohnen, während man bei spannenden und interessanten Studien die Teilnehmer möglicherweise etwas weniger bezahlen kann.

.80 jeweils für ihre Teilnahme. Diese Vergütungshöhe wurde in dem Bemühen gewählt, nahe am Median des Gehaltssatzes für HITs mit ähnlichen Zeitverpflichtungen zu liegen, die zum Zeitpunkt der Datenerhebung verfügbar waren, obwohl keine zentrale Datenbank existiert, um die wahre Verteilung der HIT-Vergütungsniveaus zu ermitteln. Tabelle 1 enthält demografische Informationen für jede Stichprobe, einschließlich Alter, Geschlecht, Nationalität, Standort, Beschäftigungsstatus, Betriebszugehörigkeit, Ausbildung und Beruf.

Verfahren

Mechanischer Türke

Es wurde eine HIT erstellt, die eine kurze Beschreibung der Studie und einen Link zu einer Online-Einwilligungserklärung und einem Fragebogen enthielt. Fußnote 1 Nach dem Ausfüllen des Fragebogens wurde dem Teilnehmer ein Ausfüllcode vorgelegt. Damit der Teilnehmer eine Entschädigung erhält, musste er den Abschlusscode auf der Mechanical Turk Website eingeben. Eine nützliche Funktion von Mechanical Turk ist, dass es eine Verwaltungsseite bietet, die Echtzeit-Einreichungsstatistiken und Abschlusscodes anzeigt. Nach Eingabe eines Abschlusscodes überprüfte und genehmigte der Experimentator den Code und schickte so automatisch eine Entschädigung auf das Konto des Teilnehmers. Diese Methode stellte sicher, dass identifizierende Informationen, die mit ihrer Worker-ID verbunden waren, nicht mit ihren Antworten verbunden waren.

Studenten

Die Studienbeschreibung wurde auf einer Universitätswebsite veröffentlicht, die vom Fachbereich Psychologie verwaltet wird, und die Sprache verwendet, die mit der des Mechanical Turk HIT identisch ist. Wie bei der Mechanical Turk-Stichprobe erledigten die Studenten ihre Arbeit mit einem Computer asynchron online von einem Ort ihrer Wahl aus. Teilnehmer, die sich nach dem Lesen der Studienbeschreibung für die Anmeldung entschieden hatten, erhielten einen HTML-Link zum Fragebogen und eine informierte Einwilligung. Um eine Kursgutschrift für die Teilnahme zu erhalten, gaben die Teilnehmer ihre E-Mail-Adresse über einen unabhängigen Fragebogenlink ein (d. h. E-Mail-Adressen wurden nicht mit ihren Antworten verknüpft).

Mittel

Eine Reihe von Maßnahmen wurde aufgrund ihrer weit verbreiteten Verwendung unter Organisationsforschern aufgenommen, während andere aufgrund ihrer Relevanz für frühere Forschungen zum Online-Umfrageverhalten aufgenommen wurden. Die Zuverlässigkeitsschätzungen wurden für jede Probe separat berechnet. Diese Informationen sind in Tabelle 2 aufgeführt. Sofern nicht anders angegeben, wurden die Antworten auf einer 5-Punkte-Skala mit Ankern von . gegeben entschieden widersprechen zu stimme voll und ganz zu.

Internet-Kenntnisse

Das Internet-Wissen wurde mit einer 13-Item-Skala von Potosky (2007) gemessen. Ein Beispielelement ist: "Ich bin mit HTML vertraut."

Computereinstellungen

Die Einstellung zu Computern wurde mit einer 19-Punkte-Skala von Garland und Noyes (2004) gemessen. Ein Beispielitem ist „Menschen, die Computer mögen, sind oft nicht sehr gesellig“ (umgekehrt codiert).

Computerkenntnisse und Erfahrung

Computerkenntnisse und -erfahrung wurden mit einer 12-Punkte-Skala von Potosky und Bobko (1998) gemessen. Ein Beispielelement ist: „Ich weiß, wie man gelöschte oder ‚verlorene Daten‘ auf einem Computer oder PC wiederherstellt.“

Zielorientierung

Lernzielorientierung, leistungsnachweisende Zielorientierung und leistungsvermeidende Zielorientierung (jeweils vier Items) wurden mit der Skala von VandeWalle (1997) gemessen.

Persönlichkeit

Extraversion, Verträglichkeit, Neurotizismus, Offenheit und Gewissenhaftigkeit (d. h. die Big 5) wurden mit jeweils 20 Items aus der Version des International Personality Item Pool (Goldberg, 1999) des NEO-PI–R gemessen.

Offene Fragen

Am Ende der Umfrage standen eine Reihe von offenen Fragen. Zu diesen Fragen gehörten: „Warum haben Sie an dieser Umfrage teilgenommen?“ „Was war das Beste/Schlechteste an dieser Umfrage?“ „Hätten Sie Interesse, an zukünftigen Studien zu diesem Thema teilzunehmen? Warum Warum nicht?"

Mechanische Turk-Erfahrung

Nur für die Mechanical Turk-Stichprobe wurden eine Reihe von offenen Fragen aufgenommen, um Erfahrung, Motivation und Nutzungsmuster für die Mechanical Turk-Website zu bewerten. Diese Fragen lauteten: „Wie haben Sie zum ersten Mal von Mechanical Turk gehört?“ „Wie viele HITs haben Sie abgeschlossen?“ „Wie lange verwenden Sie Mechanical Turk schon?“ „Wie viele Stunden pro Monat verbringen Sie mit Mechanical Turk?“ „Warum verwenden Sie Mechanical Turk?“ Die Antworten wurden nach Diskussion von zwei Bewertern inhaltlich kodiert, es gab keine Abweichungen in der Kodierung.

Demografische Maßnahmen

Wir haben auch mehrere demografische Fragen gestellt, wie Alter, Geschlecht, ethnische Zugehörigkeit, Nationalität, Bildungsstand, Beruf, Berufserfahrung und aktuelle Beschäftigungslage.

Reaktionsverhalten

Um zusätzliche Informationen über die Qualität der Antworten der einzelnen Stichproben zu erhalten, wurden mehrere Messungen des Umfrageverhaltens erhoben. Die Antwortzeit wurde als die Anzahl der Minuten bewertet, die für das Ausfüllen der Umfrage aufgewendet wurden, die anhand von Zeitstempeln bei Beginn und Abschluss der Umfrage berechnet wurde. Außerdem wurde die Länge der offenen Kommentare in Anzahl der Wörter bewertet, indem die Gesamtzahl der Wörter für alle offenen Antworten ermittelt wurde. Schließlich wurden Antworten zum Löschen gekennzeichnet, wenn die Befragten die Umfrage vor dem Abschluss beendeten oder wenn die Gesamtarbeitszeit an der Umfrage weniger als 10 Minuten betrug. Anschließend wurde der Anteil der gemeldeten Fälle berechnet.

Datenqualität

Übermäßige Antwortkonsistenz wurde durch die Auswahl eines Paars von Likertscale-Items bewertet, die gegensätzliche Antworten aufweisen sollten (d. h. psychometrische Antonyme Goldberg & Kilkowski, 1985): „fühlt sich selten blau an“ und „fühlt sich oft blau an“. Fälle wurden markiert, wenn ihre Antworten auf diese beiden Items identisch waren. Als nächstes wurden zufällige Antwortende identifiziert, indem ein Paar Likertscale-Items ausgewählt wurden, die ähnliche Antworten haben sollten: „Tue die Dinge nach einem Plan“ und „mache einen Plan und bleibe dabei“. Fälle wurden markiert, wenn ihre Antworten auf diese beiden Items mehr als 2 Punkte auseinander lagen. Der Gesamtanteil der Fälle, die nach einer der beiden Regeln gekennzeichnet waren, wurde dann berechnet. Schließlich wurde der Long String Index (Johnson, 2005) berechnet. Dieser Index misst die längste fortlaufende Reihe identischer Antworten für einen bestimmten Teilnehmer (z.

Soziale Erwünschtheit

Das sozial erwünschte Ansprechen wurde mit der 33-Item-Skala von Crowne und Marlowe (1960) mit einem wahr-falsch-Antwortformat gemessen. Beispielelemente sind: „Ich zögere nie, jemandem in Schwierigkeiten zu helfen“ und „Es gab Zeiten, in denen ich ziemlich eifersüchtig auf das Glück anderer war“ (umgekehrt). Hohe Werte auf dieser Skala zeigen den Wunsch an, „gut vorzutäuschen“ und auf gesellschaftlich erwünschte Fragen zu antworten, niedrige Werte bedeuten ehrlichere Antworten.

Waagenzuverlässigkeit

Der Cronbach-Koeffizient alpha wurde für jede Probe berechnet, um ein Maß für die interne Konsistenz zu erhalten. Die Unterschiede zwischen den Koeffizienten-Alpha-Werten zwischen den Stichproben wurden über eine Chi-Quadrat-Statistik verglichen, die von Feldt, Woodruff und Salih (1987) unter Verwendung des AlphaTest-Programms (Lautenschlager & Meade, 2008) beschrieben wurde.


Wie verwende ich Mechanical Turk für längere Studien (d. h. über 30 Minuten)? - Psychologie

Erfahrene Schwierigkeiten mit Schulaufgaben können bedeuten, dass die Aufgabe wichtig ist.

Diese Interpretation „kein Schmerz, kein Gewinn“ wird mit steigendem Bildungsniveau wahrscheinlicher.

Die Schüler können angeleitet werden, diese Interpretation zu berücksichtigen, und zwar zunehmend.

Gewissheit und Opferbereitschaft für akademische mögliche Identitäten.

Die Ablehnung der Vorstellung, dass erlebte Schwierigkeiten Unmöglichkeit bedeuten, funktioniert auch.


Einführung

Es wird erwartet, dass Robotisierung und künstliche Intelligenz (KI) Gesellschaften tiefgreifend verändern werden (Borenstein, 2011 Liu und Zawieska, 2017 Makridakis, 2017). Von Robotern und KI wird erwartet, dass sie menschenähnlicher werden und Aufgaben erledigen, die normalerweise von Einzelpersonen ausgeführt werden (Goetz et al., 2003, Frey und Osborne, 2017). Huanget al. (2019) argumentierten, dass es einen anhaltenden Wandel von der gegenwärtigen denkenden Ökonomie zu einer fühlenden Ökonomie gibt. Auf längere Sicht wird KI wahrscheinlich dazu beitragen, Aufgaben zu kommunizieren, zu interagieren und sich einzufühlen, die früher von Menschen ausgeführt wurden (Huang und Rust, 2018 Huang et al., 2019). Intelligente Chatbots sind bereits ein funktionierendes Beispiel für diesen Prozess.

Wir argumentieren, dass die Analyse des Vertrauens in die Beziehungen zwischen Mensch und Technologie wichtig ist, um den transformativen Wandel zu verstehen, den KI und soziale Roboter der neuen Generation mit sich bringen. Vertrauen ist für menschliche Interaktionen und menschliches Wohlergehen von wesentlicher Bedeutung, und ohne Vertrauen würden menschliche Gesellschaften nicht auf zivilisierte Weise funktionieren (Putnam, 2000 Cook, 2001 Uslaner, 2002 Hardin, 2005). Ebenso wichtig ist Vertrauen bei technologischen Begegnungen (Hancock et al., 2011 Sanders et al., 2011 Schaefer et al., 2016). Die vorhandene Literatur zeigt, dass Menschen eher bereit sind, neue Technologien wie Roboter zu akzeptieren, wenn sie Vorkenntnisse (Venkatesh, 2000 Nomura et al., 2006 Bartneck et al., 2007 Heerink et al., 2010) und Selbstwirksamkeit in Umgang mit ihnen (Hsu und Chiu, 2004 Hasan, 2006 Rahman et al., 2016 Latikka et al., 2019). Derzeit besteht Bedarf an Studien, die das Vertrauen in KI und Roboter untersuchen, insbesondere in Situationen der ersten Begegnung, in denen nur wenige Informationen über den anderen Akteur vorliegen.

Dieser Artikel berichtet über die Ergebnisse basierend auf einem Vertrauensspiel-Experiment mit Robotern und KI. Unser Ziel war es zunächst zu analysieren, ob Teilnehmer Robotern und KI weniger vertrauen als anderen, die nur Namen oder Spitznamen erhalten, aber nicht als Roboter oder KI bezeichnet werden. Darüber hinaus zielte unsere Studie darauf ab, zu untersuchen, wie Vertrauen in der Interaktion zwischen Mensch und Technik funktioniert, und berücksichtigt dabei verschiedene sozialpsychologische Faktoren wie die Selbstwirksamkeit und die Persönlichkeit von Robotern.

Vertrauen in die Interaktion zwischen Mensch und Technik

Vertrauen hat psychologische und soziologische Dimensionen. Aus der Entwicklungspsychologie wissen Forscher, dass Menschen grundlegendes Vertrauen zu ihren Nächsten aufbauen und ihnen später beigebracht wird zu verstehen, wie viel und wem sie vertrauen sollten (Simpson, 2007b Van Lange, 2015). In der Soziologie gilt Vertrauen als der soziale Klebstoff, der Menschen und Gutes in Gesellschaften zusammenbringt (Putnam, 2000 Uslaner, 2000 Rothstein und Uslaner, 2005 Bjørnskov, 2012).

Vertrauen kann unterteilt werden in Vertrauen in Personen, die einer Person nahe stehen (Familie, Freunde und Kollegen) und Vertrauen in Personen, die von Personen weiter entfernt sind (Personen im Allgemeinen oder Fremde). Unterscheidungen wie intimes versus abstraktes Vertrauen (Freitag und Traunmüller, 2009), dickes versus dünnes Vertrauen (Putnam, 2000) und partikularisiertes versus generalisiertes Vertrauen (Stolle, 2002, Uslaner, 2002) charakterisieren diese unterschiedlichen Vertrauensdimensionen. Intimes Vertrauen ist universell, während generalisiertes Vertrauen von den Umständen abhängt. In ihrer bahnbrechenden Arbeit zum Thema Vertrauen in der Automatisierung definierten Lee und See (2004) Vertrauen als die Einstellung, dass ein Agent dazu beiträgt, die Ziele eines Individuums in einer von Unsicherheit und Verletzlichkeit gekennzeichneten Situation zu erreichen ” (S. 51).

Fortschrittliche Technologien wie KI stellen aufgrund ihrer Intelligenz und möglicherweise verborgenen Motivationen komplexe Herausforderungen. Einfachen Maschinen vergangener Jahrzehnte konnte man damit trauen, dass sie wie erwartet funktionierten, aber intelligente Maschinen, wie neue Roboter oder andere KI-Lösungen, geben Anlass zur Sorge. Unter welcher Prämisse sollten die Menschen ihnen vertrauen? Wer hat sie programmiert? Was haben sie schon von den Menschen gelernt? Sind ihre Zwecke gut oder schlecht? Diese Fragen sind ein Grund dafür, dass die Ethik der KI derzeit intensiv diskutiert wird (Russell et al., 2015 Dignum, 2018 Winfield et al., 2019).Diese Diskussionen sind jedoch nichts Neues, da ähnliche Bedenken bereits vorgebracht wurden. Beispielsweise wurde vermutet, dass Computer negative Auswirkungen auf die Menschheit und die Gesellschaft haben (Simon, 1977), und es wurde tatsächlich festgestellt, dass sie bei einigen Angstzustände verursachen (Fari༚ et al., 1991).

Eine Literaturübersicht von Sanders et al. (2011) zeigten, dass Robotertyp, Funktionalität, Automatisierungsgrad und Persönlichkeit Einfluss darauf haben, wie ihnen vertraut wird: Menschen zeigen mehr Vertrauen, wenn ein Roboter wie erwartet aussieht und wenn bestimmte anthropomorphe Merkmale wie Gesten und emotionale Ausdrücke wahrscheinlich das Vertrauen erhöhen , sind inklusive. Außerdem wird die Roboterpersönlichkeit mit Vertrauen in Verbindung gebracht, und die Menschen neigen dazu, Robotern zu vertrauen, die sympathische Eigenschaften haben. Menschen vertrauten eher Robotern, die positivere Emotionen zeigten (Mathur und Reichling, 2016). In einem kürzlich durchgeführten Experiment galt ein Roboter, der sich für seinen Fehler entschuldigte, als sympathischer, aber als weniger fähig. Sympathie und wärmebasiertes Vertrauen wirkten sich positiv auf die Absicht aus, den Roboter wieder zu benutzen (Cameron et al., 2021).

Roboter werden typischerweise durch ihre physikalischen Eigenschaften definiert (siehe zum Beispiel International Organization for Standardization [ISO], 2014), aber KI kann über jeden technologischen Apparat funktionieren und ist versteckter und integrierter. Im Gegensatz zu physischen Robotern bezeichnet der Begriff Bot Online-Agenten und Softwareanwendungen, die ebenfalls KI nutzen und menschliche Interaktion simulieren können, beispielsweise intelligente Chatbots (z. B. Mitsuku und Alisa). Frühere Studien haben gezeigt, dass eine große Menge visueller Bilder von Robotern deren Wahrnehmung beeinflusst (Fortunati et al., 2015). Dies kann dazu führen, dass Vertrauen in KI abstrakter ist als Vertrauen in Roboter. Ein weiterer möglicher Einflussfaktor sind die Unterschiede zwischen der Darstellung fiktiver Roboter und der Gestaltung realer Roboter. Die Leute haben sich mit fiktiven Robotern wie R2-D2 und C3PO in vertraut gemacht Krieg der Sterne, und echte, wie Paro und Nao, die harmlose und haustierähnliche Erscheinungen verkörpern. Im Gegensatz dazu wird KI in populärer Fiktion oft als übergeordneter Operator dargestellt, wie zum Beispiel im Jahr 2001: Eine Odyssee im Weltraum von Stanley Kubrick und Her von Spike Jonze.

Studien zu Computerschnittstellen zeigen, dass Menschen Computerschnittstellen oft wie Menschen behandeln, insbesondere in der Forschung zum Paradigma Computer sind soziale Akteure (Reeves und Nass, 1996 Nass und Moon, 2000). Basierend auf Forschungen, die seit den 1990er Jahren durchgeführt wurden, scheint die Einführung vertrauter Merkmale in die Technologie entscheidend für den Erfolg von Computerschnittstellen zu sein, da die Menschen eher bereit sind, sich zu anderen hingezogen zu fühlen, die ihnen ähnlich sind (Reeves und Nass, 1996 Nass und Moon, 2000 Nass und Lee, 2001). Diese Ähnlichkeitshypothese wurde in der Sozialpsychologie vielfach getestet (Montoya und Horton, 2013).

Vertrauen hat immer einen sozialen und betrieblichen Kontext oder eine Umgebung. Wie sehr Menschen Technologien wie Robotern und KI vertrauen, hängt davon ab, wo sie eingesetzt werden. Vertrauen als Verhalten (B) ist eine Funktion einer Person (P) und ihrer Umgebung (E), einschließlich des zu vertrauenden Objekts, nach Levin, 1935, S. 73) klassische Gleichung von Faktoren, die das Verhalten erklären: B = F(P, E). Zum Beispiel können Menschen Serviceroboter in Krankenhäusern als vertrauenswürdig einstufen, wenn sie Krankenhäusern im Allgemeinen vertrauen. Auch situative und umweltbezogene Aspekte können das Vertrauen der Menschen beeinflussen. In manchen Situationen ist es jedoch für Menschen schwierig, die Absichten anderer Menschen zu beurteilen, die Roboter oder KI entwickelt haben. Diese Arten von Situationen können bei Personen auftreten, die online surfen und Chatbots oder andere Agenten treffen, die KI verwenden.

Abgesehen von den zuvor genannten roboterbezogenen Aspekten beeinflussen auch menschbezogene Faktoren das Ausmaß, in dem Menschen Robotern und KI vertrauen (Hancock et al., 2011 Schaefer et al., 2016). Ältere Menschen vertrauen Robotern und anderen automatisierten Prozessen weniger als jüngere Menschen (Hoff und Bashir, 2015). Scopelliti et al., Eurobarometer 2005, 2012 Zhang und Dafoe, 2019). Frühere Studien haben keine konsistenten Unterschiede zwischen den Geschlechtern in Bezug auf das Vertrauen gegenüber Robotern gefunden (Hoff und Bashir, 2015). Frauen zeigen jedoch tendenziell eine negativere Einstellung gegenüber Robotern und sind weniger bereit, mit Robotern zu arbeiten (De Graaf und Allouch, 2013 Reich und Eyssel, 2013 Reich-Stiebert und Eyssel, 2015).

Erwerbsstatus, Haushaltseinkommen und Bildungshintergrund sind Faktoren, die den Zugang und die Nutzung neuer Technologien durch Menschen bestimmen (Van Deursen und Van Dijk, 2014), und sie sind entscheidend damit verbunden, wie sehr Menschen anderen Menschen vertrauen (Delhey und Newton, 2003). ). Jüngste Forschungen zu Interaktionen zwischen Mensch und Technik haben gezeigt, dass die Einstellung der Menschen zu Robotern und KI je nach Beschäftigungsstatus und Haushaltseinkommen variiert (Gnambs und Appel, 2019, Zhang und Dafoe, 2019). Bildung und Interesse an Technologie sind ebenfalls wesentliche Faktoren für die Akzeptanz und das Vertrauen in neue Technologien (Heerink, 2011).

Die Selbstwirksamkeit der Roboternutzung hat potenzielle Auswirkungen auf das Vertrauen. Selbstwirksamkeit bezieht sich auf die Überzeugungen einer Person über ihre Fähigkeit, in einer bestimmten Situation oder Aufgabe zu funktionieren (Bandura, 1986, 1997) und wurde im Laufe der Geschichte des technologischen Fortschritts untersucht (Compeau und Higgins, 1995, Agarwal et al., 2000). Hasan, 2006 Rahman et al., 2016), einschließlich des Internets (Eastin und LaRose, 2000 Hsu und Chiu, 2004). Im Kontext der roboterbasierten Technologie wurde festgestellt, dass die Selbstwirksamkeit der Roboternutzung ein von der allgemeinen Selbstwirksamkeit getrenntes Konstrukt ist und die Akzeptanz von Robotern im Gesundheitswesen vorhersagt (Latikka et al., 2019 Turja et al., 2019).

Schließlich beeinflussen Persönlichkeitsmerkmale das Vertrauen und die Art und Weise, wie Menschen Technologie nutzen. Die Persönlichkeit beeinflusst beispielsweise, welche Art von Robotern Menschen sympathisch und vertrauenswürdig finden (Sanders et al., 2011 Correia et al., 2019). Derzeit wird das Fünf-Faktoren-Modell der Persönlichkeit (die Big Five) am häufigsten verwendet und akzeptiert (Digman, 1990, John et al., 2008). Studien zu Vertrauen und Persönlichkeit zeigen, dass hohe Verträglichkeit einen positiven Zusammenhang mit hohem zwischenmenschlichen Vertrauen hat (Mayer et al., 1995 Mooradian et al., 2006). Einige Hinweise deuten auch auf eine positive Korrelation zwischen Vertrauen und Offenheit hin (Kaplan et al., 2015). Persönlichkeit wurde in Studien zu Vertrauen und Technologie festgestellt, aber die Ergebnisse bleiben begrenzt (Hancock et al., 2011 Schaefer et al., 2016). Es gibt Hinweise darauf, dass Extrovertierte empfänglicher für Roboter sind und dass ein geringer Neurotizismus mit der Akzeptanz von Robotern verbunden ist (Robert, 2018). Eine andere Studie fand einen Zusammenhang zwischen erhöhtem Vertrauen in die Automatisierung und hoher Verträglichkeit bzw. Gewissenhaftigkeit (Chien et al., 2016).

Vertrauen messen mit einem Vertrauensspiel

Das Vertrauensspiel ist eine experimentelle Methode, Vertrauen als Anlageentscheidung zu messen. Es stammt aus dem Anlagespiel, das ursprünglich von Berg et al. (1995), in dem Vertrauen und Gegenseitigkeit in einer wirtschaftlichen Austauschbeziehung bewertet werden. Frühere Studien haben gezeigt, dass die Motivation von Menschen, Vertrauen zu erwidern, nicht nur durch die Maximierung persönlicher Ziele bestimmt wird, sondern auch durch die Berücksichtigung der Konsequenzen für sich selbst und andere (Fehr und Gintis, 2007 Van Den Bos et al., 2009). Beim Vertrauensspiel werden die Vertrauensfolgen konkret durch die Geldsumme bestimmt, die die Teilnehmer bereit sind aufzugeben (Berg et al., 1995 Evans und Revelle, 2008).

Die Literatur zur Vertrauensforschung umfasst viele Variationen des Vertrauensspiels (Trifletti und Capozza, 2011 Samson und Kostyszyn, 2015 Xin et al., 2016). Im Allgemeinen erhält der Spieler einen bestimmten Geldbetrag und wählt aus, wie viel davon an den Gegner gesendet wird. Das vom Gegner erhaltene Geld wird multipliziert und der Gegner kann entscheiden, das Geld zu behalten oder einen Teil oder alles zurückzugeben. Der gegebenenfalls überwiesene Geldbetrag misst die Anlageentscheidung, also das Vertrauensverhalten. In einem einfacheren Format erhält der Spieler einen bestimmten Geldbetrag und entscheidet, wie viel davon dem beschriebenen Gegner gegeben wird (Berg et al., 1995 Evans und Revelle, 2008).

Die Ergebnisse des Vertrauensspiels korrelieren nachweislich mit Vertrauen und beschränken sich daher nicht allein auf wirtschaftliche Entscheidungen (Dunning et al., 2012) oder altruistisches Verhalten (Brülhart und Usunier, 2011). Die Messung von Vertrauen wird jedoch breit diskutiert und in Frage gestellt, da Vertrauen so viele verschiedene Definitionen hat (Hardin, 2005). Das Vertrauensphänomen ist komplex und besteht aus drei bis vier Teilen, da A vertraut darauf, dass B X ist/macht, zu der Bedingung Z hinzugefügt werden kann. Das Ändern einer dieser Dimensionen kann sich auf das resultierende Vertrauen auswirken (Simpson, 2007a). Darüber hinaus gibt es auch ein Informationsparadoxon beim Vertrauen: Wenn Vertrauen einen Mangel an Informationen voraussetzt, basiert es auch auf Informationen (z ).

Vertrauen kann sich jedoch aus der erwarteten Gegenseitigkeit entwickeln (Ashraf et al., 2006). Gegenseitigkeit wird wiederum mehr erwartet, wenn die Hinweise auf die persönliche Identität vorhanden sind. Auf Gruppenebene wird Reziprozität mehr von Mitgliedern der Eigengruppe als von Mitgliedern der Fremdgruppe erwartet, wenn die soziale Identität hervorsticht (Tanis und Postmes, 2005). Die Verwendung des Vornamens einer Person als relativ minimales soziales Stichwort ermöglicht die Erzeugung positiver zwischenmenschlicher Eindrücke (Tanis und Postmes, 2003).

Das Vertrauensspiel ist an verschiedene Studien zu gesellschaftlichen und psychologischen Phänomenen, wie Nutzung und Vertrauen neuer Technologien, anpassbar. Das Vertrauensspiel wurde ursprünglich im Kontext von Anlageentscheidungen entwickelt (Berg et al., 1995), was die Perfektion seiner Passung auf andere Bereiche beschränkt. Darüber hinaus erfasst es als einmaliges Spiel für zwei Spieler möglicherweise nicht alle komplexen Dynamiken rund um die Vertrauensentscheidungen (Camerer, 2003, S. 85, Dunning et al., 2012). Vertrauen, das über Umfrageelemente gemessen wird, ist jedoch positiv mit der Investition von Geld in das Vertrauensspiel verbunden (Evans und Revelle, 2008). Das Vertrauensspiel ist unter Vertrauenswissenschaftlern beliebt (Johnson und Mislin, 2011) und nützlich für experimentelle Forschungsdesigns, die darauf abzielen, kontextuelle Variationen des Vertrauens in andere zu verstehen. Der Vorteil des Vertrauensspiels als Experiment besteht in der Messung des tatsächlichen Verhaltens, das einen relativ zuverlässigen Hinweis darauf geben kann, wie Menschen in einem realen Kontext funktionieren. Trotz früherer Studien zum Vertrauen in Technologien (Hancock et al., 2011, 2020 Schaefer et al., 2016) haben sich viele dieser Studien auf die Verwendung traditioneller Erhebungsmaße konzentriert (z. B. Yagoda und Gillan, 2012) und nur wenige Studien verwendet Experimente zur Untersuchung des Vertrauens in Technologien (z. B. Correia et al., 2016, 2019 Ferreira et al., 2016). Das Vertrauensspiel wurde bisher noch nicht verwendet, um das Vertrauen in Roboter und KI zu analysieren.

Diese Studie

Diese Studie testete, ob die Teilnehmer Robotern und KI vertrauen, und verwendete ein experimentelles Vertrauensspieldesign. Unsere Forschungsfrage lautete: Vertrauen die Teilnehmer Robotern oder KI weniger als Kontrollgruppenmitgliedern, die nicht als Roboter oder KI angegeben sind? Das Vertrauensspiel manipulierte die hypothetischen Gegner, die entweder als Roboter oder als KI beschrieben wurden. Diese wurden mit Kontrollgruppengegnern verglichen, die nur den menschlichen Namen oder Spitznamen verwendeten. Die Haupthypothesen der Studie wurden vor der Datenerhebung beim Open Science Framework vorregistriert (Oksanen et al., 2019).

Die Hypothesen basierten auf einer Ähnlichkeits-Anziehungs-Hypothese, die unterstreicht, dass Menschen eher zu ähnlichen Menschen hingezogen werden (Montoya und Horton, 2013). Basierend auf der vorhandenen Literatur erwarteten wir außerdem, dass die Teilnehmer Robotern und KI weniger Vertrauen entgegenbringen würden, da es sich immer noch um neue Technologien handelt und die Menschen nicht unbedingt mit ihrer Betriebslogik und ihren Absichten vertraut sind. Mit anderen Worten, unsere Hypothesen basieren auf Vertrauensforschungen, die zeigen, dass Menschen mehr Vertrauen in Dinge zeigen, mit denen sie vertraut sind (Gefen, 2000 Hancock et al., 2011). Ursprünglich wurden in der Hypothesenvorregistrierung die Gegner der Kontrollgruppe als Menschen angegeben, aber wir haben dies auf eine nicht spezifizierte Kontrollgruppe aktualisiert, um der Tatsache Rechnung zu tragen, dass die wachsende Relevanz verschiedener KI-Agenten auch dazu führen könnte, dass die Gegner der Kontrollgruppe als nicht menschlich interpretiert werden. Unsere Hypothesen lauten dann wie folgt:

H1: Die Befragten vertrauen Roboter-Gegnern weniger als Kontroll-Gegnern, die weder als Mensch noch als Nicht-Mensch angegeben sind.

H2: Die Befragten vertrauen KI-Gegnern weniger als Kontrollgegnern, die weder als Mensch noch als Nicht-Mensch angegeben sind.

H3: Die Befragten vertrauen Gegnern mit einem menschlichen Namen mehr als Gegnern mit einem Spitznamen.

Der zweite Teil der Analyse konzentrierte sich auf die Untersuchung der Korrelationen des im Vertrauensspiel ausgedrückten Vertrauens. Ziel war es, individuelle Unterschiede im Vertrauen von Robotern und KI zu analysieren. Wir erwarteten, dass Technologiebildung (H4), Roboterexposition online (H5) und Selbstwirksamkeit der Roboternutzung (H6) ein höheres Vertrauen in Roboter und KI vorhersagen würden. Diese basierten im Allgemeinen auf Vertrauensstudien, die zeigen, dass Vertrauen auf persönlichen sozialen Interaktionserfahrungen beruht (Van Lange, 2015) und empirischen Evidenz zum Vertrauen gegenüber Technologie, Automatisierung und Robotern (Hancock et al., 2011 Schaefer et al., 2016). . Darüber hinaus erwarteten wir (H7), dass Persönlichkeitsmerkmale wie Verträglichkeit, Gewissenhaftigkeit, Offenheit und Extraversion eine positive Beziehung haben und dass Neurotizismus eine negative Beziehung zum Vertrauen gegenüber Robotern und KI haben würde (Mayer et al., 1995 Mooradian et al., 2006 Kaplan et al., 2015 Chien et al., 2016 Robert, 2018).


Abstrakt

Einführung

Amazons Mechanical Turk (MTurk) wird häufig verwendet, um gesundheitsbezogene Umfragen und Experimente zu geringen Kosten durchzuführen, aber über seine Repräsentativität in Bezug auf Gesundheitszustand und Verhaltensweisen ist wenig bekannt.

Methoden

2016 wurden 591 MTurk-Arbeiter und 393 Meister einer Querschnittserhebung mit Fragen des national repräsentativen Verhaltensrisikofaktor-Surveillance-Systems 2014 (BRFSS) und der nationalen Gesundheits- und Ernährungsuntersuchungserhebung 2014 (NHANES) unterzogen. Depression, BMI und allgemeiner Gesundheitszustand), Gesundheitsverhalten (Influenza-Impfung, Krankenversicherung, Rauchen und körperliche Aktivität) und demografische Merkmale der beiden MTurk-Populationen (Arbeiter und Meister) wurden miteinander verglichen und mithilfe der Poisson-Regression zu eine national repräsentative BRFSS- und NHANES-Proben.

Ergebnisse

Die Demografie von Arbeitern und Meistern war ähnlich. MTurk-Nutzer waren im Vergleich zur nationalen Stichprobe mit höherer Wahrscheinlichkeit unter 50 Jahre alt (86 % vs. 55 %) und schlossen eher einen Hochschulabschluss ab als die nationale Stichprobe (50 % vs. 26 %). Unter Berücksichtigung der Kovariaten war die Wahrscheinlichkeit, dass MTurk-Anwender gegen Grippe geimpft wurden, rauchten, Asthma hatten, nach eigenen Angaben einen ausgezeichneten oder sehr guten Gesundheitszustand hatten, Sport trieben und krankenversichert waren, aber mehr als doppelt so häufig positiv getestet Depression im Vergleich zu einer nationalen Stichprobe. Die Ergebnisse waren zwischen den verschiedenen Altersgruppen ziemlich konsistent.

Schlussfolgerungen

MTurk-Arbeiter sind in Bezug auf ihren Gesundheitszustand keine verallgemeinerbare Bevölkerungsgruppe und Verhaltensabweichungen folgten keinem Trend. Geeignete gesundheitsbezogene Verwendungen für MTurk und Möglichkeiten zur Verbesserung der Generalisierbarkeit von MTurk-Gesundheitsstudien werden vorgeschlagen.

Zitat: Walters K, Christakis DA, Wright DR (2018) Sind die Arbeiterproben von Mechanical Turk repräsentativ für den Gesundheitszustand und das Gesundheitsverhalten in den USA? PLoS ONE 13(6): e0198835. https://doi.org/10.1371/journal.pone.0198835

Editor: Arsham Alamian, East Tennessee State University, VEREINIGTE STAATEN

Empfangen: 5. Dezember 2017 Akzeptiert: 25. Mai 2018 Veröffentlicht: 7. Juni 2018

Urheberrechte ©: © 2018 Walters et al. Dies ist ein Open-Access-Artikel, der unter den Bedingungen der Creative Commons Attribution License vertrieben wird und die uneingeschränkte Verwendung, Verbreitung und Reproduktion in jedem Medium gestattet, sofern der ursprüngliche Autor und die Quelle angegeben werden.

Datenverfügbarkeit: Die im Rahmen dieser Studie erhobenen Primärdaten sind im Harvard Dataverse (https://dataverse.harvard.edu/, DOI:10.7910/DVN/I7U3GT) öffentlich zugänglich.

Finanzierung: Finanzielle Unterstützung für diese Studie wurde durch ein Stipendium des Seattle Children’s Research Institute bereitgestellt. Die Geldgeber spielten keine Rolle beim Studiendesign, der Datenerhebung und -analyse, der Entscheidung zur Veröffentlichung oder der Erstellung des Manuskripts. Die Autoren haben keine für diesen Artikel relevanten finanziellen Beziehungen offenzulegen.

Konkurrierende Interessen: Die Autoren haben erklärt, dass keine konkurrierenden Interessen bestehen.