Information

Ist die Zuordnung von Schallfrequenzen zur vertikalen Achse universell?

Ist die Zuordnung von Schallfrequenzen zur vertikalen Achse universell?

Schrille Töne werden als "hoch" bezeichnet und Rumpeln als "tief". Menschen scheinen die Frequenz metaphorisch auf die vertikale Achse abzubilden, und in den Kulturen, die ich kenne, wird eine hohe Frequenz als "oben" angesehen.

  • Ist das ein universelles Phänomen? Gibt es Kulturen, die das verkehrt herum abbilden oder ganz anders? (Zum Beispiel neigen kleinere Objekte dazu, höhere Tonhöhen zu erzeugen. Gibt es Kulturen, die sagen, dass eine Tonhöhe "klein" statt "hoch" ist?)
  • Ist diese Konvention älter als das wissenschaftliche Verständnis von Schallwellen?
  • Wenn es universell (oder fast so) ist, gibt es eine neurologische Festverdrahtung, die diese Zuordnung verursachen würde?

Menschen nehmen technisch gesehen keine Frequenzen wahr, sie nehmen Tonhöhen wahr. Laut Wikipedia:

das Idiom, das die vertikale Höhe mit der Tonhöhe in Beziehung setzt, wird von den meisten Sprachen geteilt.

unter Berufung auf einen Artikel von Pratt aus dem Jahr 1930, der wiederum sagt:

Stumpf hat herausgefunden, dass Adjektive, die hoch und niedrig bedeuten (oder Wörter, die in ihrer Bedeutung eng verwandt sind) in fast jeder bekannten Sprache auf Töne angewendet wurden.[2] Aber warum sollten Töne als hoch oder tief charakterisiert werden? Beziehen sich diese Merkmale auf Unterschiede in der räumlichen Höhe und Tiefe? Diese zweite Frage wurde fast ausnahmslos verneint. Ein hoher Ton bedeutet nicht einen Ton, der im Raum hoch ist. Die Phrase ist lediglich figurativ und muss in Bezug auf sekundäre Kriterien berücksichtigt werden, wie z. B. die scheinbare Lokalisation von hohen Stimmtönen im Kopf und tiefen in der Brust. Der Komponist Berlioz macht sich über solche Erklärungen lustig und erinnert seine Leser daran, dass hohe und tiefe Töne für den Pianisten in der horizontalen Richtung von rechts und links liegen und dass der Violoncellist nach unten greifen muss, um hohe Töne zu erzeugen, und schlägt vor, dass Opernkomponisten, die absteigende Passagen für eine herabstürzende Person haben dummerweise den willkürlichen Abwärtscharakter der gedruckten Noten auf dem Notensystem auf die Töne übertragen. Und doch fühlte sich Stumpf, überzeugt davon, dass es keine intrinsische Höhe und Tiefe in Tönen geben kann, zu der Behauptung gezwungen, dass hier wieder ein seltsam dunkler und schwer fassbarer assoziativer Mechanismus am Werk war. Sogar Wundt war gezwungen, Stumpf zuzustimmen, wenn er diese Begriffe metaphorisch nannte, wenn sie auf Töne angewendet wurden [3], und die meisten Psychologen, die sich mit der Sache beschäftigt haben, haben ähnliche Ansichten geäußert [4].

[2]: C. Stumpf, Tonpsychologie, 1883, I, 192 ff.

[3]: W. Wundt, Grundzüge der physiologischen Psychologie, 1910, 11, 78.

[4]: J. Redfield, Music: a Science and an Art, 1928, 42 ff.

Alle diese Quellen sind leider ziemlich veraltet.

Es gibt jedoch einige neuere Papiere dazu; z.B. Fernandez-Prieto et al. (2017), die solche Aussagen qualifizieren, z. B.:

Höhere Frequenzen und lautere Töne sind mit höheren Positionen verbunden, während niedrigere Frequenzen und leisere Töne mit niedrigeren Positionen verbunden sind. Im Englischen werden „high“ und „low“ verwendet, um Tonhöhe, Lautstärke und räumliche Vertikalität zu kennzeichnen. Im Gegensatz dazu werden auf Katalanisch und Spanisch bevorzugt unterschiedliche Wörter für Tonhöhe (hoch: „agut/agudo“; tief: „greu/grave“) und für Lautheit/Vertikalität (hoch: „alt/alto“; tief:“ verwendet. baix/bajo"). So unterscheiden sich Englisch und Katalanisch/Spanisch in der räumlichen Konnotation der Tonhöhe. Um den Einfluss der Sprache auf diese modalen Assoziationen zu analysieren, wurde eine Aufgabe durchgeführt, bei der Englisch- und Spanisch-/Katalanischsprachige beurteilen mussten, ob ein Ton höher oder niedriger (in Tonhöhe oder Lautstärke) als ein Referenzton war. Die Antwortknöpfe befanden sich an kreuzmodal kongruenten oder inkongruenten Positionen in Bezug auf den Sondenton. Crossmodale Korrespondenzen wurden in beiden Sprachgruppen nachgewiesen. Englischsprachige Personen zeigten jedoch größere Auswirkungen auf die Tonhöhe, was auf einen Einfluss des sprachlichen Hintergrunds hindeutet.

Sie zitieren auch eine ältere Übersichtsarbeit (Cassanto, 2013), die eine ähnliche Studie (mitverfasst von Cassanto) über Niederländisch vs. Farsi hervorhebt:

Wie im Englischen beschreibt das Niederländische Tonhöhen als „hoch“ (hoog) oder „niedrig“ (laag), aber dies ist nicht die einzige mögliche räumliche Metapher für Tonhöhe. Auf Farsi sind hohe Töne „dünn“ (nāzok) und tiefe Töne „dick“ (koloft). Die Leistung niederländischer und Farsi-Sprecher bei nicht-linguistischen Tonhöhenreproduktionsaufgaben spiegelt diese linguistischen Unterschiede wider (Dolscheid, Shayan, Majid und Casasanto 2013). Die Teilnehmer wurden gebeten, die Tonhöhe von Tönen zu reproduzieren, die sie in Gegenwart irrelevanter räumlicher Informationen hörten: Linien, die in ihrer Höhe (Höheninterferenzaufgabe) oder ihrer Dicke (Dickeninterferenzaufgabe) variierten. Die Tonhöhenschätzungen niederländischer Sprecher zeigten stärkere dimensionale Interferenzen aus der räumlichen Höhe und Farsi-Sprecher aus der Dicke der visuell präsentierten Reize. Dieser Effekt wurde nicht durch Unterschiede in der Genauigkeit oder in der musikalischen Ausbildung erklärt. Wenn sie 20 bis 30 Minuten lang trainiert wurden, mit Farsi-ähnlichen Metaphern über Tonhöhen zu sprechen (z. Erfahrungen mit der einen oder anderen Art von räumlichen Metaphern in der Sprache können einen kausalen Einfluss auf nichtsprachliche Tonhöhendarstellungen haben. […]

Kleinkinder im Alter von vier Monaten reagieren empfindlich auf die Höhen-Pitch-Mapping, die bei niederländischsprachigen Erwachsenen (aber nicht bei Farsi-sprechenden Erwachsenen) gefunden werden, und auch auf die Dicke-Pitch-Mapping, das bei Farsi-sprechenden Erwachsenen (aber nicht auf Niederländisch) gefunden wird -sprechende Erwachsene; Dolscheid, Hunnius, Casasanto und Majid 2012). Es besteht daher keine Notwendigkeit zu postulieren, dass die Verwendung linguistischer Metaphern dazu führt, dass Menschen diese Zuordnungen de novo konstruieren.

Ein etwas ähnliches Papier über Säuglinge, vielleicht mit stärkeren Behauptungen, stammt von Walker et al., 2010:

Die Stimulation einer sensorischen Modalität kann Wahrnehmungserfahrungen in einer anderen Modalität induzieren, die synästhetische Korrespondenzen zwischen verschiedenen Dimensionen der sensorischen Erfahrung widerspiegeln. Bei der visuellen Hör-Synästhesie zum Beispiel induzieren höhere Töne visuelle Bilder, die heller, kleiner, höher im Raum und schärfer sind als diejenigen, die durch tiefere Töne hervorgerufen werden. Behauptungen, die Neugeborenenwahrnehmung sei synästhetisch, implizieren, dass solche Korrespondenzen ein ungelernter Aspekt der Wahrnehmung sind. Bisher waren die jüngsten Kinder, bei denen solche Korrespondenzen mit Sicherheit bestätigt wurden, 2- bis 3-Jährige. Wir untersuchten das bevorzugte Suchen, um die Sensibilität von 3 bis 4 Monate alten präverbalen Säuglingen für die Entsprechungen zu beurteilen, die die akustische Tonhöhe mit der visuell-räumlichen Höhe und der visuellen Schärfe verbinden. Die Säuglinge schauten länger auf eine sich ändernde visuelle Darstellung, wenn diese von einem Geräusch begleitet wurde, dessen sich ändernde Tonhöhe mit diesen Entsprechungen eher deckungsgleich als inkongruent war. Dies ist der bisher stärkste Hinweis darauf, dass synästhetische modalitätsübergreifende Korrespondenzen ein ungelernter Aspekt der Wahrnehmung sind.

Cassanto und Kollegen entwickeln auch eine Hierarchical Mental Metaphers Theory (HMMT), nach der

korrelative mentale Metaphern entwickeln sich in zwei Stadien, von denen die zweite sich über das ganze Leben erstrecken kann. Die mentalen Metaphern, die Erwachsene normalerweise verwenden, sind spezifische Beispiele für allgemeinere Familien von Zuordnungen. Diese Familien können sich von Kindheit an im Verhalten zeigen und spiegeln Regelmäßigkeiten in den Erfahrungen der Menschen mit der physischen und sozialen Welt wider, von denen viele universell sein können. Da Kinder besonderen Aspekten ihrer Sprache, Kultur oder sogar ihres eigenen Körpers ausgesetzt sind, werden bestimmte Zuordnungen aus einer gegebenen Quell-Ziel-Familie durch wiederholte Verwendung verstärkt, was als Konsequenz die „Geschwister“-Zuordnungen schwächt. Die Folge ist, dass Menschen dazu neigen, in sprachspezifischen, kulturspezifischen oder körperspezifischen mentalen Metaphern zu denken: Relativität entsteht aus Universalien. […]

Eine Vorhersage von HMMT ist, dass spezifische Quell-Ziel-Mappings durch linguistisches Training leicht zu aktivieren sein sollten, solange sie Mitglieder einer der Familien von Quell-Ziel-Mappings sind, die in unserem Geist (über phylogenetische oder ontogenetische Zeit) auf der Grundlage von . kodiert sind beobachtbare Quell-Ziel-Korrespondenzen in der Welt. Mappings, die nicht Mitglieder einer vorlinguistisch etablierten Familie sind (und die Korrelationen unserer Erfahrung nach nicht widerspiegeln), sollten durch Training relativ schwer zu aktivieren sein, da diese Mappings erstellt und nicht nur verstärkt werden müssten.

In einem Test dieser Vorhersage wurden Niederländischsprachige darauf trainiert, eine Dicken-Tonhöhen-Abbildung zu verwenden, die das Gegenteil der Abbildung ist, die auf Farsi und in der natürlichen Welt gefunden wird: dünn = niedrig und dick = hoch. Diese „umgekehrt-Farsi“-geschulten Teilnehmer erhielten die gleiche Schulung wie die Teilnehmer, die in der Farsi-ähnlichen Kartierung trainiert wurden. Während ein Farsi-ähnliches Training einen signifikanten Einfluss auf die nichtsprachlichen Tonhöhenrepräsentationen der Teilnehmer hatte, hatte das Reverse-Farsi-Training keinen Einfluss (Dolscheid et al. 2013). Kurze sprachliche Erfahrungen veranlassten die Teilnehmer daher, das Dicken-Tonhöhen-Mapping zu verwenden, das die Korrelationen zwischen Dicke und Tonhöhe in der Welt widerspiegelt (und bei vorlinguistischen Säuglingen offensichtlich ist). Dennoch war die gleiche Menge an linguistischer Erfahrung nicht effektiv bei der Einführung der entgegengesetzten Dicken-Tonhöhen-Abbildung, die keine offensichtlichen Erfahrungskorrelate hat und daher nicht zu den vorsprachlich etablierten Raum-Tonhöhen-Abbildungen gehört.

Das bezieht sich auf das gleiche Papier wie das erste Zitat im vorherigen Zitat. Seltsamerweise ist dieses Experiment nicht in der Zusammenfassung der Arbeit zusammengefasst, sondern erscheint in der Arbeit (als Experiment 4). Cassanto hat auch ein kostenloses PDF dieses Papiers.

Ein PNAS-Papier aus dem Jahr 2014 von Parise et al. schlägt vor, dass die tiefe-hohe-Metapher eine natürliche Grundlage in der Erhebung der Quellen solcher Geräusche in der Natur hat.


Was ist ein Klangspektrum?

Ein Klangspektrum zeigt die verschiedenen Frequenzen an, die in einem Klang vorhanden sind.

Die meisten Klänge bestehen aus einer komplizierten Mischung von Schwingungen. (Eine Einführung in Klang und Schwingungen finden Sie im Dokument "Wie Holzblasinstrumente funktionieren".) Wenn Sie dies im Internet lesen, können Sie wahrscheinlich das Geräusch des Lüfters in Ihrem Computer hören, vielleicht das Geräusch des Windes draußen, das Verkehrslärm - oder vielleicht läuft im Hintergrund Musik, in diesem Fall gibt es eine Mischung aus hohen und tiefen Tönen und einigen Klängen (wie Trommelschlägen und Beckencrashs), die keine klare Tonhöhe haben.

EIN Klangspektrum ist eine Darstellung eines Klangs &ndash normalerweise ein kurzes Sample eines Klangs &ndash in Bezug auf die Vibrationsstärke bei jeder einzelnen Frequenz. Es wird normalerweise als Diagramm der Leistung oder des Drucks als Funktion der Frequenz dargestellt. Die Leistung oder der Druck wird normalerweise in Dezibel gemessen und die Frequenz wird in Schwingungen pro Sekunde (oder Hertz, Abkürzung Hz) oder Tausenden von Schwingungen pro Sekunde (Kilohertz, Abkürzung kHz) gemessen. Sie können sich das Klangspektrum als Klangrezept vorstellen: Nehmen Sie diesen Anteil dieser Frequenz, addieren Sie diesen Anteil dieser Frequenz usw., bis Sie den ganzen, komplizierten Klang zusammengesetzt haben.

  • ein Mikrofon, das den Schalldruck über ein bestimmtes Zeitintervall misst,
  • einen Analog-Digital-Umsetzer, der dies als Funktion der Zeit in eine Zahlenfolge (die die Mikrofonspannung repräsentiert) umwandelt, und
  • ein Computer, der eine Berechnung auf diesen Zahlen durchführt.

In dieser Abbildung sind die beiden oberen Zahlen Spektren, die über die ersten und letzten 0,3 Sekunden der Tondatei aufgenommen wurden. Das Spektrogramm (untere Abbildung) zeigt die Zeit auf der x-Achse, die Frequenz auf der vertikalen Achse und den Schallpegel (auf einer Dezibel-Skala) in Falschfarben (blau ist schwach, rot ist stark). Beobachten Sie in den Spektren die Harmonischen, die als gleichmäßig verteilte Komponenten (vertikale Linien) erscheinen. Im Spektrogramm erscheinen die Harmonischen als horizontale Linien. In diesem Beispiel ändert sich die Tonhöhe nicht, sodass die Frequenzen der Spektrallinien konstant sind. Allerdings nimmt die Leistung jeder Harmonischen mit der Zeit zu, so dass der Klang lauter wird. Die höheren Obertöne nehmen stärker zu als die tieferen, wodurch die Klangfarbe „messingreicher“ oder heller und auch lauter wird.

Spektren und Harmonische

Wenn Sie versucht haben, das Spektrum einer Musiknote zu betrachten, oder wenn Sie sich eines der Klangspektren auf unseren Webseiten angesehen haben, werden Sie feststellen, dass sie nur eine geringe Anzahl von markanten Komponenten bei einem speziellen Frequenzsatz aufweisen. Hier ist ein Klangspektrum für den auf einer Flöte gespielten Ton G4 (von unserer Seite über Flötenakustik), was praktisch ist, da die Tonhöhe dieses Tons ungefähr einer Frequenz von 400 Hz entspricht, was für ungefähre Berechnungen eine runde Zahl ist.

Das Klangspektrum der Flöte, die diese Note spielt, hat eine Reihe von Spitzen bei Frequenzen von

400 Hz 800 Hz 1200 Hz 1600 Hz 2000 Hz 2400 Hz usw., was wir schreiben können als:

wobei f = 400 Hz ist der grundlegend Schwingungsfrequenz der Luft in der Flöte, und wobei n eine ganze Zahl ist.

Diese Reihe von Frequenzen wird die harmonische Reihe genannt, deren musikalische Bedeutung in "The Science of Music" ausführlich diskutiert wird. Die einzelnen Komponenten mit Frequenzen nf heißen Obertöne des Hinweises.

Die Grundfrequenz von G4 beträgt 400 Hz. Dies bedeutet, dass die Luft in der Flöte mit einem Muster vibriert, das sich 400 Mal pro Sekunde oder einmal alle 1/400 Sekunden wiederholt. Dieses Zeitintervall – die Zeit, die vergeht, bis sich eine Schwingung wiederholt – wird als bezeichnet Zeitraum und es erhält das Symbol T. Hier ist die Frequenz f = 400 Zyklen pro Sekunde (ungefähr) und die Periode T = 1/400 Sekunde. Mit anderen Worten

wobei T die Periode in Sekunden und f die Frequenz in Hertz ist. In der Akustik ist zu beachten, dass diese Gleichung auch für die Frequenz in kHz und die Periode in ms funktioniert.

Wenn wir uns den Klang einer G4-Stimmgabel ansehen würden, würden wir feststellen, dass sie (ca.) 400 Mal pro Sekunde vibriert. Seine Schwingung ist besonders einfach und erzeugt ein glattes Sinuswellenmuster in der Luft, und sein Spektrum hat nur einen wesentlichen Spitzenwert bei (ungefähr) 400 Hz. Sie wissen, dass Flöte und Stimmgabel unterschiedlich klingen: Sie unterscheiden sich unter anderem dadurch, dass sie ein anderes Schwingungsmuster und ein anderes Spektrum haben. Kommen wir also zurück zum Spektrum der Flötennote und der harmonischen Reihe. Dies ist ein harmonisches Spektrum, das eine besondere Eigenschaft hat, die wir nun untersuchen werden.

Betrachten Sie die Obertöne der Flötennote bei

Die Perioden, die diesen Spektralkomponenten entsprechen, sind unter Verwendung der oben angegebenen Gleichung:

Betrachten Sie die zweite Harmonische mit der Frequenz 2f. In einem Zyklus der Grundschwingung (der eine Zeit T braucht) hat die zweite Harmonische Exakt genug Zeit für zwei Vibrationen. Die dritte Harmonische hat genau genug Zeit für drei Schwingungen und die n-te Harmonische hat genau genug Zeit für n Schwingungen. Somit sind am Ende der Zeit T alle diese Schwingungen 'bereit', genau im Schritt wieder zu beginnen. Daraus folgt, dass jede Kombination von Schwingungen, deren Frequenzen aus der harmonischen Reihe bestehen (d. h. mit f, 2f, 3f, 4f, . nf), sich nach einer Zeit T = 1/f genau wiederholen wird. Die harmonische Reihe ist besonders, weil jede Kombination ihrer Schwingungen eine periodische oder wiederholte Schwingung mit der Grundfrequenz f erzeugt. Dies wird im Beispiel unten gezeigt.

Vorher verlassen wir dieses Beispiel jedoch, schauen wir mal zwischen die Obertöne. In beiden oben gezeigten Beispielen ist das Spektrum eine kontinuierliche Linie ungleich Null, sodass bei praktisch allen Frequenzen Schallleistung vorhanden ist. Bei der Flöte ist dies der gehauchte oder windige Klang, der einen wichtigen Teil des charakteristischen Klangs des Instruments ausmacht. In diesen Beispielen ist diese Breitbandkomponente im Spektrum viel schwächer als die harmonischen Komponenten. Wir werden uns im Folgenden auf die harmonischen Komponenten konzentrieren, aber auch die Breitbandkomponenten sind wichtig.

Ein Beispiel für ein harmonisches Spektrum: die Sägezahnwelle

Die ersten sechs Obertöne einer Sägezahnwelle klangen nacheinander.

Wenn Sie ein komplexes Spektrum hören, das eine Harmonische nach der anderen aufgebaut hat, können Sie die einzelnen „Noten“ im „Akkord“ deutlich hören. Möglicherweise können Sie auch die Obertöne in einer gehaltenen Note hören. Wenn Sie jedoch eine Reihe von Tönen hören, von denen jede mehrere Obertöne enthält, hören Sie jede aufeinanderfolgende Note als Einheit, und es ist viel schwieriger, die einzelnen Obertöne zu unterscheiden. Dies wird im folgenden Beispiel demonstriert. Die erste Note der Melodie wird sequentiell synthetisiert, wobei die Obertöne im obigen Beispiel verwendet werden.

Sequentielle Synthese mit den ersten sechs Harmonischen, dann eine Melodie mit diesem Spektrum.

Das Spektrum kann als Rezept für die gesamte Wellenform betrachtet werden: Nehmen Sie so viel (a1) der Frequenz f, so viel (a2) der Frequenz 2f. plus so viel (Aan) der Frequenz nf. , und fügen Sie sie zusammen. (Für eine Schallwelle könnte die vertikale Achse in all diesen Diagrammen der Schalldruck p sein.) (Wenn Sie ein Organist sind, werden Sie mit diesem Prinzip vertraut sein. Das Hinzufügen dieser Obertöne klingt ähnlich wie die Kopplung von Orgelpfeifen 16', 8', 5,33', 4', 3,2' und 2,67' Flöten zu koppeln und dann eine Melodie zu spielen, würden Sie fast den gleichen Effekt erhalten.) In diesem Beispiel haben wir alle Komponenten in Phase hinzugefügt (beginnend mit gleich null). Dies ist ein Sonderfall und im Allgemeinen würde die Phasenkonstante bei jeder Frequenz auch einen Teil des Spektrums ausmachen.

Das soeben gezeigte Ergebnis ist (grob gesagt) eine Seite eines vom französischen Mathematiker Fourier bewiesenen Satzes. Er zeigte, dass es auch in die andere Richtung gilt: Eine wiederholte Schwingung mit der Grundfrequenz f kann immer aus einer Kombination von Schwingungen mit den harmonischen Frequenzen f, 2f, 3f, 4f, . nf).

  • Zunächst zeigen wir nur die Spektren bis 4 kHz für tiefe Töne und 8 kHz für hohe. Sobald die Noten also die obere halbe Oktave der Flöte (C7 und höher) erreichen, sind die vierte und höhere Harmonische bereits außerhalb der Skala.
  • Zweitens werden Sie in einigen Noten einige "Subharmonische" sehen. Schauen Sie sich zum Beispiel das Klangspektrum der Note E6 an, die ohne den "Split E"-Mechanismus gespielt wird. Die starke Spitze bei ungefähr 1320 Hz ist die Grundschwingung für E6, und Sie können die starken Spitzen für das 2-fache, 3-fache, 4-fache und 5-fache dieser Frequenz sehen. Alles wie erwartet, aber Sie werden auch einige schwächere Spitzen bei 440 Hz und 880 Hz bemerken, entsprechend den Noten A4 und A5.

Warum hören wir diese Note also nicht als A4, mit einer besonders starken 3. Harmonischen? Denken Sie daran, dass die vertikale Skala in Dezibel angegeben ist. Die beiden Subharmonischen liegen 41 und 45 dB unter der Komponente bei 1320 Hz, sodass die Subharmonischen weniger als 0,01% der Leistung der Grundwelle haben. (Wenn die Frequenz unter 1000 Hz fällt, nimmt die Empfindlichkeit des menschlichen Ohrs mit der Frequenz im Bereich unter 1000 Hz erheblich ab, was auch den Beitrag verringert, den wir möglicherweise von den Niederfrequenzkomponenten hören.)

Wenn Sie sich das Spektrum der Flötenimpedanz für diesen Griff (insbesondere für die Flöte ohne geteilten E-Mechanismus) ansehen, werden Sie sehen, warum: Die Flöte hat Impedanzminima bei 440, 880, 1320 und einigen anderen Frequenzen und ist daher schwierig akustische Kraft in die Flöte zu bringen, ohne diese anderen Schwingungen zumindest ein wenig anzuregen. (Dies schafft auch andere Probleme für Flötisten. Siehe Warum ist die akustische Impedanz wichtig?)

Das gleiche gilt für das unterste Register einer Klarinette (das Chalumeau-Register), aber nicht für höhere Register, aus Gründen, die mit den Tonlöchern zu tun haben. Dies wird in "Klarinettenakustik" diskutiert.

Schließlich, ein wichtiger Vorbehalt. Einführende Lehrbücher in die Physik erwecken manchmal den Eindruck, dass das Spektrum der dominierende Beitrag zur Klangfarbe eines Instruments ist und dass bestimmte Spektren für bestimmte Instrumente charakteristisch sind. Mit Ausnahme der oben erwähnten geschlossenen Rohre ist dies sehr irreführend. Zu den Spektren verschiedener Instrumente können einige sehr allgemeine oder vage Bemerkungen gemacht werden, aber es ist nicht möglich, ein harmonisches Spektrum zu betrachten und zu sagen, von welchem ​​​​Instrument es stammt. Außerdem ist es durchaus möglich, dass ähnliche Spektren von Instrumenten erzeugt werden, die nicht sehr ähnlich klingen. Wenn man zum Beispiel eine von einer Geige gespielte Note nimmt und sie so filtert, dass ihr Spektrum mit einem bestimmten Spektrum für eine Trompete, die dieselbe Note spielt, identisch ist, würde die gefilterte Violinennote immer noch wie eine Geige klingen, nicht wie eine Trompete .


Der vorliegende Beitrag hat zum Ziel, die konzeptionelle Struktur der Literaturästhetik aufzuklären. In Anlehnung an Fechners „Ästhetik von unten“ (1876) und in Anlehnung an eine Methode von Jacobsen, Buchta, Kohler und Schroeger (2004) haben wir 1544 deutschsprachige Forschungen befragt Die Teilnehmer sollen Adjektive auflisten, mit denen sie ästhetische Dimensionen der Literatur im Allgemeinen und einzelner literarischer Formen und Genres im Besonderen (Romane, Kurzgeschichten, Gedichte, Theaterstücke, Komödien) bezeichnen. Nach unseren Analysen zu Häufigkeit, mittlerem Listenrang und dem Cognitive Salience Index wunderschönen und spannend Rang in allen Zielkategorien am höchsten. Für Theaterstücke/Komödien, komisch und traurig erwiesen sich als die relevantesten Begriffe für Romane und Kurzgeschichten, spannend, interessant und romantisch und für Poesie romantisch, zusammen mit den musikbezogenen Begriffen harmonisch, rhythmisch, und melodiös. Ein Vergleich unserer Ergebnisse mit analogen Studien zur visuellen Ästhetik und Musik ergab eine umfassende Karte der Verteilung der ästhetischen Reizdimensionen über Sinnesmodalitäten und ästhetische Domänen, wobei Poesie und Musik die größten Überschneidungen aufweisen.

Christine A. Knoop ist Senior Research Fellow am Max-Planck-Institut für empirische Ästhetik (MPIAE) in Frankfurt. Sie hat einen Ph.D. in Vergleichender Literaturwissenschaft vom University College London und lehrte und forschte an der UCL und der Freien Universität Berlin, bevor sie an das MPIAE kam. Ihre Forschungsschwerpunkte sind experimentelle Ansätze zur Literaturästhetik, ästhetische Emotion und Autorentheorien.

Valentin Wagner ist Senior Research Fellow am Max-Planck-Institut für empirische Ästhetik in Frankfurt. Er hat einen Ph.D. in Psychologie (Universität Leipzig, Deutschland) und arbeitet in den Bereichen Sprachpsychologie, Emotionspsychologie und empirische Ästhetik.

Thomas Jacobsen ist Professor für Experimentelle und Biologische Psychologie an der Helmut-Schmidt-Universität/UniBw Hamburg. Seinen Abschluss in Psychologie (Diplom-Psychologe) erhielt er 1994 an der Freien Universität Berlin. Er war Gastwissenschaftler in Cognitive Neuroscience an der UCSD und Doktorand am MPI für Cognitive Neuroscience. Er promovierte im Jahr 2000 in Psychologie an der Universität Leipzig. Dort wurde er Assistant Professor und nach seiner Habilitation 2004 Associate Professor. Er war Gastprofessor an der Universität Wien und der Freien Universität Berlin. 2009 trat er seine jetzige Professur für Psychologie in Hamburg an.


Diskussion

In der alltäglichen Wahrnehmung stehen wir vor der Herausforderung, multiple und oft inkongruente Hinweise zu integrieren. Ein Paradebeispiel ist die Integration von inkongruenten akustischen Tonhöhenhinweisen zur Größe und zur räumlichen Lage, wobei hohe Tonhöhen auf „mehr“ für die räumliche Höhe, aber auf „weniger“ für Masse und Größe abgebildet werden (Eitan & Timmers, 2010). Hier haben wir untersucht, wie die Stimmlage (abgesenkt vs. angehoben), die räumliche Lage der Schallquelle (hoch vs. tief, links vs. rechts) und die räumliche Lage des Hörers (Kopfhöhe) zusammenwirken, um Größeneinschätzungen zu beeinflussen. Anstatt tonale Tonhöhen zu verwenden, manipulierten wir die Tonhöhen von Männer- und Frauenstimmen und nutzten eine ökologisch relevante Aufgabe der Körpergrößenschätzung.

Zusammenfassung der Ergebnisse

Experiment 1 zeigte, dass Hörer, unabhängig vom Geschlecht der Stimme, vertikal niedrige räumliche Positionen mit physischer Größe assoziierten, wenn sie Stimmen mit abgesenkter Tonhöhe bewerteten, nicht jedoch bei der Bewertung derselben Stimmen, die in der Tonhöhe angehoben wurden. Im Gegensatz dazu verbanden Hörer horizontal rechtsgerichtete räumliche Positionen mit der Größe für alle Stimmen, sowohl für die tieferen als auch für die angehobenen (Abb. 2). Diese Ergebnisse deuten darauf hin, dass tiefere Stimmen, die tief und nahe an der Erde projiziert werden, als zu größeren Menschen gehörend wahrgenommen wurden. Diese Entsprechung zwischen niedrig und groß entstand trotz der a priori Wahrscheinlichkeit für Menschen (im Gegensatz zu nichtmenschlichen Objekten siehe Parise et al., 2014), dass die Stimme eines größeren Individuums immer projizieren relativ höher im Raum als das kleinere Individuum, wenn zwei Individuen stehen. Fußnote 2

Dieses Schlüsselergebnis wurde in Experiment 2 repliziert, in dem eine andere Gruppe von Teilnehmern eine analoge Aufgabe entweder im Sitzen (wie in Experiment 1) oder im Stehen erledigte. Auch hier assoziierten Hörer unabhängig vom Geschlecht einer Stimme und unabhängig von der Kopfhöhe des Hörers relativ zur Schallquelle wieder vertikal tiefe räumliche Hinweise mit einer Größe eher für tiefere als für angehobene Stimmen (Abb. 3). Daher scheint sich insbesondere die Frequenz-Höhen-Zuordnung für menschliche Stimmen nicht aus der Beobachtung statistischer Gesetzmäßigkeiten zu ergeben, die niederfrequente Geräusche mit erdnahen Objekten verbinden, wie dies häufig bei nicht-vokalen Geräuschen der Fall ist (Parise et al., 2014). .

Die Ergebnisse von Experiment 2 zeigten ferner, dass Hörer horizontal rechtsgerichtete räumliche Positionen mit einer Größe eher für tiefere als für angehobene Stimmen assoziierten. Dieser Effekt wurde sowohl für Männer- als auch für Frauenstimmen gefunden, und zwar sowohl im Sitzen als auch im Stehen. Experiment 2 zeigte jedoch, dass die Kopferhöhung einige Aspekte der Größenschätzung beeinflussen kann. Nur im Stehen schätzten Hörer Männerstimmen als größer ein als Frauenstimmen, wenn die Stimmen aus einem niedrigen Raum projiziert wurden. Dies dürfte nicht daran gelegen haben, dass die Stimmen von Männern typischerweise niedriger sind als die von Frauen, da wir diesen Effekt dann in Experiment 1 und beim Sitzen der Teilnehmer erwartet hätten. Wir vermuten, dass hier möglicherweise soziale Konstrukte höherer Ebene im Spiel sind (z. B. die von Carney et al., 2010, Fessler &. Holbrook, 2013). Experiment 2 zeigte auch einen stärkeren Zusammenhang zwischen den nach rechts gerichteten räumlichen Hinweisen und der Größe bei tieferen Stimmen als bei angehobenen Stimmen, wenn die Zuhörer im Stehen statt im Sitzen standen (Abb. 3).

Interpretation und Implikationen

Unsere Ergebnisse bauen auf dem klassischen Pratt-Effekt (Pratt, 1930) auf und zeigen, dass die Tonhöhe die vertikale Höhenwahrnehmung nicht nur bei einer direkten Schalllokalisierungsaufgabe beeinflusst (zB Bregman & Steiger, 1980 Morimoto & Aokata, 1984 Roffler & Butler, 1968 Trimble, 1934 ), sondern auch in einer indirekten räumlichen Aufgabe mit Größenschätzung. Unsere Ergebnisse legen nahe, dass die modale Korrespondenz zwischen tiefe Tonlage und Größe ist relativ stärker als die inkongruente Korrespondenz zwischen geringe räumliche Lage und Kleinheit. Obwohl die Verbindung tiefer Tonlage mit geringem Raum zu Fehlern bei der Körpergrößenschätzung führen kann (Menschen mit tiefen Stimmen sind im Allgemeinen größer als Menschen mit hohen Stimmen und sprechen nicht mit dem Kopf tief zur Erde), tut unsere Studie dies nicht widerlegen notwendigerweise die Hypothese, dass Frequenz-Höhen-Mapping in einem breiteren Kontext funktional adaptiv ist (Parise, Knorre & Ernst, 2014 Stumpf, 1883 Walker et al., 2010). Tatsächlich kann die Abbildung von hohen Tönen auf hohe räumliche Orte auf die Statistiken natürlicher Hörszenen abgestimmt werden (siehe Parise et al., 2014). Daher scheint das Frequenz-Höhen-Mapping im Allgemeinen adaptiv zu sein, obwohl es für die Beurteilung der menschlichen Körpergröße nicht nützlich ist.

Unsere war die erste Studie, die einen Links-Rechts-Bias bei der Größenwahrnehmung und eine potenzielle Interaktion zwischen horizontalen räumlichen Hinweisen und der Tonhöhe bei Größenurteilen untersuchte. Hörer assoziierten das Recht durchweg mit großer Größe, und in Experiment 2 war diese Assoziation bei tieferen Stimmen am stärksten. Schätzungen der horizontalen Größe können semantische oder numerische Codierung widerspiegeln. Zum Beispiel sind große Zahlen mit nach rechts gerichteten Reaktionen bei verschiedenen kognitiven Aufgaben verbunden (Campbell & Scheepers, 2015 Dehaene et al., 1993 Dehaene et al., 2015 Shaki et al., 2009 Wood et al., 2008). Die in Experiment 2 beobachteten Wechselwirkungen zwischen der Kopferhöhung (stehend oder sitzend) und der Manipulation der Stimmlage legen jedoch nahe, dass unsere Ergebnisse nicht das Ergebnis einer einfachen numerischen Größenzuordnung sind. Tatsächlich gibt es keine a-priori-Vorhersage, dass die Zahlenreihenfolge die Größenbeurteilung unterschiedlich beeinflussen würde, wenn Personen sitzen oder stehen, oder bei der Beurteilung von tieferen oder erhöhten Stimmen. Darüber hinaus verwendeten die Teilnehmer einen Nummernblock, um die Körpergröße anzugeben, auf der die Anordnung der Ziffern weder auf- noch absteigend war, sondern in der Reihenfolge 7–8–9 (obere Reihe), 4–5–6 (mittlere Reihe), und 1–2–3 (untere Reihe). Wären unsere experimentellen Ergebnisse lediglich auf numerischen Mappings zurückzuführen, hätten wir auch erwartet, dass Töne aus dem tiefen Lautsprecher kleiner bewertet würden als Töne aus dem hohen Lautsprecher, da die kleinsten Zahlen auf der Tastatur am niedrigsten und die größten Zahlen am höchsten waren Tastenfeld. Dies geschah nicht. Daher ist eine weitere interessante Möglichkeit, dass die rechts-große Korrespondenz eine hemisphärische Spezialisierung widerspiegelt, die sich durch Erfahrung entwickelt. Dies wird durch Hinweise auf umgekehrte horizontale Verzerrungen bei Menschen aus Kulturen, die von rechts nach links lesen (Maass & Russo, 2003) und bei Klavierspielern (Stewart et al., 2004) unterstützt.

In Experiment 2 führten die Teilnehmer die Aufgabe zur Größenschätzung entweder im Sitzen oder im Stehen durch. Dies führte zu einer Asymmetrie im räumlichen Paradigma, die es uns ermöglichte, auf Interaktionen zwischen den horizontalen und vertikalen Verzerrungen der Zuhörer zu testen (im Stehen waren Stimmen, die von der hohen Lautsprecherposition projiziert wurden, nun näher am Kopf des Zuhörers als Stimmen, die von der tiefen Position projiziert wurden Lautsprecher). Wir konnten auch den Beitrag von selbstreferentiellen Elevationshinweisen zur Einschätzung der Körpergröße durch die Zuhörer untersuchen. Wir fanden heraus, dass diese Asymmetrie keinen Einfluss auf die Größenschätzungen der Zuhörer entlang der vertikalen Ebene hatte. Somit zeigen die Ergebnisse von Experiment 2, dass die Wechselwirkung zwischen niedriger Tonhöhe und niedriger Höhe bei der Größenwahrnehmung robust ist, unbeeinflusst von der Kopfhöhe des Hörers oder dem relativen Grad der räumlichen Tiefe. Carnevale und Harris (2016) fanden in ähnlicher Weise keinen Effekt von tonhöhenbasierten auditiven räumlichen Hinweisen auf die Wahrnehmung der aufrechten Orientierung der Menschen, wenn sie im Liegen statt im Sitzen waren. Wir argumentieren, dass die Unempfindlichkeit modaler Tonhöhenkorrespondenzen gegenüber Veränderungen der Kopfposition Beweise dafür liefert, dass die vertikale Korrespondenz ein gewisses Maß an kognitiver Verarbeitung auf höherer Ebene beinhaltet und die allgemeine Allgegenwart von Tonhöhen-Größen- und Frequenz-Höhen-Korrespondenzen unterstützt (Parise, 2016). Im Gegensatz dazu war die Interaktion von niedriger Neigung und rechter räumlicher Lage bei der Größeneinschätzung im Stehen stärker als im Sitzen. Wenn die Teilnehmer standen und nicht saßen, stammten von rechts projizierte Stimmen aus einer niedrigen räumlichen Position relativ zum Kopf des Teilnehmers (d. h. rechts und tief, anstatt genau rechts). Thus, when standing, the perceptual biases linking low pitch to both low and rightward spatial locations may have additively combined to exaggerate listeners’ size estimates along the horizontal plane. The independent “low is large” and “right is large” biases observed in our study may therefore have an addictive effect on size perception that is similar to the orthogonal (stimulus–response compatibility Cho & Proctor, 2003) effects in spatial location tasks.

The results of Experiment 2 also showed stronger associations between low elevation and large size for assessments of men’s than of women’s voices however, this only occurred when raters were standing. Although listeners may associate vertically low spatial cues with physical largeness more for men’s than for women’s voices because men’s voices are almost twice as low in pitch (Titze, 1989)—and may be more readily associated with dominance and masculinity, which often map onto perceptions of body size (Pisanski, Mishra, & Rendall, 2012)—this cannot explain why this association was only present when participants were standing. One possibility is that standing introduces an added social dimension to body size estimation—for instance, related to dominance. Indeed, Fessler and Holbrook (2013) showed that visual estimates of men’s body size are also sensitive to the body position of the rater (i.e., men are visually assessed as taller by raters who are strapped to a chair).

In both Experiments 1 and 2, experimentally lowering voice pitch affected size estimates more than did raising pitch, indicating an asymmetry in pitch–size correspondences. Past studies had also reported strong perceptual associations between low pitch and low elevation, but weak or no associations between high pitch and high elevation (Eitan & Granot, 2006 Eitan & Timmers, 2010). This provides additional support in refutation of the directional symmetry hypothesis (Eitan & Granot, 2006), and suggests that low frequencies may elicit stronger crossmodal correspondences than do high frequencies. This pitch asymmetry also suggests that our findings cannot be explained by low-level interactions (e.g., that low-pitched sounds transmit better from lower than from higher space Morton, 1977).

Einschränkungen und zukünftige Richtungen

When using manipulated vocal stimuli, most studies, including the present study, have asked participants to assess the body size of speakers on “largeness,” without biasing listeners to focus on either height or weight (e.g., Charlton et al., 2013 Rendall et al., 2007). This is of course also the case for studies examining pitch–size mapping more broadly—for instance, between tones and inanimate objects (Parise, 2016, for a review), for which a height/weight distinction is less sensible. Measuring assessments of largeness rather than of height or weight allows for comparisons between these two literatures however, it also poses the possibility that the different participants in our study relied on different markers of size (e.g., height, weight, or a combination of the two) to gauge the largeness of speakers. Although this possibility cannot explain our findings, which were based on within-participant variation in size judgments across conditions, future studies may examine whether the reported effects of voice pitch and spatial location on body size perception are magnified when participants are specifically instructed to estimate a person’s physical height (i.e., a direct verticality judgment).

Among humans and many other mammals, body size is more reliably communicated by vocal-tract resonances (formant frequencies) than by voice pitch (Pisanski, Fraccaro, Tigue, O’Connor, Röder, et al., 2014). Previous work has shown that both low pitch and low formants are independently associated with perceptions of large size, but that they also interact in complex ways that affect size estimation (Feinberg, Jones, DeBruine, O’Connor, Tigue, & Borak, 2011 Pisanski, Fraccaro, Tigue, O’Connor, & Feinberg, 2014 Smith & Patterson, 2005). For instance, although pitch is only weakly related to body size among same-sex adults, low voice pitch increases the spectral density of a vocal signal and the saliency of formant frequencies, making it easier for listeners to estimate body size (Charlton et al., 2013 Pisanski et al., 2014). Future work may examine whether formant frequencies and voice pitch elicit similar frequency–elevation mappings, and whether spatial cues affect formant-based size estimation.

We did not record the musical training of participants. Although it is unclear how musical training might affect the mapping of pitch and spatial cues in the estimation of physical size, musical expertise is known to affect the spatial mapping of pitch along both the vertical and horizontal axes (see Lega, Cattaneo, Merabet, Vecchi, & Cucchi, 2014). Future studies may therefore test whether musical experience affects pitch and/or spatial cues to body size. Studies could also test whether there are differences between musicians who play instruments for which left is low (such as the piano and guitar) versus instruments for which left is high (such as the flute and French horn). Similarly, for the vertical axis, differences may emerge between musicians who play the sitar and contrabass, for whom low frequencies are played by fingering at higher elevations, and musicians who play the clarinet or saxophone, for whom low frequencies are played by fingering at lower elevations. Replication studies may also include additional measures, such as reaction time analyses, handedness analysis, and brain imaging, that could allow for a more comprehensive understanding of the mechanisms driving pitch–size–space correspondences.


Originaler Forschungsartikel

Lluis L. Trulla 1 , Nicola Di Stefano 2* and Alessandro Giuliani 3
  • 1 Centre de Recerca Puig Rodó, Girona, Spain
  • 2 Institute of Philosophy of Scientific and Technological Practice and Laboratory of Developmental Neuroscience, Università Campus Bio-Medico di Roma, Rome, Italy
  • 3 Environment and Health Department, National Institute of Health, Rome, Italy

In sixth century BC, Pythagoras discovered the mathematical foundation of musical consonance and dissonance. When auditory frequencies in small-integer ratios are combined, the result is a harmonious perception. In contrast, most frequency combinations result in audible, off-centered by-products labeled �ting” or “roughness” these are reported by most listeners to sound dissonant. In this paper, we consider second-order beats, a kind of beating recognized as a product of neural processing, and demonstrate that the data-driven approach of Recurrence Quantification Analysis (RQA) allows for the reconstruction of the order in which interval ratios are ranked in music theory and harmony. We take advantage of computer-generated sounds containing all intervals over the span of an octave. To visualize second-order beats, we use a glissando from the unison to the octave. This procedure produces a profile of recurrence values that correspond to subsequent epochs along the original signal. We find that the higher recurrence peaks exactly match the epochs corresponding to just intonation frequency ratios. This result indicates a link between consonance and the dynamical features of the signal. Our findings integrate a new element into the existing theoretical models of consonance, thus providing a computational account of consonance in terms of dynamical systems theory. Finally, as it considers general features of acoustic signals, the present approach demonstrates a universal aspect of consonance and dissonance perception and provides a simple mathematical tool that could serve as a common framework for further neuro-psychological and music theory research.


Author response

First, rather than using data from the full range of stimulated frequencies for calculating gradients, the lowest two frequencies are subtracted from the highest, and the signed difference is plotted. On visual comparison of the full dataset (Abbildung 1, bottom Figur 3) and high–low contrast maps (Figures 1 and 2, top), the latter appear to differ in the position/extent of the higher–frequency AM regions. For instance, the medial 'high' AM rate patch in M1 and M2 in the high minus low map has a more anterior center of gravity than in the 6–frequency map (which includes all of the data). This is particular pronounced in M1, where it considerably more anterior and lateral in the left hemisphere.

We appreciate the specific interest in the “best rate/frequency” maps, and the gradient calculations that are derived from this method of representation. These maps provide additional, and to some degree complementary, information on the local preference to the mapped stimulus features compared to contrast maps. Furthermore, the “best frequency” approach is common in previous literature, and is the best approach to demonstrate tonotopic mapping in neurons with narrow tuning similar to that in the ascending pathway. For these reasons we provided both types of maps in the previously submitted version of the article and we are happy to provide an additional gradient analysis for the best frequency/rate approach in the current manuscript. As we highlighted in the modified text of the manuscript (last paragraph in the Results section), the results of this additional analysis generally agrees with the previous analysis based on contrast maps (see also Supplementary file 1).

However, we feel it is important to counter the impression that the best frequency/rate approach is more precise or more accurate than the contrast approach. In fact, our own experience, supported by increasing evidence from independent studies, suggests the opposite when the response of neuronal mass activity is mapped as in the case of the BOLD effect. Data from tonotopy studies show that at the level of MRI voxels containing 100,000 neurons the tuning curve is relatively broad and the peak response difference for distinct frequencies, particularly in the area of the middle frequencies, is small while the differences in the slopes of the tuning curves in more extreme frequency values is preserved (see also Langers et al., 2014). The reason for this effect is probably the heterogeneity of local frequency tuning of neighbouring neurons, which is particularly pronounced in middle frequencies (see Aschauer et al., 2014 for work in rodent: although a different species the basic phenomenon of tonotopic mapping is remarkably preserved across mammalian species and a similar organisation would explain data such as those of Langers). In the previously submitted iteration of this manuscript to eLife we have shown that the response to amplitude modulation rate shows similarly broad tuning curves. Thus, the contrast maps for frequency and amplitude modulation rate are more robust and show less inter-individual variability than the best frequency responses.

In the case of the gradient analysis the best frequency/rate approach has a further disadvantage. While the contrast response provides a continuous distribution of preference values, the best frequency/rate maps only contain six discreet values. Hence, a regression analysis is inherently less precise, particularly in areas, such as the belt, where the response is dominated by a single frequency/rate. This leads to lower correlation and less significance of the individual gradients and higher variability across subjects. For these reasons we decided to provide the results for the best frequency/rate gradient analysis in Supplementary file 1 and not in the main section of the manuscript. However, the main gradients for A1 are displayed on the best frequency/rate maps in Figures 1 and 2 similar to the gradients for the contrast maps.

Additionally, we added the following text to the end of the Results part

“Due to their sparse, non-parametric nature, the best rate/frequency maps are less suited for gradient analysis. Furthermore, in some belt fields that feature a single best frequency, no gradient can be specified. However, for comparison, we provided a respective gradient analysis of the best rate/frequency for the fields with a defined gradient in Supplementary file 1 and the gradients for A1 are highlighted on the respective maps in Figure 1 and Figure 2. In most cases, the calculated gradient directions in core areas differ little from the analysis based on the contrast maps. The resulting relative angles are also similar with means closer to 110° in core areas (108.5 ± 42.1° for A1, 112.0 ± 55.1° for R). However, the correlation values (r2), p values and the variance across animals and hemispheres are clearly worse, which can be attributed to the sparse nature of the data. This is particularly true for the posterior belt field CL.”

Second, the single illustrated gradient direction is strongly contingent upon the definition of the auditory field boundaries. The boundaries are based entirely on borders derived from a combination of the high–low tonotopy contrast maps with an a priori model of auditory field subdivisions based on the Hackett summary schematic. In looking at the figures, I suspect even slight changes to the shape and size of the borders would change the direction quite a lot. Also, it is not clear that the mean gradient is necessarily reflective of the local one if the isofrequency lines are highly curved, which they seem to be in several cases.

The main message we convey in this article is the discovery of a systematic, concentric organisation of amplitude modulation rate and its relationship to the previously identified tonotopy gradient. This finding is most obvious from the repeated pattern across two hemispheres and three animals in the maps provided in Figures 1 and 2. However, this finding is difficult to quantify as a whole. Thus we decided to test the general pattern and its relationship to tonotopy in generally accepted auditory fields for which the suggested scheme provides precise, testable hypotheses.

We believe that the applied method to define the borders of these widely accepted auditory fields is the best that is currently available. We apologise for not updating our methods paper describing the technique in macaques that is now published (Joly et al., 2014 Frontiers in Neuroscience): the areal mapping distinguishes core and belt based on T1/T2 ratio. While we do not deny that the definition of the borders has some influence on the precise direction of the gradients in these fields, such a change would have no influence on the gradual representation of decreasing amplitude modulation rate as you move away from A1 (the most striking finding in this study) nor its general relationship to the tonotopy gradient.

In the Introduction section:orthogonal topographical maps.'Orthogonal' is quite strong, 'non–parallel' or non–aligned would be more accurate I think.

We have qualified the description in the manuscript (e.g. “approximately orthogonal”). However, we prefer orthogonal to non-parallel or non-aligned because: 1) it not only refers to a directional relationship but also to the idea that this process maps distinct stimulus dimensions irrespective of the exact relative gradient direction, and 2) non-parallel or non-aligned could mean anything but parallel (e.g. could refer to both a ten degree and a five degree relative angle), and is thus not very helpful in describing the finding. While we admit that the identified gradients in the core areas are not precisely perpendicular, this could neither be expected in a biological sample nor would it be necessary to be functionally relevant.

Incidentally, the expression in the Introduction section that the reviewer highlighted is a direct citation that refers to two previous articles.

In the Introduction it is strange (to say the least) not to cite the two published human fMRI studies that have tested amplitude modulation mapping (e.g., Barton et al., and Herdener et al.), especially when the following statement is made at the end of the second paragraph in the Introduction section:However, as in humans, no clear topographical organisation of modulation rate across different auditory fields has been demonstrated in non–human primates.”

We agree and thank the reviewer for improving the balance of our exposition. We now also include citations to the two mentioned studies in the Introduction, in addition to the subsequent text as previously: “While earlier fMRI studies in humans (Giraud et al., 2000 Schonwiesner and Zatorre, 2009 Overath et al., 2012) reported robust responses to a range of amplitude modulated sounds, but no systematic organisation of rate, two more recent studies suggested an orthogonal relationship of frequency and rate in areas homologue to non-human primate auditory core (Herdener et al., 2013) and beyond (Barton et al., 2012). Electrophysiology studies in non-human primates have shown tuning of individual neurons to different modulation rates and suggest a tendency for neurons in primary fields to prefer faster rates than neurons in field higher up the hierarchy (Bieser and Muller-Preuss, 1996 Liang et al., 2002): see also (Joris et al., 2004). However, no clear topographical organisation of modulation rate across different auditory fields has been demonstrated in non-human primates.”

In the beginning of the Results section: Until later in the paper, it is unclear how auditory field borders are being identified. Even then it is unclear how A1/R/RT are defined given the multiple frequency reversals and bands evident in the more complete frequency maps from the 'phase–encoded' experiment.

At this point, it was intended to refer to a methods paper (Joly et al., 2014) that was about to appear at the time of the resubmission. We failed to update the manuscript when the paper with a detailed description of the applied procedure was published just before the resubmission. A brief description of the adaption of the previous procedure and the respective reference are now included in the revised version in the Results and in the Methods.

Also in the beginning of the Results section:This directional change of the frequency gradient axis across the core fields, which is often overlooked, is of particular relevance for the relationship of temporal and spectral gradients in these fields (see Discussion).I found this section here and above difficult to follow because it heavily relies on co–reading the Baumann et al. review paper in Frontiers.

We agree that the organisational features that are highlighted in this paragraph are difficult to appreciate without referring to recent findings that are summarised in Baumann et al. (2013). A considerable number of recent high resolution imaging studies that describe tonotopic maps in human and non-human primates provide a more complete but also a more complex view of the tonotopic organisation in primates than previous schemes. In the previous version of the manuscript, we provided a summary of these results in a schematic representation in Figure 4 to avoid the necessity to consult the mentioned review and other cited literature but for validation of provided schemata. By slightly rearranging the paragraph and by highlighting the schemata in Figure 4 at the beginning we hope to improve the structure of this paragraph.

General methods: the AM rates span a very wide range, including ones (128 and 512Hz) that might induce pitch percepts (Burns and Viemeister, 1981, and others). The authors might want to discuss this possibility and how their results would or would not square with this interpretation. My feeling—particularly given the lack of apparent selectivity for 512Hz AM and the often smooth progression of isofrequency contours from 128Hz to 32Hz to 8 Hz—is that it is having a minimal effect if any, but other readers may have a different opinion.

It is true that stimuli with periodicities above about 30 Hz onwards are the pitch range of humans as well as of macaques as we recently showed behaviourally (Joly et al., 2014 Frontiers in Perception Science). However, the AM stimuli with noise carrier that we used in this study only elicit a very weak pitch percept. Furthermore, we are currently preparing a manuscript that is describing the response to more salient pitch stimuli with similar rates in the auditory cortex of macaques. Interestingly, the response pattern is considerably different in that case, providing further evidence that the pattern described here is not due to pitch. The response to periodic stimuli with rates above the lower limit of pitch (∼30 HZ) occurs in a region abutting but outside of A1 (see also Griffiths and Hall, J Neurosci, 2012 for case of regular interval noise—we have examined harmonic stimuli since), which is a different pattern to the one here where high rates are represented within A1.

We are not asking you for new experiments to comply, but wish you to see it for your own edification.

In my opinion, the weakest part of the paper is the discussion about the implications of the study. It would have been of great value to test the bold signal with some complex sounds, in particular monkey vocalizations. This is because the main hypothesis here is the existence of a functional map that represents periodic information that might be useful to preserve relevant behavioral cues. Even when mapping requires well controlled unidimensional variables, as in this paper, amplitude modulation rate might not necessarily be a mechanism for vocal communication. A proof of this is the fact that this cortical map was found without using complex sounds.”

We completely agree that the processing of amplitude modulation is highly relevant for animal vocalisations and human speech, as has been highlighted a several behavioural studies. However, at the current stage, the purpose of this study was simply to test whether this temporal dimension is represented in a systematic topographical organisation in the monkey auditory cortex. However, we do not deny that the results presented here could be further used in various ways to look into the interaction of this representation with behavioural results from monkey vocalisations.


Zusätzliche Ressourcen

  • Medicare Payment for Outpatient Audiology and Speech-Language Pathology Services
  • National Correct Coding Initiative (NCCI) for Audiology and Speech-Language Pathology Services (CCI Edits and Medically Unlikely Edits)
  • Medicare Part B Claims Checklist
  • Medicare FAQs for Audiologists (ABNs, Incident-to billing)
  • CMS: Audiology Services
  • CMS: Medicare Learning Network - Audiology Policies [PDF]

Intuitive visualizations of pitch and loudness in speech

Visualizing acoustic features of speech has proven helpful in speech therapy however, it is as yet unclear how to create intuitive and fitting visualizations. To better understand the mappings from speech sound aspects to visual space, a large web-based experiment (n = 249) was performed to evaluate spatial parameters that may optimally represent pitch and loudness of speech. To this end, five novel animated visualizations were developed and presented in pairwise comparisons, together with a static visualization. Pitch and loudness of speech were each mapped onto either the vertical (ja-axis) or the size (z-axis) dimension, or combined (with size indicating loudness and vertical position indicating pitch height) and visualized as an animation along the horizontal dimension (x-axis) over time. The results indicated that firstly, there is a general preference towards the use of the ja-axis for both pitch and loudness, with pitch ranking higher than loudness in terms of fit. Secondly, the data suggest that representing both pitch and loudness combined in a single visualization is preferred over visualization in only one dimension. Endlich, das z-axis, although not preferred, was evaluated as corresponding better to loudness than to pitch. This relation between sound and visual space has not been reported previously for speech sounds, and elaborates earlier findings on musical material. In addition to elucidating more general mappings between auditory and visual modalities, the findings provide us with a method of visualizing speech that may be helpful in clinical applications such as computerized speech therapy, or other feedback-based learning paradigms.


  1. J. Woodhouse, D. Politzer, H. Mansour : Acoustics of the banjo: measurements and sound synthesis. Acta Acustica 5, 15 (2021). https://doi.org/10.1051/aacus/2021009[EDP Sciences][Google Scholar]
  2. Deering Banjo Company . [Online] Available at: https://www.deeringbanjos.com/ [Accessed: Dec 29 2020]. [Google Scholar]
  3. Martin Woodhouse Guitars . [Online] Available at: http://www.woodhouse-guitars.co.uk/ [Accessed: Dec 29 2020]. [Google Scholar]
  4. Euphonics : The science of musical instruments. [Online] Available at: https://euphonics.org/ [Accessed: Dec 29 2020]. [Google Scholar]
  5. E. Durup, E.V. Jansson : The quest of the violin bridge-hill. Acta Acustica United with Acustica 91, 2 (2005) 206–213. [Google Scholar]
  6. E. Jansson, B. Niewczyk : On the acoustics of the violin: Bridge hill or body hill? Journal of the Catgut Acoustical Society 3, 7 (1999) 23–27. [Google Scholar]
  7. J. Woodhouse : On the “bridge hill” of the violin. Acta Acustica United with Acustica 91, 1 (2005) 155–165. [Google Scholar]
  8. G. Weinreich , in: Mechanics of musical instruments. Hirschberg A., Kergomard J., Weinreich G. , Editors. New York: Springer-Verlag, 1995, pp. 79–114. [Google Scholar]
  9. A. Chaigne, J. Kergomard : Acoustics of musical instruments. Springer Verlag, New York, 2013. [Google Scholar]
  10. J.W.S. Rayleigh : The theory of sound . Macmillan and Co., London, 1877. [Google Scholar]
  11. C.H. Hodges, J. Woodhouse : Theories of noise and vibration transmission in complex structures. Reports on Progress in Physics 49, 2 (1986) 107–170. [Google Scholar]
  12. R.H. Lyon, R.G. DeJong : Theory and application of statistical energy analysis, 2nd ed. Butterworth-Heinemann, Boston, 1995. [Google Scholar]
  13. P.M. Morse, K.U. Ingard : Theoretical acoustics. Princeton University Press, Princeton, NJ, 1986. [Google Scholar]
  14. E. Skudrzyk : The mean-value method of predicting the dynamic-response of complex vibrators. Journal of the Acoustical Society of America 67, 4 (1980) 1105–1135. [Google Scholar]
  15. B. Elie, F. Gautier, B. David : Macro parameters describing the mechanical behavior of classical guitars. Journal of the Acoustical Society of America 132 (2012) 4013–4024. [Google Scholar]
  16. J. Woodhouse, R.S. Langley : Interpreting the input admittance of violins and guitars. Acta Acustica United with Acustica 98, 4 (2012) 611–628. [Google Scholar]
  17. A.P. Dowling, J.E. Ffowcs Williams : Sound and sources of sound. Ellis Horwood, Chichester, 1983. [Google Scholar]
  18. L. Cremer : The physics of the violin. MIT Press, Cambridge, MA, 1984. [Google Scholar]
  19. O. Christensen, B.B. Vistisen : Simple model for low-frequency guitar function. Journal of the Acoustical Society of America 68 (1980) 756–766. [Google Scholar]
  20. W. M. Leach : Introduction to electroacoustics & audio amplifier design. 4. Aufl. Kendall Hunt, Dubuque, Iowa, 2009. [Google Scholar]
  21. D. Politzer , The open back of the open-back banjo. [Online] Available at: http://www.its.caltech.edu/

Cite this article as: Woodhouse J, Politzer D & Mansour H. 2021. Acoustics of the banjo: theoretical and numerical modelling. Acta Acustica, 5, 16.


Hints and tips

  • Use the Spacebar to toggle recording on and off.
  • Use the left and right arrow keys to scroll the display left and right (when paused).
  • Keyboard shortcuts: [C] - Configuration, [G] - Grid, [P] - Replay, [R] - Refresh.
  • As well as monitoring an input microphone or line-level signal, you can monitor the computer's own audio output signal using options in the Windows mixer control. Select Record/Mixer and then Options/Properties to find and select the "Wave Out" channel control.
  • The grid marks are 1000Hz and 100ms apart.


Schau das Video: 4 Hours Ocean Waves Sea Waves Stunning Sound - Paradise At Last! Relaxation! (Dezember 2021).