Phonetik

Aus besserwiki.de

Die Phonetik ist ein Teilgebiet der Linguistik, das sich mit der Frage beschäftigt, wie der Mensch Laute produziert und wahrnimmt, oder im Falle von Gebärdensprachen mit den entsprechenden Aspekten von Zeichen. Phonetiker - Sprachwissenschaftler, die sich auf das Studium der physikalischen Eigenschaften von Sprache spezialisiert haben. Das Gebiet der Phonetik wird traditionell in drei Unterdisziplinen unterteilt, die auf den jeweiligen Forschungsfragen basieren, z. B. wie Menschen Bewegungen planen und ausführen, um Sprache zu produzieren (artikulatorische Phonetik), wie verschiedene Bewegungen die Eigenschaften des entstehenden Klangs beeinflussen (akustische Phonetik) oder wie Menschen Schallwellen in sprachliche Informationen umwandeln (auditive Phonetik). Traditionell ist die minimale linguistische Einheit der Phonetik das Phon - ein Sprachlaut in einer Sprache, der sich von der phonologischen Einheit des Phonems unterscheidet; das Phonem ist eine abstrakte Kategorisierung von Phonen.

Die Phonetik befasst sich mit zwei Aspekten der menschlichen Sprache: der Produktion - der Art und Weise, wie Menschen Laute erzeugen - und der Wahrnehmung - der Art und Weise, wie Sprache verstanden wird. Die kommunikative Modalität einer Sprache beschreibt die Methode, mit der eine Sprache produziert und wahrgenommen wird. Sprachen mit oral-auraler Modalität wie Englisch produzieren Sprache mündlich (mit dem Mund) und nehmen Sprache auditiv (mit den Ohren) wahr. Gebärdensprachen wie die Australische Gebärdensprache (Auslan) und die Amerikanische Gebärdensprache (ASL) haben eine manuell-visuelle Modalität: Sie produzieren Sprache manuell (mit den Händen) und nehmen Sprache visuell (mit den Augen) wahr. ASL und einige andere Gebärdensprachen verfügen zusätzlich über einen manuell-manuellen Dialekt, der von taubblinden Sprechern für das taktile Gebärden verwendet wird, bei dem die Zeichen mit den Händen erzeugt und ebenfalls mit den Händen wahrgenommen werden.

https://en.wikipedia.org/wiki/Linguistics Die Sprachproduktion besteht aus mehreren voneinander abhängigen Prozessen, die eine nichtsprachliche Botschaft in ein gesprochenes oder gebärdetes sprachliches Signal umwandeln. Nachdem ein Sprecher eine Nachricht identifiziert hat, die sprachlich kodiert werden soll, muss er die einzelnen Wörter - die so genannten lexikalischen Elemente - auswählen, um diese Nachricht zu repräsentieren (lexikalische Auswahl). Bei der phonologischen Kodierung wird der mentalen Repräsentation der Wörter ihr phonologischer Inhalt als eine Folge von Phonemen zugewiesen, die produziert werden sollen. Die Phoneme werden für artikulatorische Merkmale spezifiziert, die bestimmte Ziele bezeichnen, wie geschlossene Lippen oder die Zunge an einer bestimmten Stelle. Diese Phoneme werden dann zu einer Folge von Muskelbefehlen koordiniert, die an die Muskeln gesendet werden können, und wenn diese Befehle richtig ausgeführt werden, werden die beabsichtigten Laute erzeugt.

Durch diese Bewegungen wird ein Luftstrom unterbrochen und verändert, was zu einer Schallwelle führt. Die Veränderung erfolgt durch die Artikulatoren, wobei unterschiedliche Orte und Artikulationsweisen unterschiedliche akustische Ergebnisse hervorbringen. So beginnen beispielsweise die Wörter tack und sack im Englischen beide mit Alveolarlauten, unterscheiden sich aber darin, wie weit die Zunge vom Alveolarkamm entfernt ist. Dieser Unterschied hat große Auswirkungen auf den Luftstrom und damit auf den erzeugten Klang. Ebenso können die Richtung und die Quelle des Luftstroms den Klang beeinflussen. Der häufigste Mechanismus zur Erzeugung eines Luftstroms ist der pulmonale Mechanismus, d. h. die Verwendung der Lungen, aber auch die Stimmritze und die Zunge können zur Erzeugung eines Luftstroms verwendet werden.

Sprachwahrnehmung ist der Prozess, durch den ein Sprachsignal entschlüsselt und von einem Hörer verstanden wird. Um Sprache wahrnehmen zu können, muss das kontinuierliche akustische Signal in diskrete sprachliche Einheiten wie Phoneme, Morpheme und Wörter umgewandelt werden. Um Laute korrekt zu identifizieren und zu kategorisieren, priorisieren Hörer bestimmte Aspekte des Signals, die zuverlässig zwischen sprachlichen Kategorien unterscheiden können. Während bestimmte Hinweise gegenüber anderen bevorzugt werden, können viele Aspekte des Signals zur Wahrnehmung beitragen. Obwohl beispielsweise bei mündlichen Sprachen akustische Informationen im Vordergrund stehen, zeigt der McGurk-Effekt, dass visuelle Informationen verwendet werden, um mehrdeutige Informationen zu unterscheiden, wenn die akustischen Hinweise unzuverlässig sind.

Die moderne Phonetik hat drei Zweige:

  • Die artikulatorische Phonetik, die sich mit der Art und Weise befasst, wie Laute mit den Artikulatoren erzeugt werden,
  • die akustische Phonetik, die sich mit den akustischen Ergebnissen der verschiedenen Artikulationen befasst, und
  • die auditive Phonetik, die sich mit der Art und Weise befasst, wie Hörer sprachliche Signale wahrnehmen und verstehen.
Darstellung des Sprechvorgangs in Echtzeit-Magnetresonanztomographie

Die Phonetik (altgriechisch φωνητικός phōnētikós, deutsch ‚zum Tönen, Sprechen gehörig‘, von φωνή phōnḗ, deutsch ‚Stimme‘), auch Lautlehre, ist eine wissenschaftliche Disziplin, die Sprachlaute unter den folgenden Aspekten untersucht: Lautproduktion in Kehlkopf, Rachen-, Mund- und Nasenbereich, die akustischen Eigenschaften der Laute und die Lautwahrnehmung und -verarbeitung durch Ohr und menschliches Gehirn. Die Phonetik ist ein eigenständiges interdisziplinäres Fachgebiet zwischen Linguistik, Anatomie, Physiologie, Neurologie, Physik und Mathematik. Der Gegenstandsbereich der Phonetik ist die gesprochene Sprache in all ihren Realisierungen.

Die Phonetik ist abzugrenzen von der Phonologie (als einem Teilgebiet der Sprachwissenschaft), die Sprachlaute unter einem anderen Aspekt untersucht. Die Phonologie ist Teil der Grammatik und behandelt Laute hinsichtlich der Funktion, die sie im System verschiedener Sprachen haben. Die Phonetik dagegen befasst sich mit den physikalischen, neurologischen und physiologischen Aspekten, die bei der Lautproduktion, -übertragung und -wahrnehmung relevant sind, und bedient sich dabei naturwissenschaftlicher Methoden.

Geschichte

Antike

Die ersten bekannten phonetischen Studien wurden bereits im 6. Jahrhundert v. Chr. von Sanskrit-Grammatikern durchgeführt. Der hinduistische Gelehrte Pāṇini gehört zu den bekanntesten dieser frühen Forscher, dessen vierteilige Grammatik, die um 350 v. Chr. verfasst wurde, für die moderne Linguistik einflussreich ist und immer noch "die vollständigste generative Grammatik einer Sprache, die je geschrieben wurde" darstellt. Seine Grammatik bildete die Grundlage der modernen Linguistik und beschrieb mehrere wichtige phonetische Prinzipien, darunter die Intonation. In dieser frühen Darstellung wurde beschrieben, dass Resonanz entweder durch einen Ton erzeugt wird, wenn die Stimmlippen geschlossen sind, oder durch ein Geräusch, wenn die Stimmlippen geöffnet sind. Die phonetischen Prinzipien in der Grammatik werden als "Primitive" betrachtet, da sie die Grundlage für seine theoretische Analyse bilden und nicht die Objekte der theoretischen Analyse selbst sind, und die Prinzipien können aus seinem System der Phonologie abgeleitet werden.

Das Sanskrit-Studium der Phonetik wird Shiksha genannt. Die Taittiriya_Upanishad, die auf das 1. Jahrtausend v. Chr. datiert wird, definiert Shiksha wie folgt

Om! Wir werden das Shiksha erklären.
Klänge und Akzentuierung, Quantität (der Vokale) und der Ausdruck (der Konsonanten),
Gleichgewicht (Saman) und Verbindung (von Klängen), So viel zum Studium von Shiksha. || 1 |

Taittiriya Upanishad 1.2, Shikshavalli, Übersetzt von Paul Deussen.

Moderne

Die Fortschritte in der Phonetik nach Pāṇini und seinen Zeitgenossen waren bis in die Neuzeit begrenzt, abgesehen von einigen begrenzten Untersuchungen durch griechische und römische Grammatiker. In den Jahrtausenden zwischen den indischen Grammatikern und der modernen Phonetik verlagerte sich der Schwerpunkt von der Unterscheidung zwischen gesprochener und geschriebener Sprache, die die treibende Kraft hinter Pāṇinis Darstellung war, auf die physikalischen Eigenschaften der Sprache allein. Das anhaltende Interesse an der Phonetik setzte um 1800 n. Chr. wieder ein, und der Begriff "Phonetik" wurde 1841 erstmals im heutigen Sinne verwendet. Mit neuen Entwicklungen in der Medizin und der Entwicklung von Audio- und visuellen Aufzeichnungsgeräten konnten phonetische Erkenntnisse neue und detailliertere Daten nutzen und überprüfen. In diese frühe Periode der modernen Phonetik fällt auch die Entwicklung eines einflussreichen phonetischen Alphabets auf der Grundlage von Artikulationspositionen durch Alexander Melville Bell. Es wurde als sichtbare Sprache bekannt und erlangte als Hilfsmittel für die mündliche Erziehung von gehörlosen Kindern große Bedeutung.

Vor der weit verbreiteten Verfügbarkeit von Audio-Aufnahmegeräten verließen sich Phonetiker stark auf die Tradition der praktischen Phonetik, um sicherzustellen, dass Transkriptionen und Ergebnisse bei allen Phonetikern konsistent waren. Diese Ausbildung umfasste sowohl Gehörtraining - das Erkennen von Sprachlauten - als auch Produktionstraining - die Fähigkeit, Laute zu produzieren. Phonetiker sollten lernen, die verschiedenen Laute des Internationalen Phonetischen Alphabets nach dem Gehör zu erkennen, und die IPA testet und zertifiziert auch heute noch Sprecher auf ihre Fähigkeit, die phonetischen Muster des Englischen genau zu produzieren (obwohl sie diese Praxis für andere Sprachen eingestellt hat). Als Überarbeitung seiner Methode des sichtbaren Sprechens entwickelte Melville Bell eine Beschreibung der Vokale nach Höhe und Tiefe, was zu 9 Kardinalvokalen führte. Als Teil ihrer Ausbildung in praktischer Phonetik sollten Phonetiker lernen, diese Kardinalvokale zu produzieren, um ihre Wahrnehmung und Transkription dieser Laute während der Feldarbeit zu verankern. Dieser Ansatz wurde in den 1960er Jahren von Peter Ladefoged auf der Grundlage experimenteller Daten kritisiert. Er stellte fest, dass die Kardinalvokale eher auditive als artikulatorische Ziele waren, was die Behauptung in Frage stellte, dass sie artikulatorische Anker darstellten, anhand derer Phonetiker andere Artikulationen beurteilen konnten.

Produktion

Die Sprachproduktion besteht aus mehreren voneinander abhängigen Prozessen, die eine nichtsprachliche Botschaft in ein gesprochenes oder gebärdetes Sprachsignal umwandeln. Unter Linguisten ist umstritten, ob der Prozess der Sprachproduktion in einer Reihe von Stufen abläuft (serielle Verarbeitung) oder ob die Produktionsprozesse parallel ablaufen. Nachdem ein Sprecher eine Nachricht identifiziert hat, die sprachlich kodiert werden soll, muss er die einzelnen Wörter - die so genannten lexikalischen Elemente - auswählen, um diese Nachricht zu repräsentieren (lexikalische Auswahl). Die Auswahl der Wörter erfolgt auf der Grundlage ihrer Bedeutung, die in der Linguistik als semantische Information bezeichnet wird. Durch die lexikalische Auswahl wird das Lemma des Wortes aktiviert, das sowohl semantische als auch grammatikalische Informationen über das Wort enthält.

Nachdem eine Äußerung geplant wurde, durchläuft sie die phonologische Kodierung. In dieser Phase der Sprachproduktion wird der mentalen Repräsentation der Wörter ihr phonologischer Inhalt als eine Abfolge von Phonemen zugeordnet, die produziert werden sollen. Die Phoneme werden nach artikulatorischen Merkmalen spezifiziert, die bestimmte Ziele bezeichnen, z. B. geschlossene Lippen oder die Zunge an einer bestimmten Stelle. Diese Phoneme werden dann zu einer Folge von Muskelbefehlen koordiniert, die an die Muskeln gesendet werden können, und wenn diese Befehle richtig ausgeführt werden, werden die beabsichtigten Laute produziert. Der Produktionsprozess von der Botschaft bis zum Klang kann also wie folgt zusammengefasst werden:

  • Planung der Nachricht
  • Auswahl des Lemmas
  • Abruf und Zuordnung von phonologischen Wortformen
  • Artikulatorische Spezifikation
  • Muskelbefehle
  • Artikulation
  • Sprachliche Laute

Ort der Artikulation

Laute, die durch eine vollständige oder teilweise Verengung des Vokaltrakts erzeugt werden, nennt man Konsonanten. Konsonanten werden im Vokaltrakt ausgesprochen, in der Regel im Mund, und der Ort dieser Verengung beeinflusst den entstehenden Laut. Wegen des engen Zusammenhangs zwischen der Zungenposition und dem entstehenden Laut ist der Artikulationsort ein wichtiges Konzept in vielen Teildisziplinen der Phonetik.

Laute werden zum Teil nach dem Ort einer Einschnürung sowie nach dem Körperteil, der die Einschnürung vornimmt, kategorisiert. Im Englischen zum Beispiel sind die Wörter fought und thought ein Minimalpaar, das sich nur durch das Organ unterscheidet, das die Konstruktion vornimmt, nicht aber durch den Ort der Konstruktion. Das "f" in kämpfen ist eine labiodentale Artikulation, bei der die Unterlippe an den Zähnen anliegt. Das "th" in Gedanken ist eine linguodentale Artikulation, die mit der Zunge gegen die Zähne erfolgt. Einschnürungen, die mit den Lippen gemacht werden, nennt man labial, solche, die mit der Zunge gemacht werden, lingual.

Einschnürungen mit der Zunge können an verschiedenen Stellen des Vokaltrakts vorgenommen werden, die grob in koronale, dorsale und radikale Artikulationsstellen unterteilt werden. Koronale Artikulationen erfolgen mit dem vorderen Teil der Zunge, dorsale Artikulationen mit dem hinteren Teil der Zunge und radikale Artikulationen im Pharynx. Diese Unterteilungen reichen nicht aus, um alle Sprachlaute zu unterscheiden und zu beschreiben. Im Englischen zum Beispiel sind die Laute [s] und [ʃ] beide koronal, werden aber an verschiedenen Stellen des Mundes gebildet. Um dies zu berücksichtigen, sind detailliertere Artikulationsorte erforderlich, die auf dem Bereich des Mundes basieren, in dem die Einschnürung auftritt.

Labial

Die Artikulationen mit den Lippen können auf drei verschiedene Arten erfolgen: mit beiden Lippen (bilabial), mit einer Lippe und den Zähnen (labiodental) und mit der Zunge und der Oberlippe (linguolabial). Je nach Definition können einige oder alle dieser Arten von Artikulationen in die Klasse der labialen Artikulationen eingeordnet werden. Bilabiale Konsonanten werden mit beiden Lippen gebildet. Bei der Erzeugung dieser Laute bewegt sich die Unterlippe am weitesten, um auf die Oberlippe zu treffen, die sich ebenfalls leicht nach unten bewegt, obwohl in einigen Fällen die Kraft der Luft, die sich durch die Öffnung zwischen den Lippen bewegt, dazu führen kann, dass sich die Lippen schneller trennen, als sie zusammenkommen können. Im Gegensatz zu den meisten anderen Artikulationen bestehen beide Artikulatoren aus weichem Gewebe. Daher ist es wahrscheinlicher, dass bilabiale Stopps mit unvollständigen Verschlüssen produziert werden als Artikulationen mit harten Oberflächen wie den Zähnen oder dem Gaumen. Bilabiale Stopps sind auch insofern ungewöhnlich, als sich ein Artikulator im oberen Teil des Vokaltrakts aktiv nach unten bewegt, da die Oberlippe eine aktive Abwärtsbewegung zeigt. Linguolabiale Konsonanten werden mit dem Zungenblatt gebildet, das sich der Oberlippe nähert oder sie berührt. Wie bei bilabialen Artikulationen bewegt sich die Oberlippe leicht in Richtung des aktiveren Artikulators. Die Artikulationen dieser Gruppe haben keine eigenen Symbole im Internationalen Phonetischen Alphabet, sondern werden durch die Kombination eines apikalen Symbols mit einem diakritischen Zeichen gebildet, das sie implizit in die koronale Kategorie einordnet. Es gibt sie in einer Reihe von Sprachen, die in Vanuatu heimisch sind, wie z. B. Tangoa.

Labiodentale Konsonanten werden gebildet, indem sich die Unterlippe zu den oberen Zähnen erhebt. Bei den labiodentalen Konsonanten handelt es sich meist um Frikative, während labiodentale Nasale ebenfalls typologisch verbreitet sind. Es ist umstritten, ob echte labiodentale Plosive in irgendeiner natürlichen Sprache vorkommen, obwohl eine Reihe von Sprachen, darunter Zulu, Tonga und Shubi, labiodentale Plosive haben sollen.

Koronal

Koronale Konsonanten werden mit der Zungenspitze oder dem Zungenblatt gebildet und bieten aufgrund der Beweglichkeit der Zungenvorderseite eine Vielfalt nicht nur an der Stelle, sondern auch in der Haltung der Zunge. Die koronalen Artikulationsstellen stellen die Bereiche des Mundes dar, an denen die Zunge in Kontakt kommt oder eine Einschnürung bildet, und umfassen dentale, alveolare und postalveolare Stellen. Zungenhaltungen, bei denen die Zungenspitze verwendet wird, können apikal sein, wenn die Oberseite der Zungenspitze verwendet wird, laminal, wenn sie mit dem Zungenblatt gemacht werden, oder subapikal, wenn die Zungenspitze zurückgerollt ist und die Unterseite der Zunge verwendet wird. Die Koronale sind als Gruppe einzigartig, da jede Art der Artikulation belegt ist. Die australischen Sprachen sind bekannt für die große Anzahl von Koronalkontrasten, die innerhalb und zwischen den Sprachen der Region auftreten. Dentale Konsonanten werden mit der Zungenspitze oder dem Zungenblatt und den oberen Zähnen gebildet. Sie werden je nach dem Teil der Zunge, mit dem sie gebildet werden, in zwei Gruppen unterteilt: apikale Dentalkonsonanten werden mit der Zungenspitze gebildet, die die Zähne berührt; interdentale Konsonanten werden mit dem Zungenblatt gebildet, da die Zungenspitze vor den Zähnen herausragt. Es ist keine Sprache bekannt, die beide kontrastiv verwendet, obwohl sie allophon existieren können. Alveolarkonsonanten werden mit der Zungenspitze oder dem Zungenblatt am Alveolarkamm direkt hinter den Zähnen gebildet und können ebenfalls apikal oder laminal sein.

Sprachübergreifend werden dentale Konsonanten und alveolare Konsonanten häufig gegenübergestellt, was zu einer Reihe von Verallgemeinerungen über sprachübergreifende Muster führt. Die verschiedenen Artikulationsorte unterscheiden sich in der Regel auch durch den Teil der Zunge, mit dem sie produziert werden: Die meisten Sprachen mit dentalen Stopps haben laminale Dentale, während Sprachen mit apikalen Stopps normalerweise apikale Stopps haben. Sprachen haben selten zwei Konsonanten an derselben Stelle mit einem Kontrast in der Laminalität, obwohl Taa (ǃXóõ) ein Gegenbeispiel zu diesem Muster darstellt. Gibt es in einer Sprache nur einen dentalen oder einen alveolaren Stopp, so ist dieser in der Regel laminal, wenn es sich um einen dentalen Stopp handelt, und der Stopp ist in der Regel apikal, wenn es sich um einen alveolaren Stopp handelt, obwohl zum Beispiel Temne und Bulgarisch diesem Muster nicht folgen. Wenn eine Sprache sowohl einen apikalen als auch einen laminalen Stopp hat, wird der laminale Stopp eher affriziert, wie in Isoko, obwohl Dahalo das entgegengesetzte Muster mit alveolaren Stopps zeigt, die eher affriziert sind.

Für Retroflex-Konsonanten gibt es verschiedene Definitionen, je nachdem, ob die Position der Zunge oder die Position am Gaumen im Vordergrund steht. Im Allgemeinen handelt es sich um eine Gruppe von Artikulationen, bei denen die Zungenspitze bis zu einem gewissen Grad nach oben gebogen ist. Auf diese Weise können retroflexe Artikulationen an verschiedenen Stellen des Gaumens auftreten, z. B. im alveolaren, postalveolaren und palatinalen Bereich. Wenn die Unterseite der Zungenspitze den Mundboden berührt, handelt es sich um einen subapikalen Laut, obwohl auch apikale postalveolare Laute als retroflex bezeichnet werden. Typische Beispiele für subapikale retroflexe Stopps finden sich häufig in dravidischen Sprachen, und in einigen im Südwesten der Vereinigten Staaten beheimateten Sprachen besteht der kontrastive Unterschied zwischen dentalen und alveolaren Stopps in einer leichten Retroflexion des alveolaren Stopps. Akustisch wirkt sich die Retroflexion eher auf die höheren Formanten aus.

Artikulationen, die unmittelbar hinter dem Alveolarkamm stattfinden, werden als post-alveolare Konsonanten bezeichnet. Apikale postalveolare Konsonanten werden oft als retroflex bezeichnet, während laminale Artikulationen manchmal als palato-alveolar bezeichnet werden; in der australischen Literatur werden diese laminalen Stopps oft als "palatal" bezeichnet, obwohl sie weiter vorne produziert werden als die Gaumenregion, die normalerweise als palatal bezeichnet wird. Aufgrund individueller anatomischer Unterschiede kann die genaue Artikulation von palato-alveolaren Registern (und Koronalen im Allgemeinen) innerhalb einer Sprachgemeinschaft stark variieren.

Dorsal

Dorsale Konsonanten sind Konsonanten, die mit dem Zungenkörper und nicht mit der Zungenspitze oder dem Zungenblatt gebildet werden und typischerweise am Gaumen, Velum oder Zäpfchen entstehen. Palatale Konsonanten werden mit dem Zungenkörper gegen den harten Gaumen am Gaumendach gebildet. Sie werden häufig mit velaren oder uvularen Konsonanten kontrastiert, obwohl es selten ist, dass eine Sprache alle drei gleichzeitig kontrastiert, wobei Jaqaru ein mögliches Beispiel für einen dreifachen Kontrast ist. Velare Konsonanten werden mit dem Zungenkörper gegen das Velum gebildet. Sie sind sprachübergreifend unglaublich häufig; fast alle Sprachen haben einen Velarstopp. Da sowohl Velare als auch Vokale mit dem Zungenkörper gebildet werden, werden sie stark von der Koartikulation mit Vokalen beeinflusst und können bis zum harten Gaumen oder bis zum Zäpfchen produziert werden. Diese Variationen werden typischerweise in vordere, mittlere und hintere Velare unterteilt, die parallel zum Vokalraum verlaufen. Sie können phonetisch nur schwer von palatalen Konsonanten unterschieden werden, obwohl sie etwas hinter dem Bereich der prototypischen palatalen Konsonanten produziert werden. Uvulare Konsonanten werden gebildet, indem der Zungenkörper das Zäpfchen berührt oder sich ihm nähert. Sie sind selten und kommen in schätzungsweise 19 % der Sprachen vor, und in weiten Teilen Amerikas und Afrikas gibt es keine Sprachen mit uvulären Konsonanten. In Sprachen mit Zäpfchenkonsonanten sind Stopps am häufigsten, gefolgt von Kontinua (einschließlich Nasalen).

Pharyngeal und Laryngeal

Konsonanten, die durch eine Verengung des Rachens gebildet werden, sind pharyngeal, solche, die durch eine Verengung des Kehlkopfes gebildet werden, sind laryngeal. Laryngeale werden mit den Stimmlippen gebildet, da der Kehlkopf zu weit unten im Hals liegt, um ihn mit der Zunge zu erreichen. Pharyngeale hingegen liegen nahe genug am Mund, dass Teile der Zunge sie erreichen können.

Radikale Konsonanten benutzen bei der Produktion entweder den Zungengrund oder den Kehldeckel und werden sehr weit hinten im Vokaltrakt produziert. Pharyngeale Konsonanten werden gebildet, indem der Zungengrund so weit zurückgezogen wird, dass er fast die Rachenwand berührt. Aufgrund von Produktionsschwierigkeiten können auf diese Weise nur Frikative und Approximanten gebildet werden. Kehldeckelkonsonanten werden mit dem Kehldeckel und der hinteren Wand des Rachens gebildet. Epiglottalstopps wurden in Dahalo aufgezeichnet. Stimmhafte epiglottale Konsonanten werden nicht für möglich gehalten, da der Hohlraum zwischen Glottis und Epiglottis zu klein ist, um eine Stimmgebung zu ermöglichen.

Glottale Konsonanten sind Konsonanten, die mit Hilfe der Stimmlippen im Kehlkopf erzeugt werden. Da die Stimmlippen die Quelle der Phonation sind und unterhalb des oro-nasalen Vokaltrakts liegen, sind einige glottale Konsonanten nicht möglich, wie z. B. ein stimmhafter Glottalstopp. Drei glottale Konsonanten sind möglich, ein stimmloser Glottalstop und zwei glottale Frikative, die alle in natürlichen Sprachen vorkommen. Glottalstopps, die durch Schließen der Stimmlippen erzeugt werden, sind in den Sprachen der Welt besonders häufig. In vielen Sprachen dienen sie zur Abgrenzung von Phrasen, in einigen Sprachen wie Arabisch und Huatla Mazatec werden sie als kontrastive Phoneme verwendet. Außerdem können Glottalstopps in dieser Sprache als Laryngealisierung des folgenden Vokals realisiert werden. Glottalstopps, insbesondere zwischen Vokalen, bilden normalerweise keinen vollständigen Verschluss. Echte Glottalstopps treten normalerweise nur auf, wenn sie geminiert sind.

Der Kehlkopf

See caption
Ansicht des Kehlkopfes von oben.

Der Kehlkopf, der auch als "Stimmbox" bezeichnet wird, ist eine knorpelige Struktur in der Luftröhre, die für die Phonation verantwortlich ist. Die Stimmlippen (Stimmbänder) werden zusammen gehalten, damit sie vibrieren, oder auseinander gehalten, damit sie nicht vibrieren. Die Stellung der Stimmlippen wird durch die Bewegung der Arytenoidknorpel erreicht. Die intrinsischen Kehlkopfmuskeln sind für die Bewegung der Arytenoidknorpel sowie für die Regulierung der Spannung der Stimmlippen verantwortlich. Wenn die Stimmlippen nicht eng genug anliegen oder angespannt sind, vibrieren sie entweder sporadisch oder gar nicht. Wenn sie sporadisch vibrieren, führt dies je nach Grad zu einer knarrenden oder hauchigen Stimme; wenn sie überhaupt nicht vibrieren, ist das Ergebnis stimmlos.

Die Stimmlippen müssen nicht nur richtig positioniert sein, sondern es muss auch Luft über sie strömen, sonst schwingen sie nicht. Der für die Stimmgebung erforderliche Druckunterschied über der Stimmritze wird auf 1 - 2 cm H2O (98,0665 - 196,133 Pascal) geschätzt. Der Druckunterschied kann unter das für die Phonation erforderliche Niveau fallen, entweder durch einen Druckanstieg oberhalb der Glottis (superglottaler Druck) oder durch einen Druckabfall unterhalb der Glottis (subglottaler Druck). Der subglottale Druck wird durch die Atemmuskulatur aufrechterhalten. Der supraglottale Druck entspricht ohne Verengungen oder Artikulationen etwa dem atmosphärischen Druck. Da jedoch Artikulationen - insbesondere Konsonanten - Verengungen des Luftstroms darstellen, kann der Druck im Hohlraum hinter diesen Verengungen steigen, was zu einem höheren supraglottalen Druck führt.

Lexikalischer Zugang

Das Modell des lexikalischen Zugangs geht von zwei verschiedenen Stufen der Kognition aus; daher wird dieses Konzept auch als zweistufige Theorie des lexikalischen Zugangs bezeichnet. Die erste Stufe, die lexikalische Selektion, liefert Informationen über lexikalische Elemente, die für den Aufbau der Repräsentation auf funktionaler Ebene erforderlich sind. Diese Elemente werden nach ihren spezifischen semantischen und syntaktischen Eigenschaften abgerufen, aber die phonologischen Formen werden in dieser Phase noch nicht zur Verfügung gestellt. Die zweite Stufe, das Abrufen von Wortformen, liefert die Informationen, die für den Aufbau der Repräsentation auf der Positionsebene erforderlich sind.

Artikulatorische Modelle

Bei der Sprachproduktion bewegen sich die Artikulatoren durch den Raum und berühren bestimmte Stellen, was zu einer Veränderung des akustischen Signals führt. Einige Modelle der Sprachproduktion nehmen dies als Grundlage für die Modellierung der Artikulation in einem Koordinatensystem, das körpereigen (intrinsisch) oder extern (extrinsisch) sein kann. Intrinsische Koordinatensysteme modellieren die Bewegung der Artikulatoren als Positionen und Winkel von Gelenken im Körper. Intrinsische Koordinatenmodelle des Kiefers verwenden häufig zwei bis drei Freiheitsgrade, die Translation und Rotation darstellen. Diese haben Probleme mit der Modellierung der Zunge, die im Gegensatz zu den Gelenken des Kiefers und der Arme ein muskulöser Hydrostat ist - wie ein Elefantenrüssel - und keine Gelenke hat. Aufgrund der unterschiedlichen physiologischen Strukturen sind die Bewegungsbahnen des Kiefers beim Sprechen und Kauen relativ geradlinig, während die Bewegungen der Zunge Kurven folgen.

Geradlinige Bewegungen wurden verwendet, um zu argumentieren, dass Artikulationen eher im extrinsischen als im intrinsischen Raum geplant werden, obwohl extrinsische Koordinatensysteme auch akustische Koordinatenräume umfassen, nicht nur physikalische Koordinatenräume. Modelle, die davon ausgehen, dass Bewegungen im extrinsischen Raum geplant werden, stoßen auf das umgekehrte Problem der Erklärung der Muskel- und Gelenkpositionen, die den beobachteten Weg oder das akustische Signal erzeugen. Der Arm zum Beispiel hat sieben Freiheitsgrade und 22 Muskeln, so dass mehrere verschiedene Gelenk- und Muskelkonfigurationen zur gleichen Endposition führen können. Bei Planungsmodellen im extrinsischen akustischen Raum gilt dasselbe Problem der Zuordnung von einem zu vielen, da es keine eindeutige Zuordnung von physischen oder akustischen Zielen zu den Muskelbewegungen gibt, die zur Erreichung dieser Ziele erforderlich sind. Die Bedenken hinsichtlich des inversen Problems könnten jedoch übertrieben sein, da Sprechen eine hochgradig erlernte Fähigkeit ist, die neurologische Strukturen nutzt, die sich zu diesem Zweck entwickelt haben.

Das Gleichgewichtspunktmodell schlägt eine Lösung für das inverse Problem vor, indem es argumentiert, dass die Bewegungsziele als die Position der auf ein Gelenk wirkenden Muskelpaare dargestellt werden. Dabei werden die Muskeln als Federn modelliert, und das Ziel ist der Gleichgewichtspunkt für das modellierte Feder-Masse-System. Durch die Verwendung von Federn kann das Gleichgewichtspunktmodell die Kompensation und Reaktion bei Bewegungsstörungen leicht berücksichtigen. Sie gelten als Koordinatenmodell, weil sie davon ausgehen, dass diese Muskelpositionen als Punkte im Raum, als Gleichgewichtspunkte, dargestellt werden, an denen die federartige Wirkung der Muskeln konvergiert.

Gestische Ansätze zur Sprachproduktion gehen davon aus, dass Artikulationen als Bewegungsmuster dargestellt werden und nicht als bestimmte Koordinaten, die zu treffen sind. Die minimale Einheit ist eine Geste, die eine Gruppe von "funktional äquivalenten artikulatorischen Bewegungsmustern darstellt, die aktiv in Bezug auf ein bestimmtes sprachrelevantes Ziel (z. B. einen bilabialen Verschluss) gesteuert werden". Diese Gruppen stellen koordinative Strukturen oder "Synergien" dar, die Bewegungen nicht als einzelne Muskelbewegungen, sondern als aufgabenabhängige Gruppierungen von Muskeln betrachten, die als eine Einheit zusammenarbeiten. Dies reduziert die Freiheitsgrade bei der Artikulationsplanung, ein Problem, das vor allem bei intrinsischen Koordinatenmodellen auftritt, die jede Bewegung zulassen, die das Sprachziel erreicht, anstatt die einzelnen Bewegungen in der abstrakten Darstellung zu kodieren. Die Koartikulation wird durch gestische Modelle gut beschrieben, da die Artikulationen bei schnelleren Sprechgeschwindigkeiten als Kompositionen der unabhängigen Gesten bei langsameren Sprechgeschwindigkeiten erklärt werden können.

Akustik

Wellenform (oben), Spektrogramm (Mitte) und Transkription (unten) einer Frau, die "Wikipedia" sagt, dargestellt mit der Praat-Software für linguistische Analysen.

Sprachlaute werden durch die Veränderung eines Luftstroms erzeugt, der zu einer Schallwelle führt. Die Veränderung erfolgt durch die Artikulatoren, wobei unterschiedliche Orte und Artikulationsweisen unterschiedliche akustische Ergebnisse hervorbringen. Da nicht nur die Position der Zunge, sondern auch die Haltung des Vokaltrakts den resultierenden Klang beeinflussen kann, ist die Art der Artikulation wichtig für die Beschreibung des Sprachklangs. Die Wörter tack und sack beginnen im Englischen beide mit Alveolarlauten, unterscheiden sich aber darin, wie weit die Zunge vom Alveolarkamm entfernt ist. Dieser Unterschied hat große Auswirkungen auf den Luftstrom und damit auf den erzeugten Laut. Ebenso können die Richtung und die Quelle des Luftstroms den Klang beeinflussen. Der häufigste Mechanismus zur Erzeugung eines Luftstroms ist der pulmonale Mechanismus, d. h. die Verwendung der Lungen, aber auch die Stimmritze und die Zunge können zur Erzeugung eines Luftstroms verwendet werden.

Stimmgebung und Phonationstypen

Ein wichtiger Unterschied zwischen Sprachlauten ist, ob sie stimmhaft sind oder nicht. Laute sind stimmhaft, wenn die Stimmlippen bei der Phonation zu vibrieren beginnen. Viele Laute können mit oder ohne Phonation erzeugt werden, obwohl physische Einschränkungen die Phonation für einige Artikulationen schwierig oder unmöglich machen können. Bei stimmhaften Artikulationen ist die Hauptgeräuschquelle die periodische Vibration der Stimmlippen. Artikulationen wie stimmlose Plosive haben keine Schallquelle und fallen durch ihre Stille auf, aber andere stimmlose Laute wie Frikative erzeugen unabhängig von der Phonation ihre eigene Schallquelle.

Die Phonation wird durch die Muskeln des Kehlkopfes gesteuert, und die Sprachen nutzen mehr akustische Details als die binäre Intonation. Während der Phonation schwingen die Stimmlippen in einem bestimmten Rhythmus. Diese Schwingung führt zu einer periodischen akustischen Wellenform, die aus einer Grundfrequenz und ihren Obertönen besteht. Die Grundfrequenz der akustischen Welle kann durch die Einstellung der Kehlkopfmuskeln gesteuert werden, und die Hörer nehmen diese Grundfrequenz als Tonhöhe wahr. Sprachen nutzen die Tonhöhenmanipulation, um lexikalische Informationen in tonalen Sprachen zu vermitteln, und viele Sprachen verwenden die Tonhöhe, um prosodische oder pragmatische Informationen zu markieren.

Damit die Stimmlippen schwingen können, müssen sie sich in der richtigen Position befinden und es muss Luft durch die Stimmritze strömen. Die Phonationstypen werden auf einem Kontinuum von Glottiszuständen modelliert, das von völlig offen (stimmlos) bis zu völlig geschlossen (Glottalstop) reicht. Die optimale Position für die Vibration und die in der Sprache am häufigsten verwendete Phonationsart, die Modalstimme, liegt in der Mitte zwischen diesen beiden Extremen. Wenn die Stimmritze etwas weiter ist, entsteht eine hauchige Stimme, während die Annäherung der Stimmlippen zu einer knarrenden Stimme führt.

Das normale Phonationsmuster, das beim typischen Sprechen verwendet wird, ist die modale Stimme, bei der die Stimmlippen mit mäßiger Spannung eng zusammen gehalten werden. Die Stimmlippen schwingen als eine Einheit periodisch und effizient mit vollständigem Glottisschluss und ohne Aspiration. Werden sie weiter auseinandergezogen, schwingen sie nicht und erzeugen stimmlose Telefone. Wenn sie fest zusammengehalten werden, entsteht ein Glottalstopp.

Wenn die Stimmlippen etwas weiter auseinander gehalten werden als bei der modalen Stimmgebung, entstehen Phonationsarten wie Atemstimme (oder Rauschen) und Flüsterstimme. Die Spannung der Stimmbänder ist geringer als bei der modalen Stimmgebung, so dass die Luft freier fließen kann. Sowohl die gehauchte Stimme als auch die Flüsterstimme befinden sich auf einem Kontinuum, das grob als Übergang von der eher periodischen Wellenform der gehauchten Stimme zur eher geräuschhaften Wellenform der Flüsterstimme beschrieben wird. Akustisch neigen beide dazu, den ersten Formanten zu dämpfen, wobei die Flüsterstimme extremere Abweichungen aufweist.

Wenn die Stimmlippen fester zusammengehalten werden, entsteht eine knarrende Stimme. Die Spannung über den Stimmlippen ist geringer als bei der modalen Stimme, aber sie werden fest zusammengehalten, so dass nur die Bänder der Stimmlippen vibrieren. Die Impulse sind sehr unregelmäßig und haben eine geringe Tonhöhe und Frequenzamplitude.

Einige Sprachen unterscheiden bei einigen Konsonanten nicht zwischen Intonation und Intonation, aber alle Sprachen verwenden bis zu einem gewissen Grad Intonation. So ist zum Beispiel keine Sprache bekannt, die einen phonemischen Intonationskontrast für Vokale hat, wobei alle bekannten Vokale kanonisch stimmhaft sind. Andere Positionen der Glottis, wie z. B. hauchige und knarrende Stimme, werden in einer Reihe von Sprachen, wie z. B. Jalapa Mazatec, verwendet, um Phoneme zu kontrastieren, während sie in anderen Sprachen, wie z. B. Englisch, allophon existieren.

Es gibt mehrere Möglichkeiten, um festzustellen, ob ein Segment stimmhaft ist oder nicht. Die einfachste besteht darin, den Kehlkopf während des Sprechens zu ertasten und zu notieren, wann Vibrationen zu spüren sind. Genauere Messungen können durch die akustische Analyse eines Spektrogramms oder eines Spektralschnitts vorgenommen werden. Bei einer spektrografischen Analyse zeigen stimmhafte Segmente einen Stimmbalken, einen Bereich mit hoher akustischer Energie, in den tiefen Frequenzen stimmhafter Segmente. Bei der Untersuchung eines spektralen Spleißes, des akustischen Spektrums zu einem bestimmten Zeitpunkt, kehrt ein Modell des ausgesprochenen Vokals die Filterung des Mundes um und erzeugt das Spektrum der Glottis. Ein Computermodell des ungefilterten Glottis-Signals wird dann an das umgekehrte gefilterte akustische Signal angepasst, um die Eigenschaften der Glottis zu bestimmen. Eine visuelle Analyse ist auch mit speziellen medizinischen Geräten wie Ultraschall und Endoskopie möglich.

Vokale

Vokale werden grob nach dem Bereich des Mundes kategorisiert, in dem sie produziert werden. Da sie jedoch ohne eine Verengung im Vokaltrakt produziert werden, hängt ihre genaue Beschreibung von der Messung der akustischen Korrelate der Zungenposition ab. Die Position der Zunge während der Vokalproduktion verändert die Frequenzen, bei denen der Hohlraum mitschwingt, und diese Resonanzen - bekannt als Formanten - werden gemessen und zur Charakterisierung von Vokalen verwendet.

Die Vokalhöhe bezieht sich traditionell auf den höchsten Punkt der Zunge während der Artikulation. Der Höhenparameter wird in vier Hauptstufen unterteilt: hoch (nah), nah-mittig, offen-mittig und niedrig (offen). Vokale, deren Höhe in der Mitte liegt, werden als mittel bezeichnet. Leicht geöffnete enge Vokale und leicht geschlossene offene Vokale werden als nahe-nah bzw. nahe-offen bezeichnet. Die tiefsten Vokale werden nicht nur mit gesenkter Zunge artikuliert, sondern auch durch Senken des Kiefers.

Obwohl das IPA besagt, dass es sieben Stufen der Vokalhöhe gibt, ist es unwahrscheinlich, dass eine bestimmte Sprache alle sieben Stufen minimal kontrastieren kann. Chomsky und Halle gehen davon aus, dass es nur drei Stufen gibt, obwohl für das Dänische anscheinend vier Vokalhöhen benötigt werden und es möglich ist, dass einige Sprachen sogar fünf benötigen.

Die Vokalhäufigkeit wird in drei Stufen eingeteilt: vorne, zentral und hinten. In der Regel kontrastieren Sprachen nicht mehr als zwei Stufen der Vokalhäufigkeit. Einige Sprachen, von denen behauptet wird, dass sie einen dreistufigen Unterschied in der Rücklautstärke haben, sind Nimboran und Norwegisch.

In den meisten Sprachen können die Lippen bei der Vokalproduktion als gerundet oder ungerundet (gespreizt) klassifiziert werden, obwohl auch andere Arten von Lippenpositionen, wie z. B. Zusammenpressen und Vorwölbung, beschrieben wurden. Die Lippenstellung korreliert mit der Höhe und dem Rücken: vordere und tiefe Vokale sind tendenziell unrund, während hintere und hohe Vokale normalerweise gerundet sind. Gepaarte Vokale auf der IPA-Tabelle haben den gespreizten Vokal links und den gerundeten Vokal rechts.

Neben den oben beschriebenen universellen Vokalmerkmalen gibt es in einigen Sprachen zusätzliche Merkmale wie Nasalität, Länge und verschiedene Arten der Phonation wie stimmlos oder knarrend. Manchmal sind spezialisiertere Zungengesten wie Rhotizität, fortgeschrittene Zungenwurzel, Pharyngealisierung, Stridency und Frikation erforderlich, um einen bestimmten Vokal zu beschreiben.

Art und Weise der Artikulation

Die Kenntnis des Artikulationsortes reicht nicht aus, um einen Konsonanten vollständig zu beschreiben, die Art und Weise der Striktion ist ebenso wichtig. Die Art der Artikulation beschreibt, wie genau der aktive Artikulator den Vokaltrakt verändert, verengt oder verschließt.

Stopps (auch als Plosive bezeichnet) sind Konsonanten, bei denen der Luftstrom vollständig blockiert ist. Während der Verengung baut sich im Mund ein Druck auf, der dann als kleiner Schallstoß entweicht, wenn sich die Artikulatoren auseinander bewegen. Das Gaumensegel ist angehoben, so dass die Luft nicht durch die Nasenhöhle strömen kann. Wenn das Gaumensegel abgesenkt wird und die Luft durch die Nase strömen kann, entsteht ein Nasenstopp. Phonetiker bezeichnen nasale Stopps jedoch fast immer nur als "Nasale". Affrikate sind eine Folge von Anschlägen, gefolgt von einem Frikativ an der gleichen Stelle.

Frikative sind Konsonanten, bei denen der Luftstrom durch die teilweise, aber nicht vollständige Blockierung eines Teils des Vokaltrakts verwirbelt wird. Zischlaute sind eine besondere Art von Frikativen, bei denen der turbulente Luftstrom auf die Zähne gerichtet ist, wodurch ein hoher, zischender Klang entsteht.

Nasale (manchmal auch als Nasalstopps bezeichnet) sind Konsonanten, bei denen die Mundhöhle geschlossen ist und das Velum abgesenkt ist, so dass die Luft durch die Nase strömen kann.

Bei einem Approximanten kommen die Artikulatoren nahe zusammen, aber nicht so weit, dass ein turbulenter Luftstrom entsteht.

Laterale Konsonanten sind Konsonanten, bei denen der Luftstrom in der Mitte des Vokaltrakts behindert wird, so dass der Luftstrom auf einer oder beiden Seiten frei fließen kann. Laterale Konsonanten werden auch als Konsonanten definiert, bei denen die Zunge so kontrahiert ist, dass der Luftstrom an den Seiten stärker ist als in der Mitte der Zunge. Bei der ersten Definition kann die Luft nicht über die Zunge fließen.

Triller sind Konsonanten, bei denen die Zunge oder die Lippen durch den Luftstrom in Bewegung gesetzt werden. Die Striktur wird so geformt, dass der Luftstrom ein sich wiederholendes Muster des Öffnens und Schließens des/der weichen Artikulators/en verursacht. Apikale Triller bestehen typischerweise aus zwei oder drei Vibrationsperioden.

Taps und Flaps sind einzelne, schnelle, meist apikale Gesten, bei denen die Zunge gegen den Gaumen geschleudert wird, vergleichbar mit einem sehr schnellen Stopp. Diese Begriffe werden manchmal synonym verwendet, aber einige Phonetiker machen einen Unterschied. Bei einem Tap berührt die Zunge den Gaumen in einer einzigen Bewegung, während sich die Zunge bei einem Flap tangential zum Gaumen bewegt und ihn im Vorbeigehen berührt.

Bei einem glottalen Luftstrommechanismus wird die Stimmritze geschlossen, wodurch ein Luftkörper eingeschlossen wird. Dadurch kann die restliche Luft im Vokaltrakt separat bewegt werden. Durch eine Aufwärtsbewegung der geschlossenen Stimmritze wird diese Luft nach außen befördert, wodurch ein ejektiver Konsonant entsteht. Alternativ kann sich die Stimmritze absenken und mehr Luft in den Mund saugen, was zu einem implosiven Konsonanten führt.

Clicks sind Stopps, bei denen durch die Zungenbewegung Luft in den Mund gesaugt wird, dies wird als velarer Luftstrom bezeichnet. Während des Clicks wird die Luft zwischen zwei artikulatorischen Verschlüssen verdünnt, wodurch ein lautes "Click"-Geräusch entsteht, wenn der vordere Verschluss gelöst wird. Die Freigabe des vorderen Verschlusses wird als Click-Inflow bezeichnet. Die Freigabe des hinteren Verschlusses, der velar oder uvular sein kann, ist der Click-Efflux. Clicks werden in mehreren afrikanischen Sprachfamilien verwendet, z. B. in den Khoisan- und Bantu-Sprachen.

Pulmonales und subglottales System

Fast die gesamte Sprachproduktion wird von der Lunge gesteuert, und ihre Bedeutung in der Phonetik beruht auf der Erzeugung von Druck für pulmonale Laute. Die in allen Sprachen am häufigsten vorkommenden Laute sind pulmonale Ausstöße, bei denen die Luft aus der Lunge ausgeatmet wird. Auch das Gegenteil ist möglich, obwohl keine Sprache bekannt ist, die pulmonale Ingressionslaute als Phoneme hat. Viele Sprachen, wie z. B. Schwedisch, verwenden sie für paralinguistische Artikulationen wie Affirmationen in einer Reihe genetisch und geografisch unterschiedlicher Sprachen. Sowohl die egressiven als auch die ingressiven Laute beruhen darauf, dass die Stimmlippen in einer bestimmten Haltung gehalten werden und die Lungen Luft über die Stimmlippen ziehen, so dass diese entweder vibrieren (stimmhaft) oder nicht vibrieren (stimmlos). Die pulmonale Artikulation wird durch das Luftvolumen begrenzt, das in einem bestimmten Atemzyklus ausgeatmet werden kann, die so genannte Vitalkapazität.

Die Lunge dient dazu, gleichzeitig zwei Arten von Druck aufrechtzuerhalten, um die Phonation zu erzeugen und zu verändern. Um überhaupt phonieren zu können, muss die Lunge einen Druck aufrechterhalten, der 3-5 cm H2O höher ist als der Druck über der Stimmritze. Es werden jedoch kleine und schnelle Anpassungen des subglottalen Drucks vorgenommen, um die Sprache für suprasegmentale Merkmale wie Betonung zu modifizieren. Für diese Anpassungen wird eine Reihe von Thoraxmuskeln eingesetzt. Da sich Lunge und Thorax beim Einatmen ausdehnen, können allein die elastischen Kräfte der Lunge Druckunterschiede erzeugen, die für die Phonation bei einem Lungenvolumen von über 50 % der Vitalkapazität ausreichen. Oberhalb von 50 Prozent der Vitalkapazität wird die Atemmuskulatur zur "Kontrolle" der elastischen Kräfte des Thorax eingesetzt, um ein stabiles Druckgefälle aufrechtzuerhalten. Unterhalb dieses Volumens werden sie eingesetzt, um den subglottalen Druck durch aktives Ausatmen von Luft zu erhöhen.

Während des Sprechens wird der Atemzyklus modifiziert, um sowohl den sprachlichen als auch den biologischen Anforderungen gerecht zu werden. Die Ausatmung, die in Ruhe normalerweise etwa 60 Prozent des Atemzyklus ausmacht, wird auf etwa 90 Prozent des Atemzyklus erhöht. Da der Stoffwechselbedarf relativ stabil ist, bleibt das insgesamt bewegte Luftvolumen beim Sprechen in den meisten Fällen ungefähr gleich wie bei der ruhigen Tidalatmung. Eine Erhöhung der Sprechintensität um 18 dB (ein lautes Gespräch) hat relativ geringe Auswirkungen auf das bewegte Luftvolumen. Da ihr Atmungssystem noch nicht so weit entwickelt ist wie das von Erwachsenen, neigen Kinder dazu, einen größeren Teil ihrer Vitalkapazität zu nutzen als Erwachsene, wobei sie häufiger tief einatmen.

Quelle-Filter-Theorie

Das Source-Filter-Modell der Sprache ist eine Theorie der Sprachproduktion, die den Zusammenhang zwischen der Haltung des Vokaltrakts und den akustischen Folgen erklärt. Nach diesem Modell kann der Vokaltrakt als eine Geräuschquelle modelliert werden, die mit einem akustischen Filter gekoppelt ist. Die Geräuschquelle ist in vielen Fällen der Kehlkopf während des Stimmprozesses, aber auch andere Geräuschquellen können auf dieselbe Weise modelliert werden. Die Form des supraglottalen Vokaltrakts wirkt als Filter, und unterschiedliche Konfigurationen der Artikulatoren führen zu unterschiedlichen akustischen Mustern. Diese Veränderungen sind vorhersehbar. Der Vokaltrakt kann als eine Folge von Röhren mit unterschiedlichen Durchmessern modelliert werden, die an einem Ende geschlossen sind, und mit Hilfe von Gleichungen für akustische Resonanz kann die akustische Wirkung einer Artikulationsstellung abgeleitet werden. Das Verfahren der inversen Filterung nutzt dieses Prinzip, um das Quellenspektrum zu analysieren, das von den Stimmlippen während der Stimmgebung erzeugt wird. Durch die Umkehrung eines vorhergesagten Filters kann die akustische Wirkung des supraglottalen Vokaltrakts rückgängig gemacht werden, was das von den Stimmlippen erzeugte akustische Spektrum ergibt. Dies ermöglicht eine quantitative Untersuchung der verschiedenen Phonationstypen.

Wahrnehmung

Sprachwahrnehmung ist der Prozess, durch den ein Sprachsignal entschlüsselt und von einem Hörer verstanden wird. Um Sprache wahrnehmen zu können, muss das kontinuierliche akustische Signal in diskrete sprachliche Einheiten wie Phoneme, Morpheme und Wörter umgewandelt werden. Um Laute korrekt zu identifizieren und zu kategorisieren, priorisieren Hörer bestimmte Aspekte des Signals, die zuverlässig zwischen sprachlichen Kategorien unterscheiden können. Während bestimmte Hinweise gegenüber anderen bevorzugt werden, können viele Aspekte des Signals zur Wahrnehmung beitragen. Obwohl beispielsweise bei mündlichen Sprachen akustische Informationen im Vordergrund stehen, zeigt der McGurk-Effekt, dass visuelle Informationen verwendet werden, um mehrdeutige Informationen zu unterscheiden, wenn die akustischen Hinweise unzuverlässig sind.

Obwohl Hörer eine Vielzahl von Informationen nutzen können, um das Sprachsignal zu segmentieren, ist die Beziehung zwischen akustischem Signal und Kategoriewahrnehmung keine perfekte Abbildung. Aufgrund von Koartikulation, verrauschten Umgebungen und individuellen Unterschieden gibt es ein hohes Maß an akustischer Variabilität innerhalb von Kategorien. Das Problem der Wahrnehmungsinvarianz besteht darin, dass Hörer in der Lage sind, Kategorien trotz der Variabilität in der akustischen Instanziierung zuverlässig wahrzunehmen. Um dies zu erreichen, stellen sich Hörer schnell auf neue Sprecher ein und verschieben ihre Grenzen zwischen den Kategorien, um sie an die akustischen Unterscheidungen ihres Gesprächspartners anzupassen.

Anhören

Wie Klänge ihren Weg von der Quelle zum Gehirn finden

Die Audition, der Prozess des Hörens von Tönen, ist die erste Stufe der Sprachwahrnehmung. Die Artikulatoren verursachen systematische Luftdruckänderungen, die sich als Schallwellen zum Ohr des Zuhörers ausbreiten. Die Schallwellen treffen dann auf das Trommelfell des Hörers und versetzen es in Schwingung. Die Schwingungen des Trommelfells werden von den Gehörknöchelchen - drei kleinen Knochen des Mittelohrs - an die Hörschnecke übertragen. Die Cochlea ist eine spiralförmige, flüssigkeitsgefüllte Röhre, die der Länge nach durch das Corti-Organ geteilt ist, das die Basilarmembran enthält. Die Basilarmembran nimmt auf dem Weg durch die Cochlea an Dicke zu, so dass unterschiedliche Frequenzen an verschiedenen Stellen in Resonanz treten. Dieser tonotopische Aufbau ermöglicht es dem Ohr, den Schall ähnlich wie bei einer Fourier-Transformation zu analysieren.

Die unterschiedlichen Schwingungen des Basilarkanals bewirken, dass sich die Haarzellen im Corti-Organ bewegen. Dies führt zu einer Depolarisation der Haarzellen und schließlich zu einer Umwandlung des akustischen Signals in ein neuronales Signal. Während die Haarzellen selbst keine Aktionspotentiale erzeugen, setzen sie an den Synapsen mit den Fasern des Hörnervs Neurotransmitter frei, die wiederum Aktionspotentiale erzeugen. Auf diese Weise werden die Schwingungsmuster der Basilarmembran in räumlich-zeitliche Muster von Zündungen umgewandelt, die Informationen über den Klang an den Hirnstamm weiterleiten.

Prosodie

Neben Konsonanten und Vokalen beschreibt die Phonetik auch die Eigenschaften der Sprache, die nicht auf Segmente, sondern auf größere Spracheinheiten wie Silben und Phrasen beschränkt sind. Die Prosodie umfasst auditive Eigenschaften wie Tonhöhe, Sprechgeschwindigkeit, Dauer und Lautstärke. Sprachen nutzen diese Eigenschaften in unterschiedlichem Maße, um Betonung, Tonhöhenakzente und Intonation zu realisieren - so ist beispielsweise die Betonung im Englischen und Spanischen mit Änderungen der Tonhöhe und der Dauer verbunden, während die Betonung im Walisischen eher mit der Tonhöhe als mit der Dauer und die Betonung im Thailändischen nur mit der Dauer korreliert ist.

Theorien der Sprachwahrnehmung

Frühe Theorien der Sprachwahrnehmung wie die motorische Theorie versuchten, das Problem der Wahrnehmungsinvarianz zu lösen, indem sie argumentierten, dass Sprachwahrnehmung und -produktion eng miteinander verbunden sind. In ihrer stärksten Ausprägung besagt die Motoriktheorie, dass die Sprachwahrnehmung erfordert, dass der Hörer auf die artikulatorische Repräsentation von Lauten zugreift; um einen Laut richtig kategorisieren zu können, muss der Hörer die Artikulation, die diesen Laut erzeugt, rückgängig machen und durch die Identifizierung dieser Gesten in der Lage sein, die beabsichtigte linguistische Kategorie zu finden. Während Befunde wie der McGurk-Effekt und Fallstudien von Patienten mit neurologischen Verletzungen die motorische Theorie stützen, haben weitere Experimente die starke Form der motorischen Theorie nicht gestützt, obwohl es einige Unterstützung für schwächere Formen der motorischen Theorie gibt, die eine nicht-deterministische Beziehung zwischen Produktion und Wahrnehmung behaupten.

Nachfolgende Theorien der Sprachwahrnehmung legen den Schwerpunkt auf akustische Hinweise auf Klangkategorien und können in zwei große Kategorien eingeteilt werden: abstraktionistische Theorien und episodische Theorien. In abstraktionistischen Theorien beinhaltet die Sprachwahrnehmung die Identifizierung eines idealisierten lexikalischen Objekts auf der Grundlage eines auf seine notwendigen Komponenten reduzierten Signals und die Normalisierung des Signals, um der Variabilität der Sprecher entgegenzuwirken. Episodische Theorien wie das Exemplarmodell gehen davon aus, dass die Sprachwahrnehmung den Zugriff auf detaillierte Erinnerungen (d. h. episodische Erinnerungen) an zuvor gehörte Token beinhaltet. Das Problem der Wahrnehmungsinvarianz wird von episodischen Theorien als ein Problem der Vertrautheit erklärt: Die Normalisierung ist eher ein Nebenprodukt der Exposition gegenüber variableren Verteilungen als ein diskreter Prozess, wie abstraktionistische Theorien behaupten.

Teildisziplinen

Akustische Phonetik

Die akustische Phonetik befasst sich mit den akustischen Eigenschaften von Sprachlauten. Die Wahrnehmung von Schall wird durch Druckschwankungen verursacht, die das Trommelfell in Bewegung versetzen. Das Ohr wandelt diese Bewegung in neuronale Signale um, die das Gehirn als Klang wahrnimmt. Akustische Wellenformen sind Aufzeichnungen, die diese Druckschwankungen messen.

Artikulatorische Phonetik

Die artikulatorische Phonetik befasst sich mit der Art und Weise, in der Sprachlaute erzeugt werden.

Auditive Phonetik

Die auditive Phonetik untersucht, wie Menschen Sprachlaute wahrnehmen. Aufgrund der anatomischen Besonderheiten des Gehörs, die das Sprachsignal verzerren, nimmt der Mensch Sprachlaute nicht als perfekte akustische Aufzeichnungen wahr. Zum Beispiel entspricht der Höreindruck der Lautstärke, gemessen in Dezibel (dB), nicht linear dem Unterschied im Schalldruck.

Die Diskrepanz zwischen der akustischen Analyse und dem, was der Hörer hört, macht sich besonders bei Sprachlauten bemerkbar, die viel hochfrequente Energie enthalten, wie z. B. bestimmte Frikativlaute. Um diese Diskrepanz auszugleichen, wurden funktionale Modelle des auditorischen Systems entwickelt.

Beschreiben von Lauten

Menschliche Sprachen verwenden viele verschiedene Laute, und um sie vergleichen zu können, müssen Linguisten in der Lage sein, Laute auf eine Weise zu beschreiben, die sprachunabhängig ist. Sprachlaute können auf verschiedene Weise beschrieben werden. Am häufigsten werden Sprachlaute durch die Mundbewegungen beschrieben, die zu ihrer Erzeugung erforderlich sind. Konsonanten und Vokale sind zwei grobe Kategorien, die Phonetiker anhand der Bewegungen in einem Sprachlaut definieren. Feinere Deskriptoren sind Parameter wie der Ort der Artikulation. Artikulationsort, Art der Artikulation und Intonation werden zur Beschreibung von Konsonanten verwendet und sind die Hauptunterteilungen der Konsonantendiagramme des Internationalen Phonetischen Alphabets. Vokale werden durch ihre Höhe, Rückwärtsbewegung und Rundung beschrieben. Die Gebärdensprache wird mit ähnlichen, aber unterschiedlichen Parametern beschrieben: Lage, Bewegung, Handform, Ausrichtung der Handfläche und nicht-manuelle Merkmale. Zusätzlich zu den artikulatorischen Beschreibungen können die in mündlichen Sprachen verwendeten Laute durch ihre Akustik beschrieben werden. Da die Akustik eine Folge der Artikulation ist, reichen beide Beschreibungsmethoden aus, um Laute zu unterscheiden, wobei die Wahl zwischen den Systemen von dem untersuchten phonetischen Merkmal abhängt.

Konsonanten sind Sprachlaute, die mit einem vollständigen oder teilweisen Verschluss des Vokaltrakts artikuliert werden. Sie werden im Allgemeinen durch die Veränderung eines von der Lunge ausgeatmeten Luftstroms erzeugt. Die Atmungsorgane, die zur Erzeugung und Veränderung des Luftstroms dienen, sind in drei Bereiche unterteilt: den Vokaltrakt (supralaryngeal), den Kehlkopf und das subglottale System. Der Luftstrom kann entweder egressiv (aus dem Vokaltrakt) oder ingressiv (in den Vokaltrakt) sein. Bei pulmonalen Lauten wird der Luftstrom von der Lunge im subglottalen System erzeugt und durch den Kehlkopf und den Vokaltrakt geleitet. Bei glottalen Lauten wird der Luftstrom durch Bewegungen des Kehlkopfes erzeugt, ohne dass die Lunge Luft ausstößt. Klickkonsonanten werden durch die Verdünnung der Luft mit der Zunge artikuliert, gefolgt vom Loslassen des Zungenvorderschlusses.

Vokale sind syllabische Sprachlaute, die ohne Behinderung des Vokaltrakts ausgesprochen werden. Im Gegensatz zu Konsonanten, die in der Regel bestimmte Artikulationsorte haben, werden Vokale in Bezug auf eine Reihe von Referenzvokalen definiert, die Kardinalvokale genannt werden. Zur Definition von Vokalen werden drei Eigenschaften benötigt: Zungenhöhe, Zungenrücklage und Lippenrundung. Vokale, die mit einer stabilen Qualität artikuliert werden, nennt man Monophthonge; eine Kombination aus zwei separaten Vokalen in derselben Silbe ist ein Diphthong. Im IPA werden die Vokale in einer Trapezform dargestellt, die den menschlichen Mund repräsentiert: Die vertikale Achse stellt den Mund vom Boden bis zum Dach dar, die horizontale Achse die Vorder- und Rückendimension.

Umschrift

Die phonetische Transkription ist ein System zur Transkription von Lauten, die in einer Sprache vorkommen, sei es mündlich oder durch Zeichen. Das bekannteste System der phonetischen Transkription, das Internationale Phonetische Alphabet (IPA), bietet einen standardisierten Satz von Symbolen für mündliche Laute. Die standardisierte Natur des IPA ermöglicht es seinen Benutzern, die Laute verschiedener Sprachen, Dialekte und Idiolekte genau und einheitlich zu transkribieren. Das IPA ist ein nützliches Instrument nicht nur für das Studium der Phonetik, sondern auch für den Sprachunterricht, die professionelle Schauspielerei und die Sprachpathologie.

Da es für keine Gebärdensprache ein standardisiertes Schriftsystem gibt, haben Linguisten ihre eigenen Notationssysteme entwickelt, die Handform, Position und Bewegung beschreiben. Das Hamburger Notationssystem (HamNoSys) ist dem IPA insofern ähnlich, als es unterschiedliche Detailstufen zulässt. Einige Notationssysteme wie KOMVA und das Stokoe-System wurden für die Verwendung in Wörterbüchern entwickelt; sie verwenden auch alphabetische Buchstaben der Landessprache für die Handformen, während HamNoSys die Handform direkt darstellt. SignWriting soll ein leicht zu erlernendes Schriftsystem für Gebärdensprachen sein, obwohl es bisher von keiner Gehörlosengemeinschaft offiziell angenommen wurde.

Gebärdensprachen

Im Gegensatz zu gesprochenen Sprachen werden die Wörter in Gebärdensprachen mit den Augen und nicht mit den Ohren wahrgenommen. Die Gebärden werden mit den Händen, dem Oberkörper und dem Kopf artikuliert. Die Hauptartikulatoren sind die Hände und Arme. Die relativen Teile des Arms werden mit den Begriffen proximal und distal beschrieben. Proximal bezieht sich auf einen Teil, der näher am Rumpf liegt, während ein distaler Teil weiter vom Rumpf entfernt ist. So ist beispielsweise eine Bewegung des Handgelenks distal im Vergleich zu einer Bewegung des Ellbogens. Da distale Bewegungen weniger Energie benötigen, sind sie im Allgemeinen leichter auszuführen. Verschiedene Faktoren - wie die Flexibilität der Muskeln oder die Tabuisierung - schränken ein, was als Gebärde betrachtet werden kann. Eingeborene Gebärdensprachler schauen nicht auf die Hände ihres Gesprächspartners. Stattdessen ist ihr Blick auf das Gesicht fixiert. Da das periphere Sehen nicht so stark fokussiert ist wie das Zentrum des Gesichtsfeldes, können Gebärden, die in der Nähe des Gesichts artikuliert werden, feinere Unterschiede in der Fingerbewegung und -position wahrgenommen werden.

Anders als bei gesprochenen Sprachen gibt es bei Gebärdensprachen zwei identische Artikulatoren: die Hände. Die Gebärdenden können die von ihnen bevorzugte Hand benutzen, ohne dass die Kommunikation unterbrochen wird. Aufgrund universeller neurologischer Einschränkungen haben zweihändige Gebärden im Allgemeinen die gleiche Art der Artikulation in beiden Händen; dies wird als Symmetriebedingung bezeichnet. Die zweite universelle Einschränkung ist die Dominanzbedingung, die besagt, dass bei zwei Handformen eine Hand stationär bleibt und im Vergleich zur dominanten, sich bewegenden Hand eine begrenztere Anzahl von Handformen hat. Darüber hinaus ist es üblich, dass eine Hand in einem zweihändigen Zeichen während informeller Gespräche fallen gelassen wird, ein Vorgang, der als weak drop bezeichnet wird. Genau wie bei Wörtern in gesprochenen Sprachen kann die Koartikulation dazu führen, dass sich Zeichen gegenseitig in ihrer Form beeinflussen. Beispiele hierfür sind die Angleichung der Handformen benachbarter Zeichen (Assimilation) oder das Fallenlassen (ein Fall von Deletion).

Angrenzende Fächer und verwandte Fachdisziplinen

Abgrenzung zur Phonologie

Die sprachwissenschaftliche Disziplin der Phonologie ist mit der Phonetik eng verwandt. Die Phonologie klassifiziert Laute aufgrund ihrer Verteilung und Funktion in einer spezifischen Sprache. Aufgrund von Minimalpaaren wie z. B. rot und tot identifiziert die Phonologie die kleinsten bedeutungsunterscheidenden Laute einer Sprache, die Phoneme (hier: ​/⁠ʀ⁠/​ und ​/⁠t⁠/​). Im Gegensatz zur Phonologie untersucht die Phonetik die konkreten artikulatorischen und akustischen Merkmale der Laute aller Sprachen, d. h. sie beschäftigt sich damit, wie sprachliche Laute gebildet werden, wie sie durch das menschliche Ohr aufgenommen und im Gehirn weiterverarbeitet wird und wie man sprachliche Laute akustisch messen und beschreiben kann. Kleinste Einheit in der Phonetik ist der Laut oder das Phon, die kleinste Lauteinheit in dem Lautkontinuum der gesprochenen Sprache. Diese kleinsten Einheiten werden durch Analyse und Zerlegung von sprachlichen Äußerungen identifiziert. In der Phonetik kann dann z. B. beschrieben werden, durch welche Artikulation diese Laute erzeugt werden. Einem Phonem, der abstrakten Einheit aus der Phonologie, entsprechen in einer Lautäußerung ein oder mehrere Phone. Phone, die in einer bestimmten Sprache als Varianten desselben Phonems zählen, also in der jeweiligen Sprache funktionsgleich sind, nennt man auch Allophone dieses Phonems.

Interdisziplinäres Fachgebiet

Die Phonetik ist ein interdisziplinäres Fachgebiet, das Ergebnisse und Methoden aus den Fächern Anatomie, Physiologie, Neurologie, Physik und Mathematik nutzt. Für die Beschreibung der Lautbildung mit Lunge, Kehlkopf sowie Mund- und Nasenraum nutzt die Phonetik Erkenntnisse aus der Anatomie und der Physiologie, für die Beschreibung der Lautverarbeitung durch das menschliche Gehirn Ergebnisse der Neurologie. Die Physik, speziell das Teilgebiet der Akustik, ist relevant für die Beschreibung der Schallübertragung der sprachlichen Laute, ebenso wie einige Erkenntnisse aus der Mathematik, die das mathematische Gerüst zur Beschreibung von Schallwellen bietet (z. B. Fourier-Analysis).

Die Phonetik wird in vielen Publikationen als interdisziplinäres naturwissenschaftliches Fachgebiet gesehen; viele Einführungen in die Sprachwissenschaft führen sie aber auch als Teilbereich der Sprachwissenschaft und behandeln sie gemeinsam mit den sprachwissenschaftlichen Disziplinen Phonologie, Morphologie und Syntax.

Neben der Phonetik und Phonologie haben u. a. auch die Fächer Sprechwissenschaft, Sprecherziehung, Rhetorik, Sprechkunst, Klinische Linguistik, Logopädie und Sprachheilpädagogik gesprochene Sprache zum Inhalt.

Teilbereiche der Phonetik

Hauptarbeitsgebiete

Die allgemeine Phonetik beschäftigt sich mit den bei konkreten Sprechakten physikalisch ablaufenden Prozessen sowie deren messtechnischer Erfassung. Sie hat die folgenden Teilgebiete:

  • Die artikulatorische Phonetik ist die Lehre des Aufbaus und der Funktion des Sprechapparats sowie dessen Einsatz bei der Produktion von Sprache.
  • Die akustische Phonetik untersucht die physikalische Struktur der Schallwellen als Träger der sprachlichen Laute.
  • Die auditive oder perzeptive Phonetik befasst sich mit der Wahrnehmung der sprachlichen Laute durch den Hörer und der jeweiligen Rolle des Gehörs und des Gehirns

Ferner gibt es das Arbeitsgebiet der systematischen Phonetik, die sich um die systematische Beschreibung der Laute (Phone) der Sprachen der Welt bemüht, einschließlich der Beschreibung der Konsonanten und Vokale aller menschlichen Sprachen und deren Transkription in eine Lautschrift. Zur systematischen Phonetik zählt auch die Beschreibung der suprasegmentalen Phonetik (Prosodie), d. h. die Beschreibung einzelner Laute und deren Verwendung in der Silbe bzw. im Wort.

Akustische Phonetik

Oszillogramm (oben), Spektrogramm (Mitte) und phonetische Transkription (unten) des gesprochenen Wortes Wikipedia unter Verwendung der Software Praat für linguistische Analyse.
Sprachdatei dazu

Die akustische Phonetik befasst sich mit der Beschreibung der sprachlichen Laute als Schallschwingungen, wie sie von Sprecher zum Hörer übertragen werden. Der Untersuchungsbereich der akustischen Phonetik befindet sich damit in dem Bereich nach der Artikulation durch den Sprecher und vor der Signalaufnahme durch das Ohr des Hörers. Die Grundlagen der akustischen Phonetik stammen aus einem Teilbereich der Physik, der Akustik. Die akustische Phonetik beschreibt die Erzeugung und Übertragung der Schallschwingungen, die durch sprachliche Laute erzeugt werden. Unter Schall versteht man minimale Luftdruckschwankungen, die hörbar sind. Sprachliche Laute gehören zu einem speziellen Typ von Schallschwingungen, nämlich den Klängen. Im Gegensatz zu reinen Tönen (z. B. aus der Musik) sind Klänge zusammengesetzte Schallschwingungen. Im Gegensatz zu Geräuschen sind Klänge periodische Schallschwingungen. In der Akustik werden Klänge (also auch sprachliche Laute) als Sinoidalschwingungen beschrieben.

Genauer gesagt sind sprachliche Laute zusammengesetzte Schwingungen, die in einzelne Sinoidalschwingungen zerlegbar sind. Bei einer solchen Zerlegung werden die Amplituden der einzelnen Teilschwingungen ermittelt. So erhält man ein Schallspektrum, und das Verfahren, das hierfür verwendet wird, nennt man Frequenzanalyse oder Fourier-Analyse (nach dem französischen Mathematiker Jean Baptiste Joseph Fourier). Die Ergebnisse der Akustik sind für die Phonetik relevant, weil während der Sprachlautproduktion Schallwellen erzeugt werden, die vom Kehlkopf über den Rachen-, Mund- und Nasenraum wandern. Diese Schallwellen lassen sich mit den Mitteln der Akustik messen und beschreiben.

Die akustische Phonetik verwendet verschiedene Darstellungsformen, um die Akustik der sprachlichen Äußerungen sichtbar zu machen. Eine wichtige Darstellungsform ist das Oszillogramm, das die Schallschwingungen als Graph entlang einer Zeitachse darstellt. Das Oszillogramm gibt den tatsächlichen Schwingungsvorgang des Schalls wieder, misst also die Schwingung der Luftteilchen während der Schallwellenübertragung.

Spektrogramm der Laute [i, u, ɑ] in amerikanischem Englisch, Formanten sind deutlich sichtbar

Häufig will man nicht nur die reinen Schallschwingungen darstellen, sondern man will gleichzeitig zeigen, welche Frequenzen und Amplituden die Schallwellen einer sprachlichen Äußerung haben und wie sie sich über die Zeit verändern. Dies gelingt, wenn man die akustische Information der Schallschwingungen mittels mathematischer Methoden in ein Spektrogramm oder Sonagramm umwandelt, eine bildliche Darstellung des Frequenzspektrums eines Signals. Im Sonagramm ist der Zeitverlauf auf der x-Achse (von links nach rechts), während die Frequenz auf der y-Achse (von unten nach oben) dargestellt wird. Die Amplitude der Schallwellen wird durch verschiedene Grauschattierungen dargestellt: je dunkler ein Bereich, desto größer die Amplitude. Die Balken in eine Sonagramm, die einen stärkeren Schwärzungsgrad aufweisen, stellen die Frequenzbänder mit einer höheren Energie dar, die sogenannten Formanten. Im Sonagramm sind die Formanten die grafische Repräsentation des Vokalschalls.

Ein wichtiger Schwerpunkt der akustischen Phonetik ist die Beschreibung und Analyse von Lautäußerungen mittels Spektrogrammen und Sonagrammen. Weitere Themen im Bereich der akustischen Phonetik, die vor allem durch den zunehmenden Einsatz von Computern möglich sind, sind automatische Spracherkennung und Sprachsynthese.

Auditive oder perzeptive Phonetik

Anatomie des Ohres mit äußerem Gehörgang, Mittelohr mit Hammer, Amboss und Steigbügel (in grau) und Innenohr mit Schnecke oder Cochlea (in violett)

Die auditive oder perzeptive Phonetik befasst sich mit der Aufnahme und Verarbeitung sprachlicher Laute im Gehörorgan und im auditiven Nervensystem.

Die Schallwellen sprachlicher Laute werden über das äußere Ohr und das Mittelohr in das Innenohr geleitet, wo das eigentliche Hörorgan, das Corti-Organ sitzt. Die Frage, wie die Sprache im Ohr und im menschlichen Gehirn verarbeitet wird, ist Teil verschiedener Hörtheorien, darunter die Resonanzhypothese und die Wanderwellentheorie von Georg von Békésy.

Ein wichtiges Untersuchungsgebiet der auditiven Phonetik ist der Zusammenhang zwischen der subjektiven Wahrnehmung der sprachlichen Laute und der physikalisch messbaren Parameter des akustischen Signals, etwa der Lautstärke und des messbaren Schalldruckpegels (in Dezibel, dB) sowie der Tonhöhe. Bahnbrechend für die perzeptive Phonetik waren die Forschungen zur auditiven Sprachwahrnehmung z. B. durch die Bell Laboratories Mitte des 20. Jahrhunderts, die feststellen wollten, wie stark das Sprachsignal reduziert werden kann, ohne dass es unverständlich wird, um damit die Kapazität der Telefonleitungen besser ausschöpfen zu können.

Ein wichtiges Ergebnis zur auditiven Sprachwahrnehmung aus der Phonetik ist neben anderen die Erkenntnis, dass eine sprachliche Äußerung aus einem kontinuierlichen akustischen Signal besteht. In den Anfängen der Phonetik hatte man die Erwartung, dass sich in den Messungen sprachlicher Äußerungen eindeutig abgrenzbare Segmente (Vokale, Konsonanten) identifizieren und auch synthetisch erzeugen lassen. Wie sich aber mit den Experimenten des Pattern-Playback-Synthetisator der Haskins-Laboratorien herausstellte, war dies zwar für Vokale möglich, aber nicht für Konsonanten. Aus Experimenten zur Sprachwahrnehmung stammt die Erkenntnis, dass Menschen sprachlichen Input in klar abgegrenzte Kategorien unterteilen: Variiert man den sprachlichen Input leicht (z. B. von [] über [] nach []), so nehmen Probanden vor allem drei Kategorien wahr (kategoriale Wahrnehmung). Nimmt man musikalische Töne oder Geräusche als Input, so können Probanden wesentlich mehr feine Unterschiede benennen (kontinuierliche Wahrnehmung). Aus diesem und anderen Experimenten entwickelten die Forscher der Haskins-Laboratorien ihre Motor-Theorie der Sprachwahrnehmung.

Weitere mögliche Klassifikationen der Teilbereiche der Phonetik

Wenn man phonetische Teilbereiche nach ihrem methodischen Zugang klassifiziert, kann man sie wie folgt unterscheiden:

  • Deskriptive Phonetik: Beschreibung und Analyse von Lauten durch Verwendung des Gehörs („Ohrenphonetik“)
  • Symbolphonetik: Darstellung des Gehörten mit dem Internationalen Phonetischen Alphabet (IPA)
  • Instrumental- oder Signalphonetik: Erforschung sprachlicher Laute mittels mechanischer und elektronischer Geräte
  • Experimentalphonetik: Erforschung des Zusammenhangs zwischen einer lautlichen Äußerung und der Wahrnehmung von Versuchspersonen im Experiment

Phonetik der Einzelsprachen

Neben der Beschreibung und Messung der Vorgänge bei der Spracherzeugung und Sprachwahrnehmung trägt die Phonetik dazu bei, das Lautinventar von Einzelsprachen zu erfassen. Die Laute oder Phone einer Sprache werden zunächst durch Beobachtungen des Phonetikers identifiziert und anschließend systematisch beschrieben: Konsonanten werden auf der Basis ihrer Artikulationsart und der Artikulationsstelle beschrieben und klassifiziert, Vokale aufgrund der Zungenposition und der Mundrundung. Beispielsweise findet man unter den Konsonanten des Deutschen die Nasallaute ​[⁠m⁠]​, ​[⁠n⁠]​ und ​[⁠ŋ⁠]​ (wie in den Wörtern Damm, dann und Drang). Diese werden bilabial (mit beiden Lippen), alveolar (mit der Zunge am oberen Zahndamm hinter den oberen Schneidezähnen) bzw. velar (am Gaumensegel) artikuliert. Im Französischen dagegen findet man neben [m] und [n] (wie in pomme, panne) auch noch den palatalen Nasal ​[⁠ɲ⁠]​ (wie in pagne).

Die Sprachen der Welt machen von den potentiell möglichen Phonen unterschiedlich Gebrauch. So findet man Sprachen, deren Lautinventar eine geringe Zahl von Vokalen oder Konsonanten umfasst, wie die Papuasprache Rotokas mit ihren lediglich sechs Konsonanten und fünf Vokalen. Ein anderes Extrem ist die südafrikanische Khoisansprache !Xũ, die insgesamt 141 Phoneme hat, darunter eine große Zahl von Konsonanten, Klicks und Diphthongen.

Phone werden durch eine Lautschrift schriftlich dargestellt, wobei das Internationale Phonetische Alphabet (IPA) als der Standard hierfür gilt.

Die Phonetik vieler Einzelsprachen ist gut erforscht; einen Überblick über die Lautsysteme der Sprachen der Welt geben die Linguisten Peter Ladefoged und Ian Maddieson mit ihrem Buch The Sounds of the World’s Languages. Für viele europäische Sprachen sind Einführungen in ihre Phonetik verfügbar, so z. B. für das Deutsche, Englische oder Französische. Ein Meilenstein für die Beschreibung der englischen Sprache ist das Buch An Outline of English Phonetics des Phonetikers Daniel Jones von 1922.

Angewandte Phonetik

Die Ergebnisse der allgemeinen und systematischen Phonetik fließen in Teilbereiche der angewandten Phonetik ein, z. B. in die forensische Phonetik oder die klinische Phonetik, und auch in die Spracherwerbsforschung.

In der forensischen Phonetik kommt phonetisches Wissen für die Untersuchung von sprechertypischen Stimm- und Sprecheigenschaften zum Einsatz, z. B. mit forensischen Fragestellungen im Bereich der Kriminalistik bzw. Kriminaltechnik oder beim Verfassen von forensischen Gerichtsgutachten. So sind Erkenntnisse aus der Phonetik das Fundament für forensische Gutachter, die vor Gericht etwa darüber entscheiden sollen, ob ein Angeklagter der Sprecher auf einer Audioaufzeichnung ist. Dabei kommen Methoden wie das einfache Anhören der Aufnahme durch den Gutachter bis hin zu technischen Analysen etwa mittels eines Spektrographen zum Einsatz.

Die klinische Phonetik ist ein anwendungsorientiertes Teilgebiet der sprachwissenschaftlichen Disziplin Phonetik. Sie beschäftigt sich mit der Symptombeschreibung und Diagnostik von Sprech-, Sprach- und Stimmstörungen bei Erwachsenen und Störungen des Spracherwerbs bzw. der Sprachentwicklung bei Kindern. Die klinische Phonetik begann sich Ende der 1970er Jahre als eigenständige Disziplin zu etablieren; grundlegend für die Disziplin war die Publikation von David Crystals Buch Clinical Linguistics 1981. Ziele der klinischen Phonetik sind unter anderem die Anwendung von Erkenntnissen aus der Phonetik, um Sprach- und Sprechstörungen bei Patienten zu behandeln, und die Integration klinischer Ergebnisse in linguistische Theorie. Auch befasst sie sich mit der Erweiterung des Internationalen Phonetischen Alphabets (IPA) um Transkriptionsmethoden, die die Sprache sprachgestörter Individuen angemessener wiedergibt.

Phonetische Grundlagen sind auch relevant für die Spracherwerbsforschung, die den Erwerb der Sprechfertigkeit und individuelle Lautentwicklung beim (vor allem gesunden) Kind untersucht. Phonetisches Grundwissen fließt ferner in die Orthoepie ein, die Lehre von bzw. die Regelung der normierten Standardlautung einer Sprache, die frei von regionalen Einflüssen sein soll (Standardaussprache).

Das Deseret-Alphabet, das Shaw-Alphabet und das Simpel-Fonetik-Alphabet sind Beispiele für Schreibsysteme, mit denen die englischen Sprache rein phonemisch nach der Aussprache geschrieben werden kann. Entsprechend wurden für das Standardchinesische unter anderen Pinyin, Bopomofo und Gwoyeu Romatzyh entwickelt, und auch für weitere Sprachen existieren ähnliche Systeme.