MP3

Aus besserwiki.de
MP3
Mp3.svg
Dateinamen-Erweiterung.mp3
.bit (vor 1995)
Internet-Medientyp
  • audio/mpeg
  • audio/MPA
  • audio/mpa-robust
Entwickelt vonKarlheinz Brandenburg, Ernst Eberlein, Heinz Gerhäuser, Bernhard Grill, Jürgen Herre und Harald Popp (alle Fraunhofer-Gesellschaft), und andere
Erste Veröffentlichung6. Dezember 1991; vor 31 Jahren
Letzte Veröffentlichung
ISO/IEC 13818-3:1998
April 1998; vor 24 Jahren
Art des FormatsVerlustbehaftetes Audio
Enthalten inMPEG-ES
Normen
  • ISO/IEC 11172-3
  • ISO/IEC 13818-3
Offenes Format?Ja
Freies Format?Abgelaufene Patente

MP3 (früher MPEG-1 Audio Layer III oder MPEG-2 Audio Layer III) ist ein Kodierungsformat für digitales Audio, das hauptsächlich von der Fraunhofer-Gesellschaft in Deutschland entwickelt wurde, mit Unterstützung von anderen Digitalwissenschaftlern in den Vereinigten Staaten und anderswo. Ursprünglich als drittes Audioformat des MPEG-1-Standards definiert, wurde es als drittes Audioformat des nachfolgenden MPEG-2-Standards beibehalten und weiter ausgebaut - mit zusätzlichen Bitraten und Unterstützung für mehr Audiokanäle. Eine dritte Version, bekannt als MPEG 2.5 - erweitert, um niedrigere Bitraten besser zu unterstützen - wird häufig eingesetzt, ist aber kein anerkannter Standard.

MP3 (oder mp3) als Dateiformat bezeichnet üblicherweise Dateien, die einen elementaren Strom von MPEG-1-Audio- oder MPEG-2-Audio-kodierten Daten enthalten, ohne die anderen Komplexitäten des MP3-Standards.

Im Hinblick auf die Audiokomprimierung (der Aspekt des Standards, der für die Endnutzer am offensichtlichsten ist und für den er am besten bekannt ist) verwendet MP3 eine verlustbehaftete Datenkomprimierung, um Daten unter Verwendung ungenauer Annäherungen und dem teilweisen Weglassen von Daten zu kodieren. Dies ermöglicht eine erhebliche Verringerung der Dateigröße im Vergleich zu unkomprimierten Audiodateien. Die Kombination aus geringer Größe und akzeptabler Wiedergabetreue führte Mitte bis Ende der 1990er Jahre zu einem Boom bei der Verbreitung von Musik über das Internet, wobei MP3 in einer Zeit, in der Bandbreite und Speicherplatz noch sehr knapp waren, als Basistechnologie diente. Das MP3-Format wurde bald mit Kontroversen um Urheberrechtsverletzungen, Musikpiraterie und die File-Ripping-/Tauschbörsen MP3.com und Napster in Verbindung gebracht. Mit dem Aufkommen der tragbaren Medienabspielgeräte, zu denen auch Smartphones gehören, ist die MP3-Unterstützung weiterhin nahezu universell.

Die MP3-Komprimierung funktioniert durch die Verringerung (oder Annäherung) der Genauigkeit bestimmter Klangbestandteile, die nach psychoakustischen Analysen die Hörfähigkeit der meisten Menschen übersteigen. Diese Methode wird gemeinhin als perzeptive Kodierung oder psychoakustische Modellierung bezeichnet. Die verbleibenden Audioinformationen werden dann unter Verwendung von MDCT- und FFT-Algorithmen platzsparend aufgezeichnet. Im Vergleich zu digitalem Audio in CD-Qualität kann die MP3-Komprimierung in der Regel eine Verringerung der Größe um 75 bis 95 % bewirken. Eine MP3-Datei, die mit einer konstanten Bitrate von 128 kbit/s kodiert wurde, ist beispielsweise nur etwa 9 % so groß wie die ursprüngliche CD-Datei. In den frühen 2000er Jahren unterstützten Compact-Disc-Player zunehmend die Wiedergabe von MP3-Dateien auf Daten-CDs.

Die Moving Picture Experts Group (MPEG) entwickelte MP3 als Teil ihrer MPEG-1- und später MPEG-2-Standards. MPEG-1 Audio (MPEG-1 Part 3), das MPEG-1 Audio Layer I, II und III enthält, wurde 1991 als Komitee-Entwurf für eine ISO/IEC-Norm angenommen, 1992 fertiggestellt und 1993 als ISO/IEC 11172-3:1993 veröffentlicht. Eine Erweiterung von MPEG-2 Audio (MPEG-2 Teil 3) mit niedrigeren Sample- und Bitraten wurde 1995 als ISO/IEC 13818-3:1995 veröffentlicht. Sie erfordert nur minimale Änderungen an bestehenden MPEG-1-Decodern (Erkennung des MPEG-2-Bits im Header und Hinzufügen der neuen niedrigeren Abtast- und Bitraten).

Bei einer Beispiel-Datenrate von 192 kbit/s, die bereits eine hohe Qualität ermöglicht, beträgt die Kompressionsrate einer MP3-Audiodatei etwa 85 % gegenüber einer unkomprimierten Audio-CD. MP3 ist das dominierende Verfahren zur Speicherung und Übertragung von Musik auf Computern, Smartphones, im Internet und auf tragbaren Musikabspielgeräten (MP3-Player), obwohl es mittlerweile eine Anzahl von technisch weiterentwickelten Optionen gibt. Das Verfahren wurde unter der Leitung von Karlheinz Brandenburg und Hans-Georg Musmann im Wesentlichen in Deutschland entwickelt. Das Fraunhofer-Institut für Integrierte Schaltungen spricht 2021 von einem

„weltweiten de facto[-]Standard für Audiocodierung.“

Fraunhofer-Institut für Integrierte Schaltungen IIS, 2021

Im Mai 2017 stellten die Entwickler die Lizenzierungen für das Format ein, nachdem die letzten Patente in den USA ausgelaufen waren (in Europa war MP3 bereits seit 2012 patentfrei). Es handelt sich somit seitdem um einen frei verfügbaren Standard.

Geschichte

Hintergrund

Der MP3-Algorithmus zur verlustbehafteten Komprimierung von Audiodaten macht sich eine Wahrnehmungsbeschränkung des menschlichen Gehörs zunutze, die so genannte auditive Maskierung. Im Jahr 1894 berichtete der amerikanische Physiker Alfred M. Mayer, dass ein Ton durch einen anderen Ton mit niedrigerer Frequenz unhörbar gemacht werden kann. Im Jahr 1959 beschrieb Richard Ehmer eine vollständige Reihe von Hörkurven für dieses Phänomen. Zwischen 1967 und 1974 arbeitete Eberhard Zwicker auf dem Gebiet der Abstimmung und Maskierung kritischer Frequenzbänder, was wiederum auf der grundlegenden Forschung auf diesem Gebiet von Harvey Fletcher und seinen Mitarbeitern in den Bell Labs aufbaute.

Die Wahrnehmungscodierung wurde erstmals für die Sprachcodierungskompression mit linearer prädiktiver Codierung (LPC) verwendet, die auf die Arbeit von Fumitada Itakura (Universität Nagoya) und Shuzo Saito (Nippon Telegraph and Telephone) im Jahr 1966 zurückgeht. 1978 schlugen Bishnu S. Atal und Manfred R. Schroeder in den Bell Labs einen LPC-Sprachcodec vor, die so genannte adaptive prädiktive Kodierung, die einen psychoakustischen Kodierungsalgorithmus verwendet, der die Maskierungseigenschaften des menschlichen Ohrs ausnutzt. Eine weitere Optimierung durch Schroeder und Atal zusammen mit J.L. Hall wurde später in einem Papier von 1979 beschrieben. Im selben Jahr wurde ein psychoakustischer Maskierungscodec auch von M. A. Krasner vorgeschlagen, der Hardware für Sprache veröffentlichte und herstellte (nicht verwendbar als Musik-Bitkompression), aber die Veröffentlichung seiner Ergebnisse in einem relativ obskuren technischen Bericht des Lincoln Laboratory hatte keinen unmittelbaren Einfluss auf den Mainstream der psychoakustischen Codec-Entwicklung.

Die diskrete Kosinustransformation (DCT), eine Art Transformationskodierung für verlustbehaftete Kompression, die Nasir Ahmed 1972 vorgeschlagen hatte, wurde von Ahmed zusammen mit T. Natarajan und K. R. Rao 1973 entwickelt; sie veröffentlichten ihre Ergebnisse 1974. Dies führte zur Entwicklung der modifizierten diskreten Kosinustransformation (MDCT), die 1987 von J. P. Princen, A. W. Johnson und A. B. Bradley vorgeschlagen wurde und auf frühere Arbeiten von Princen und Bradley aus dem Jahr 1986 zurückgeht. Die MDCT wurde später zu einem Kernbestandteil des MP3-Algorithmus.

Ernst Terhardt et al. konstruierten 1982 einen Algorithmus, der die auditive Maskierung mit hoher Genauigkeit beschreibt. Diese Arbeit ergänzte eine Reihe von Berichten von Autoren, die auf Fletcher zurückgingen, und die Arbeit, die ursprünglich kritische Verhältnisse und kritische Bandbreiten bestimmte.

1985 stellten Atal und Schroeder die code-excited linear prediction (CELP) vor, einen LPC-basierten Algorithmus zur wahrnehmungsgesteuerten Sprachcodierung mit auditiver Maskierung, der eine für seine Zeit beachtliche Datenkomprimierungsrate erreichte. Das IEEE Journal on Selected Areas in Communications berichtete 1988 über eine Vielzahl von (meist wahrnehmungsbasierten) Audiokompressionsalgorithmen. Die im Februar 1988 veröffentlichte Ausgabe "Voice Coding for Communications" berichtete über eine breite Palette etablierter, funktionierender Audiobitkomprimierungstechnologien, von denen einige auditive Maskierung als Teil ihres grundlegenden Designs verwendeten und mehrere Echtzeit-Hardwareimplementierungen zeigten.

Entwicklung

Die Entstehungsgeschichte der MP3-Technologie wird ausführlich in einem Beitrag von Professor Hans Musmann beschrieben, der mehrere Jahre lang den Vorsitz der ISO MPEG Audio-Gruppe innehatte. Im Dezember 1988 rief MPEG zu einem Audiocodierungsstandard auf. Im Juni 1989 wurden 14 Algorithmen zur Audiocodierung eingereicht. Aufgrund gewisser Ähnlichkeiten zwischen diesen Kodierungsvorschlägen wurden sie in vier Entwicklungsgruppen unterteilt. Die erste Gruppe war ASPEC, bestehend aus der Fraunhofer Gesellschaft, AT&T, France Telecom, Deutsche und Thomson-Brandt. Die zweite Gruppe war MUSICAM, bestehend aus Matsushita, CCETT, ITT und Philips. Die dritte Gruppe war ATAC (ATRAC Coding), von Fujitsu, JVC, NEC und Sony. Und die vierte Gruppe war SB-ADPCM, von NTT und BTRL.

Die unmittelbaren Vorläufer von MP3 waren "Optimum Coding in the Frequency Domain" (OCF) und Perceptual Transform Coding (PXFM). Diese beiden Codecs wurden zusammen mit Block-Switching-Beiträgen von Thomson-Brandt zu einem Codec namens ASPEC zusammengefasst, der bei MPEG eingereicht wurde und den Qualitätswettbewerb gewann, der aber fälschlicherweise als zu komplex für die Implementierung abgelehnt wurde. Die erste praktische Implementierung eines Audio-Perceptual-Codierers (OCF) in Hardware (Krasners Hardware war für den praktischen Einsatz zu schwerfällig und langsam) war eine Implementierung eines psychoakustischen Transformations-Codierers auf der Grundlage von Motorola 56000 DSP-Chips.

Ein weiterer Vorläufer des MP3-Formats und der MP3-Technologie ist der Wahrnehmungscodec MUSICAM, der auf einer ganzzahligen arithmetischen Filterbank mit 32 Unterbändern basiert und durch ein psychoakustisches Modell gesteuert wird. Er wurde in erster Linie für Digital Audio Broadcasting (digitales Radio) und digitales Fernsehen entwickelt, und seine Grundprinzipien wurden 1991 auf einer IEEE-ICASSP-Konferenz in Atlanta von CCETT (Frankreich) und IRT (Deutschland) der wissenschaftlichen Gemeinschaft vorgestellt, nachdem sie seit 1989 mit Matsushita und Philips an MUSICAM gearbeitet hatten.

Dieser Codec, der in ein Rundfunksystem mit COFDM-Modulation integriert ist, wurde 1991 während der NAB-Show (Las Vegas) bei Radio Canada und CRC Canada in der Praxis und auf Sendung vorgeführt. Die Implementierung des Audioteils dieses Rundfunksystems basierte auf einem Zwei-Chip-Codierer (einer für die Subbandtransformation, einer für das psychoakustische Modell, das vom Team von G. Stoll (IRT Deutschland) entwickelt wurde und später als psychoakustisches Modell I bekannt wurde) und einem Echtzeit-Decoder, der einen Motorola 56001 DSP-Chip verwendet, auf dem eine vom Team von Y.F. Dehery (CCETT, Frankreich) entwickelte Integer-Arithmetik-Software läuft. Die Einfachheit des entsprechenden Decoders zusammen mit der hohen Audioqualität dieses Codecs, der zum ersten Mal eine Abtastfrequenz von 48 kHz und ein Eingangsformat von 20 Bit/Sample verwendete (der höchste 1991 verfügbare Abtaststandard, der mit dem professionellen digitalen Eingangsstudio-Standard AES/EBU kompatibel war), waren die Hauptgründe dafür, später die Merkmale von MUSICAM als grundlegende Merkmale für einen fortschrittlichen digitalen Musikkompressionscodec zu übernehmen.

Während der Entwicklung der MUSICAM-Codierungssoftware hat das Team von Stoll und Dehery eine Reihe von hochwertigem Audiobewertungsmaterial genutzt, das von einer Gruppe von Audioexperten der Europäischen Rundfunkunion ausgewählt und später als Referenz für die Bewertung von Musikkompressionscodecs verwendet wurde. Die Subband-Kodierungstechnik erwies sich als effizient, nicht nur für die wahrnehmungsbezogene Kodierung des hochwertigen Tonmaterials, sondern insbesondere für die Kodierung von kritischem perkussivem Tonmaterial (Schlagzeug, Triangel,...), aufgrund des spezifischen zeitlichen Maskierungseffekts der MUSICAM-Subband-Filterbank (dieser Vorteil ist ein spezifisches Merkmal von Kurztransformations-Kodierungstechniken).

Als Doktorand an der Universität Erlangen-Nürnberg begann Karlheinz Brandenburg in den frühen 1980er Jahren, sich mit digitaler Musikkompression zu beschäftigen, wobei er sich mit der Frage beschäftigte, wie Menschen Musik wahrnehmen. Er schloss seine Doktorarbeit 1989 ab. MP3 stammt direkt von OCF und PXFM ab und ist das Ergebnis der Zusammenarbeit von Brandenburg - der als Postdoktorand bei AT&T-Bell Labs mit James D. Johnston ("JJ") von AT&T-Bell Labs arbeitete - mit dem Fraunhofer-Institut für Integrierte Schaltungen in Erlangen (wo er mit Bernhard Grill und vier weiteren Forschern - "The Original Six" - zusammenarbeitete), mit relativ geringen Beiträgen aus dem MP2-Zweig der psychoakustischen Subband-Codierer. Im Jahr 1990 wurde Brandenburg Assistenzprofessor in Erlangen-Nürnberg. Dort arbeitete er mit Wissenschaftlern des Heinrich-Herz-Instituts der Fraunhofer-Gesellschaft weiter an der Musikkompression. Im Jahr 1993 wurde er Mitarbeiter des Fraunhofer HHI. Der Song "Tom's Diner" von Suzanne Vega war das erste Lied, das Karlheinz Brandenburg zur Entwicklung des MP3-Formats verwendete. Brandenburg übernahm den Song zu Testzwecken und hörte ihn bei jeder Verfeinerung des Schemas immer wieder an, um sicherzugehen, dass die Subtilität von Vegas Stimme nicht beeinträchtigt wurde. Daher nannte er Vega die "Mutter von MP3".

Standardisierung

1991 gab es zwei Vorschläge, die für einen MPEG-Audiostandard geprüft wurden: MUSICAM (Masking pattern adapted Universal Subband Integrated Coding And Multiplexing) und ASPEC (Adaptive Spectral Perceptual Entropy Coding). Das MUSICAM-Verfahren, das von Philips (Niederlande), CCETT (Frankreich), dem Institut für Rundfunktechnik (Deutschland) und Matsushita (Japan) vorgeschlagen wurde, wurde aufgrund seiner Einfachheit und Fehlerresistenz sowie seiner hohen Recheneffizienz ausgewählt. Das MUSICAM-Format, das auf der Subband-Kodierung basiert, wurde zur Grundlage des MPEG-Audiokompressionsformats, in das z. B. die Rahmenstruktur, das Header-Format, die Abtastraten usw. übernommen wurden.

Während ein Großteil der MUSICAM-Technologie und -Ideen in die Definition von MPEG Audio Layer I und Layer II einflossen, blieben die Filterbank allein und die auf 1152 Samples basierende Datenstruktur (Dateiformat und byteorientierter Datenstrom) von MUSICAM im Layer III (MP3)-Format als Teil der rechenschwachen Hybrid-Filterbank erhalten. Unter dem Vorsitz von Professor Musmann von der Leibniz Universität Hannover wurde die Bearbeitung des Standards an Leon van de Kerkhof (Niederlande), Gerhard Stoll (Deutschland) und Yves-François Dehery (Frankreich) delegiert, die an Schicht I und Schicht II arbeiteten. ASPEC war der gemeinsame Vorschlag von AT&T Bell Laboratories, Thomson Consumer Electronics, der Fraunhofer-Gesellschaft und CNET. Es bot die höchste Kodiereffizienz.

Eine Arbeitsgruppe, bestehend aus van de Kerkhof, Stoll, Leonardo Chiariglione (CSELT VP for Media), Yves-François Dehery, Karlheinz Brandenburg (Deutschland) und James D. Johnston (USA), übernahm Ideen von ASPEC, integrierte die Filterbank von Layer II, fügte einige eigene Ideen wie die gemeinsame Stereocodierung von MUSICAM hinzu und schuf das MP3-Format, das bei 128 kbit/s die gleiche Qualität erreichen sollte wie MP2 bei 192 kbit/s.

Die Algorithmen für MPEG-1 Audio Layer I, II und III wurden 1991 genehmigt und 1992 als Teil von MPEG-1, der ersten Standardsuite von MPEG, fertiggestellt, die 1993 in der internationalen Norm ISO/IEC 11172-3 (auch bekannt als MPEG-1 Audio oder MPEG-1 Part 3) veröffentlicht wurde. Dateien oder Datenströme, die dieser Norm entsprechen, müssen Abtastraten von 48k, 44100 und 32k verarbeiten und werden auch weiterhin von aktuellen MP3-Playern und -Decodern unterstützt. So definierte die erste Generation von MP3 14 × 3 = 42 Interpretationen von MP3-Frame-Datenstrukturen und -Größenanordnungen.

Weitere Arbeiten an MPEG-Audio wurden 1994 als Teil der zweiten MPEG-Normenreihe, MPEG-2, abgeschlossen, die offiziell als internationale Norm ISO/IEC 13818-3 (auch bekannt als MPEG-2 Teil 3 oder rückwärtskompatibles MPEG-2 Audio oder MPEG-2 Audio BC) bekannt ist und ursprünglich 1995 veröffentlicht wurde. MPEG-2 Teil 3 (ISO/IEC 13818-3) definierte 42 zusätzliche Bitraten und Abtastraten für MPEG-1 Audio Layer I, II und III. Die neuen Abtastraten sind genau halb so hoch wie die ursprünglich in MPEG-1 Audio definierten. Diese Reduzierung der Abtastrate dient dazu, die verfügbare Frequenztreue zu halbieren und gleichzeitig die Bitrate um 50 % zu reduzieren. MPEG-2 Teil 3 verbesserte auch die Audioqualität von MPEG-1, indem es die Kodierung von Audioprogrammen mit mehr als zwei Kanälen, bis hin zu 5.1-Mehrkanalton, ermöglichte. Eine mit MPEG-2 kodierte MP3-Datei ergibt eine halb so große Bandbreite wie MPEG-1, die für Klavier und Gesang geeignet ist.

Eine dritte Generation von "MP3"-ähnlichen Datenströmen (Dateien) erweiterte die MPEG-2-Ideen und -Implementierung, wurde aber MPEG-2.5 Audio genannt, da MPEG-3 bereits eine andere Bedeutung hatte. Diese Erweiterung wurde am Fraunhofer IIS, den eingetragenen Patentinhabern von MP3, entwickelt, indem das Frame-Sync-Feld im MP3-Header von 12 auf 11 Bit reduziert wurde. Wie beim Übergang von MPEG-1 zu MPEG-2 fügt MPEG-2.5 zusätzliche Abtastraten hinzu, die genau der Hälfte der mit MPEG-2 verfügbaren entsprechen. Damit wird der Anwendungsbereich von MP3 auf menschliche Sprache und andere Anwendungen ausgeweitet, wobei jedoch nur 25 % der Bandbreite (Frequenzwiedergabe) benötigt wird, die mit den Abtastraten von MPEG-1 möglich ist. MPEG-2.5 ist zwar keine von der ISO anerkannte Norm, wird aber sowohl von preiswerten chinesischen und Marken-Audioplayern als auch von softwarebasierten MP3-Encodern (LAME), -Decodern (FFmpeg) und -Playern (MPC) unterstützt, die 3 × 8 = 24 zusätzliche MP3-Frame-Typen hinzufügen. Jede MP3-Generation unterstützt somit 3 Abtastraten, die genau halb so hoch sind wie die der vorhergehenden Generation, so dass es insgesamt 9 verschiedene MP3-Formate gibt. Die Tabelle zum Vergleich der Abtastraten von MPEG-1, 2 und 2.5 finden Sie weiter unten in diesem Artikel. MPEG-2.5 wird von LAME (seit 2000), Media Player Classic (MPC), iTunes und FFmpeg unterstützt.

MPEG-2.5 wurde nicht von MPEG entwickelt (siehe oben) und wurde nie als internationaler Standard angenommen. MPEG-2.5 ist somit eine inoffizielle oder proprietäre Erweiterung des MP3-Formats. Dennoch ist es allgegenwärtig und besonders vorteilhaft für Anwendungen mit niedriger Bitrate für menschliche Sprache.

MPEG Audio Layer III-Versionen
Version Internationale Norm Datum der Veröffentlichung der ersten Ausgabe Letzte Ausgabe, Datum der Veröffentlichung
MPEG-1 Audio-Schicht III ISO/IEC 11172-3 (MPEG-1 Teil 3) 1993
MPEG-2 Audio-Schicht III ISO/IEC 13818-3 (MPEG-2 Teil 3) 1995 1998
MPEG-2.5 Audio-Schicht III Nicht-Standard, proprietär 2000 2008
  • Die ISO-Norm ISO/IEC 11172-3 (auch bekannt als MPEG-1 Audio) definierte drei Formate: MPEG-1 Audio Layer I, Layer II und Layer III. Die ISO-Norm ISO/IEC 13818-3 (auch bekannt als MPEG-2 Audio) definiert eine erweiterte Version von MPEG-1 Audio: MPEG-2 Audio Layer I, Layer II und Layer III. MPEG-2 Audio (MPEG-2 Teil 3) sollte nicht mit MPEG-2 AAC (MPEG-2 Teil 7 - ISO/IEC 13818-7) verwechselt werden.

Die Komprimierungseffizienz von Encodern wird in der Regel durch die Bitrate definiert, da das Komprimierungsverhältnis von der Bittiefe und der Abtastrate des Eingangssignals abhängt. Dennoch werden die Kompressionsraten oft veröffentlicht. Sie können die Parameter der Compact Disc (CD) als Referenz verwenden (44,1 kHz, 2 Kanäle mit 16 Bit pro Kanal oder 2×16 Bit), oder manchmal die Parameter der Digital Audio Tape (DAT) SP (48 kHz, 2×16 Bit). Die Kompressionsverhältnisse sind bei der letztgenannten Referenz höher, was das Problem der Verwendung des Begriffs Kompressionsverhältnis für verlustbehaftete Encoder verdeutlicht.

Karlheinz Brandenburg verwendete eine CD-Aufnahme des Liedes "Tom's Diner" von Suzanne Vega, um den MP3-Kompressionsalgorithmus zu bewerten und zu verfeinern. Dieser Song wurde ausgewählt, weil er fast monophon ist und ein breites Spektrum aufweist, so dass Unzulänglichkeiten im Kompressionsformat bei der Wiedergabe leichter zu hören sind. Dies führt zu einem Fall, in dem die binaurale Maskierungspegeldepression eine räumliche Demaskierung von Rauschartefakten verursacht, es sei denn, der Encoder erkennt die Situation richtig und wendet ähnliche Korrekturen an, wie sie im psychoakustischen Modell von MPEG-2 AAC beschrieben sind. Einige kritischere Audioausschnitte (Glockenspiel, Triangel, Akkordeon usw.) wurden der EBU V3/SQAM-Referenz-CD entnommen und von professionellen Toningenieuren zur Bewertung der subjektiven Qualität der MPEG-Audioformate verwendet. LAME ist der fortschrittlichste MP3-Encoder. LAME enthält eine VBR-Kodierung mit variabler Bitrate, die einen Qualitätsparameter anstelle eines Bitratenziels verwendet. Spätere Versionen (ab 2008) unterstützen ein n.nnn-Qualitätsziel, das automatisch MPEG-2- oder MPEG-2.5-Abtastraten auswählt, die für menschliche Sprachaufnahmen geeignet sind, die nur eine Bandbreitenauflösung von 5512 Hz benötigen.

Öffentlich werden

Eine Referenzsimulationssoftware-Implementierung, die in der Sprache C geschrieben und später als ISO 11172-5 bekannt wurde, wurde (1991-1996) von den Mitgliedern des ISO MPEG-Audio-Komitees entwickelt, um bit-konforme MPEG-Audio-Dateien (Layer 1, Layer 2, Layer 3) zu erzeugen. Es wurde im März 1994 als Komitee-Entwurf eines technischen ISO/IEC-Berichts angenommen und im April 1994 als Dokument CD 11172-5 gedruckt. Er wurde im November 1994 als technischer Berichtsentwurf (DTR/DIS) angenommen, 1996 fertiggestellt und 1998 als internationale Norm ISO/IEC TR 11172-5:1998 veröffentlicht. Die Referenzsoftware in der Sprache C wurde später als frei verfügbarer ISO-Standard veröffentlicht. Sie arbeitete in Nicht-Echtzeit auf einer Reihe von Betriebssystemen und war in der Lage, die erste Echtzeit-Hardware-Dekodierung (DSP-basiert) von komprimiertem Audio zu demonstrieren. Einige andere Echtzeit-Implementierungen von MPEG-Audio-Encodern und -Decodern waren für den Zweck des digitalen Rundfunks (Radio DAB, Fernsehen DVB) für Verbraucherempfänger und Set-Top-Boxen verfügbar.

Am 7. Juli 1994 veröffentlichte die Fraunhofer-Gesellschaft den ersten Software-MP3-Encoder mit der Bezeichnung l3enc. Am 14. Juli 1995 wählte das Fraunhofer-Team die Dateinamenerweiterung .mp3 (zuvor hießen die Dateien .bit). Mit dem ersten Echtzeit-Software-MP3-Player WinPlay3 (veröffentlicht am 9. September 1995) konnten viele Menschen MP3-Dateien auf ihren PCs kodieren und abspielen. Aufgrund der relativ kleinen Festplatten dieser Zeit (≈500-1000 MB) war eine verlustbehaftete Komprimierung unabdingbar, um mehrere Musikalben als vollständige Aufnahmen auf einem Heimcomputer zu speichern (im Gegensatz zu MIDI-Notationen oder Tracker-Dateien, die Notationen mit kurzen Aufnahmen von Instrumenten kombinieren, die einzelne Noten spielen).

Fraunhofer-Beispiel-Implementierung

Ein Hacker namens SoloH entdeckte den Quellcode der MPEG-Referenzimplementierung "dist10" kurz nach deren Veröffentlichung auf den Servern der Universität Erlangen. Er entwickelte eine höherwertige Version und verbreitete sie im Internet. Mit diesem Code begann das weit verbreitete Rippen von CDs und der Vertrieb digitaler Musik als MP3 über das Internet.

Verbreitung im Internet

In der zweiten Hälfte der 1990er Jahre begannen sich MP3-Dateien im Internet zu verbreiten, oft über illegale Netzwerke für raubkopierte Lieder. Das erste bekannte Experiment der Internetverbreitung wurde Anfang der 1990er Jahre vom Internet Underground Music Archive, besser bekannt unter dem Akronym IUMA, organisiert. Nach einigen Experimenten mit unkomprimierten Audiodateien begann dieses Archiv, komprimierte MPEG-Audiodateien im MP2 (Layer II)-Format über das weltweite Niedriggeschwindigkeits-Internet zu verbreiten, und verwendete später MP3-Dateien, als der Standard vollständig war. Die Popularität von MP3s begann mit dem Erscheinen des Audioplayers Winamp von Nullsoft im Jahr 1997 schnell zu steigen. 1998 wurde der erste tragbare digitale Festkörper-Audioplayer MPMan, entwickelt von SaeHan Information Systems mit Sitz in Seoul, Südkorea, auf den Markt gebracht, und der Rio PMP300 wurde 1998 trotz rechtlicher Unterdrückungsversuche durch die RIAA verkauft.

Im November 1997 bot die Website mp3.com Tausende von MP3-Dateien unabhängiger Künstler kostenlos an. Die geringe Größe der MP3-Dateien ermöglichte einen weit verbreiteten Peer-to-Peer-Austausch von Musik, die von CDs gerippt wurde, was zuvor nahezu unmöglich gewesen wäre. Das erste große Peer-to-Peer-Filesharing-Netzwerk, Napster, wurde 1999 ins Leben gerufen. Die einfache Erstellung und Weitergabe von MP3-Dateien führte zu weit verbreiteten Urheberrechtsverletzungen. Die großen Plattenfirmen argumentierten, dass diese kostenlose Weitergabe von Musik die Verkaufszahlen senke, und bezeichneten sie als "Musikpiraterie". Sie reagierten mit Klagen gegen Napster, das schließlich abgeschaltet und später verkauft wurde, und gegen einzelne Nutzer, die sich am Filesharing beteiligten.

Unerlaubter MP3-Filesharing findet weiterhin in Peer-to-Peer-Netzwerken der nächsten Generation statt. Einige zugelassene Dienste wie Beatport, Bleep, Juno Records, eMusic, Zune Marketplace, Walmart.com, Rhapsody, die von der Plattenindustrie genehmigte Wiedergeburt von Napster, und Amazon.com verkaufen uneingeschränkt Musik im MP3-Format.

Gestaltung

Dateistruktur

Diagram of the structure of an MP3 file
Diagramm der Struktur einer MP3-Datei (MPEG-Version 2.5 wird nicht unterstützt, daher 12 statt 11 Bit für MP3 Sync Word).

Eine MP3-Datei ist aus MP3-Frames aufgebaut, die aus einem Header und einem Datenblock bestehen. Diese Folge von Frames wird als Elementarstrom bezeichnet. Aufgrund des "Bit-Reservoirs" sind die Frames keine unabhängigen Elemente und können normalerweise nicht an beliebigen Frame-Grenzen extrahiert werden. Die MP3-Datenblöcke enthalten die (komprimierten) Audioinformationen in Form von Frequenzen und Amplituden. Das Diagramm zeigt, dass der MP3-Header aus einem Sync-Wort besteht, das zur Identifizierung des Beginns eines gültigen Frames dient. Es folgen ein Bit, das anzeigt, dass es sich um den MPEG-Standard handelt, und zwei Bits, die anzeigen, dass Layer 3 verwendet wird; daher MPEG-1 Audio Layer 3 oder MP3. Danach werden die Werte je nach MP3-Datei unterschiedlich sein. ISO/IEC 11172-3 definiert den Wertebereich für jeden Abschnitt des Headers zusammen mit der Spezifikation des Headers. Die meisten MP3-Dateien enthalten heute ID3-Metadaten, die den MP3-Frames vorausgehen oder folgen, wie im Diagramm angegeben. Der Datenstrom kann optional eine Prüfsumme enthalten.

Gemeinsames Stereo wird nur auf einer Frame-zu-Frame-Basis durchgeführt.

Die Skalenfaktoren N und die quantisierten Amplituden Q der einzelnen Frequenzen werden mittels fester Code-Tabellen Huffman-kodiert.

Auf den Frame-Header folgen die Frame-Daten (gegebenenfalls zunächst CRC), in denen die kodierten Audio-Daten enthalten sind. Ein Frame hat eine Spieldauer von 1152 Samples bei einer Samplerate von 32.000 bis 48.000 Samples je Sekunde; bei kleineren Sampleraten (16.000 bis 24.000 Samples je Sekunde) sind es nur 576. Bei 48.000 Samples je Sekunde entsprechen dem 24 ms. Die Datenmenge eines Frames kann gemäß den angegebenen Eigenschaften im Header errechnet werden. Die Größe eines Frames in Byte lässt sich dann mit der folgenden Formel berechnen, wobei die Division als Ganzzahldivision durchzuführen ist:

Framegröße = (144 · Bitrate) : Samplerate + Padding [bytes]

Wenn bei komplexen Musikstücken die Menge an Daten nicht in einem Frame gespeichert werden können, bietet MP3 ein sogenanntes bit reservoir. Dieser Speicherbereich ist als zusätzlicher Platz für die Datei bestimmt und erweitert die Daten im entsprechenden Frame. Hierzu kodiert der Encoder vorangegangene Musikpassagen mit geringerer Datenrate und füllt somit frühere Frames nicht vollständig aus, das bit reservoir entsteht. Dieser geschaffene freie Speicherplatz kann nun für die höhere Datenmenge komplexerer Musikpassagen genutzt werden. Die maximale Größe dieses Datenreservoirs beträgt 511 Byte, wobei ausschließlich vorangegangene Frames aufgefüllt werden dürfen.

Kodierung und Dekodierung

Der MP3-Kodierungsalgorithmus ist im Allgemeinen in vier Teile unterteilt. In Teil 1 wird das Audiosignal in kleinere Teile, so genannte Frames, unterteilt, die dann mit einem modifizierten diskreten Kosinustransformationsfilter (MDCT) bearbeitet werden. In Teil 2 wird das Sample einer schnellen Fourier-Transformation (FFT) mit 1024 Punkten unterzogen, dann wird das psychoakustische Modell angewendet und ein weiterer MDCT-Filter auf das Ergebnis angewendet. Teil 3 quantifiziert und kodiert jedes Sample, bekannt als Rauschzuweisung, die sich selbst anpasst, um die Anforderungen an die Bitrate und die Geräuschmaskierung zu erfüllen. Teil 4 formatiert den Bitstrom, den so genannten Audio-Frame, der aus vier Teilen besteht: dem Header, der Fehlerprüfung, den Audiodaten und den Zusatzdaten.

Der MPEG-1-Standard enthält keine genaue Spezifikation für einen MP3-Encoder, sondern stellt im nicht-normativen Teil des ursprünglichen Standards Beispiele für psychoakustische Modelle, Ratenschleifen und Ähnliches bereit. MPEG-2 verdoppelt die Anzahl der unterstützten Abtastraten und MPEG-2.5 fügt 3 weitere hinzu. Als die Norm geschrieben wurde, waren die vorgeschlagenen Implementierungen ziemlich veraltet. Die Implementierer des Standards sollten ihre eigenen Algorithmen entwickeln, die geeignet sind, Teile der Informationen aus dem Audioeingang zu entfernen. Infolgedessen gab es viele verschiedene MP3-Encoder, die jeweils Dateien von unterschiedlicher Qualität erzeugten. Vergleiche waren weit verbreitet, so dass es für einen potenziellen Nutzer eines Encoders leicht war, die beste Wahl zu treffen. Einige Encoder, die für höhere Bitraten geeignet waren (z. B. LAME), waren bei niedrigeren Bitraten nicht unbedingt so gut. Im Laufe der Zeit wurde LAME auf der SourceForge-Website weiterentwickelt, bis es sich de facto als CBR-MP3-Encoder durchsetzte. Später wurde ein ABR-Modus hinzugefügt. Die Arbeit an einer echten variablen Bitrate mit einem Qualitätsziel zwischen 0 und 10 schritt voran. Schließlich konnten Zahlen (wie -V 9.600) eine ausgezeichnete Qualität für Sprachcodierung mit niedriger Bitrate bei nur 41 kbit/s unter Verwendung der MPEG-2.5-Erweiterungen erzeugen.

Während der Kodierung werden 576 Samples im Zeitbereich genommen und in 576 Samples im Frequenzbereich umgewandelt. Wenn es eine Transiente gibt, werden 192 Samples anstelle von 576 genommen. Dies geschieht, um die zeitliche Ausbreitung des Quantisierungsrauschens zu begrenzen, das die Transiente begleitet (siehe Psychoakustik). Die Frequenzauflösung wird durch die kleine Größe des langen Blockfensters begrenzt, was die Kodiereffizienz verringert. Die zeitliche Auflösung kann bei stark transienten Signalen zu gering sein und zu einer Verschmierung von perkussiven Klängen führen.

Aufgrund der Baumstruktur der Filterbank werden Vor-Echo-Probleme noch verschlimmert, da die kombinierte Impulsantwort der beiden Filterbanken keine optimale Lösung in Bezug auf die Zeit-/Frequenzauflösung bietet und auch nicht bieten kann. Darüber hinaus führt die Kombination der Ausgänge der beiden Filterbänke zu Aliasing-Problemen, die teilweise durch die "Aliasing-Kompensations"-Stufe behandelt werden müssen; dadurch entsteht jedoch überschüssige Energie, die im Frequenzbereich kodiert werden muss, wodurch die Kodiereffizienz sinkt.

Die Dekodierung hingegen ist in der Norm sorgfältig definiert. Die meisten Decoder sind "Bitstream-konform", d. h. die dekomprimierte Ausgabe, die sie aus einer bestimmten MP3-Datei erzeugen, entspricht innerhalb einer bestimmten Rundungstoleranz der in der ISO/IEC-Norm (ISO/IEC 11172-3) mathematisch festgelegten Ausgabe. Daher basiert der Vergleich von Decodern in der Regel darauf, wie recheneffizient sie sind (d. h. wie viel Speicher oder CPU-Zeit sie beim Dekodierungsprozess benötigen). Im Laufe der Zeit hat dieses Problem an Bedeutung verloren, da die CPU-Geschwindigkeiten von MHz zu GHz übergegangen sind. Die Gesamtverzögerung zwischen Encoder und Decoder ist nicht definiert, d. h. es gibt keine offiziellen Bestimmungen für die lückenlose Wiedergabe. Einige Encoder, wie z. B. LAME, können jedoch zusätzliche Metadaten anhängen, die es Playern, die damit umgehen können, ermöglichen, eine nahtlose Wiedergabe zu liefern.

Qualität

Bei der verlustbehafteten Audiokodierung, z. B. bei der Erstellung eines MP3-Datenstroms, besteht ein Kompromiss zwischen der erzeugten Datenmenge und der Klangqualität der Ergebnisse. Die Person, die eine MP3-Datei erstellt, wählt eine Bitrate aus, die angibt, wie viele Kilobit pro Sekunde an Audiodaten gewünscht sind. Je höher die Bitrate ist, desto größer ist der MP3-Datenstrom und desto näher kommt er im Allgemeinen an die Originalaufnahme heran. Bei einer zu niedrigen Bitrate können Kompressionsartefakte (d. h. Töne, die in der Originalaufnahme nicht vorhanden waren) bei der Wiedergabe hörbar sein. Manche Audiodaten lassen sich aufgrund ihrer Zufälligkeit und scharfen Attacken nur schwer komprimieren. Wenn diese Art von Audio komprimiert wird, sind in der Regel Artefakte wie Klingeln oder ein Vor-Echo zu hören. Ein Applaus-Sample oder ein Triangel-Instrument mit einer relativ niedrigen Bitrate sind gute Beispiele für Kompressionsartefakte. Die meisten subjektiven Tests von Wahrnehmungscodecs tendieren dazu, diese Art von Klangmaterial zu vermeiden. Die Artefakte, die durch perkussive Klänge erzeugt werden, sind jedoch aufgrund der spezifischen zeitlichen Maskierungsfunktion der 32 Subband-Filterbank von Layer II, auf der das Format basiert, kaum wahrnehmbar.

Neben der Bitrate eines kodierten Audiostücks hängt die Qualität des MP3-kodierten Tons auch von der Qualität des Kodieralgorithmus und der Komplexität des kodierten Signals ab. Da der MP3-Standard bei den Kodierungsalgorithmen ziemlich viel Spielraum lässt, bieten verschiedene Kodierer selbst bei identischen Bitraten eine recht unterschiedliche Qualität. In einem öffentlichen Hörtest mit zwei frühen MP3-Encodern, die auf etwa 128 kbit/s eingestellt waren, erzielte der eine beispielsweise die Note 3,66 auf einer Skala von 1 bis 5, während der andere nur 2,22 erhielt. Die Qualität hängt von der Wahl des Kodierers und der Kodierparameter ab.

Diese Beobachtung führte zu einer Revolution in der Audiocodierung. Zu Beginn war die Bitrate das wichtigste und einzige Kriterium. Damals waren MP3-Dateien vom einfachsten Typ: Sie verwendeten dieselbe Bitrate für die gesamte Datei: Dieses Verfahren ist als CBR-Codierung (Constant Bit Rate) bekannt. Die Verwendung einer konstanten Bitrate macht die Kodierung einfacher und weniger rechenintensiv. Es ist jedoch auch möglich, Dateien zu erstellen, bei denen sich die Bitrate in der gesamten Datei ändert. Diese werden als Variable Bitrate bezeichnet. Das Bit-Reservoir und die VBR-Codierung waren eigentlich Teil des ursprünglichen MPEG-1-Standards. Das Konzept dahinter ist, dass in jeder Audiodatei einige Abschnitte leichter zu komprimieren sind, z. B. Stille oder Musik mit nur wenigen Tönen, während andere schwieriger zu komprimieren sind. Die Gesamtqualität der Datei kann also erhöht werden, indem man eine niedrigere Bitrate für die weniger komplexen Passagen und eine höhere für die komplexeren Teile verwendet. Bei einigen fortschrittlichen MP3-Encodern ist es möglich, eine bestimmte Qualität anzugeben, und der Encoder passt die Bitrate entsprechend an. Benutzer, die eine bestimmte "Qualitätseinstellung" wünschen, die für ihre Ohren transparent ist, können diesen Wert bei der Codierung ihrer gesamten Musik verwenden und müssen sich im Allgemeinen nicht darum kümmern, persönliche Hörtests mit jedem Musikstück durchzuführen, um die richtige Bitrate zu ermitteln.

Die wahrgenommene Qualität kann durch die Hörumgebung (Umgebungsgeräusche), die Aufmerksamkeit des Hörers, das Training des Hörers und in den meisten Fällen durch die Audioausrüstung des Hörers (wie Soundkarten, Lautsprecher und Kopfhörer) beeinflusst werden. Darüber hinaus kann eine ausreichende Qualität durch eine geringere Qualitätseinstellung für Vorlesungen und Sprachanwendungen erreicht werden, was die Kodierungszeit und -komplexität verringert. Ein von Jonathan Berger, Musikprofessor an der Stanford University, durchgeführter Test unter Studienanfängern hat gezeigt, dass die Vorliebe der Studenten für Musik in MP3-Qualität von Jahr zu Jahr gestiegen ist. Berger sagte, dass die Studenten anscheinend die "zischenden" Klänge bevorzugen, die MP3s der Musik verleihen.

Das Projekt "The Ghost in the MP3" des Soundkünstlers und Komponisten Ryan Maguire ist eine eingehende Untersuchung der MP3-Audioqualität und isoliert die Klänge, die bei der MP3-Kompression verloren gehen. Im Jahr 2015 veröffentlichte er den Track "moDernisT" (ein Anagramm von "Tom's Diner"), der ausschließlich aus den Klängen komponiert wurde, die bei der MP3-Komprimierung des Songs "Tom's Diner" gelöscht wurden, dem Track, der ursprünglich bei der Formulierung des MP3-Standards verwendet wurde. Eine detaillierte Beschreibung der Techniken, die zur Isolierung der bei der MP3-Komprimierung gelöschten Klänge verwendet wurden, sowie die konzeptionelle Motivation für das Projekt wurden in den Proceedings of the International Computer Music Conference 2014 veröffentlicht.

Bitrate

MPEG Audio Layer III
Verfügbare Bitraten (kbit/s)
MPEG-1
Audio-Schicht III
MPEG-2
Audio-Schicht III
MPEG-2.5
Audio-Schicht III
8 8
16 16
24 24
32 32 32
40 40 40
48 48 48
56 56 56
64 64 64
80 80
96 96
112 112
128 128
k.A. 144
160 160
192
224
256
320
Unterstützte Abtastraten
durch MPEG-Audioformat
MPEG-1
Audio-Schicht III
MPEG-2
Audio-Schicht III
MPEG-2.5
Audio-Schicht III
8000 Hz
11025 Hz
12000 Hz
16000 Hz
22050 Hz
24000 Hz
32000 Hz
44100 Hz
48000 Hz

Die Bitrate ist das Produkt aus der Abtastrate und der Anzahl der Bits pro Abtastung, die zur Codierung der Musik verwendet werden. Bei CD-Audio sind es 44100 Samples pro Sekunde. Die Anzahl der Bits pro Sample hängt auch von der Anzahl der Audiokanäle ab. CD-Audio ist Stereo und hat 16 Bits pro Kanal. Multipliziert man also 44100 mit 32, erhält man 1411200 - die Bitrate von unkomprimiertem digitalem CD-Audio. MP3 wurde entwickelt, um diese 1411 kbit/s-Daten mit 320 kbit/s oder weniger zu kodieren. Da weniger komplexe Passagen von den MP3-Algorithmen erkannt werden, können niedrigere Bitraten verwendet werden. Bei der Verwendung von MPEG-2 anstelle von MPEG-1 unterstützt MP3 nur niedrigere Abtastraten (16000, 22050 oder 24000 Samples pro Sekunde) und bietet eine Auswahl an Bitraten bis zu 8 kbit/s, aber nicht mehr als 160 kbit/s. Durch die Verringerung der Abtastrate entfernt MPEG-2 Layer III alle Frequenzen oberhalb der Hälfte der neuen Abtastrate, die möglicherweise in der Audioquelle vorhanden waren.

Wie aus diesen beiden Tabellen hervorgeht, sind im MPEG-1-Audio-Layer-III-Standard 14 ausgewählte Bitraten zulässig: 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 und 320 kbit/s sowie die drei höchsten verfügbaren Abtastfrequenzen von 32, 44,1 und 48 kHz. MPEG-2 Audio Layer III erlaubt auch 14 etwas andere (und meist niedrigere) Bitraten von 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160 kbit/s mit Abtastfrequenzen von 16, 22,05 und 24 kHz, die genau halb so hoch sind wie bei MPEG-1. MPEG-2.5 Audio Layer III Frames sind auf nur 8 Bitraten von 8, 16, 24, 32, 40, 48, 56 und 64 kbit/s mit 3 noch niedrigeren Abtastfrequenzen von 8, 11,025 und 12 kHz beschränkt. Auf älteren Systemen, die nur den MPEG-1-Audio-Layer-III-Standard unterstützen, werden MP3-Dateien mit einer Bitrate von weniger als 32 kbit/s unter Umständen verzögert und gestaucht wiedergegeben.

Bei älteren Systemen fehlen auch die Steuerelemente für schnelles Vor- und Zurückspulen bei der MP3-Wiedergabe.

MPEG-1-Frames enthalten die meisten Details im Modus 320 kbit/s, der höchsten zulässigen Bitrateneinstellung, wobei Stille und einfache Töne immer noch 32 kbit/s erfordern. MPEG-2-Frames können Tonwiedergaben mit bis zu 12 kHz erfassen, die bis zu 160 kbit/s benötigen. MP3-Dateien, die mit MPEG-2 erstellt wurden, haben aufgrund des Nyquist-Shannon-Sampling-Theorems keine Bandbreite von 20 kHz. Die Frequenzwiedergabe ist immer kleiner als die Hälfte der Abtastfrequenz, und unvollkommene Filter erfordern eine größere Fehlerspanne (Rauschpegel gegenüber der Schärfe des Filters), so dass bei einer Abtastrate von 8 kHz die maximale Frequenz auf 4 kHz begrenzt ist, während bei einer Abtastrate von 48 kHz eine MP3-Datei maximal 24 kHz wiedergeben kann. MPEG-2 verwendet die Hälfte und MPEG-2.5 nur ein Viertel der Abtastraten von MPEG-1.

Für den allgemeinen Bereich der menschlichen Sprachwiedergabe reicht eine Bandbreite von 5512 Hz aus, um mit einer Abtastrate von 11025 und VBR-Codierung aus einer 44100er (Standard-)WAV-Datei hervorragende Ergebnisse (für Sprache) zu erzielen. Englische Sprecher erreichen durchschnittlich 41-42 kbit/s bei der Einstellung -V 9.6, aber dies kann je nach der Menge der aufgenommenen Stille oder der Übertragungsrate (wpm) variieren. Die Wiederabtastung auf 12000 (6K Bandbreite) wird durch den LAME-Parameter -V 9.4 ausgewählt. Ebenso wählt -V 9.2 eine Abtastrate von 16000 und eine daraus resultierende 8K-Tiefpassfilterung. Für weitere Informationen siehe Nyquist - Shannon. Ältere Versionen von LAME und FFmpeg unterstützen nur ganzzahlige Argumente für den Qualitätsauswahlparameter für variable Bitraten. Der Qualitätsparameter n.nnn (-V) ist auf lame.sourceforge.net dokumentiert, wird aber nur in LAME mit dem neuen VBR-Qualitätsselektor für variable Bitraten unterstützt - nicht für die durchschnittliche Bitrate (ABR).

Für die Musikwiedergabe wird üblicherweise eine Abtastrate von 44,1 kHz verwendet, da diese auch für CD-Audio verwendet wird, der Hauptquelle für die Erstellung von MP3-Dateien. Im Internet wird eine große Vielfalt an Bitraten verwendet. Üblich ist eine Bitrate von 128 kbit/s mit einem Komprimierungsverhältnis von 11:1, das eine ausreichende Audioqualität auf relativ kleinem Raum bietet. Da die verfügbare Internet-Bandbreite und die Größe der Festplatten zugenommen haben, sind höhere Bitraten bis zu 320 kbit/s weit verbreitet. Unkomprimiertes Audiomaterial, wie es auf einer Audio-CD gespeichert ist, hat eine Bitrate von 1.411,2 kbit/s (16 Bit/Sample × 44100 Samples/Sekunde × 2 Kanäle / 1000 Bits/Kilobit), so dass die Bitraten 128, 160 und 192 kbit/s einem Kompressionsverhältnis von etwa 11:1, 9:1 bzw. 7:1 entsprechen.

Nicht standardisierte Bitraten bis zu 640 kbit/s können mit dem LAME-Encoder und der Freeformat-Option erreicht werden, obwohl nur wenige MP3-Player diese Dateien abspielen können. Nach der ISO-Norm müssen Decoder nur in der Lage sein, Datenströme bis zu 320 kbit/s zu dekodieren. Frühe MPEG-Layer-III-Encoder arbeiteten mit der so genannten konstanten Bitrate (CBR). Die Software war nur in der Lage, eine einheitliche Bitrate für alle Frames in einer MP3-Datei zu verwenden. Spätere anspruchsvollere MP3-Encoder waren in der Lage, das Bit-Reservoir zu nutzen, um eine durchschnittliche Bitrate zu erreichen, wobei die Kodierrate für jedes Bild auf der Grundlage der Komplexität des Tons in diesem Teil der Aufnahme ausgewählt wurde.

Ein ausgefeilterer MP3-Encoder kann Audio mit variabler Bitrate erzeugen. Bei MPEG-Audio kann die Bitrate auf Frame-Basis umgeschaltet werden, aber nur Layer-III-Dekoder müssen dies unterstützen. VBR wird verwendet, wenn das Ziel darin besteht, ein festes Qualitätsniveau zu erreichen. Die endgültige Dateigröße einer VBR-Codierung ist weniger vorhersehbar als bei einer konstanten Bitrate. Die durchschnittliche Bitrate ist eine Art von VBR, die als Kompromiss zwischen den beiden Verfahren implementiert wird: Die Bitrate kann variieren, um eine gleichmäßigere Qualität zu erreichen, wird aber so gesteuert, dass sie nahe an einem vom Benutzer gewählten Durchschnittswert bleibt, um vorhersehbare Dateigrößen zu erzielen. Obwohl ein MP3-Decoder VBR unterstützen muss, um standardkonform zu sein, gab es in der Vergangenheit bei einigen Decodern Fehler bei der VBR-Decodierung, insbesondere bevor VBR-Encoder weit verbreitet wurden. Der am weitesten entwickelte LAME-MP3-Encoder unterstützt die Erzeugung von VBR-, ABR- und sogar den älteren CBR-MP3-Formaten.

Layer-III-Audio kann auch ein "Bit-Reservoir" nutzen, d. h. die Fähigkeit eines teilweise vollen Frames, einen Teil der Audiodaten des nächsten Frames zu speichern, was vorübergehende Änderungen der effektiven Bitrate ermöglicht, selbst bei einem Stream mit konstanter Bitrate. Die interne Handhabung des Bit-Reservoirs erhöht die Kodierungsverzögerung. Es gibt keinen Skalierungsfaktor Band 21 (sfb21) für Frequenzen oberhalb von ca. 16 kHz, wodurch der Encoder gezwungen ist, zwischen einer weniger genauen Darstellung in Band 21 oder einer weniger effizienten Speicherung in allen Bändern unterhalb von Band 21 zu wählen, wobei letzteres bei der VBR-Codierung zu einer Verschwendung von Bitrate führt.

Zusatzdaten

Das Feld für Zusatzdaten kann zur Speicherung benutzerdefinierter Daten verwendet werden. Die Zusatzdaten sind optional und die Anzahl der verfügbaren Bits ist nicht explizit angegeben. Die Zusatzdaten befinden sich nach den Huffman-Code-Bits und reichen bis zu dem Punkt, auf den der main_data_begin des nächsten Frames zeigt. Der Encoder mp3PRO verwendet Zusatzdaten, um zusätzliche Informationen zu kodieren, die die Audioqualität bei der Dekodierung mit seinem eigenen Algorithmus verbessern können.

Metadaten

Im Gegensatz zu moderneren Codecs boten MP3-Dateien ursprünglich keine Möglichkeit, Metadaten (beispielsweise Titel, Interpret, Album, Jahr, Genre) zu dem enthaltenen Musikstück zu speichern.

Unabhängig vom Entwickler des Formats wurde dafür eine Lösung gefunden, die von fast allen Soft- und Hardwareplayern unterstützt wird: Die ID3-Tags werden einfach an den Anfang oder das Ende der MP3-Datei gehängt. In der ersten Version (ID3v1) werden sie am Ende angehängt und sind auf 30 Zeichen pro Eintrag und wenige Standard-Einträge beschränkt. Die wesentlich flexiblere Version 2 (ID3v2) wird allerdings nicht von allen MP3-Playern (insbesondere Hardware-Playern) unterstützt, da hier die Tags am Anfang der MP3-Datei eingefügt werden. Auch innerhalb von ID3v2 gibt es noch beträchtliche Unterschiede. Am weitesten verbreitet sind ID3v2.3 und ID3v2.4, wobei erst ID3v2.4 offiziell die Verwendung von UTF-8-kodierten Zeichen zulässt (vorher waren nur ISO-8859-1 und UTF-16 zulässig). Viele Hardwareplayer zeigen aber UTF-8-Tags nur als wirre Zeichen an. Da ID3v2-Tags am Anfang der Datei stehen, lassen sich diese Daten beispielsweise auch bei der Übertragung über HTTP lesen, ohne erst die ganze Datei zu lesen oder mehrere Teile der Datei anzufordern. Um zu vermeiden, dass bei Änderungen die ganze Datei neu geschrieben werden muss, verwendet man üblicherweise Padding, das heißt, man reserviert im Vorfeld Platz für diese Änderungen.

Die Metadaten aus dem ID3-Tag können beispielsweise genutzt werden, um Informationen zum gerade abgespielten Stück anzuzeigen, die Titel in Wiedergabelisten (Playlists) zu sortieren oder Archive zu organisieren.

Abspiel- und Bearbeitungssoftware enthält oft eine Funktion zur Tag-Bearbeitung, aber es gibt auch spezielle Tag-Editor-Anwendungen für diesen Zweck. Abgesehen von Metadaten, die sich auf den Audioinhalt beziehen, können Tags auch für DRM verwendet werden. ReplayGain ist ein Standard für die Messung und Speicherung der Lautstärke einer MP3-Datei (Audionormalisierung) in ihrem Metadaten-Tag, so dass ein ReplayGain-kompatibler Player die Gesamtlautstärke für jede Datei automatisch anpassen kann. MP3Gain kann verwendet werden, um Dateien auf der Grundlage von ReplayGain-Messungen reversibel zu verändern, so dass eine angepasste Wiedergabe auf Playern ohne ReplayGain-Fähigkeit erreicht werden kann.

Lizenzierung, Eigentum und Gesetzgebung

Die grundlegende MP3-Dekodierungs- und -Kodierungstechnologie ist in der Europäischen Union patentfrei, da alle Patente dort spätestens 2012 ausgelaufen sind. In den Vereinigten Staaten wurde die Technologie am 16. April 2017 im Wesentlichen patentfrei (siehe unten). Die MP3-Patente sind in den USA zwischen 2007 und 2017 ausgelaufen. In der Vergangenheit haben viele Organisationen das Eigentum an Patenten im Zusammenhang mit der MP3-Dekodierung oder -Kodierung beansprucht. Diese Ansprüche führten zu einer Reihe von rechtlichen Drohungen und Klagen aus verschiedenen Quellen. Infolgedessen war die Unsicherheit darüber, welche Patente lizenziert werden mussten, um MP3-Produkte zu entwickeln, ohne in Ländern, die Softwarepatente zulassen, Patentverletzungen zu begehen, ein häufiges Merkmal in den frühen Phasen der Einführung der Technologie.

Der ursprüngliche, nahezu vollständige MPEG-1-Standard (Teile 1, 2 und 3) wurde am 6. Dezember 1991 als ISO CD 11172 öffentlich zugänglich gemacht. In den meisten Ländern können Patente nicht angemeldet werden, nachdem der Stand der Technik veröffentlicht wurde, und Patente laufen 20 Jahre nach dem ersten Anmeldetag ab, was bei Anmeldungen in anderen Ländern bis zu 12 Monate später sein kann. Infolgedessen sind die für die Implementierung von MP3 erforderlichen Patente in den meisten Ländern im Dezember 2012, also 21 Jahre nach der Veröffentlichung von ISO CD 11172, abgelaufen.

Eine Ausnahme bilden die Vereinigten Staaten, wo geltende Patente, die vor dem 8. Juni 1995 angemeldet wurden, 17 Jahre nach dem Erteilungsdatum oder 20 Jahre nach dem Prioritätsdatum verfallen, je nachdem, was später eintritt. Ein langwieriger Patentverfolgungsprozess kann dazu führen, dass ein Patent viel später erteilt wird als normalerweise erwartet (siehe U-Boot-Patente). Die verschiedenen MP3-Patente liefen in den Vereinigten Staaten zwischen 2007 und 2017 aus. Patente für alles, was in ISO CD 11172 offengelegt wird, die ein Jahr oder mehr nach der Veröffentlichung eingereicht werden, sind fragwürdig. Wenn nur die bekannten MP3-Patente berücksichtigt werden, die bis Dezember 1992 angemeldet wurden, dann ist die MP3-Dekodierung in den USA seit dem 22. September 2015 patentfrei, als das US-Patent 5,812,672, das im Oktober 1992 angemeldet wurde, auslief. Nimmt man das am längsten laufende Patent, das in den oben genannten Verweisen erwähnt wird, als Maßstab, dann ist die MP3-Technologie in den USA seit dem 16. April 2017 patentfrei, als das von Technicolor gehaltene und verwaltete US-Patent 6.009.399 auslief. Infolgedessen haben viele freie und quelloffene Softwareprojekte wie das Fedora-Betriebssystem beschlossen, MP3-Unterstützung standardmäßig zu liefern, und die Benutzer müssen nicht mehr auf die Installation inoffizieller Pakete zurückgreifen, die von Software-Repositories Dritter für die MP3-Wiedergabe oder -Kodierung gepflegt werden.

Technicolor (früher Thomson Consumer Electronics) behauptete, die MP3-Lizenzierung der Layer-3-Patente in vielen Ländern zu kontrollieren, darunter in den Vereinigten Staaten, Japan, Kanada und den EU-Ländern. Technicolor hatte diese Patente aktiv durchgesetzt. Die MP3-Lizenzeinnahmen aus der Verwaltung von Technicolor brachten der Fraunhofer-Gesellschaft im Jahr 2005 rund 100 Millionen Euro ein. Im September 1998 wies das Fraunhofer-Institut in einem Schreiben an mehrere Entwickler von MP3-Software darauf hin, dass für den "Vertrieb und/oder Verkauf von Decodern und/oder Encodern" eine Lizenz erforderlich sei. In dem Schreiben wurde behauptet, dass nicht lizenzierte Produkte "die Patentrechte von Fraunhofer und Thomson verletzen. Um Produkte herzustellen, zu verkaufen oder zu vertreiben, die den [MPEG Layer-3]-Standard und damit unsere Patente nutzen, müssen Sie eine Lizenz für diese Patente von uns erwerben." Dies führte dazu, dass das LAME-MP3-Encoder-Projekt seinen Nutzern keine offiziellen Binärdateien anbieten konnte, die auf ihrem Computer liefen. Das Projekt vertrat den Standpunkt, dass LAME als Quellcode lediglich eine Beschreibung dafür sei, wie ein MP3-Encoder implementiert werden könne. Inoffiziell waren kompilierte Binärdateien aus anderen Quellen erhältlich.

Sisvel S.p.A., ein in Luxemburg ansässiges Unternehmen, verwaltet Lizenzen für Patente, die sich auf MPEG Audio beziehen. Sisvel S.p.A. und seine US-amerikanische Tochtergesellschaft Audio MPEG, Inc. hatten Thomson zuvor wegen der Verletzung von MP3-Patenten verklagt, doch wurden diese Streitigkeiten im November 2005 beigelegt, als Sisvel Thomson eine Lizenz für ihre Patente erteilte. Motorola folgte kurz darauf und unterzeichnete im Dezember 2005 mit Sisvel eine Lizenz für MP3-bezogene Patente. Bis auf drei Patente sind alle von Sisvel verwalteten US-Patente im Jahr 2015 ausgelaufen. Die drei Ausnahmen sind: U.S. Patent 5,878,080, abgelaufen im Februar 2017; U.S. Patent 5,850,456, abgelaufen im Februar 2017; und U.S. Patent 5,960,037, abgelaufen am 9. April 2017.

Im September 2006 beschlagnahmten deutsche Beamte MP3-Player vom SanDisk-Stand auf der IFA in Berlin, nachdem eine italienische Patentanwaltskanzlei im Namen von Sisvel eine einstweilige Verfügung gegen SanDisk in einem Streit über Lizenzrechte erwirkt hatte. Die einstweilige Verfügung wurde später von einem Berliner Richter aufgehoben, aber diese Aufhebung wurde wiederum am selben Tag von einem anderen Richter desselben Gerichts blockiert, was nach den Worten eines Kommentators "den Wilden Westen des Patents nach Deutschland bringt". Im Februar 2007 verklagte Texas MP3 Technologies Apple, Samsung Electronics und Sandisk vor einem Bundesgericht in Ost-Texas wegen der Verletzung eines Patents für tragbare MP3-Player, das Texas MP3 nach eigenen Angaben zugesprochen worden war. Apple, Samsung und Sandisk einigten sich im Januar 2009 auf die gegen sie erhobenen Ansprüche.

Alcatel-Lucent hat mehrere MP3-Codierungs- und Komprimierungspatente, die angeblich von AT&T-Bell Labs geerbt wurden, in eigenen Rechtsstreitigkeiten geltend gemacht. Im November 2006, also vor der Fusion der beiden Unternehmen, verklagte Alcatel Microsoft wegen angeblicher Verletzung von sieben Patenten. Am 23. Februar 2007 sprachen die Geschworenen in San Diego Alcatel-Lucent 1,52 Milliarden US-Dollar Schadenersatz für die Verletzung von zwei dieser Patente zu. Das Gericht hob den Schiedsspruch jedoch später auf, da es feststellte, dass ein Patent nicht verletzt worden war und das andere nicht Alcatel-Lucent gehörte, sondern AT&T und Fraunhofer, die es an Microsoft lizenziert hatten, so der Richter. Dieses Urteil wurde 2008 in der Berufung bestätigt. Weitere Informationen finden Sie unter Alcatel-Lucent vs. Microsoft.

Im Mai 2017 kündigte die Linux-Distribution Fedora an, MP3-Decoder und -Encoder offiziell in die Distribution aufzunehmen, da die entsprechenden Patente erloschen seien.

Die Fraunhofer-Gesellschaft und einige Unternehmen besaßen bis 2017 Softwarepatente auf Teilverfahren, die für MPEG-Kodierung eingesetzt werden. Ein alles umfassendes MP3-Patent gab es nicht. Die Fraunhofer-Gesellschaft hatte den größten Teil zur Entwicklung des MP3-Standards beigetragen und sich einige Verfahren zur MP3-Kodierung patentieren lassen. In einem Zusammenschluss mit Thomson besaßen beide Unternehmen 18 MP3-bezogene Patente. Von September 1998, nachdem sich der MP3-Standard sechs Jahre lang etablieren konnte, bis April 2017 verlangte FhG/Thomson Lizenzgebühren für die Herstellung von Hard- und Software, die das MP3-Format verwendeten.

Alternative Technologien

Es gibt noch andere verlustbehaftete Formate. Advanced Audio Coding (AAC) ist das am weitesten verbreitete Format und wurde als Nachfolger von MP3 entwickelt. Es gibt auch andere verlustbehaftete Formate wie mp3PRO und MP2. Sie gehören zur gleichen Technologiefamilie wie MP3 und basieren auf ähnlichen psychoakustischen Modellen und MDCT-Algorithmen. Während MP3 einen hybriden Kodierungsansatz verwendet, der zum Teil aus MDCT und zum Teil aus FFT besteht, ist AAC ein reiner MDCT-Ansatz, der die Komprimierungseffizienz erheblich verbessert. Viele der grundlegenden Patente, die diesen Formaten zugrunde liegen, sind im Besitz der Fraunhofer-Gesellschaft, von Alcatel-Lucent, Thomson Consumer Electronics, Bell, Dolby, LG Electronics, NEC, NTT Docomo, Panasonic, Sony Corporation, ETRI, JVC Kenwood, Philips, Microsoft und NTT.

Als der Markt für digitale Audioplayer in Schwung kam, wurde MP3 weithin als Standard angenommen, daher der populäre Name "MP3-Player". Sony bildete eine Ausnahme und verwendete seinen eigenen ATRAC-Codec, der von seinem MiniDisc-Format übernommen wurde und von dem Sony behauptete, er sei besser. Nach Kritik und geringer als erwartet ausgefallenen Walkman-Verkäufen führte Sony 2004 zum ersten Mal native MP3-Unterstützung in seine Walkman-Player ein.

Es gibt auch offene Kompressionsformate wie Opus und Vorbis, die kostenlos und ohne bekannte Patentbeschränkungen verfügbar sind. Einige der neueren Audiokomprimierungsformate wie AAC, WMA Pro und Vorbis sind frei von einigen Einschränkungen, die dem MP3-Format innewohnen und die von keinem MP3-Encoder überwunden werden können.

Neben verlustbehafteten Komprimierungsmethoden sind verlustfreie Formate eine wichtige Alternative zu MP3, da sie unveränderte Audioinhalte liefern, allerdings mit einer höheren Dateigröße im Vergleich zur verlustbehafteten Komprimierung. Zu den verlustfreien Formaten gehören FLAC (Free Lossless Audio Codec), Apple Lossless und viele andere.

Verfahren

Datenkompression

Mit zwei verschie­denen Bitraten kom­primiertes Rechteck­signal
  • Ein erster Schritt der Datenkompression beruht zum Beispiel auf der Kanalkopplung des Stereosignals durch Differenzbildung, da die Daten des rechten und des linken Kanals in hohem Maße korrelieren, sich also sehr ähnlich sind. Das ist ein verlustloses Verfahren, die Ausgangssignale können vollständig reproduziert werden (Mid/Side-Stereo).
  • Entsprechend der menschlichen Hörkurve werden Signalanteile in weniger präzise wahrnehmbaren Frequenzbereichen mit weniger Präzision dargestellt, indem das fouriertransformierte Datenmaterial entsprechend quantisiert wird.
  • Sogenannte Maskierungseffekte werden ausgenutzt, um für den Höreindruck minderwichtige Signalanteile mit verringerter Präzision zu speichern. Das können etwa schwache Frequenzanteile in der Nähe von starken Obertönen sein. Ein starker Ton bei 4 kHz kann aber auch Frequenzen bis zu 11 kHz maskieren. Die größte Ersparnis bei der MP3-Enkodierung liegt daher darin, dass die Töne nur gerade so genau (mit so vielen Bits) abgespeichert werden, dass das dadurch entstehende Quantisierungsrauschen noch maskiert wird und somit nicht hörbar ist.
  • Die Daten, die in sogenannten Frames vorliegen, werden schließlich Huffman-kodiert.

Bei starker Kompression werden öfter auch durchaus hörbare Signalanteile von der Kompression erfasst, sie sind dann als Kompressionsartefakte hörbar.

Ein Mangel im Entwurf ist, dass das Verfahren blockweise angewandt wird und so am Ende einer Datei Lücken entstehen können. Das stört beispielsweise bei Hörbüchern oder Live-Aufnahmen, in denen ein zusammenhängender Vortrag in einzelne Tracks zerlegt wurde. Hier fallen die letzten Blöcke als störende Pausen (wahrnehmbar etwa als Knackser oder ein kurzes Drop-out) auf. Abhilfe schafft die Verwendung des LAME-Encoders, der exakte Längeninformationen hinzufügt, in Kombination mit einem Abspielprogramm, das mit diesen umgehen kann, etwa foobar2000 oder Winamp. Einige Abspielprogramme wie Windows Media Player unterstützen dieses Gapless Playback genannte Verfahren jedoch nicht. Apple iTunes unterstützt es ab Version 7.

Kompression im Detail

Die Kompression besteht aus folgenden Schritten:

  1. Subband-Transformation des Signals
  2. MDCT-Transformation des Signals, danach(!) wird das Signal in Blöcke eingeteilt.
  3. Bei Stereosignalen: Matrizierung: Entscheidung für jeden Block, ob Signal als Links-Rechts- oder als Mitte-Seite-Signal kodiert wird
  4. Quantisierung des Signals
  5. Huffman-Kodierung mit festen Codebüchern

Die Schritte 4 und 5 sorgen für die Datenreduktion, wobei die Quantisierung der verlustbehaftete Vorgang ist.

Hinweis: Im weiteren Text beziehen sich angegebenen Spektralbreiten und Zeiten auf ein Audiosignal mit 48 kHz Abtastfrequenz.

Subband-Transformation des Signals

Bei der Subband-Transformation wird das Signal mithilfe einer polyphasen Filterbank in 32 gleich breite Frequenzbänder zerlegt (wie auch bei MPEG Layer 1, MPEG Layer 2 und dts). Die Filterbank arbeitet auf einem FIFO-Puffer mit einer Größe von 512 Samples, dem in einem Schritt immer 32 neue Samples zugeführt werden. Dadurch überlappen sich immer 16 Filterfenster auf dem Audiosignal.

Die Entscheidung, gleich breite Frequenzbänder zu verwenden, vereinfacht zwar die Filter, spiegelt jedoch nicht das menschliche Hörvermögen wider, dessen Empfindlichkeit nicht-linear von der Frequenz abhängt.

Da in der Praxis keine idealen Filter existieren, überlappen sich die Frequenzbereiche, sodass eine einzige Frequenz nach der Filterung auch in zwei benachbarten Subbändern auftreten kann.

Subbandfilterung ist belastet durch das Patent US 6,199,039.

MDCT-Transformation des Signals

Die Signale der Subbänder werden nun durch die modifizierte diskrete Kosinustransformation (MDCT) in den Frequenzbereich überführt. Dadurch werden die Frequenzbänder weiter spektral aufgelöst. Die MDCT kann die Bänder entweder in kurzen Blöcken (12 Samples ergibt 6 Frequenzbänder) oder langen Blöcken (36 Samples, 18 Frequenzbänder) transformieren. Alternativ können auch die beiden niedrigsten Frequenzbänder mit langen Blöcken und die restlichen mit kurzen Blöcken transformiert werden. Lange Blöcke besitzen eine bessere Frequenzauflösung und sind geeigneter, wenn sich das Audiosignal im entsprechenden Rahmen nicht plötzlich ändert (Stationarität).

Am Ausgang der MDCT wird das Signal in Blöcke eingeteilt. Aus 576 Eingangswerten (wenn man die Fensterbreite der Filter berücksichtigt, sind es eigentlich insgesamt 1663 Eingangswerte) werden durch zwei hintereinandergeschaltete Transformationen entweder

  • 576 Spektralkoeffizienten (lange Blöcke),
  • 3 × 192 Spektralkoeffizienten (kurze Blöcke) oder
  • 36 + 3 × 180 Spektralkoeffizienten (hybrider Block, kaum genutzt)

Matrizierung

Für 2-Kanal-Stereosignale kann nun entschieden werden, ob das Signal entweder als Mono (Single-Channel), Stereo, Joint-Stereo oder Dual-Channel kodiert werden soll. Im Gegensatz zu AAC oder Ogg Vorbis ist diese Entscheidung global für alle Frequenzen zu treffen.

Das Stereo-Verfahren (nicht Joint-Stereo) ist (wie auch Dual-Channel) durch den Umstand verlustbehaftet, dass auch bei 320 kbit/s nur 160 kbit/s pro Kanal zur Verfügung stehen, jedoch werden je nach Komplexität wahlweise einem der beiden Kanäle unterschiedliche Bitraten zugewiesen. Dual-Channel speichert zwei unabhängige Monospuren (z. B. zweisprachige Textspuren) mit der gleichen Bitratencodierung; jedoch nicht zwingend jeder Decoder gibt beide Spuren auch gleichzeitig wieder.

Beim Joint-Stereo gibt es zwei Kodierverfahren: Intensitäts- und Mid/Side-Stereo, die auch kombiniert angewandt werden; beide Verfahren bilden aus der Summe beider Kanäle einen Mittenkanal (L+R) und aus der Lautstärkedifferenz der beiden Kanäle den Seitenkanal (L−R). Beim Intensitäts-Stereo wird im Gegensatz zum Mid-/Side-Stereoverfahren die Phase (Laufzeitunterschied) des Signals vernachlässigt. Das Joint-Stereoverfahren eliminiert die häufige Redundanz in den Stereokanälen, um die Signale mit höherer Bitrate als beim Stereo-Verfahren kodieren zu können; sind die Kanalsignale aber sehr unähnlich, fällt das Joint-Stereoverfahren auf die normale Stereo-Kodierung zurück.

Da das Tonsignal zunächst in Frequenzbänder ausdifferenziert wird, muss die Stereoinformation, sofern diese überhaupt vom Gehör verwertbar ist, auch ebenso differenziert kodiert werden. Hier kann, z. B. bei Tiefen oder Frequenzen ab 2 kHz, Informationsgehalt eingespart werden, dadurch, dass die betreffenden nicht lokalisierbaren Signale nicht mehr kanalgetreu, sondern mit benachbarten Frequenzbändern subsumiert kodiert (Intensitäts-Stereo), oder aber in die Stereomitte gelegt werden.

Durch andauernde Weiterentwicklung der Codecs wird das Joint-Stereo-Verfahren neuerdings bei musiküblichen stark ähnlichen Stereokanälen durch die bessere Kompressionsrate, höhere Bitratencodierung und das verlustfreie (außer tieffrequenziell) Stereoabbild als beste Lösung angesehen.

Quantisierung

Die Quantisierung ist der wesentliche Schritt, bei dem Verluste bei der Kodierung auftreten. Er ist hauptsächlich für das Schrumpfen der Datenmenge verantwortlich.

Benachbarte Frequenzbänder werden zu Gruppen von 4 bis 18 Bins zusammengefasst. Diese bekommen einen gemeinsamen Skalenfaktor s=2N/4, mit dem sie quantisiert werden. Der Skalenfaktor bestimmt die Genauigkeit der Kodierung dieses Frequenzbandes. Kleinere Skalenfaktoren ergeben eine genauere Kodierung, größere eine ungenauere (oder gar keine Werte ungleich 0 mehr).

Aus x0, x1, …, x17 werden die Werte N und Q0, Q1, …, Q17 mit der Beziehung xi ~ Qi4/3 2N/4.

Die nichtlineare Kodierung Q4/3 (für negative Werte: −(−Q)4/3) ist erstmals in der MP3-Codierung eingeführt worden. MPEG Layer 1 und 2 nutzen eine lineare Kodierung.

Dieser Schritt ist im Wesentlichen für Qualität wie auch die Datenrate des entstehenden MP3-Datenstroms verantwortlich. Ihm zur Seite steht ein psychoakustisches Modell, das die Vorgänge im durchschnittlichen menschlichen Gehör nachzubilden versucht und die Steuerung der Skalenfaktoren steuert.

Dekompression

Bei der Dekompression werden die Schritte der Kompression in umgekehrter Reihenfolge ausgeführt. Nach der Huffman-Dekodierung werden die Daten mittels inverser Quantisierung für die inverse modifizierte Cosinustransformation (IMCT) aufbereitet. Diese leitet ihre Daten weiter zu einer inversen Filterbank, die nun die ursprünglichen Samples berechnet (verlustbehaftet durch die Quantisierung im Kodierprozess).

Weiterentwicklung

MP3 ist ein besonders im Internet sehr verbreitetes Format. In der Industrie wird es hauptsächlich für PC-Spiele verwendet. Es handelt sich um ein ehemalig proprietäres Format, das in den ISO-Standard aufgenommen wurde.

In der Industrie wurde zu dieser Zeit schon an dem MDCT-basierten AAC gearbeitet, das bei vergleichbarem Aufwand bessere Ergebnisse liefert.

Daneben (in Richtung einer hochqualitativen Kodierung) gibt es auch Weiterentwicklungen, um bei sehr niedrigen Datenraten (weniger als 96 kbit/s) noch eine akzeptable Klangqualität zu erreichen. Vertreter dieser Kategorie sind mp3PRO sowie MPEG-4 AAC HE beziehungsweise AAC+. Transparenz ist mit diesen Verfahren allerdings nur durch High Definition-(HD-)AAC erreichbar (AAC LC + SLS).

Zeichen für 5.1-Klang

Eine Erweiterung um Multikanalfähigkeiten bietet das MP3-Surround-Format des Fraunhofer-Instituts für Integrierte Schaltungen IIS. MP3-Surround erlaubt die Wiedergabe von 5.1-Ton bei Bitraten, die mit denen von Stereoton vergleichbar sind und ist zudem vollständig rückwärtskompatibel. So können herkömmliche MP3-Decoder das Signal in Stereo decodieren, MP3-Surround-Decoder aber vollen 5.1-Surround-Klang erzeugen.

Dafür wird das Multikanal-Material zu einem Stereosignal gemischt und von einem regulären MP3-Encoder kodiert. Gleichzeitig werden die Raumklanginformationen aus dem Original als Surround-Erweiterungsdaten in das „Ancillary-Data“-Datenfeld des MP3-Bitstroms eingefügt. Die MP3-Daten können dann von jedem MP3-Decoder als Stereosignal wiedergegeben werden. Der MP3-Surround-Decoder nutzt die eingefügten Erweiterungsdaten und gibt das volle Multikanal-Audiosignal wieder.

Weitere Entwicklungen betreffen Verfahren zum Urheberschutz, das unter Umständen in zukünftigen Versionen implementiert werden könnte.

Verbreitete Implementierungen

Zum Codieren von MP3-Dateien stehen der lizenzpflichtige Encoder der Fraunhofer-Gesellschaft und der Encoder des Open-Source-Projektes LAME zur Verfügung. Daneben existieren der Referenzencoder der ISO dist10 und weitere Projekte wie beispielsweise Xing, blade und Gogo.

Als Decoder gibt es mpg123, MAD, libavcodec und weitere.

Wissenswertes

Das Team um Brandenburg machte die ersten Praxistests mit der A-cappella-Version des Liedes Tom’s Diner von Suzanne Vega. Bei seiner Suche nach geeignetem Testmaterial las Brandenburg in einer Hi-Fi-Zeitschrift, dass deren Tester das Lied zum Beurteilen von Lautsprechern nutzten, und empfand das Stück als geeignete Herausforderung für eine Audiodatenkompression.