Metadaten

Aus besserwiki.de
Im 21. Jahrhundert beziehen sich Metadaten in der Regel auf digitale Formen, aber auch traditionelle Zettelkataloge enthalten Metadaten, wobei die Zettel Informationen über die Bücher in einer Bibliothek enthalten (Autor, Titel, Thema usw.).
Metadaten können in verschiedenen Ebenen vorliegen: Dieser physische Herbarbeleg von Cenchrus ciliaris besteht aus den Exemplaren sowie aus Metadaten über sie, während der Strichcode auf einen digitalen Beleg mit Metadaten über den physischen Beleg verweist.

Metadaten sind "Daten, die Informationen über andere Daten liefern", aber nicht der Inhalt der Daten, wie etwa der Text einer Nachricht oder das Bild selbst. Es gibt viele verschiedene Arten von Metadaten, darunter:

  • Deskriptive Metadaten - die beschreibenden Informationen über eine Ressource. Sie dienen der Auffindung und Identifizierung. Sie umfassen Elemente wie Titel, Zusammenfassung, Autor und Schlüsselwörter.
  • Strukturelle Metadaten - Metadaten über Datencontainer und Angaben darüber, wie zusammengesetzte Objekte zusammengesetzt sind, z. B. wie Seiten zu Kapiteln angeordnet sind. Sie beschreiben die Typen, Versionen, Beziehungen und andere Merkmale von digitalen Materialien.
  • Administrative Metadaten - Informationen zur Verwaltung einer Ressource, wie z. B. Ressourcentyp, Berechtigungen sowie Zeitpunkt und Art der Erstellung.
  • Referenz-Metadaten - Informationen über den Inhalt und die Qualität von statistischen Daten.
  • Statistische Metadaten, auch Prozessdaten genannt, können Prozesse beschreiben, die statistische Daten sammeln, verarbeiten oder produzieren.
  • Rechtliche Metadaten - liefern Informationen über den Urheber, den Inhaber des Urheberrechts und die öffentliche Lizenzierung, sofern vorhanden.

Metadaten sind nicht strikt an eine dieser Kategorien gebunden, da sie einen Datensatz auf viele andere Arten beschreiben können.

Bei den durch Metadaten beschriebenen Daten handelt es sich oft um größere Datensammlungen wie Dokumente, Bücher, Datenbanken oder Dateien. So werden auch Angaben von Eigenschaften eines einzelnen Objektes (beispielsweise „Personenname“) als dessen Metadaten bezeichnet.

Anwendern von Computern ist oft nicht bewusst, dass Daten über nicht unmittelbar erkennbare Metadaten verfügen und dass diese unter Umständen einen größeren Nutzen für Computerkriminelle oder Behörden haben als die Daten selbst.

Geschichte

Metadaten haben verschiedene Zwecke. Sie können Benutzern helfen, relevante Informationen zu finden und Ressourcen zu entdecken. Sie können auch dazu beitragen, elektronische Ressourcen zu organisieren, eine digitale Identifizierung zu ermöglichen und Ressourcen zu archivieren und zu bewahren. Metadaten ermöglichen den Nutzern den Zugang zu Ressourcen, indem sie "das Auffinden von Ressourcen anhand relevanter Kriterien ermöglichen, Ressourcen identifizieren, ähnliche Ressourcen zusammenführen, unähnliche Ressourcen unterscheiden und Standortinformationen liefern". Metadaten über Telekommunikationsaktivitäten, einschließlich des Internetverkehrs, werden von verschiedenen nationalen Regierungsorganisationen in großem Umfang gesammelt. Diese Daten werden für Verkehrsanalysen verwendet und können für die Massenüberwachung genutzt werden.

Metadaten wurden traditionell in den Zettelkatalogen von Bibliotheken verwendet, bis die Bibliotheken in den 1980er Jahren ihre Katalogdaten auf digitale Datenbanken umstellten. In den 2000er Jahren, als Daten und Informationen zunehmend digital gespeichert wurden, wurden diese digitalen Daten mithilfe von Metadatenstandards beschrieben.

Die erste Beschreibung von "Metadaten" für Computersysteme wurde angeblich von den Experten des MIT Center for International Studies David Griffel und Stuart McIntosh im Jahr 1967 verfasst: "Zusammengefasst haben wir also Aussagen in einer Objektsprache über Subjektbeschreibungen von Daten und Token-Codes für die Daten. Wir haben auch Aussagen in einer Metasprache, die die Datenbeziehungen und -transformationen sowie Soll/Ist-Beziehungen zwischen Norm und Daten beschreiben."

Für verschiedene Bereiche (z. B. Museumssammlungen, digitale Audiodateien, Websites usw.) gibt es eigene Metadatenstandards. Die Beschreibung des Inhalts und des Kontexts von Daten oder Datendateien erhöht deren Nutzen. Eine Webseite kann beispielsweise Metadaten enthalten, die angeben, in welcher Software-Sprache die Seite geschrieben ist (z. B. HTML), welche Tools zur Erstellung verwendet wurden, welche Themen die Seite behandelt und wo man weitere Informationen zu diesem Thema findet. Diese Metadaten können das Leseerlebnis automatisch verbessern und es den Benutzern erleichtern, die Webseite online zu finden. Eine CD kann Metadaten mit Informationen zu den Musikern, Sängern und Songschreibern enthalten, deren Werke auf der CD enthalten sind.

In vielen Ländern speichern Regierungsorganisationen routinemäßig Metadaten über E-Mails, Telefonanrufe, Webseiten, Videodaten, IP-Verbindungen und Standorte von Mobiltelefonen.

Definition

Metadaten bedeuten "Daten über Daten". Obwohl die Vorsilbe "meta" "nach" oder "über" bedeutet, wird sie in der Erkenntnistheorie für "über" verwendet. Metadaten werden als Daten definiert, die Informationen über einen oder mehrere Aspekte der Daten liefern; sie werden verwendet, um grundlegende Informationen über Daten zusammenzufassen, die das Aufspüren und die Arbeit mit bestimmten Daten erleichtern können. Einige Beispiele sind:

  • Art der Erstellung der Daten
  • Zweck der Daten
  • Zeit und Datum der Erstellung
  • Ersteller oder Autor der Daten
  • Ort in einem Computernetzwerk, an dem die Daten erstellt wurden
  • Verwendete Standards
  • Dateigröße
  • Qualität der Daten
  • Quelle der Daten
  • Verwendeter Prozess zur Erstellung der Daten

Ein digitales Bild kann beispielsweise Metadaten enthalten, die die Größe des Bildes, seine Farbtiefe, die Auflösung, den Zeitpunkt der Erstellung, die Verschlusszeit und andere Daten beschreiben. Die Metadaten eines Textdokuments können Informationen darüber enthalten, wie lang das Dokument ist, wer der Autor ist, wann das Dokument geschrieben wurde und eine kurze Zusammenfassung des Dokuments. Metadaten in Webseiten können auch Beschreibungen des Seiteninhalts sowie Schlüsselwörter enthalten, die mit dem Inhalt verknüpft sind. Diese Links werden oft als "Metatags" bezeichnet, die bis in die späten 1990er Jahre als wichtigster Faktor bei der Bestimmung der Reihenfolge bei einer Websuche verwendet wurden. In den späten 1990er Jahren wurde die Verwendung von Metatags bei der Websuche wegen des "Keyword Stuffing" eingeschränkt, bei dem Metatags in großem Umfang missbraucht wurden, um Suchmaschinen vorzugaukeln, dass einige Websites für die Suche relevanter seien als sie es tatsächlich sind.

Metadaten können in einer Datenbank gespeichert und verwaltet werden, die oft als Metadaten-Register oder Metadaten-Repository bezeichnet wird. Ohne Kontext und Bezugspunkt kann es jedoch unmöglich sein, Metadaten zu identifizieren, indem man sie einfach nur ansieht. Ein Beispiel: Eine Datenbank, die mehrere 13-stellige Zahlen enthält, könnte für sich genommen die Ergebnisse von Berechnungen oder eine Liste von Zahlen sein, die in eine Gleichung eingesetzt werden - ohne weiteren Kontext können die Zahlen selbst als Daten wahrgenommen werden. Wenn man jedoch den Kontext heranzieht, dass es sich bei dieser Datenbank um ein Protokoll einer Buchsammlung handelt, können diese 13-stelligen Zahlen nun als ISBN identifiziert werden - Informationen, die sich auf das Buch beziehen, aber nicht selbst die Informationen im Buch sind. Der Begriff "Metadaten" wurde 1968 von Philip Bagley in seinem Buch "Extension of Programming Language Concepts" (Erweiterung der Konzepte von Programmiersprachen) geprägt, wobei klar ist, dass er den Begriff im "traditionellen" Sinne der ISO 11179 verwendet, d. h. "strukturelle Metadaten", d. h. "Daten über die Behälter von Daten", und nicht im alternativen Sinne "Inhalte über einzelne Instanzen von Dateninhalten" oder Metainhalte, die Art von Daten, die normalerweise in Bibliothekskatalogen zu finden sind. Seitdem haben die Bereiche Informationsmanagement, Informationswissenschaft, Informationstechnologie, Bibliothekswesen und GIS den Begriff weitgehend übernommen. In diesen Bereichen wird das Wort Metadaten als "Daten über Daten" definiert. Obwohl dies die allgemein akzeptierte Definition ist, haben verschiedene Disziplinen ihre eigene, spezifischere Erklärung und Verwendung des Begriffs angenommen.

Slate berichtete 2013, dass die Auslegung des Begriffs "Metadaten" durch die US-Regierung weit gefasst sein könnte und auch Nachrichteninhalte wie die Betreffzeilen von E-Mails umfassen könnte.

Arten

Obwohl die Anwendung von Metadaten sehr vielfältig ist und eine Vielzahl von Bereichen abdeckt, gibt es spezialisierte und gut akzeptierte Modelle zur Spezifizierung von Metadatentypen. Bretherton & Singley (1994) unterscheiden zwischen 2 verschiedenen Klassen: Struktur-/Kontrollmetadaten und Leitmetadaten. Strukturelle Metadaten beschreiben die Struktur von Datenbankobjekten wie Tabellen, Spalten, Schlüssel und Indizes. Leitfaden-Metadaten helfen Menschen bei der Suche nach bestimmten Objekten und werden in der Regel als eine Reihe von Schlüsselwörtern in einer natürlichen Sprache ausgedrückt. Nach Ralph Kimball lassen sich Metadaten in drei Kategorien einteilen: technische Metadaten (oder interne Metadaten), geschäftliche Metadaten (oder externe Metadaten) und Prozessmetadaten.

Die NISO unterscheidet 3 Arten von Metadaten: beschreibende, strukturelle und administrative. Deskriptive Metadaten werden in der Regel zum Auffinden und zur Identifizierung verwendet, als Informationen zum Suchen und Auffinden eines Objekts, wie z. B. Titel, Autoren, Themen, Schlüsselwörter und Herausgeber. Strukturelle Metadaten beschreiben, wie die Komponenten eines Objekts organisiert sind. Ein Beispiel für strukturelle Metadaten wäre die Anordnung der Seiten zu den Kapiteln eines Buches. Die administrativen Metadaten schließlich enthalten Informationen, die die Verwaltung der Quelle erleichtern. Administrative Metadaten beziehen sich auf die technischen Informationen, wie z. B. den Dateityp, oder wann und wie die Datei erstellt wurde. Zwei Unterarten von administrativen Metadaten sind Metadaten zur Rechteverwaltung und Metadaten zur Bewahrung. Metadaten zur Rechteverwaltung erläutern die Rechte an geistigem Eigentum, während Metadaten zur Bewahrung Informationen zur Bewahrung und Sicherung einer Ressource enthalten.

Statistische Datenspeicher haben ihre eigenen Anforderungen an Metadaten, um nicht nur die Quelle und die Qualität der Daten zu beschreiben, sondern auch, welche statistischen Verfahren zur Erstellung der Daten verwendet wurden, was für die statistische Gemeinschaft von besonderer Bedeutung ist, um den Prozess der statistischen Datenerstellung sowohl zu validieren als auch zu verbessern.

Eine weitere Art von Metadaten, die zunehmend entwickelt wird, sind die Metadaten zur Barrierefreiheit. Metadaten zur Barrierefreiheit sind kein neues Konzept für Bibliotheken, aber die Fortschritte im Bereich des universellen Designs haben ihr Profil geschärft. Projekte wie Cloud4All und GPII haben das Fehlen gemeinsamer Terminologien und Modelle zur Beschreibung der Bedürfnisse und Präferenzen der Benutzer und der Informationen, die diesen Bedürfnissen entsprechen, als eine große Lücke bei der Bereitstellung von Lösungen für den universellen Zugang identifiziert. Bei diesen Informationen handelt es sich um Zugänglichkeits-Metadaten. Schema.org hat mehrere Zugänglichkeitseigenschaften auf der Grundlage der IMS Global Access for All Information Model Data Element Specification aufgenommen. Die Wiki-Seite WebSchemas/Accessibility listet verschiedene Eigenschaften und ihre Werte auf. Während die Bemühungen um die Beschreibung und Standardisierung der verschiedenen Zugänglichkeitsbedürfnisse von Informationssuchenden allmählich robuster werden, ist ihre Übernahme in etablierte Metadatenschemata noch nicht so weit fortgeschritten. Obwohl beispielsweise die "Zielgruppe" von Dublin Core (DC) und die "Lesestufe" von MARC 21 verwendet werden könnten, um Ressourcen zu identifizieren, die für Benutzer mit Legasthenie geeignet sind, und das "Format" von DC verwendet werden könnte, um Ressourcen zu identifizieren, die in Braille, Audio oder Großdruckformaten verfügbar sind, bleibt noch viel zu tun.

Strukturen

Metadaten (Metainhalte) oder besser gesagt die Vokabulare, die zur Zusammenstellung von Metadaten (Metainhalte) verwendet werden, sind in der Regel nach einem standardisierten Konzept unter Verwendung eines genau definierten Metadatenschemas strukturiert, einschließlich Metadatenstandards und Metadatenmodelle. Tools wie kontrollierte Vokabulare, Taxonomien, Thesauri, Datenwörterbücher und Metadatenregister können zur weiteren Standardisierung der Metadaten verwendet werden. Strukturelle Gemeinsamkeiten von Metadaten sind auch bei der Entwicklung von Datenmodellen und beim Datenbankdesign von größter Bedeutung.

Syntax

„Operabel“ bedeutet in fachsprachlichen Fügungen zunächst „so beschaffen, dass damit gearbeitet, operiert werden kann“. Die Vorsilbe „inter“ stammt aus dem Lateinischen und bedeutet so viel wie „zwischen“. Interoperable Metadaten sind also Metadaten aus potenziell unterschiedlichen Quellen, zwischen denen („inter“) eine Beziehung in der Weise besteht, dass mit ihnen gemeinsam gearbeitet („operiert“) werden kann.

Standards für interoperable Metadaten haben die Aufgabe, Metadaten aus unterschiedlichen Quellen nutzbar zu machen. Sie umfassen dazu zunächst die Aspekte Semantik, Datenmodell und Syntax.

Die Semantik beschreibt die Bedeutung, die in der Regel von Normierungs-Gremien festgelegt wird (vgl. Dublin Core). Das Datenmodell legt fest, welche Struktur die Metadaten besitzen können. Als „Daten“ lassen sich im Zusammenhang mit Metadaten Aussagen auffassen, die über ein zu beschreibendes Objekt (Dokument, Ressource, …) getroffen werden. Als „Modell“-Komponente des Begriffs Datenmodell lässt sich eine Beschreibung dessen auffassen, wie die Aussagen strukturell beschaffen sind (der Begriff Datenmodell bedeutet damit im Kontext von Metadaten so viel wie „Grammatik“ oder „Struktur von Aussagen“). Beispiele für Datenmodelle von Metadaten sind einfache Attribut/Wert-Kombinationen (z. B. HTML-Meta-Elemente) oder Sätze mit Subjekt, Prädikat und Objekt (z. B. Tripel in RDF). Die Syntax dient schließlich dazu, die entsprechend dem Datenmodell generierten Aussagen zu repräsentieren. Beispiel für ein Repräsentationsformat ist XML (eXtensible Markup Language).

Zwischen diesen drei Aspekten besteht nun folgende Beziehung: Die Semantik wird durch Konstrukte des Datenmodells repräsentiert. Das Datenmodell wird wiederum durch syntaktische Konstrukte repräsentiert. Die syntaktischen Konstrukte werden schließlich aus Zeichen eines vereinbarten Zeichensatzes (wie bei Unicode) zusammengesetzt. Diese drei Aspekte lassen sich als hierarchisch übereinander liegende Schichten auffassen, da jede Schicht jeweils auf der darunter befindlichen Schicht aufbaut. Die Schichten sind dabei voneinander unabhängig, d. h. die Verwendung eines bestimmten Standards in einer Schicht erfolgt unabhängig von den anderen Schichten (wie die Schichtenmodelle der Netzwerkkommunikation, beispielsweise das ISO/OSI-Schichtenmodell). So kann eine bestimmte Semantik durch Konstrukte verschiedener Datenmodelle repräsentiert werden (z. B. Attribut/Wert-Kombination, Tripel), die wiederum durch verschiedene Syntaxen repräsentiert werden können (Graphen, XML-Formate).

Orthogonal zu diesen Schichten liegt als vierter Aspekt die Identifizierung, die alle drei Schichten betrifft. Um Metadaten verschiedener Quellen sinnvoll verarbeiten zu können, muss (weltweit) eindeutig gekennzeichnet werden, um welche Semantik, welches Datenmodell und welche Syntax es sich handelt. Hierzu ist ein Identifikationsmechanismus erforderlich, wie ihn die URIs (Uniform Resource Identifier) bereitstellen.

Generisches Framework

Alle vier Aspekte – Semantik, Datenmodell, Syntax und Identifizierung – sind erforderlich, um Standards für interoperable Metadaten zu schaffen. Sie können daher gemeinsam in ein Framework eingeordnet werden. Ein Framework bietet also eine Art Grundgerüst oder Gerippe, das bereits die wichtigsten Elemente bzw. Komponenten eines Systems und deren Beziehungen beschreibt, jedoch ohne genaue Vorgaben hinsichtlich deren Ausgestaltung zu machen. Es fungiert somit als eine Art „Bezugssystem“, das die sinnvolle Eingliederung neuer Komponenten ermöglicht. Da ein Framework Elemente und deren Beziehungen zeigt, kann dies leicht durch die grafische Anordnung von Elementen visualisiert werden. Die Abbildung „Generisches Framework“ zeigt ein Framework für Metadaten, auf einer Metaebene. Im Gegensatz zu konkreten Ausprägungen von Frameworks, d. h. also der Ausprägungs- oder Instanzenebene, beschreibt ein Framework auf der Metaebene ein verallgemeinertes Framework – erkennbar an den generischen Bezeichnungen der Bestandteile.

Als Beispiel für ein konkretes Framework für Metadaten sei RDF (Resource Description Framework) des World Wide Web Consortium (W3C) genannt. RDF enthält alle der oben genannten vier Aspekte mit spezifischen Ausprägungen, wie in der Abbildung dargestellt.

RDF als Framework für Metadaten

Die Komponenten im Detail:

  • Semantik: Domänenspezifische Semantiken können über Namensräume importiert werden, womit die Semantik eines RDF-Vokabulars beliebig erweitert werden kann
  • Datenmodell: RDF besitzt ein festgelegtes Datenmodell, das Aussagen über Ressourcen in Form von Tripeln mit Subjekt, Prädikat und Objekt gestattet
  • Syntax: Zur Repräsentation solcher Aussagen kann eine beliebige Syntax verwendet werden, RDF/XML, Graphen, oder die N-Triple-Notation; RDF/XML ist jedoch die normative Syntax
  • Identifikation: Als universeller Identifikations-Mechanismus werden URIs verbindlich vorgeschrieben

Der Idee eines Frameworks folgend definiert RDF selbst keine domänenspezifische Semantik, sondern spezifiziert lediglich einen Mechanismus, wie über Namensräume mit Hilfe einer URI weitere Semantiken eingebunden werden können. Verbindlich legt RDF hingegen ein gemeinsames Datenmodell in Form von Tripeln fest sowie die universelle Verwendung von URIs als Identifikationsmechanismus. Diese werden sowohl eingesetzt, um die einzelnen Komponenten eines Tripels (Subjekt, Prädikat, Objekt) zu kennzeichnen, als auch deren Werte und Datentypen. Die konkrete Syntax zur Repräsentation der Tripel kann jedoch, wiederum dem Gedanken eines Frameworks folgend, frei gewählt werden, wobei RDF/XML als Standard vorgesehen ist. Mit RDF Schema enthält RDF außerdem noch eine Schema-Sprache, um eigene Metadaten-Vokabulare zu definieren.

RDF-Schema verhält sich zu RDF ähnlich wie XML Schema zu XML. Ein RDF Schema ist gleichzeitig ein gültiges RDF-Dokument, ebenso ist ein XML Schema gleichzeitig ein gültiges XML-Dokument. In beiden Fällen handelt es sich also um spezialisierte Teilmengen einer Auszeichnungssprache. Während XML Schema jedoch syntaktische Einschränkungen beschreibt, z. B. Elementnamen, Häufigkeit des Auftretens etc., beschreibt RDF Schema semantische Einschränkungen, also z. B. dass ein Attribut „hasPublished“ nur auf Instanzen der Klasse „Mensch“ oder „juristischePerson“ angewendet werden darf, nicht jedoch auf Instanzen der Klasse „Tier“ – in der Schemasprache formuliert, hat das Attribut „hasPublished“ die Domäne „Mensch“ oder „juristischePerson“.

Wie XML dem Grundsatz der Einfachheit und Erweiterbarkeit folgend die Welt der Daten gründlich veränderte, in dem es durch eine einheitliche Syntax, ein genormtes Typsystem und seine Textbasiertheit die Definition problemlos zwischen verschiedenen Systemen und Programmen austauschbarer Datenformate ermöglichte, versucht RDF die Welt der Metadaten durch ein einheitliches Datenmodell zu verändern. Durch den Charakter eines Frameworks knüpft RDF dabei ebenfalls an bewährte Grundsätze wie Einfachheit und Erweiterbarkeit an.

Die Syntax von Metadaten (Metainhalten) bezieht sich auf die Regeln, die zur Strukturierung der Felder oder Elemente von Metadaten (Metainhalten) erstellt werden. Ein einziges Metadatenschema kann in einer Reihe verschiedener Auszeichnungs- oder Programmiersprachen ausgedrückt werden, von denen jede eine andere Syntax erfordert. Dublin Core kann zum Beispiel in einfachem Text, HTML, XML und RDF ausgedrückt werden.

Hierarchische, lineare und planare Schemata

Metadatenschemata können hierarchisch aufgebaut sein, wobei Beziehungen zwischen Metadatenelementen bestehen und Elemente so verschachtelt sind, dass zwischen den Elementen Eltern-Kind-Beziehungen bestehen. Ein Beispiel für ein hierarchisches Metadatenschema ist das IEEE-LOM-Schema, in dem Metadatenelemente zu einem übergeordneten Metadatenelement gehören können. Metadatenschemata können auch eindimensional oder linear sein, wobei jedes Element vollständig von anderen Elementen getrennt ist und nur nach einer Dimension klassifiziert wird. Ein Beispiel für ein lineares Metadatenschema ist das Dublin-Core-Schema, das eindimensional ist. Metadatenschemata sind oft zweidimensional oder planar, bei denen jedes Element vollständig von anderen Elementen getrennt ist, aber nach zwei orthogonalen Dimensionen klassifiziert wird.

Granularität

Der Grad der Strukturierung der Daten oder Metadaten wird als "Granularität" bezeichnet. Die "Granularität" bezieht sich darauf, wie detailliert die Daten sind. Metadaten mit einer hohen Granularität ermöglichen tiefere, detailliertere und strukturiertere Informationen und ermöglichen ein höheres Maß an technischer Manipulation. Eine geringere Granularität bedeutet, dass Metadaten zu wesentlich geringeren Kosten erstellt werden können, aber nicht so detaillierte Informationen liefern. Die Granularität wirkt sich nicht nur auf die Erstellung und Erfassung, sondern auch auf die Wartungskosten aus. Sobald die Metadatenstrukturen veraltet sind, veraltet auch der Zugriff auf die entsprechenden Daten. Daher muss die Granularität sowohl den Aufwand für die Erstellung der Metadaten als auch den Aufwand für deren Pflege berücksichtigen.

Hypermapping

In allen Fällen, in denen die Metadatenschemata über die planare Darstellung hinausgehen, ist eine Art von Hypermapping erforderlich, um die Anzeige und Ansicht der Metadaten nach dem gewählten Aspekt zu ermöglichen und um spezielle Ansichten zu bedienen. Hypermapping kommt häufig bei der Überlagerung von geografischen und geologischen Informationen zum Einsatz.

Normen

Für Metadaten gelten internationale Normen. In den nationalen und internationalen Normungsgremien, insbesondere im ANSI (American National Standards Institute) und in der ISO (International Organization for Standardization), wird intensiv daran gearbeitet, einen Konsens über die Standardisierung von Metadaten und Registern zu erzielen. Die Kernnorm für Metadatenregister ist ISO/IEC 11179 Metadata Registries (MDR). Der Rahmen für die Norm ist in ISO/IEC 11179-1:2004 beschrieben. Eine neue Ausgabe von Teil 1 befindet sich in der Endphase und soll 2015 oder Anfang 2016 veröffentlicht werden. Sie wurde überarbeitet, um sie an die aktuelle Ausgabe von Teil 3, ISO/IEC 11179-3:2013, anzupassen, die die MDR erweitert, um die Registrierung von Konzeptsystemen zu unterstützen. (siehe ISO/IEC 11179). Diese Norm spezifiziert ein Schema zur Aufzeichnung sowohl der Bedeutung als auch der technischen Struktur der Daten für eine eindeutige Verwendung durch Menschen und Computer. In der Norm ISO/IEC 11179 werden Metadaten als Informationsobjekte über Daten oder als "Daten über Daten" bezeichnet. In ISO/IEC 11179 Teil-3 sind die Informationsobjekte Daten über Datenelemente, Wertedomänen und andere wiederverwendbare semantische und repräsentative Informationsobjekte, die die Bedeutung und die technischen Details eines Datenelements beschreiben. Diese Norm schreibt auch die Details für ein Metadatenregister und für die Registrierung und Verwaltung der Informationsobjekte innerhalb eines Metadatenregisters vor. ISO/IEC 11179 Teil 3 enthält auch Bestimmungen für die Beschreibung zusammengesetzter Strukturen, die Ableitungen von anderen Datenelementen sind, z. B. durch Berechnungen, Sammlungen von einem oder mehreren Datenelementen oder andere Formen von abgeleiteten Daten. Obwohl diese Norm ursprünglich als ein "Datenelement"-Register beschrieben wird, besteht ihr Zweck darin, die Beschreibung und Registrierung von Metadateninhalten unabhängig von einer bestimmten Anwendung zu unterstützen, so dass die Beschreibungen von Menschen oder Computern bei der Entwicklung neuer Anwendungen, Datenbanken oder bei der Analyse von Daten, die in Übereinstimmung mit den registrierten Metadateninhalten gesammelt wurden, entdeckt und wiederverwendet werden können. Dieser Standard ist zur allgemeinen Grundlage für andere Arten von Metadatenregistern geworden, die den Registrierungs- und Verwaltungsteil des Standards wiederverwenden und erweitern.

Die Geospatial Community hat eine Tradition von spezialisierten Metadatenstandards für Geodaten, die insbesondere auf den Traditionen von Karten- und Bildbibliotheken und Katalogen aufbauen. Formale Metadaten sind für Geodaten in der Regel unverzichtbar, da übliche Textverarbeitungsansätze nicht anwendbar sind.

Die Dublin-Core-Metadatenbegriffe sind eine Reihe von Vokabularbegriffen, die zur Beschreibung von Ressourcen für die Zwecke der Auffindung verwendet werden können. Der ursprüngliche Satz von 15 klassischen Metadatenbegriffen, bekannt als Dublin Core Metadata Element Set, wird in den folgenden Standarddokumenten unterstützt:

  • IETF RFC 5013
  • ISO-Norm 15836-2009
  • NISO-Norm Z39.85.

Das W3C Data Catalog Vocabulary (DCAT) ist ein RDF-Vokabular, das Dublin Core um Klassen für Dataset, Data Service, Catalog und Catalog Record ergänzt. DCAT verwendet auch Elemente aus FOAF, PROV-O und OWL-Time. DCAT bietet ein RDF-Modell zur Unterstützung der typischen Struktur eines Katalogs, der Datensätze enthält, die jeweils einen Datensatz oder Dienst beschreiben.

Microformat ist zwar kein Standard, aber ein webbasierter Ansatz für semantisches Markup, der versucht, bestehende HTML/XHTML-Tags für die Übermittlung von Metadaten wiederzuverwenden (siehe auch Abschnitt Metadaten im Internet). Mikroformate folgen den XHTML- und HTML-Standards, sind aber selbst kein Standard. Ein Verfechter von Mikroformaten, Tantek Çelik, hat ein Problem mit alternativen Ansätzen beschrieben:

Hier ist eine neue Sprache, die Sie lernen müssen, und jetzt müssen Sie diese zusätzlichen Dateien auf Ihrem Server ausgeben. Das ist sehr mühsam. (Mikroformate) senken die Einstiegshürde.

Verwenden Sie

Fotografien

In eine digitale Fotodatei können Metadaten geschrieben werden, die den Eigentümer, das Urheberrecht und Kontaktinformationen, die Marke oder das Modell der Kamera, mit der die Datei erstellt wurde, sowie Belichtungsinformationen (Verschlusszeit, Blende usw.) und beschreibende Informationen wie Schlüsselwörter über das Foto enthalten, wodurch die Datei oder das Bild auf einem Computer und/oder im Internet durchsuchbar wird. Einige Metadaten werden von der Kamera erstellt, z. B. Farbraum, Farbkanäle, Belichtungszeit und Blende (EXIF), während andere vom Fotografen und/oder der Software nach dem Herunterladen auf einen Computer eingegeben werden. Die meisten Digitalkameras schreiben Metadaten über die Modellnummer, die Verschlusszeit usw., und einige ermöglichen es Ihnen, diese zu bearbeiten; diese Funktion ist bei den meisten Nikon-DSLRs seit der Nikon D3, bei den meisten neuen Canon-Kameras seit der Canon EOS 7D und bei den meisten Pentax-DSLRs seit der Pentax K-3 verfügbar. Metadaten können verwendet werden, um die Organisation in der Postproduktion durch die Verwendung von Schlüsselwörtern zu erleichtern. Filter können verwendet werden, um eine bestimmte Gruppe von Fotos zu analysieren und nach Kriterien wie Bewertung oder Aufnahmezeit zu selektieren. Bei Geräten mit Geolokalisierungsfunktionen wie GPS (insbesondere Smartphones) kann auch der Ort, an dem das Foto aufgenommen wurde, angegeben werden.

Die Standards für fotografische Metadaten werden von Organisationen festgelegt, die die folgenden Standards entwickeln. Dazu gehören unter anderem:

  • IPTC Information Interchange Model IIM (International Press Telecommunications Council)
  • IPTC-Kernschema für XMP
  • XMP - Extensible Metadata Platform (eine ISO-Norm)
  • Exif - Austauschbares Bilddateiformat, gepflegt von CIPA (Camera & Imaging Products Association) und veröffentlicht von JEITA (Japan Electronics and Information Technology Industries Association)
  • Dublin Core (Dublin Core Metadaten Initiative - DCMI)
  • PLUS (Universelles System zur Bildlizenzierung)
  • VRA Core (Verband für visuelle Ressourcen)

Metadaten digitaler Fotos, wie Aufnahmedatum/-zeit, Brennweite, Blende, Belichtungsdauer und andere technische Parameter (ggf. auch geographische Koordinaten des Aufnahmeorts), werden heute von nahezu allen Digitalkameras am Anfang einer Bilddatei im Exif-Format abgespeichert. Durch geeignete Software kann ein digitales Bild (Foto, Scan oder Grafik) durch Metadaten im IPTC-Format angereichert werden; dabei können im Wesentlichen Angaben gemacht werden zu Bildtitel, Bildbeschreibung, Aufnahmeort (GPS-Koordinaten/Ort/Bundesland/Land), Autor (Fotograf) bzw. Urheberrechts-Inhaber, Kontaktdaten des Urheberrechts-Inhabers oder Lizenzgebers, Urheberrechts-Bestimmungen und Suchbegriffe (Schlüsselwörter). Viele Bildbearbeitungsprogramme ergänzen oder verändern beim Bearbeiten von digitalen Fotos (bzw. Bildern im Allgemeinen) die Metadaten zusätzlich, sodass sich Rückschlüsse auf die Bildbearbeitungssoftware ziehen lässt.

Telekommunikation

Eine weitere Form von Metadaten sind Informationen über die Zeiten, Ursprünge und Ziele von Anrufen, elektronischen Nachrichten, Sofortnachrichten und anderen Arten der Telekommunikation, im Gegensatz zu den Nachrichteninhalten. Die massenhafte Erfassung dieser Metadaten durch Geheimdienste hat sich als kontrovers erwiesen, nachdem Edward Snowden enthüllt hatte, dass bestimmte Geheimdienste wie die NSA Online-Metadaten von Millionen von Internetnutzern bis zu einem Jahr lang gespeichert haben (und dies vielleicht immer noch tun), unabhängig davon, ob diese Personen für die Behörde von Interesse waren oder nicht.

Video

Metadaten sind vor allem bei Videos nützlich, bei denen Informationen über den Inhalt (z. B. Abschriften von Gesprächen und Textbeschreibungen von Szenen) für einen Computer nicht direkt verständlich sind, bei denen aber eine effiziente Suche nach dem Inhalt wünschenswert ist. Dies ist besonders nützlich bei Videoanwendungen wie der automatischen Kennzeichenerkennung und der Software zur Identifizierung von Fahrzeugen, bei denen Kennzeichen gespeichert und zur Erstellung von Berichten und Warnungen verwendet werden. Es gibt zwei Quellen, aus denen Video-Metadaten abgeleitet werden: (1) operativ erfasste Metadaten, d. h. Informationen über den produzierten Inhalt, wie z. B. die Art der Ausrüstung, die Software, das Datum und den Ort; (2) von Menschen erstellte Metadaten, um die Sichtbarkeit in Suchmaschinen, die Auffindbarkeit, die Einbindung des Publikums und die Werbemöglichkeiten für Videoverleger zu verbessern. Heutzutage hat die meiste professionelle Videobearbeitungssoftware Zugang zu Metadaten. MetaSync von Avid und Bridge von Adobe sind zwei hervorragende Beispiele dafür.

Geospatiale Metadaten

Georäumliche Metadaten beziehen sich auf Dateien, Karten, Bilder und andere standortbezogene Daten aus Geografischen Informationssystemen (GIS). Metadaten werden in GIS verwendet, um die Eigenschaften und Attribute von geografischen Daten zu dokumentieren, wie z. B. Datenbankdateien und Daten, die innerhalb eines GIS entwickelt werden. Sie enthalten Details, wie z. B. wer die Daten entwickelt hat, wann sie gesammelt wurden, wie sie verarbeitet wurden und in welchen Formaten sie verfügbar sind, und liefern dann den Kontext für die effektive Nutzung der Daten.

Erstellung

Metadaten können entweder durch automatisierte Informationsverarbeitung oder durch manuelle Arbeit erstellt werden. Elementare Metadaten, die von Computern erfasst werden, können Informationen darüber enthalten, wann ein Objekt erstellt wurde, wer es erstellt hat, wann es zuletzt aktualisiert wurde, die Dateigröße und die Dateierweiterung. In diesem Zusammenhang bezieht sich ein Objekt auf eines der folgenden Elemente:

  • Ein physischer Gegenstand wie ein Buch, eine CD, eine DVD, eine Papierkarte, ein Stuhl, ein Tisch, ein Blumentopf usw.
  • Eine elektronische Datei wie ein digitales Bild, ein digitales Foto, ein elektronisches Dokument, eine Programmdatei, eine Datenbanktabelle usw.

Eine Metadaten-Engine sammelt, speichert und analysiert Informationen über Daten und Metadaten (Daten über Daten), die in einer Domäne verwendet werden.

Datenvirtualisierung

Die Datenvirtualisierung entstand in den 2000er Jahren als neue Softwaretechnologie zur Vervollständigung des Virtualisierungs-"Stacks" im Unternehmen. Metadaten werden in Datenvirtualisierungsservern verwendet, die neben Datenbank- und Anwendungsservern Komponenten der Unternehmensinfrastruktur sind. Metadaten werden in diesen Servern als beständiges Repository gespeichert und beschreiben Geschäftsobjekte in verschiedenen Unternehmenssystemen und -anwendungen. Die strukturelle Gemeinsamkeit von Metadaten ist ebenfalls wichtig, um die Datenvirtualisierung zu unterstützen.

Statistiken und Volkszählungsdienste

Die Bemühungen der Industrie um den Aufbau von Metadatensystemen in der Statistikbranche haben sich durch Standardisierungs- und Harmonisierungsarbeiten positiv ausgewirkt. Mehrere Metadatenrichtlinien und -normen wie der European Statistics Code of Practice und ISO 17369:2013 (Statistical Data and Metadata Exchange oder SDMX) bieten wichtige Grundsätze dafür, wie Unternehmen, Regierungsstellen und andere Einrichtungen statistische Daten und Metadaten verwalten sollten. Einrichtungen wie Eurostat, das Europäische System der Zentralbanken und die U.S. Environmental Protection Agency haben diese und andere Standards und Richtlinien mit dem Ziel eingeführt, die Effizienz bei der Verwaltung statistischer Geschäftsprozesse zu verbessern.

Bibliothek und Informationswissenschaft

Metadaten werden auf verschiedene Weise zur Katalogisierung von Bibliotheksgut in digitalen und analogen Formaten verwendet. Diese Daten helfen dabei, ein bestimmtes Buch, eine DVD, eine Zeitschrift oder ein anderes Objekt, das eine Bibliothek in ihrer Sammlung hat, zu klassifizieren, zusammenzufassen, zu identifizieren und aufzufinden. Bis in die 1980er Jahre wurden in vielen Bibliothekskatalogen 3x5-Zoll-Karten in den Regalfächern verwendet, um den Titel eines Buches, den Autor, das Thema und eine abgekürzte alphanumerische Zeichenfolge (Signatur) anzuzeigen, die den physischen Standort des Buches in den Regalen der Bibliothek angab. Ein frühes Beispiel für die Verwendung von Metadaten ist das Dewey-Dezimalsystem, das von Bibliotheken für die Klassifizierung von Bibliotheksmaterialien nach Themen verwendet wurde. Der frühe Papierkatalog enthielt Informationen über das auf der Karte beschriebene Medium: Titel, Autor, Thema und eine Nummer, unter der das Medium zu finden war. In den 1980er und 1990er Jahren ersetzten viele Bibliotheken diese Papierkarteikarten durch Computerdatenbanken. Mit diesen Computerdatenbanken können die Benutzer viel einfacher und schneller nach Stichworten suchen. Eine andere Form der Sammlung älterer Metadaten ist die Verwendung des so genannten "Long Form" durch das US Census Bureau. Im Long Form werden Fragen gestellt, die zur Erstellung demografischer Daten verwendet werden, um Verteilungsmuster zu ermitteln. Bibliotheken verwenden Metadaten in Bibliothekskatalogen, meist als Teil eines integrierten Bibliotheksverwaltungssystems. Metadaten werden durch die Katalogisierung von Ressourcen wie Büchern, Zeitschriften, DVDs, Webseiten oder digitalen Bildern gewonnen. Diese Daten werden im integrierten Bibliotheksverwaltungssystem (ILMS) unter Verwendung des MARC-Metadatenstandards gespeichert. Ziel ist es, den Benutzer zum physischen oder elektronischen Standort der gesuchten Objekte oder Bereiche zu leiten und eine Beschreibung der betreffenden Objekte zu liefern.

Zu den neueren und spezielleren Fällen von Bibliotheksmetadaten gehört die Einrichtung digitaler Bibliotheken, einschließlich E-Print-Repositorien und digitaler Bildbibliotheken. Diese basieren zwar häufig auf bibliothekarischen Grundsätzen, doch der Fokus auf die nicht-bibliothekarische Nutzung, insbesondere bei der Bereitstellung von Metadaten, bedeutet, dass sie nicht den traditionellen oder üblichen Katalogisierungsansätzen folgen. Angesichts des individuellen Charakters der aufgenommenen Materialien werden Metadatenfelder oft speziell erstellt, z. B. Felder für die taxonomische Klassifizierung, Standortfelder, Schlüsselwörter oder Urheberrechtserklärungen. Standardinformationen wie Dateigröße und -format sind in der Regel automatisch enthalten. Der Bibliotheksbetrieb ist seit Jahrzehnten ein zentrales Thema bei den Bemühungen um internationale Standardisierung. Zu den Standards für Metadaten in digitalen Bibliotheken gehören Dublin Core, METS, MODS, DDI, DOI, URN, PREMIS-Schema, EML und OAI-PMH. Führende Bibliotheken in der Welt geben Hinweise auf ihre Strategien für Metadatenstandards. Die Verwendung und Erstellung von Metadaten in der Bibliotheks- und Informationswissenschaft umfasst auch wissenschaftliche Publikationen:

In der Wissenschaft

Eine Einführung in FAIR-Daten und persistente Identifikatoren.

Metadaten für wissenschaftliche Veröffentlichungen werden häufig von Zeitschriftenverlagen und Zitationsdatenbanken wie PubMed und Web of Science erstellt. Die in den Manuskripten enthaltenen oder ihnen als ergänzendes Material beigefügten Daten sind seltener Gegenstand der Metadatenerstellung, obwohl sie z. B. nach der Veröffentlichung an biomedizinische Datenbanken übermittelt werden können. Die ursprünglichen Autoren und die Kuratoren der Datenbanken sind dann für die Erstellung der Metadaten verantwortlich, wobei sie von automatisierten Verfahren unterstützt werden. Umfassende Metadaten für alle experimentellen Daten sind die Grundlage der FAIR-Leitprinzipien oder der Standards, die sicherstellen, dass Forschungsdaten auffindbar, zugänglich, interoperabel und wiederverwendbar sind.

Diese Metadaten können dann auf nützliche Weise genutzt, ergänzt und zugänglich gemacht werden. OpenAlex ist ein kostenloser Online-Index mit über 200 Millionen wissenschaftlichen Dokumenten, der Metadaten wie Quellen, Zitate, Autoreninformationen, wissenschaftliche Bereiche und Forschungsthemen integriert und bereitstellt. Die API und die Open-Source-Website können für Metawissenschaften, Szientometrie und neuartige Tools verwendet werden, die dieses semantische Netz von Dokumenten abfragen. Ein weiteres in der Entwicklung befindliches Projekt, Scholia, nutzt die Metadaten wissenschaftlicher Veröffentlichungen für verschiedene Visualisierungs- und Aggregationsfunktionen, wie z. B. die Bereitstellung einer einfachen Benutzeroberfläche, die die Literatur über ein bestimmtes Merkmal des SARS-CoV-2-Virus unter Verwendung der Eigenschaft "Hauptthema" von Wikidata zusammenfasst.

In der Forschungsarbeit wurden transparente Metadaten über die Beiträge der Autoren zu den Werken vorgeschlagen - z. B. die Rolle, die sie bei der Erstellung des Papiers gespielt haben, die Höhe des Beitrags und die Verantwortlichkeiten.

Darüber hinaus können verschiedene Metadaten über wissenschaftliche Ergebnisse erstellt oder ergänzt werden - beispielsweise versucht scite.ai, Zitate von Arbeiten als "unterstützend", "erwähnend" oder "kontrastierend" zur Studie zu verfolgen und zu verknüpfen. Andere Beispiele sind die Entwicklung alternativer Metriken, die nicht nur bei der Bewertung und Auffindbarkeit helfen, sondern auch viele der öffentlichen Diskussionen über eine wissenschaftliche Arbeit in sozialen Medien wie Reddit, Zitate auf Wikipedia und Berichte über die Studie in den Nachrichtenmedien zusammenfassen, sowie eine Aufforderung, zu zeigen, ob die ursprünglichen Ergebnisse bestätigt werden oder reproduziert werden könnten.

In Museen

Metadaten im Museumskontext sind die Informationen, die ausgebildete Spezialisten für Kulturdokumentation wie Archivare, Bibliothekare, Museumsregistratoren und Kuratoren erstellen, um Kunstwerke, Architektur, kulturelle Objekte und deren Bilder zu indexieren, zu strukturieren, zu beschreiben, zu identifizieren oder anderweitig zu spezifizieren. Deskriptive Metadaten werden am häufigsten im musealen Kontext zur Identifizierung von Objekten und zur Wiederherstellung von Ressourcen verwendet.

Verwendung

Metadaten werden in Sammlungseinrichtungen und Museen entwickelt und verwendet, um:

  • Erleichterung des Auffindens von Ressourcen und Durchführung von Suchanfragen.
  • digitale Archive zu erstellen, in denen Informationen zu verschiedenen Aspekten von Museumssammlungen und kulturellen Objekten gespeichert werden und die Archivierungs- und Verwaltungszwecken dienen.
  • der Öffentlichkeit Zugang zu kulturellen Objekten zu verschaffen, indem digitale Inhalte online veröffentlicht werden.

Normen

Viele Museen und Zentren für kulturelles Erbe erkennen an, dass angesichts der Vielfalt von Kunstwerken und kulturellen Objekten kein einziges Modell oder ein einziger Standard ausreicht, um kulturelle Werke zu beschreiben und zu katalogisieren. So könnte beispielsweise ein skulpturales indigenes Artefakt als Kunstwerk, archäologisches Artefakt oder indigenes Kulturgut klassifiziert werden. Die Anfänge der Standardisierung bei der Archivierung, Beschreibung und Katalogisierung innerhalb der Museumsgemeinschaft begannen in den späten 1990er Jahren mit der Entwicklung von Standards wie Categories for the Description of Works of Art (CDWA), Spectrum, CIDOC Conceptual Reference Model (CRM), Cataloging Cultural Objects (CCO) und dem CDWA Lite XML Schema. Diese Standards verwenden HTML- und XML-Auszeichnungssprachen für die maschinelle Verarbeitung, Veröffentlichung und Implementierung. Die Anglo-American Cataloguing Rules (AACR), die ursprünglich für die Charakterisierung von Büchern entwickelt wurden, sind auch auf Kulturgüter, Kunstwerke und Architektur angewendet worden. Standards wie die CCO werden in das Sammlungsverwaltungssystem (CMS) eines Museums integriert, eine Datenbank, mit der Museen ihre Sammlungen, Erwerbungen, Leihgaben und Konservierung verwalten können. Wissenschaftler und Fachleute auf diesem Gebiet stellen fest, dass die "sich schnell entwickelnde Landschaft von Standards und Technologien" Herausforderungen für Kulturdokumentare, insbesondere für nicht technisch ausgebildete Fachleute, mit sich bringt. Die meisten Sammlungseinrichtungen und Museen verwenden eine relationale Datenbank, um kulturelle Werke und deren Bilder zu kategorisieren. Relationale Datenbanken und Metadaten dienen der Dokumentation und Beschreibung der komplexen Beziehungen zwischen Kulturgütern und vielschichtigen Kunstwerken sowie zwischen Objekten und Orten, Personen und künstlerischen Bewegungen. Relationale Datenbankstrukturen sind auch in Sammlungseinrichtungen und Museen von Vorteil, da sie Archivaren eine klare Unterscheidung zwischen Kulturgütern und ihren Bildern ermöglichen; eine unklare Unterscheidung könnte zu verwirrenden und ungenauen Suchen führen.

Kulturgüter und Kunstwerke

Die Materialität, die Funktion und der Zweck eines Objekts sowie die Größe (z. B. Maße wie Höhe, Breite, Gewicht), die Aufbewahrungsanforderungen (z. B. klimatisierte Umgebung) und der Schwerpunkt des Museums und der Sammlung beeinflussen die beschreibende Tiefe der Daten, die dem Objekt von Kulturdokumentaren zugeordnet werden. Die etablierten institutionellen Katalogisierungspraktiken, die Ziele und das Fachwissen der Kulturdokumentare sowie die Datenbankstruktur beeinflussen ebenfalls die Informationen, die den Kulturgütern zugeschrieben werden, und die Art und Weise, wie die Kulturgüter kategorisiert werden. Darüber hinaus verwenden Museen häufig standardisierte kommerzielle Sammlungsverwaltungssoftware, die den Archivaren die Art und Weise vorschreibt und einschränkt, in der sie Kunstwerke und Kulturgüter beschreiben können. Darüber hinaus verwenden Sammlungseinrichtungen und Museen kontrollierte Vokabulare, um kulturelle Objekte und Kunstwerke in ihren Sammlungen zu beschreiben. Die Getty Vocabularies und die Library of Congress Controlled Vocabularies genießen in der Museumswelt einen guten Ruf und werden von den CCO-Standards empfohlen. Museen werden ermutigt, kontrollierte Vokabulare zu verwenden, die kontextbezogen und relevant für ihre Sammlungen sind und die Funktionalität ihrer digitalen Informationssysteme verbessern. Kontrollierte Vokabulare sind in Datenbanken von Vorteil, da sie ein hohes Maß an Konsistenz bieten und das Auffinden von Ressourcen verbessern. Metadatenstrukturen, einschließlich kontrollierter Vokabulare, spiegeln die Ontologien der Systeme wider, aus denen sie erstellt wurden. Oft spiegeln die Prozesse, mit denen kulturelle Objekte in Museen durch Metadaten beschrieben und kategorisiert werden, nicht die Perspektiven der Herstellergemeinschaften wider.

Museen und das Internet

Metadaten haben bei der Schaffung von digitalen Informationssystemen und Archiven in Museen eine wichtige Rolle gespielt und es den Museen erleichtert, digitale Inhalte online zu veröffentlichen. Dies hat es dem Publikum ermöglicht, Zugang zu kulturellen Objekten zu erhalten, die aufgrund geografischer oder wirtschaftlicher Barrieren nicht zugänglich waren. In den 2000er Jahren, als immer mehr Museen Archivierungsstandards annahmen und komplizierte Datenbanken einrichteten, kamen in der Museums-, Archiv- und Bibliothekswissenschaft Diskussionen über Linked Data zwischen Museumsdatenbanken auf. Collection Management Systems (CMS) und Digital Asset Management Tools können lokale oder gemeinsame Systeme sein. Wissenschaftler aus dem Bereich der digitalen Geisteswissenschaften stellen viele Vorteile der Interoperabilität zwischen Museumsdatenbanken und -sammlungen fest, sind sich aber auch der Schwierigkeiten bewusst, die mit dem Erreichen einer solchen Interoperabilität verbunden sind.

Recht

Vereinigte Staaten

Probleme mit Metadaten in Rechtsstreitigkeiten sind in den Vereinigten Staaten weit verbreitet. Die Gerichte haben sich mit verschiedenen Fragen im Zusammenhang mit Metadaten befasst, unter anderem mit der Auffindbarkeit von Metadaten durch die Parteien. Die Federal Rules of Civil Procedure enthalten spezifische Regeln für die Offenlegung elektronisch gespeicherter Informationen, und die nachfolgende Rechtsprechung zur Anwendung dieser Regeln hat die Pflicht der Prozessparteien zur Vorlage von Metadaten bei Rechtsstreitigkeiten vor Bundesgerichten näher erläutert. Im Oktober 2009 hat der Oberste Gerichtshof von Arizona entschieden, dass Metadaten öffentliche Unterlagen sind. Dokument-Metadaten haben sich als besonders wichtig in einem rechtlichen Umfeld erwiesen, in dem bei Rechtsstreitigkeiten Metadaten angefordert werden, die sensible Informationen enthalten können, die für eine bestimmte Partei vor Gericht nachteilig sind. Die Verwendung von Tools zur Entfernung von Metadaten, um Dokumente zu "säubern" oder zu redigieren, kann das Risiko der unbeabsichtigten Übermittlung sensibler Daten verringern. Dieser Prozess schützt Anwaltskanzleien teilweise (siehe Datenremanenz) vor dem potenziell schädlichen Durchsickern sensibler Daten durch elektronische Offenlegung.

Meinungsumfragen haben ergeben, dass 45 % der Amerikaner "überhaupt kein Vertrauen" in die Fähigkeit von Social-Media-Websites haben, die Sicherheit ihrer persönlichen Daten zu gewährleisten, und 40 % sind der Meinung, dass Social-Media-Websites keine Informationen über Einzelpersonen speichern können sollten. 76 % der Amerikaner haben kein Vertrauen in die Sicherheit der Daten, die Werbeagenturen über sie sammeln, und 50 % sind der Meinung, dass Online-Werbeagenturen überhaupt keine Informationen über sie speichern dürfen sollten.

Australien

In Australien hat die Notwendigkeit, die nationale Sicherheit zu stärken, zur Einführung eines neuen Gesetzes zur Speicherung von Metadaten geführt. Dieses neue Gesetz bedeutet, dass sowohl Sicherheits- als auch Polizeibehörden bis zu zwei Jahre lang auf die Metadaten einer Person zugreifen dürfen, um Terroranschläge und schwere Verbrechen leichter verhindern zu können.

In der Gesetzgebung

Metadaten in der Gesetzgebung waren Gegenstand einiger Diskussionen in law.gov-Foren, wie z. B. in Workshops, die vom Legal Information Institute an der Cornell Law School am 22. und 23. März 2010 abgehalten wurden. Die Dokumentation zu diesen Foren trägt den Titel "Suggested metadata practices for legislation and regulations".

In diesen Diskussionen wurden einige wichtige Punkte herausgearbeitet, deren Überschriften im Folgenden aufgeführt sind:

  • Allgemeine Überlegungen
  • Struktur des Dokuments
  • Inhalt des Dokuments
  • Metadaten (Elemente von)
  • Schichtung
  • Punkt-zu-Punkt versus post-hoc

Im Gesundheitswesen

Die australische medizinische Forschung leistete Pionierarbeit bei der Definition von Metadaten für Anwendungen im Gesundheitswesen. Dieser Ansatz stellt den ersten anerkannten Versuch dar, sich an internationale Standards in den medizinischen Wissenschaften zu halten, anstatt einen eigenen Standard unter dem Dach der Weltgesundheitsorganisation (WHO) zu definieren. In der medizinischen Gemeinschaft wurde die Notwendigkeit der Einhaltung von Metadatenstandards jedoch nicht anerkannt, obwohl die Forschung diese Standards unterstützte.

In der biomedizinischen Forschung

Bei Forschungsstudien in den Bereichen Biomedizin und Molekularbiologie fallen häufig große Datenmengen an, darunter Ergebnisse von Genom- oder Meta-Genom-Sequenzierungen, Proteomdaten und sogar Notizen oder Pläne, die im Laufe der Forschung selbst erstellt wurden. Jeder Datentyp bringt seine eigene Vielfalt an Metadaten und die zur Erstellung dieser Metadaten erforderlichen Prozesse mit sich. Allgemeine Metadatenstandards wie ISA-Tab ermöglichen es Forschern, experimentelle Metadaten in einheitlichen Formaten zu erstellen und auszutauschen. Für spezifische experimentelle Ansätze gibt es häufig eigene Metadatenstandards und -systeme: Zu den Metadatenstandards für die Massenspektrometrie gehören mzML und SPLASH, während XML-basierte Standards wie PDBML und SRA XML als Standards für makromolekulare Strukturen bzw. Sequenzierungsdaten dienen.

Die Produkte der biomedizinischen Forschung werden im Allgemeinen in Form von begutachteten Manuskripten veröffentlicht, und diese Veröffentlichungen sind eine weitere Datenquelle.

Data Warehousing

Ein Data Warehouse (DW) ist ein Repository für die elektronisch gespeicherten Daten eines Unternehmens. Data Warehouses sind für die Verwaltung und Speicherung der Daten konzipiert. Data-Warehouses unterscheiden sich von Business-Intelligence-Systemen (BI), da BI-Systeme darauf ausgelegt sind, Daten zur Erstellung von Berichten und zur Analyse der Informationen zu verwenden, um der Geschäftsleitung strategische Hinweise zu geben. Metadaten sind ein wichtiges Instrument für die Speicherung von Daten in Data Warehouses. Der Zweck eines Data Warehouse besteht darin, standardisierte, strukturierte, konsistente, integrierte, korrekte, "bereinigte" und aktuelle Daten zu speichern, die aus verschiedenen operativen Systemen eines Unternehmens extrahiert wurden. Die extrahierten Daten werden in die Data-Warehouse-Umgebung integriert, um eine unternehmensweite Perspektive zu bieten. Die Daten werden so strukturiert, dass sie den Berichts- und Analyseanforderungen entsprechen. Der Entwurf struktureller gemeinsamer Metadaten unter Verwendung einer Datenmodellierungsmethode wie dem Entity-Relationship-Model-Diagramm ist bei der Entwicklung von Data Warehouses wichtig. Sie enthalten detaillierte Metadaten zu jedem Datenelement im Data Warehouse. Eine wesentliche Komponente eines Data-Warehouse-/Business-Intelligence-Systems sind die Metadaten und die Werkzeuge zum Verwalten und Abrufen der Metadaten. Ralph Kimball beschreibt Metadaten als die DNA des Data Warehouse, da Metadaten die Elemente des Data Warehouse und ihr Zusammenspiel definieren.

Kimball et al. bezieht sich auf 3 Hauptkategorien von Metadaten: Technische Metadaten, geschäftliche Metadaten und Prozess-Metadaten. Technische Metadaten sind in erster Linie definitorisch, während geschäftliche Metadaten und Prozessmetadaten in erster Linie beschreibend sind. Die Kategorien überschneiden sich manchmal.

  • Technische Metadaten definieren die Objekte und Prozesse in einem DW/BI-System, wie sie aus technischer Sicht gesehen werden. Zu den technischen Metadaten gehören die Systemmetadaten, die die Datenstrukturen wie Tabellen, Felder, Datentypen, Indizes und Partitionen in der relationalen Engine sowie Datenbanken, Dimensionen, Kennzahlen und Data-Mining-Modelle definieren. Technische Metadaten definieren das Datenmodell und die Art und Weise, wie es für die Benutzer angezeigt wird, mit den Berichten, Zeitplänen, Verteilerlisten und Sicherheitsrechten der Benutzer.
  • Bei den geschäftlichen Metadaten handelt es sich um Inhalte aus dem Data Warehouse, die in benutzerfreundlicheren Begriffen beschrieben werden. Die geschäftlichen Metadaten sagen Ihnen, welche Daten Sie haben, woher sie kommen, was sie bedeuten und in welcher Beziehung sie zu anderen Daten im Data Warehouse stehen. Geschäftsmetadaten können auch als Dokumentation für das DW/BI-System dienen. Benutzer, die das Data Warehouse durchsuchen, sehen in erster Linie die geschäftlichen Metadaten.
  • Prozess-Metadaten werden verwendet, um die Ergebnisse der verschiedenen Operationen im Data Warehouse zu beschreiben. Innerhalb des ETL-Prozesses werden alle Schlüsseldaten von Aufgaben bei der Ausführung protokolliert. Dazu gehören Startzeit, Endzeit, verwendete CPU-Sekunden, Lese- und Schreibvorgänge auf der Festplatte und verarbeitete Zeilen. Bei der Fehlersuche im ETL- oder Abfrageprozess sind diese Daten von großem Wert. Prozess-Metadaten sind das Maß der Dinge beim Aufbau und der Nutzung eines DW/BI-Systems. Einige Organisationen leben davon, diese Art von Daten zu sammeln und an Unternehmen zu verkaufen - in diesem Fall werden die Prozessmetadaten zu den Geschäftsmetadaten für die Fakten- und Dimensionstabellen. Das Sammeln von Prozess-Metadaten liegt im Interesse von Geschäftsleuten, die die Daten nutzen können, um die Benutzer ihrer Produkte zu identifizieren, welche Produkte sie verwenden und welchen Service sie erhalten.

Im Internet

Das HTML-Format, das zur Definition von Webseiten verwendet wird, ermöglicht die Aufnahme verschiedener Arten von Metadaten, von einfachem beschreibendem Text, Daten und Schlüsselwörtern bis hin zu fortgeschrittenen Metadatenschemata wie den Standards Dublin Core, e-GMS und AGLS. Seiten und Dateien können auch mit Geotags und Koordinaten versehen, kategorisiert oder getaggt werden, auch in Zusammenarbeit, z. B. mit Folksonomies.

Wenn für die Medien Identifikatoren festgelegt wurden oder wenn solche generiert werden können, können Informationen wie Datei-Tags und Beschreibungen aus dem Internet abgerufen werden, z. B. über Filme. Verschiedene Online-Datenbanken werden zusammengefasst und bieten Metadaten für verschiedene Daten. Das gemeinschaftlich aufgebaute Wikidata enthält Kennungen nicht nur für Medien, sondern auch für abstrakte Konzepte, verschiedene Objekte und andere Entitäten, die von Menschen und Maschinen nachgeschlagen werden können, um nützliche Informationen abzurufen und Wissen in anderen Wissensdatenbanken und Datenbanken zu verknüpfen.

Metadaten können in der Kopfzeile der Seite oder in einer separaten Datei enthalten sein. Mit Hilfe von Mikroformaten können Metadaten zu den Seitendaten in einer Weise hinzugefügt werden, die normale Webnutzer nicht sehen, auf die aber Computer, Webcrawler und Suchmaschinen leicht zugreifen können. Viele Suchmaschinen sind vorsichtig bei der Verwendung von Metadaten in ihren Ranking-Algorithmen, da Metadaten und die Praxis der Suchmaschinenoptimierung (SEO) zur Verbesserung des Rankings ausgenutzt werden. Weitere Informationen hierzu finden Sie im Artikel Meta-Element. Diese vorsichtige Haltung mag gerechtfertigt sein, da die Menschen laut Doctorow bei der Erstellung ihrer eigenen Metadaten keine Sorgfalt walten lassen und die Metadaten Teil eines Wettbewerbsumfelds sind, in dem die Metadaten dazu verwendet werden, die eigenen Zwecke des Metadatenerstellers zu fördern. Studien zeigen, dass Suchmaschinen auf Webseiten mit implementierten Metadaten reagieren, und Google hat auf seiner Website eine Ankündigung mit den Metatags, die seine Suchmaschine versteht. Das Startup-Unternehmen Swiftype erkennt Metadaten als Relevanzsignal an, das Webmaster für ihre website-spezifische Suchmaschine implementieren können, und hat sogar eine eigene Erweiterung namens Meta Tags 2 herausgebracht.

In der Rundfunkbranche

In der Rundfunk- und Fernsehbranche werden Metadaten mit Audio- und Videoübertragungsmedien verknüpft, um:

  • die Medien zu identifizieren: Clip- oder Playlist-Namen, Dauer, Timecode usw.
  • den Inhalt zu beschreiben: Anmerkungen zur Qualität des Videoinhalts, Bewertung, Beschreibung (z. B. werden bei einem Sportereignis einigen Clips Schlüsselwörter wie Tor, rote Karte zugeordnet)
  • Medien klassifizieren: Metadaten ermöglichen es den Produzenten, die Medien zu sortieren oder einen Videoinhalt einfach und schnell zu finden (eine Fernsehnachrichtensendung könnte dringend einige Archivinhalte zu einem Thema benötigen). Die BBC verfügt beispielsweise über ein umfangreiches System zur Klassifizierung von Themen, Lonclass, eine angepasste Version der allgemeineren Universal Decimal Classification.

Diese Metadaten können dank der Videoserver mit den Videomedien verknüpft werden. Die meisten großen Sportereignisse wie die Fußballweltmeisterschaft oder die Olympischen Spiele nutzen diese Metadaten, um ihre Videoinhalte über Schlüsselwörter an die Fernsehsender zu verteilen. Oft ist es die gastgebende Rundfunkanstalt, die über ihr Internationales Sendezentrum und ihre Videoserver für die Organisation der Metadaten zuständig ist. Diese Metadaten werden zusammen mit den Bildern aufgezeichnet und von Metadaten-Operatoren (Loggern) eingegeben, die die Live-Metadaten mit Hilfe von Software (wie Multicam(LSM) oder IPDirector, die während der FIFA-Fußballweltmeisterschaft oder der Olympischen Spiele eingesetzt wird) in Metadatenrastern zusammenführen.

Geospatial

Metadaten, die geografische Objekte in elektronischer Form beschreiben (z. B. Datensätze, Karten, Merkmale oder Dokumente mit einer raumbezogenen Komponente), gibt es seit mindestens 1994 (siehe die Seite der MIT Library zu FGDC-Metadaten). Diese Klasse von Metadaten wird im Artikel Geospatial Metadata ausführlicher beschrieben.

Ökologisch und umweltbezogen

Ökologische und umweltbezogene Metadaten sollen das "Wer, Was, Wann, Wo, Warum und Wie" der Datenerhebung für eine bestimmte Studie dokumentieren. Dies bedeutet in der Regel, welche Organisation oder Institution die Daten erhoben hat, welche Art von Daten, wann die Daten erhoben wurden, die Gründe für die Datenerhebung und die für die Datenerhebung verwendete Methodik. Metadaten sollten in einem Format erstellt werden, das von der jeweiligen wissenschaftlichen Gemeinschaft verwendet wird, wie z. B. Darwin Core, Ecological Metadata Language oder Dublin Core. Es gibt Tools zur Bearbeitung von Metadaten, die die Erstellung von Metadaten erleichtern (z. B. Metavist, Mercury, Morpho). Metadaten sollten die Herkunft der Daten beschreiben (woher sie stammen und wie sie umgewandelt wurden) und wie man die Datenprodukte würdigt (zitiert).

Digitale Musik

Bei ihrer Erstveröffentlichung im Jahr 1982 enthielten Compact Discs lediglich ein Inhaltsverzeichnis (TOC) mit der Anzahl der Tracks auf der Disc und ihrer Länge in Samples. Vierzehn Jahre später, 1996, wurde bei einer Überarbeitung des CD-Red-Book-Standards der CD-Text hinzugefügt, um zusätzliche Metadaten zu erhalten. Der CD-Text wurde jedoch nicht allgemein angenommen. Kurz darauf wurde es üblich, dass Personal Computer Metadaten aus externen Quellen (z. B. CDDB, Gracenote) auf der Grundlage des TOC abrufen.

Digitale Audioformate wie digitale Audiodateien lösten in den 2000er Jahren Musikformate wie Kassetten und CDs ab. Digitale Audiodateien können mit mehr Informationen versehen werden, als nur im Dateinamen enthalten sein können. Diese beschreibenden Informationen werden als Audio-Tag oder allgemein als Audio-Metadaten bezeichnet. Computerprogramme, die darauf spezialisiert sind, diese Informationen hinzuzufügen oder zu ändern, werden Tag-Editoren genannt. Metadaten können verwendet werden, um eine digitale Audiodatei zu benennen, zu beschreiben, zu katalogisieren und die Eigentums- oder Urheberrechte anzugeben, und ihr Vorhandensein erleichtert das Auffinden einer bestimmten Audiodatei innerhalb einer Gruppe, in der Regel durch die Verwendung einer Suchmaschine, die auf die Metadaten zugreift. Mit der Entwicklung verschiedener digitaler Audioformate wurde versucht, einen bestimmten Ort innerhalb der digitalen Dateien zu standardisieren, an dem diese Informationen gespeichert werden können.

Das Ergebnis ist, dass fast alle digitalen Audioformate, einschließlich mp3-, Broadcast-Wav- und AIFF-Dateien, ähnliche standardisierte Speicherorte haben, die mit Metadaten gefüllt werden können. Die Metadaten für komprimierte und unkomprimierte digitale Musik werden häufig im ID3-Tag kodiert. Gängige Editoren wie TagLib unterstützen die Dateiformate MP3, Ogg Vorbis, FLAC, MPC, Speex, WavPack TrueAudio, WAV, AIFF, MP4 und ASF.

Cloud-Anwendungen

Mit der Verfügbarkeit von Cloud-Anwendungen, zu denen auch solche zum Hinzufügen von Metadaten zu Inhalten gehören, sind Metadaten zunehmend über das Internet verfügbar.

Verwaltung und Management

Speicherung

Metadaten können entweder intern, in derselben Datei oder Struktur wie die Daten (dies wird auch als eingebettete Metadaten bezeichnet), oder extern, in einer von den beschriebenen Daten getrennten Datei oder einem separaten Feld, gespeichert werden. Ein Datenspeicher speichert die Metadaten in der Regel losgelöst von den Daten, kann aber auch so konzipiert sein, dass er eingebettete Metadaten unterstützt. Jede Option hat Vor- und Nachteile:

  • Interne Speicherung bedeutet, dass die Metadaten immer als Teil der Daten, die sie beschreiben, mitgeführt werden; somit sind die Metadaten immer zusammen mit den Daten verfügbar und können lokal bearbeitet werden. Diese Methode führt zu Redundanz (was eine Normalisierung ausschließt) und ermöglicht es nicht, alle Metadaten eines Systems an einem Ort zu verwalten. Sie erhöht wohl die Konsistenz, da die Metadaten bei jeder Änderung der Daten leicht geändert werden können.
  • Bei der externen Speicherung können die Metadaten für alle Inhalte zusammengeführt werden, beispielsweise in einer Datenbank, was eine effizientere Suche und Verwaltung ermöglicht. Redundanz kann durch die Normalisierung der Organisation der Metadaten vermieden werden. Bei diesem Ansatz können die Metadaten bei der Übertragung von Informationen mit dem Inhalt zusammengeführt werden, z. B. bei Streaming-Medien, oder sie können vom übertragenen Inhalt aus referenziert werden (z. B. als Weblink). Nachteilig ist, dass die Trennung der Metadaten vom Dateninhalt, insbesondere bei eigenständigen Dateien, die auf ihre Quell-Metadaten an anderer Stelle verweisen, die Möglichkeit von Fehlanpassungen zwischen den beiden erhöht, da sich Änderungen an einem der beiden Daten möglicherweise nicht im anderen wiederfinden.

Metadaten können entweder in menschenlesbarer oder binärer Form gespeichert werden. Die Speicherung von Metadaten in einem für den Menschen lesbaren Format wie XML kann nützlich sein, da die Benutzer sie ohne spezielle Werkzeuge verstehen und bearbeiten können. Textbasierte Formate sind jedoch selten für Speicherkapazität, Kommunikationszeit oder Verarbeitungsgeschwindigkeit optimiert. Ein binäres Metadatenformat ist in all diesen Punkten effizienter, erfordert jedoch eine spezielle Software zur Umwandlung der binären Informationen in für Menschen lesbare Inhalte.

Datenbankverwaltung

Jedes relationale Datenbanksystem hat seine eigenen Mechanismen zur Speicherung von Metadaten. Beispiele für Metadaten in relationalen Datenbanken sind:

  • Tabellen mit allen Tabellen in einer Datenbank, ihren Namen, Größen und der Anzahl der Zeilen in jeder Tabelle.
  • Tabellen der Spalten in jeder Datenbank, in welchen Tabellen sie verwendet werden und welche Art von Daten in jeder Spalte gespeichert sind.

In der Datenbankterminologie wird dieser Satz von Metadaten als Katalog bezeichnet. Der SQL-Standard legt ein einheitliches Mittel für den Zugriff auf den Katalog fest, das so genannte Informationsschema, das jedoch nicht von allen Datenbanken implementiert wird, selbst wenn sie andere Aspekte des SQL-Standards implementieren. Ein Beispiel für datenbankspezifische Metadaten-Zugriffsmethoden finden Sie unter Oracle-Metadaten. Der programmatische Zugriff auf Metadaten ist über APIs wie JDBC oder SchemaCrawler möglich.

In der Populärkultur

Eine der ersten satirischen Auseinandersetzungen mit dem Konzept der Metadaten, wie wir es heute verstehen, ist die Kurzgeschichte MS Fnd in a Lbry (1961) des amerikanischen Science-Fiction-Autors Hal Draper. Darin wird das Wissen der gesamten Menschheit in einem Objekt von der Größe einer Schreibtischschublade verdichtet, doch der Umfang der Metadaten (z. B. Katalog von Katalogen von... sowie Indizes und Historien) führt schließlich zu schrecklichen, aber auch humorvollen Konsequenzen für die Menschheit. Die Geschichte nimmt die modernen Konsequenzen vorweg, die sich ergeben, wenn man zulässt, dass Metadaten wichtiger werden als die eigentlichen Daten, um die es geht, und die damit verbundenen Risiken als abschreckendes Beispiel.

Einführende Beispiele

Typische Metadaten zu einem Buch sind beispielsweise der Name des Autors, die Auflage, das Erscheinungsjahr, der Verlag und die ISBN. Zu den Metadaten einer Computerdatei gehören unter anderem der Dateiname, die Zugriffsrechte und das Datum der letzten Änderung.

Verwendung

In vielen Fällen findet keine bewusste Trennung zwischen Objekt- und Metaebene statt. Beispielsweise spricht man davon, in einem Katalog ein Buch zu suchen und nicht nur seine Metadaten. Bei der Verwendung von Metadaten wird oft erwartet, dass sie durch direkte Koppelung mit den Nutzdaten untrennbare Bestandteile eines abgeschlossenen, sich selbst beschreibenden Systems sind.

Metadaten werden oft dazu eingesetzt, um Informationsressourcen zu beschreiben und dadurch besser auffindbar zu machen und Beziehungen zwischen den Materialien herzustellen. Dies setzt in der Regel erst eine Erschließung mit einem gewissen Standardisierungsgrad (zum Beispiel durch Bibliothekarische Regelwerke) voraus.

Speicherung

Zur Speicherung von Metadaten gibt es verschiedene Möglichkeiten:

  • Im Dokument selbst. So ist in einem Buch stets auch der Autor und das Erscheinungsjahr verzeichnet. In HTML-Dokumenten werden mit Hilfe des Elements <meta> beispielsweise Sprache, Autor, Unternehmen oder Schlagwörter angegeben.
  • In zugeordneten Nachschlagewerken, zum Beispiel für ein Buch in einer Bibliothek im Bibliothekskatalog.
  • Bei Computerdateien in den Dateiattributen. Die meisten Dateisysteme erlauben nur genau festgelegte Metadaten in Dateiattributen; andere (HPFS mittels erweiterter Attribute) erlauben die Assoziation beliebiger Daten mit einer Datei. Auch ist es üblich, die Meta-Information „Dateityp“ im Dateinamen unterzubringen; typischerweise in der Dateinamenserweiterung oder in magischen Zahlen am Beginn der Datei.

Zur Speicherung und Übertragung von Metadaten gibt es eine Reihe von Datenformaten und Datenmodellen, wie beispielsweise Dublin Core oder EXIF, die sich in unterschiedliche, und somit auch in von Menschen lesbare Formate übertragen lassen.

Beispiele in Anwendungsgebieten

Die folgenden Abschnitte liefern Beispiele und Standardformate für Metadaten in Anwendungsgebieten auf.

Metadaten in der Statistik

In statistischen Datenbanken werden diejenigen Daten als Metadaten bezeichnet, die nicht direkt den Inhalt einer Statistik darstellen, so als Branchen- oder Berufsbezeichnungen, Gemeindeverzeichnisse und andere Kataloge. Zu den statistischen Metadaten zählen auch Beschreibungen der Datenfelder in Umfrageformularen, unter Umständen auch komplette Formularbeschreibungen. Die eigentlichen statistischen Daten bezeichnet man in Abgrenzung zu den Metadaten als Mikrodaten und Makrodaten.

In der Umfrageforschung werden spezielle Metadaten zur Umfrage als Paradaten bezeichnet.

Metadaten bei Geodaten

In der INSPIRE-Richtlinie sowie in dem darauf aufbauenden Gesetz über den Zugang zu digitalen Geodaten (Geodatenzugangsgesetz – GeoZG) findet sich eine Legaldefinition für Metadaten im Bereich der Geoinformationsverarbeitung: „Metadaten sind Informationen, die Geodaten oder Geodatendienste beschreiben und es ermöglichen, Geodaten und Geodatendienste zu ermitteln, in Verzeichnisse aufzunehmen und zu nutzen.“ (§ 3 Abs. 2 GeoZG)

Metadaten bei Musikaufnahmen

Typische Metadaten bei Musik und anderen Tonaufnahmen sind z. B. Titel, Künstler, Komponist, Veröffentlichungsdatum, Musikverlag oder die ISRC-Nummer; bei digitalen Tonaufnahmen ist es möglich, diese Metainformationen direkt in der Datei abzuspeichern (beispielsweise im ID3-Tag von MP3-Dateien).

Über diese zur Erstellung einer herkömmlichen Musikbibliothek notwendigen primären Daten hinaus gibt es deutlich komplexere inhaltliche Musikmetadaten. Dazu zählen beispielsweise Stilistik, Haupt- und Nebeninstrumente, Genre, Tempo, Tonart, Dynamik, Gesangscharakter und die Beschreibung von Stimmungen und Szenen.

Metadaten bei der Kommunikation im Internet

Das Internet-Protokoll folgt einem Schichtenmodell. Am Beispiel des Standards zum Versenden von E-Mails soll dies illustriert werden. Das zur Übermittlung von E-Mails gebräuchliche Protokoll lautet Simple Mail Transfer Protocol. Seine Position in der Internetprotokollschicht lässt sich genau angeben:

SMTP im TCP/IP-Protokollstapel:
Anwendung SMTP
Transport TCP
Internet IP (IPv4, IPv6)
Netzzugang Ethernet Token
Bus
Token
Ring
FDDI

Aus Sicht der Versender und Empfänger von E-Mails können alle Schichten unterhalb der Anwendungsschicht als Metadaten angesehen werden. Das wird besonders augenfällig, wenn die Anwendungsschicht verschlüsselt wird. Selbst dann kodiert bereits die Transportschicht (TCP) genügend Informationen, um den Namen des sendenden und empfangenden Servers (oft der globale Teil einer E-Mail-Adresse) sowie Nachrichtenlänge und Zeitraum der Sendung zu ermitteln. Bei häufigem E-Mail-Verkehr zwischen zwei Parteien kann die bloße Frequenzinformation einem recherchierenden Dritten Rückschlüsse auf den Inhalt der E-Mails erlauben.

Die gleiche Situation ergibt sich prinzipiell mit anderen Netzwerkprotokollen, etwa Instant-Messaging-Diensten oder dem World Wide Web. Allgemein spricht man in diesem Zusammenhang von Verkehrsdaten oder Randdaten.

Nach §206 Abs. 5 des deutschen Strafgesetzbuchs zählen neben dem Inhalt der Telekommunikation auch „ihre näheren Umstände, insbesondere die Tatsache, ob jemand an einem Telekommunikationsvorgang beteiligt ist oder war“ zum Fernmeldegeheimnis.

Gesellschaftskritik

Der italienische Philosoph und Medientheoretiker Matteo Pasquinelli hat die These aufgestellt, dass mit der Datenexplosion eine neue Steuerungsform möglich werde: eine „Gesellschaft der Metadaten“. Mit Metadaten könnten neue Formen der biopolitischen Steuerung zur Kontrolle der Massen und Verhaltenssteuerung etabliert werden, etwa Online-Aktivitäten in sozialen Netzwerken oder Passagierströme in öffentlichen Verkehrsmitteln. Das Problem sieht Pasquinelli nicht darin, dass Individuen wie in totalitären Systemen auf Schritt und Tritt überwacht werden, sondern vermasst werden und die Gesellschaft als Aggregat berechenbar und kontrollierbar werde.