PDF/A

Aus besserwiki.de
PDF/Archiv
Dateinamen-Erweiterung
.pdf
Internet-Medientyp
Anwendung/pdf
Typ-CodePDF' (einschließlich eines einzelnen Leerzeichens)
Einheitlicher Typbezeichner (UTI)com.adobe.pdf
Magische Zahl%PDF
Entwickelt vonISO
Erste Veröffentlichung1. Oktober 2005; vor 17 Jahren
Erweitert vonPDF
NormISO 19005

PDF/A ist eine ISO-standardisierte Version des Portable Document Format (PDF), die speziell für die Archivierung und Langzeitarchivierung von elektronischen Dokumenten entwickelt wurde. PDF/A unterscheidet sich von PDF durch das Verbot von Funktionen, die für die Langzeitarchivierung ungeeignet sind, wie z. B. Font-Linking (im Gegensatz zu Font-Embedding) und Verschlüsselung. Die ISO-Anforderungen für PDF/A-Dateibetrachter umfassen Richtlinien für das Farbmanagement, die Unterstützung eingebetteter Schriftarten und eine Benutzeroberfläche zum Lesen eingebetteter Anmerkungen.

Normen

ISO 19005 - Dokumentenmanagement - Elektronisches Dateiformat für die Langzeitarchivierung von Dokumenten (PDF/A)
Abk. Untertitel Veröffentlicht Norm Basiert auf Ref.
PDF/A-1 Teil 1: Verwendung von PDF 1.4 2005-09-28 ISO 19005-1 PDF 1.4 (Adobe Systems, PDF-Referenz, dritte Ausgabe)
PDF/A-2 Teil 2: Verwendung von ISO 32000-1 2011-06-20 ISO 19005-2 PDF 1.7 (ISO 32000-1:2008)
PDF/A-3 Teil 3: Verwendung von ISO 32000-1 mit Unterstützung für eingebettete Dateien 2012-10-15 ISO 19005-3 PDF 1.7 (ISO 32000-1:2008)
PDF/A-4 Teil 4: Verwendung von ISO 32000-2 2020-11 ISO 19005-4 PDF 2.0 (ISO 32000-2:2020)

Hintergrund

PDF ist ein Standard für die Kodierung von Dokumenten in gedruckter Form, der zwischen verschiedenen Systemen portabel ist. Die Eignung einer PDF-Datei für die Archivierung hängt jedoch von den Optionen ab, die bei der Erstellung der PDF-Datei gewählt werden: vor allem von der Frage, ob die für die Darstellung des Dokuments erforderlichen Schriftarten eingebettet werden, ob eine Verschlüsselung verwendet wird und ob zusätzliche Informationen aus dem Originaldokument erhalten bleiben, die über das hinausgehen, was für den Druck erforderlich ist.

PDF/A war ursprünglich eine neue gemeinsame Aktivität der Association for Suppliers of Printing, Publishing and Converting Technologies (NPES) und der Association for Information and Image Management AIIM in Zusammenarbeit mit Adobe zur Entwicklung eines internationalen Standards, der die Verwendung des Portable Document Format (PDF) für die Archivierung von Dokumenten definiert. Ziel war es, dem wachsenden Bedarf an der elektronischen Archivierung von Dokumenten auf eine Art und Weise gerecht zu werden, die die Erhaltung ihres Inhalts über einen längeren Zeitraum gewährleistet und sicherstellt, dass diese Dokumente auch in Zukunft mit einem konsistenten und vorhersehbaren Ergebnis abgerufen und wiedergegeben werden können. Dieser Bedarf besteht in einer Vielzahl von Regierungs-, Industrie- und akademischen Bereichen weltweit, einschließlich Rechtssystemen, Bibliotheken, Zeitungen und regulierten Branchen.

Beschreibung

Der PDF/A-Standard definiert weder eine Archivierungsstrategie noch die Ziele eines Archivierungssystems. Er legt ein "Profil" für elektronische Dokumente fest, das sicherstellt, dass die Dokumente auch nach Jahren noch auf die gleiche Weise mit unterschiedlicher Software reproduziert werden können. Ein Schlüsselelement für diese Reproduzierbarkeit ist die Anforderung, dass PDF/A-Dokumente zu 100 % in sich geschlossen sein müssen. Alle Informationen, die erforderlich sind, um das Dokument auf die gleiche Weise anzuzeigen, sind in die Datei eingebettet. Dazu gehören unter anderem der gesamte Inhalt (Text, Rasterbilder und Vektorgrafiken), die Schriftarten und die Farbinformationen. Ein PDF/A-Dokument darf nicht auf Informationen aus externen Quellen (z.B. Schriftprogramme und Datenströme) angewiesen sein, kann aber Anmerkungen (z.B. Hypertext-Links) enthalten, die auf externe Dokumente verweisen.

Weitere Schlüsselelemente der PDF/A-Konformität sind:

  • Audio- und Videoinhalte sind untersagt.
  • Das Starten von JavaScript und ausführbaren Dateien ist untersagt.
  • Alle Schriftarten müssen eingebettet werden und für eine uneingeschränkte, universelle Darstellung auch rechtlich einbettbar sein. Dies gilt auch für die so genannten PostScript-Standardschriften wie Times oder Helvetica.
  • Farbräume werden geräteunabhängig festgelegt.
  • Verschlüsselung ist untersagt.
  • Die Verwendung von standardbasierten Metadaten ist erforderlich.
  • Externe Inhaltsverweise sind verboten.
  • LZW ist aufgrund von Beschränkungen des geistigen Eigentums verboten. JPEG 2000 Bildkompressionsmodelle sind in PDF/A-1 (basierend auf PDF 1.4) nicht erlaubt, da sie erst in PDF 1.5 eingeführt wurden. Die JPEG 2000-Kompression ist in PDF/A-2 und PDF/A-3 erlaubt.
  • Transparente Objekte und Ebenen (Optional Content Groups) sind in PDF/A-1 verboten, in PDF/A-2 aber erlaubt.
  • Bestimmungen für digitale Signaturen nach dem PAdES-Standard (PDF advanced electronic signatures) werden in PDF/A-2 unterstützt.
  • Eingebettete Dateien sind in PDF/A-1 verboten, aber PDF/A-2 erlaubt das Einbetten von PDF/A-Dateien, was die Archivierung von mehreren PDF/A-Dokumenten in einer einzigen Datei erleichtert. PDF/A-3 erlaubt die Einbettung beliebiger Dateiformate wie XML, CAD und andere in PDF/A-Dokumente.
  • Die Verwendung von XML-basierten XML Forms Architecture (XFA)-Formularen ist in PDF/A untersagt. (XFA-Formulardaten können in einer PDF/A-2-Datei erhalten bleiben, indem sie vom XFA-Schlüssel in den Names-Baum verschoben werden, der seinerseits der Wert des XFAResources-Schlüssels des Names-Wörterbuchs des Dokumentenkatalogs ist.)
  • Interaktive PDF-Formularfelder müssen mit einem Erscheinungsbild-Wörterbuch versehen sein, das mit den Daten des Feldes verknüpft ist. Das Erscheinungsbild-Wörterbuch muss beim Rendern des Feldes verwendet werden.

Konformitätsstufen und Versionen

PDF/A-1

Teil 1 des Standards wurde erstmals am 28. September 2005 veröffentlicht und legt zwei Konformitätsstufen für PDF-Dateien fest:

  • PDF/A-1b - Stufe B (grundlegende Konformität)
  • PDF/A-1a - Konformität der Stufe A (barrierefrei)

Die Konformität der Stufe B erfordert nur die Einhaltung der Standards, die für die zuverlässige Reproduktion des visuellen Erscheinungsbildes eines Dokuments erforderlich sind, während die Konformität der Stufe A alle Anforderungen der Stufe B zusätzlich zu den Funktionen zur Verbesserung der Zugänglichkeit eines Dokuments umfasst.

Zusätzliche Anforderungen der Stufe A:

  • Spezifikation der Sprache
  • Hierarchische Struktur des Dokuments
  • Getaggte Textabschnitte und beschreibender Text für Bilder und Symbole
  • Zeichenzuordnungen zu Unicode

Mit der Konformität der Stufe A sollte die Zugänglichkeit von konformen Dateien für körperlich beeinträchtigte Benutzer verbessert werden, indem Hilfssoftware wie Bildschirmlesegeräte den Inhalt einer Datei genauer extrahieren und interpretieren können. Ein späterer Standard, PDF/UA, wurde entwickelt, um einige der Unzulänglichkeiten von PDF/A zu beseitigen, wobei viele der allgemeinen Richtlinien durch detailliertere technische Spezifikationen ersetzt wurden.

PDF/A-2

Teil 2 des Standards, der am 20. Juni 2011 veröffentlicht wurde, behandelt einige der neuen Funktionen, die mit den Versionen 1.5, 1.6 und 1.7 der PDF-Referenz hinzugefügt wurden. PDF/A-1-Dateien sind nicht unbedingt konform mit PDF/A-2, und PDF/A-2-konforme Dateien sind nicht unbedingt konform mit PDF/A-1.

Teil 2 des PDF/A-Standards basiert auf PDF 1.7 (ISO 32000-1) anstelle von PDF 1.4 und bietet mehrere neue Funktionen:

  • JPEG 2000 Bildkompression.
  • Unterstützung von Transparenzeffekten und Ebenen.
  • Einbettung von OpenType-Schriften.
  • Bestimmungen für digitale Signaturen gemäß dem Standard PDF Advanced Electronic Signatures - PAdES.
  • die Möglichkeit, PDF/A-Dateien einzubetten, um die Archivierung von Dokumentensätzen mit einer einzigen Datei zu erleichtern.

Teil 2 definiert drei Konformitätsstufen. PDF/A-2a und PDF/A-2b entsprechen den Konformitätsstufen a und b in PDF/A-1. Eine neue Konformitätsstufe, PDF/A-2u, entspricht der Konformitätsstufe B (PDF/A-2b) mit der zusätzlichen Anforderung, dass der gesamte Text im Dokument eine Unicode-Zuordnung aufweist.

PDF/A-3

Teil 3 des Standards, der am 15. Oktober 2012 veröffentlicht wurde, unterscheidet sich von PDF/A-2 nur in einem Punkt: Er erlaubt die Einbettung beliebiger Dateiformate (wie XML, CSV, CAD, Textverarbeitungsdokumente, Tabellenkalkulationsdokumente und andere) in PDF/A-konforme Dokumente.

PDF/A-4

Teil 4 des Standards, der auf PDF 2.0 basiert, wurde Ende 2020 veröffentlicht.

Wie man eine PDF/A-Datei erstellt

Archive fordern ihre Benutzer manchmal auf, PDF/A-Dateien abzuliefern. Sie stellen ihren Benutzern daher Informationen zur Verfügung, wie sie ihre Dateien in PDF/A umwandeln können. Es gibt verschiedene Methoden mit Standardsoftware, die sich in der Rechenzeit sowie der Erhaltung von Links, Gleichungen, Vektorgrafiken und Sonderzeichen unterscheiden.

Bei der Konvertierung von Dokumenten in PDF/A ist eine visuelle Prüfung erforderlich, da Fehler im visuellen Inhalt häufig sind. In einem Testmuster enthielten 11 Prozent der produzierten PDF/A-1b-Dokumente visuelle Artefakte. Zu diesen Reproduzierbarkeitsfehlern gehörten Probleme mit Vektorgrafiken (transparente Objekte), der Verlust von Links, der Verlust anderer Dokumentinhalte (unlesbare Zeichen, fehlender Text, fehlende Dokumentteile), aktualisierte Felder (die den Zeitpunkt oder den Ordner der Konvertierung widerspiegeln) und Rechtschreibfehler. Die Archive konvertieren daher in der Regel nicht selbst nach PDF/A. Stattdessen bitten einige Archive ihre Benutzer, ein PDF/A-Dokument bereitzustellen. Für die Konvertierung von Dokumenten nach PDF/A gibt es verschiedene Methoden mit unterschiedlichen Vor- und Nachteilen.

Die Konvertierung einer einfachen PDF-Datei (bis Version 1.4) in eine PDF/A-2-Datei funktioniert in der Regel wie erwartet, außer bei Problemen mit Glyphen. Laut der PDF Association "können Probleme vor und/oder während der Erzeugung von PDFs auftreten. Eine PDF/A-Datei kann formal korrekt sein und dennoch falsche Glyphen enthalten. Nur eine sorgfältige visuelle Prüfung kann dieses Problem aufdecken. Da Generierungsprobleme auch die Unicode-Zuordnung betreffen, fällt das Problem bei einer visuellen Prüfung des extrahierten Textes auf. In PDF/A ist die Text-/Schriftverwendung so eindeutig spezifiziert, dass sie nicht falsch sein kann. Wenn Viewer oder Drucker keine vollständige Unterstützung für Kodierungssysteme bieten, kann dies zu Problemen in Bezug auf PDF/A führen." Das bedeutet, dass ein Dokument, das vollständig mit dem Standard übereinstimmt, intern korrekt ist, während das System, mit dem das Dokument angezeigt oder gedruckt wird, unerwünschte Ergebnisse liefern kann.

Ein Dokument, das mit optischer Zeichenerkennung (OCR) in PDF/A-2 oder PDF/A-3 konvertiert wurde, unterstützt das notdefglyph-Flag nicht. Daher kann diese Art der Konvertierung zu nicht gerenderten Inhalten führen.

PDF/A-Standarddokumente können mit der folgenden Software erstellt werden: SoftMaker Office 2021, MS Word 2010 und neuer, Adobe Acrobat Distiller, PDF Creator, OpenOffice oder LibreOffice ab Version 3.0, LaTeX mit pdfx- oder pdfTeX-Addons oder mit Hilfe eines virtuellen PDF-Druckers (Adobe Acrobat Pro, PDF24, FreePDF + Ghostscript).

Kennzeichnung

Ein PDF/A-Dokument kann durch PDF/A-spezifische Metadaten, die im "http://www.aiim.org/pdfa/ns/id/Namespace" befinden. Diese Metadaten stellen eine Behauptung der Konformität dar; für sich genommen garantieren sie keine Konformität:

  • Ein PDF-Dokument kann PDF/A-konform sein, auch wenn es keine PDF/A-Metadaten enthält. Dies kann zum Beispiel bei Dokumenten der Fall sein, die vor der Definition des PDF/A-Standards erstellt wurden, und zwar von Autoren, die sich der Problematik der Langzeitarchivierung bewusst sind.
  • Ein PDF-Dokument kann als PDF/A identifiziert werden, aber fälschlicherweise PDF-Merkmale enthalten, die in PDF/A nicht erlaubt sind; daher sollten Dokumente, die behaupten, PDF/A-konform zu sein, auf ihre PDF/A-Konformität geprüft werden.

Validierung

Eine Validierung von gültigem PDF/A ist über entsprechende Prüfwerkzeuge möglich (siehe Weblinks). Diese Software-Tools sind sich jedoch häufig uneinig darüber, ob eine erzeugte Datei entsprechend PDF/A gültig ist. Der Grund dafür ist, dass die zugrundeliegenden Normen unterschiedlich interpretiert werden.

Isartor Test Suite

Die Zusammenarbeit der Industrie im ursprünglichen PDF/A Competence Center führte zur Entwicklung der Isartor Test Suite in den Jahren 2007 und 2008. Die Testsuite besteht aus 204 PDF-Dateien, die absichtlich so konstruiert wurden, dass sie systematisch alle Anforderungen an die PDF/A-1b-Konformität nicht erfüllen, damit Entwickler die Fähigkeit ihrer Software testen können, die grundlegendste Konformitätsstufe des Standards zu erfüllen. Mitte 2009 hatte die Testsuite bereits einen spürbaren Unterschied in der allgemeinen Qualität von PDF/A-Validierungssoftware bewirkt.

veraPDF

Das von der Open Preservation Foundation und der PDF Association geleitete veraPDF-Konsortium wurde als Reaktion auf die PREFORMA-Aufforderung der EU-Kommission gegründet, einen Open-Source-Validator für das PDF/A-Format zu entwickeln. Die PDF Association rief im November 2014 die PDF Validation Technical Working Group ins Leben, um einen Plan für die Entwicklung eines von der Industrie unterstützten PDF/A-Validators zu formulieren.

Das veraPDF-Konsortium erhielt daraufhin im April 2015 den Zuschlag für Phase 2 des PREFORMA-Vertrags. Die Entwicklung wurde während des gesamten Jahres 2016 fortgesetzt, wobei Phase 2 planmäßig im Dezember 2016 abgeschlossen wurde. Die Test- und Abnahmephase der Phase 3 wurde im Juli 2017 abgeschlossen. veraPDF deckt nun alle Teile (1, 2 und 3) und Konformitätsstufen (a, b, u) von PDF/A ab.

veraPDF ist für die Installation auf Windows, macOS oder Linux unter Verwendung eines PDFBox-basierten oder "Greenfields"-PDF-Parsers verfügbar.

PDF/A-Betrachter

Die PDF/A-Spezifikation nennt auch einige Anforderungen an einen konformen PDF/A-Viewer, der

  • alle Daten ignorieren, die nicht in den PDF- und PDF/A-Standards beschrieben sind;
  • alle von der Datei bereitgestellten Linearisierungsinformationen ignorieren;
  • nur die eingebetteten Schriftarten verwenden (und keine lokal verfügbaren, ersetzten oder simulierten Schriftarten);
  • nur mit dem eingebetteten Farbprofil angezeigt werden;
  • sicherstellen, dass Formularfelder die gerenderte Darstellung nicht verändern und ohne Rücksicht auf die Formulardaten gerendert werden;
  • sicherstellen, dass Anmerkungen einheitlich gerendert werden.

Wenn eine Datei die Konformität mit PDF/A beansprucht, schalten einige PDF-Viewer standardmäßig in einen speziellen "PDF/A-Anzeigemodus", um die Anforderungen der konformen Leser zu erfüllen. So enthalten beispielsweise Adobe Acrobat und Adobe Reader 9 eine Warnung, die den Benutzer darauf hinweist, dass der PDF/A-Anzeigemodus aktiviert wurde. Einige PDF-Viewer ermöglichen es dem Benutzer, den PDF/A-Anzeigemodus zu deaktivieren oder die PDF/A-Informationen aus einer Datei zu entfernen.

Empfang

Ein PDF/A-Dokument muss alle verwendeten Schriften einbetten; dementsprechend ist eine PDF/A-Datei oft größer als eine entsprechende PDF-Datei, die keine eingebetteten Schriften enthält.

Die Verwendung von Transparenz ist in PDF/A-1 untersagt. Die meisten PDF-Erzeugungstools, die PDF/A-konforme Dokumente ermöglichen, wie z. B. der PDF-Export in OpenOffice.org oder das PDF-Export-Tool in den Microsoft Office 2007-Suiten, machen auch alle transparenten Bilder in einem bestimmten Dokument undurchsichtig. Diese Einschränkung wurde in PDF/A-2 aufgehoben.

Einige Archivare haben die Befürchtung geäußert, dass PDF/A-3, das die Einbettung beliebiger Dateien in PDF/A-Dokumente erlaubt, dazu führen könnte, dass Verfahren von Speichereinrichtungen und Einschränkungen für archivierte Formate umgangen werden.

Die PDF Association hatte in ihrer Publikation "PDF/A in a Nutshell 2.0" verschiedene Missverständnisse über PDF/A angesprochen.