ScanAll-Logo

PDF-Technologie

« zurück Ι weiter »

Der PDF/A (PDF/Archive) ISO-Standard

Die International Organization for Standardization (ISO) hat im Jahr 2005 das PDF/A als Standard für die Langzeitarchivierung anerkannt.

Somit haben Unternehmen und öffentliche Verwaltungen die Sicherheit, dass ihre mit diesem Format archivierten Dokumente über einen langen Zeitraum ihr Erscheinungsbild beibehalten – und zwar unabhängig von den Anwendungen und Systemen, mit denen sie erstellt wurden.

Firmen und Organisationen lassen mehr und mehr Papierdokumente scannen (zunehmend nicht nur Archive retrospektiv sondern meist auch bereits tagesaktuell eingehende), um sie anschließend im PDF in elektronischer Form in Datenbanken, auf Servern oder Datenträgern vorzuhalten. Aber was passiert, wenn sichergestellt sein muss, dass diese eDokumente auch langfristig lesbar, zugreifbar und in der Darstellung unverändert bleiben?

Speziell hierfür wurde die PDF/A-Norm entwickelt und standardisiert. Das PDF/A ist kein eigener Dateityp sondern ein PDF, welches konform einer für die Langzeitarchivierung entwickelten internationalen Norm generiert wird (sowie entsprechend auf Konsistenz validierbar ist).

PDF/A ist der ISO Standard 19005 für die Langzeitarchivierung

PDF/A stellt eine eingegrenzte Variante von PDF dar, ein standardisiertes Profil zur Verwendung von PDF in der Langzeitarchivierung. Die Syntax schreibt detailliert vor, welche Inhalte erlaubt sind und welche nicht.
Durch diese und andere Vorschriften wird eine langfristige Lesbarkeit der Dokumente garantiert.

Die PDF/A-Norm

Der ISO Standard 19005 basiert auf dem PDF 1.4 (19005-1) und neu 1.7 (19005-2) (nicht zu verwechseln mit der PDF-Norm ISO 32000-1:200 für Version 1.7 von Adobe – mehr zu diesem Thema) und wurde entwickelt, um einen internationalen Standard zu etablieren. Dieser garantiert die originalgetreue Darstellung elektronischer Dokumente – und zwar unabhängig davon, mit welchen Tools und Systemen diese erstellt und gespeichert wurden oder darauf zugegriffen wurde.

PDF, die entsprechend der PDF/A-Norm erstellt wurden, sind insbesondere für Firmen und Organisationen nützlich, die große Mengen an Dokumenten digitalisieren müssen, da es:
die visuelle Darstellung des gescannten Dokuments originalgetreu und statisch bewahrt;
die Einbettung von OCR-Ergebnissen ermöglicht, wodurch im Volltext durchsuchbare PDF/A-Dateien entstehen;
die Anwendung moderner Kompressionstechnologien zulässt und damit die Speicher- und Bandbreitenkosten erheblich zu reduzieren hilft.

Die Vorteile der PDF/A-Norm

PDF/A hat, weil es ein internationaler ISO-Standard ist, eine weltweite Gültigkeit und garantiert als Norm für die Langzeitarchivierung die sichere Reproduktion von Dokumenten über viele Jahre hinweg, unabhängig von technologischen Neuerungen bei Hard- und Software.

Mittels PDF/A kann ein homogenes Archiv aufgebaut werden, in welchem sowohl digital entstandene (Born-Digital) als auch gescannte elektronische Dokumente aufbewahrt werden können.

Langlebigkeit und Reproduzierbarkeit, Verbindlichkeit und Sicherheit sowie Auffindbarkeit sind durch die PDF/A-Norm, eingebundene elektronische Signaturen (QES) und eingebettete OCR-Ergebnisse die Voraussetzung, um weitestgehend Papierdokumente durch digitale PDF/A-Dokumente ersetzten zu können. Davon profitiert nicht nur die Umwelt, sondern das PDF/A ermöglicht auch immense Einsparungen.

Konformitätsebenen des PDF/A-1

PDF/A-1a (Level A Conformance):
Bezeichnet die eindeutige visuelle Reproduzierbarkeit wie auch die Abbildbarkeit enthaltener Texte und inhaltlichen Strukturierung eines Dokuments.

PDF/A-1b (Level B Conformance):
Bezeichnet die eindeutige visuelle Reproduzierbarkeit von PDF/A-Dokumenten.

Konformitätsebenen des PDF/A-2

PDF/A-2a (accessible – korrespondierend zu PDF/A-1a):
Realisiert insbesondere alle strukturellen und semantischen Eigenschaften.
[Für originär elektronisch erstellte Dateien – nicht für Scans!]

PDF/A-2b (basic – korrespondierend zu PDF/A-1b):
Entspricht der Mindestanforderung an PDF/A und garantiert das richtige Erscheinungsbild des Dokuments für eine Langzeitarchivierung.
[Für Scans!]

PDF/A-2u (unicode – kein Pendant im PDF/A-1 verfügbar):
Wie 2b. Zusätzlich ist der Text im Unicode-Standard abgebildet, so dass dieser indexiert und dargestellt werden kann.
[Neu für Scans!]

Anmerkung: PDF/A-1 bleibt weiterhin in Kraft. PDFs mit ISO 19005-1-Konformität genügen auch den Anforderungen der entsprechenden PDF/A-2 Konformitätsebene.

Wesentliche Erweiterungen von PDF/A-2 gegenüber PDF/A-1

JPEG2000 Kompression erlaubt
Diese ermöglicht sehr kleine Dateigrößen bei vollständig verlustfreier Kompression der Images. Auch verlustbehaftete Kompressionsalgorithmen für kleinste Dateigrößen, beruhend auf der Wavelet-Transformation (DWT), sind nun mit erheblich besseren Bildergebnissen möglich als dies bei PDF/A-1 mittels JPEG, auf Basis der bereits 1992 vorgestellten Norm ISO/IEC10918-1, realisierbar waren.
Wir können nun also bei optimaler (und im Fotomodus, falls nötig, vollständig verlustfreier) Kodierung der Bilder in den Scans noch kleinere PDF-Dateigrößen vollumfänglich normkonform realisieren.
Anmerkung: Schon unter PDF/A-1 waren bei uns jegliche Textbestandteile vollständig verlustfrei komprimiert. – Aber nicht die Bilder.

Transparenzen erlaubt
Layout-, Grafik- und Bildbearbeitungsprogramme beherrschen den Umgang mit den durchscheinenden Elementen schon lange und heutzutage gehören diese zu vielen Layouts einfach dazu.

Ebenen erlaubt
Ebenen im PDF sind nun auch für die PDF-Langzeitarchivierung erlaubt. Im Adobe® Acrobat® kann so bei unseren Scans für den Betrachter die Lesbarkeit von Informationen durch die Ebenen-Schalter erheblich verbessert und wesentlich erleichtert werden. – Und zwar ohne das originale Abbild des Papierdokumentes im PDF dauerhaft verändern zu müssen. (Dies hätte einen Verlust der Beweiskraft des Scans zur Folge!)
Beispielsweise kann die Hintergrundebene abgeschaltet werden um Formular- oder Feldfarben auszublenden und/oder die Textebene kann bei farbiger Schrift mit wenig Kontrast zum Hintergrund (z. B. hellblau) auf S/W umgeschaltet werden. Diese Funktion ist auch für den Ausdruck von Vorteil, da so zum einen die Lesbarkeit erheblich verbessert und zum anderen tonersparend gedruckt werden kann.

PDF/A-2 ermöglicht es also erstmalig die Vorteile von Farb- und S/W-Scans in einem einzigen PDF (bei vollem Erhalt des originalen Abbilds des Dokuments) zu kombinieren.

Anmerkung: Um die Anforderungen für das "ersetzende Scannen bei Vorlagen mit Farbinhalt" (Schlierseer Memorandum zum beweissicheren Scannen) zu erfüllen sind Farbscans heute unabdingbar.

OCR-Ergebnisse können als Unicode-Font eingebettet werden
Wir geben unsere PDF in PDF/A-2u aus! Der mittels OCR/ICR erfasste Text im Textlayer ist also im Unicode-Standard abgebildet. Das bedeutet, dass nun erstmals wirklich der gesamte Text indexiert und dargestellt wird. Das Resultat ist eine noch sicherere Text-Extraktion und bessere Suchergebnisse. (Manch einer kennt das leidige Problem, das Sonderzeichen [z. B. das €-Symbol] im OCRed PDF/A-1 nicht richtig erkannt und als unleserliche "Hieroglyphen" extrahiert werden.)

Das PDF/A-3

Das PDF/A-3 kann dynamische Inhalte und vor allem auch eingebettete Dateien beinhalten, sodass man PDF/A-konform archivieren und gleichzeitig das originäre digitale Format erhalten kann (z. B. das elektronische Quell-Dokument wie eine Word-Datei oder eine Excel-Tabelle). – Insofern keine Anlagen (Attachments) zusätzlich zum eigentlichen Scan in die PDF/A-Datei eingebettet werden sollen, hat das PDF/A-3 jedoch keine Vorteile gegenüber den anderen PDF/A-Normteilen. ScanAll® scannt daher regulär ins PDF/A-2 und auf Wunsch und Bedarf unserer Kunden natürlich ab sofort auch ins PDF/A-3.

« zurück Ι weiter »

Bildnachweis: © 2009 Michael Lauterbach

Autor: Michael Lauterbach
Überarbeitung: Miriam Elting



PDF-Technologie – Übersicht: