ScanAll-Logo

PDF-Technologie

« zurück Ι weiter »

PDF/A-2 wurde veröffentlicht und ist bei ScanAll® im Einsatz!

Die ISO (Internationale Organisation für Standardisierungen) hat am 20. Juni 2011 das

PDF/A-2 als
ISO-Norm 19005-2:2011

veröffentlicht. Diese basiert nunmehr auf dem ISO-Standard 32000-1, also der von Adobe® initiierten Standardisierung von PDF 1.7.

PDF/A-2 ist nun der neue Standard für die Verwendung des Portable Document Format (PDF) für die Langzeitarchivierung elektronischer Dokumente.

Wesentliche Erweiterungen von PDF/A-2 gegenüber PDF/A-1:

JPEG2000 Kompression erlaubt
Transparenzen erlaubt
Ebenen erlaubt
OCR-Ergebnisse können als Unicode-Font eingebettet werden
Elektronische Signaturen analog PDF Advanced Electronic Signatures definiert
Objekt Level XMP Metadaten

Konformitätsebenen des PDF/A-2:

PDF/A-2a (accessible – korrespondierend zu PDF/A-1a):
Realisiert insbesondere alle strukturellen und semantischen Eigenschaften.
[Für originär elektronisch erstellte Dateien – nicht für Scans!]

PDF/A-2b (basic – korrespondierend zu PDF/A-1b):
Entspricht der Mindestanforderung an PDF/A und garantiert das richtige Erscheinungsbild des Dokuments für eine Langzeitarchivierung.
[Für Scans!]

PDF/A-2u (unicode – kein Pendant im PDF/A-1 verfügbar):
Wie 2b. Zusätzlich ist der Text im Unicode-Standard abgebildet, so dass dieser indexiert und dargestellt werden kann.
[Neu für Scans!]

Die PDF/A-2u-Norm wird von ScanAll® für alle Scans verwendet

Anmerkung: PDF/A-1 bleibt weiterhin in Kraft. PDFs mit ISO 19005-1-Konformität genügen auch den Anforderungen der entsprechenden PDF/A-2 Konformitätsebene.

Technischer Hintergrund:

PDF/A-2 beruht auf der PDF-Version 1.7. Daher sind weitaus mehr Elemente zugelassen, die eigentlich Stand der Technik sind, aber von PDF/A-1, das auf der schon damals betagten PDF-Version 1.4 basierte – obwohl diese Elemente zum Zeitpunkt der Veröffentlichung von ISO 19005-1:2005 bereits in der PDF-Version 1.6 in Gebrauch waren – noch nicht berücksichtigt wurden.

Ein wichtiges Element ist bspw. die JPEG2000-BILDKOMPRESSION. Diese ermöglicht sehr kleine Dateigrößen bei vollständig verlustfreier Kompression der Images – jetzt auch wieder ISO-normkonform. Auch verlustbehaftete Kompressionsalgorithmen für kleinste Dateigrößen, beruhend auf der Wavelet-Transformation (DWT), sind nun mit erheblich besseren Bildergebnissen möglich als dies bei PDF/A-1 mittels JPEG, auf Basis der bereits 1992 (!) vorgestellten Norm ISO/IEC10918-1, realisierbar waren.

Wir können nun also bei optimaler (und im Fotomodus, falls nötig, vollständig verlustfreier) Kodierung der Bilder in den Scans noch kleinere PDF-Dateigrößen vollumfänglich normkonform realisieren.
Anmerkung: Schon unter PDF/A-1 waren bei uns jegliche Textbestandteile vollständig verlustfrei komprimiert. – Aber nicht die Bilder.

Im PDF/A-2 sind nun auch TRANSPARENZEN erlaubt. Layout-, Grafik- und Bildbearbeitungsprogramme beherrschen den Umgang mit den durchscheinenden Elementen schon lange und heutzutage gehören diese zu vielen Layouts einfach dazu.

Neu ist auch das Speichern von Dokumenten im MASSSTAB 1:1. Dies ist u. a. bei geografischen Anwendungen besonders nützlich. Statt 5 x 5 m im PDF/A-1 beträgt das Seitenlimit im PDF/A-2 nun 381 x 381 km.

Im PDF/A-2 sind EBENEN nun auch wieder für die PDF-Langzeitarchivierung erlaubt. Im Adobe® Acrobat® kann so bei unseren Scans für den Betrachter die Lesbarkeit von Informationen durch die Ebenen-Schalter erheblich verbessert und wesentlich erleichtert werden. – Und zwar ohne das originale Abbild des Papierdokumentes im PDF dauerhaft verändern zu müssen. (Dies hätte einen Verlust der Beweiskraft des Scans zur Folge!)
Beispielsweise kann die Hintergrundebene abgeschaltet werden um Formular- oder Feldfarben auszublenden und/oder die Textebene kann bei farbiger Schrift mit wenig Kontrast zum Hintergrund (z. B. hellblau) auf S/W umgeschaltet werden. Diese Funktion ist auch für den Ausdruck von Vorteil, da so zum einen die Lesbarkeit erheblich verbessert und zum anderen tonersparend gedruckt werden kann.
Anmerkung: Um die Anforderungen des "Schlierseer Memorandums zum beweissicheren Scannen" für das "Ersetzende Scannen bei Vorlagen mit Farbinhalt" zu erfüllen, muss farbig gescannt werden. Farbige Scans sind meist ohnehin besser lesbar. Jedoch kann bei schwachem Kontrast vom Text zum ggf. vorhandenen Hintergrund u. U. die Lesbarkeit des Textes leiden. Dank des PDF/A-2 lassen sich Textfarbe und Hintergrund, bei vollem Erhalt des Beweiswertes des Scans, einfach abschalten!

Wir geben unsere PDF in PDF/A-2u aus! Der mittels OCR/ICR erfasste Text im Textlayer ist also im Unicode-Standard abgebildet. Das bedeutet, dass nun erstmals wirklich der gesamte Text indexiert und dargestellt wird. Das Resultat ist eine noch sicherere Text-Extraktion und bessere Suchergebnisse.
(Manch einer kennt das leidige Problem, dass Sonderzeichen [z. B. das €-Symbol] im OCRed PDF/A-1 nicht richtig erkannt und als unleserliche "Hieroglyphen" extrahiert werden.)

Nun sind im PDF/A-2, in Übereinstimmung mit den PAdes (PDF Advanced Electronic Signatures), auch digitale Signaturen möglich.
Anmerkung: Digitale Signaturen waren als solches auch schon im PDF/A-1 erlaubt. Diese werden von uns seit jeher verwendet, um PDF/A-Dateien als qualifiziert elektronisch signierte Dokumente rechtskonform speichern zu können.
Beispielsweise ermöglicht diese den rechtssicheren Nachweis darüber, dass die durch den Scanvorgang erzeugten, digitalen Daten nicht unentdeckt manipuliert wurden.

BEISPIELE:

Die Ebenenschalter:

(Vollfarbscan eines Formulars)

(Hintergrund abgeschaltet: Hintergrundfarbe und Feldfarben)

(Hintergrund und Textfarbe abgeschaltet: Verbesserte Lesbarkeit und einfacher Ausdruck)

→ Resultat:

PDF/A-2 ermöglicht es also erstmalig die Vorteile von Farb- und S/W-Scans in einem einzigen
PDF (bei vollem Erhalt des originalen Abbilds des Dokuments) zu kombinieren.

Anmerkung: Um die Anforderungen für das "ersetzende Scannen bei Vorlagen mit Farbinhalt" (Schlierseer Memorandum zum beweissicheren Scannen) zu erfüllen sind Farbscans heute unabdingbar.

Die Dateigröße:

(Nochmals ca. 1/3 weniger Speicherplatzbedarf als bei den von ScanAll vormals ohnehin schon im Verhältnis 164:1 hochkomprimierten PDF/A-1.)

Die Zeichenerkennung:

(Die Zeichenerkennung im PDF/A-2u: Unicode/ISO-konform [ISO 10646] normgerecht kodiert.)

Bildnachweis: © 2011 Michael Lauterbach

Autor: Michael Lauterbach
Überarbeitung: Miriam Elting



PDF-Technologie – Übersicht:





Weblinks:

• Die ISO-Norm 19005-2:2011 Part 2: Use of ISO 32000-1 (PDF/A-2), im ISO-Store: http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=50655