ScanAll-Logo

PDF-Technologie

« zurück Ι weiter »

Das PDF und dessen Standards

PDF wurde Anfang der neunziger Jahre von der Firma Adobe® auf Basis der Seitenbeschreibungssprache "Postscript" entwickelt. Es war ein proprietäres, aber offengelegtes Dateiformat, bis es durch die Veröffentlichung am 1. Juli 2008 in Version 1.7 als ISO 32000-1:2008 ein offener Standard wurde.

Das PDF ist plattformunabhängig und benötigt erheblich weniger Speicherplatz als das TIFF. Das bedeutet, dass auf jedem Computersystem mit einem entsprechenden Viewer, z. B. dem kostenlosen Adobe® Reader, eine PDF-Datei stets das gleiche Aussehen und identischen Inhalt hat, also weitgehend originalgetreu dargestellt wird.

Als Dateiformat für Scans wurden zunächst TIFF-Dateien zur Speicherung der Bilddateien verwendet, da TIFF allgemein weit verbreitet ist und fast alle Bildbetrachtungsprogramme TIF-Formate wiedergeben können. Die Reproduzierbarkeit – besonders auf lange Sicht – ist allerdings, bedingt durch die hohe Komplexität, nicht unbedingt gewährleistet. "Die Vielfalt möglicher gültiger TIFF-Dateien kann nur schwer von einzelnen Programmen unterstützt werden." [1] Es gibt auch keine Normierung des Formats sondern lediglich eine Spezifikation, die eine Untermenge gültiger TIFF-Dateien definiert. Ein weiterer Nachteil des TIF-Formats ist, dass das Suchen nach Informationen (Textstellen) schwierig ist, denn als reines Bildformat muss es ein OCR (Texterkennung) durchlaufen, um eine Volltextsuche zu ermöglichen. Der erkannte Text kann dann allerdings nicht direkt mit dem Bild in einer Datei gespeichert werden kann.

Für die Archivierung von Farbdokumenten ist das TIFF aufgrund seiner Kompressionstechniken von Hause aus ungeeignet. Die möglichen Komprimierungsalgorithmen LZW und RLE komprimieren zwar verlustfrei, aber anders als bei S/W-Bildern die im TIFF mit CCITT G3 oder G4 komprimiert wurden, ergeben sich sehr große Dateigrößen. Als Notbehelf kann das ZIP auch als Container für eine Bilddatei mit JPEG-Kompression herhalten, die aber von vielen TIFF-Viewern und Grafikprogrammen nicht unterstützt werden. Abgesehen davon ist die in sinnvoll handhabbaren Dateigrößen stets verlustbehaftete JPEG-Kompression für Schriften ohnehin untauglich. Eine Ausgabe in Farbe ist aber nötig, um auch schlecht lesbare Vorlagen optimal digitalisieren bzw. die Anforderungen für das "ersetzende Scannen bei Vorlagen mit Farbinhalt" (Schlierseer Memorandum zum beweissicheren Scannen) erfüllen zu können.

Heute sind in vielen Bereichen auch digitale Signaturen im Scanprozess vorgeschrieben und für das ersetzende Scannen zum Erhalt des Beweiswertes sinnvoll. Die qualifizierte elektronische Signatur (QES) ermöglicht den rechtssicheren Nachweis darüber, dass die durch den Scanvorgang erzeugten digitalen Daten nicht unentdeckt manipuliert wurden. TIFF-Dateien lassen sich zwar elektronisch signieren, allerdings ergibt sich zu der Nutzdatei stets eine zusätzliche Signaturdatei (oder alternativ eine Containerdatei, die wiederum Nutz- und Signaturdatei enthält). PDFs können die Signatur in der Nutzdatei beinhalten.

Darüber hinaus kann ein PDF auch zusätzliche Hilfen enthalten, die die Navigation innerhalb des Dokumentes erleichtern. Dazu gehören zum Beispiel verlinkte Inhaltsverzeichnisse (Bookmarks) und miniaturisierte Seitenvorschauen (Thumbnails), sowie verlinkte Suchergebnisse für ganze PDF-Sammlungen (dokumentenübergreifende Suche). Daher richtete sich das Augenmerk für das geeignete Format für ein digitales Pendant des Papierdokuments auf das PDF.

Unternehmen, Verwaltungen und Finanzinstitute sind verpflichtet, einen Großteil ihrer Dokumente über Jahre oder sogar Jahrzehnte hinweg aufzubewahren. Aufgrund des kontinuierlich steigenden Dateivolumens muss dabei aber auf den Speicherplatzbedarf geachtet werden, um auch bei großen Datenmengen einen schnellen Zugriff zu gewährleisten.

⇒ Im PDF hat man also alles in einer Datei: Bild, OCR-Ergebnis und Signatur.

"Das Portable Document Format (PDF; deutsch: (trans)portables Dokumentenformat) ist ein plattformunabhängiges Dateiformat für Dokumente, das vom Unternehmen Adobe Systems entwickelt und 1993 veröffentlicht wurde.

Ziel war es, ein Dateiformat für elektronische Dokumente zu schaffen, das diese unabhängig vom ursprünglichen Anwendungsprogramm, vom Betriebssystem oder von der Hardwareplattform originalgetreu weitergeben kann. Ein Leser einer PDF-Datei soll das Dokument immer in der Form betrachten und ausdrucken können, die der Autor festgelegt hat. Die typischen Konvertierungsprobleme (wie zum Beispiel veränderter Seitenumbruch oder falsche Schriftarten) beim Austausch eines Dokuments zwischen verschiedenen Anwendungsprogrammen entfallen.

Neben Text, Bildern und Grafik kann eine PDF-Datei auch Hilfen enthalten, die die Navigation innerhalb des Dokumentes erleichtern. Dazu gehören zum Beispiel anklickbare Inhaltsverzeichnisse und miniaturisierte Seitenvorschauen." [2]

Im Laufe der Jahre hat Adobe® bisher sieben neue Versionen ihres PDF Reference Manual publiziert (eine achte ist in Vorbereitung). Jede neue Version hat das Format um zahlreiche neue Eigenschaften angereichert und einige alte verändert. Außerdem können PDF-Dokumente seit der Version 1.2 Javascript-Elemente enthalten, also kleine ausführbare Programme wie Videos, Audiofiles, etc. PDF-Dateien können auch einen via Passwort beschränkten Zugriff oder weitere Beschränkungen (keine Speicherung, keine Bearbeitung) enthalten. Diese zusätzlichen Eigenschaften des Formats erleichterten zwar seine Durchsetzung auf dem Markt als Standard, erschweren aber auch seine Anwendung als Archivierungsformat.

Es wurde unumgänglich einen stabilen, international akzeptierten Standard für spezielle Anwendungsgebiete des PDFs zu schaffen. Heute gibt es Standards für die Druckindustrie (PDF/X und PDF/VT), für barrierefreie PDFs (PDF/UA), für technische Dokumente (PDF/E), ein Best-Practice-Guide für den Gesundheitsbereich (PDF/H – kein ISO-Standard) und den Standard für die Langzeitarchivierung (PDF/A – PDF/Archive), der mittlerweile in der Normreihe als PDF/A-1 und PDF/A-2 veröffentlicht wurde (PDF/A-3 ist in Entwicklung).

Seit 2008 ist außerdem auch das Dateiformat PDF selbst normiert (PDF 1.7). Neue Entwicklungen werden in dem derzeit in Entwicklung befindlichen PDF 2.0 eingebracht.

« zurück Ι weiter »

Bildnachweis: © 2011 Michael Lauterbach

Autor: Michael Lauterbach
Überarbeitung: Miriam Elting



PDF-Technologie – Übersicht:




Quellen:

[1] [Seite "Tagged Image File Format". In: Wikipedia, Die freie Enzyklopädie. Bearbeitungsstand: 20. Januar 2012, 09:09 UTC.
URL: http://de.wikipedia.org/w/index.php?title=Tagged_Image_File_Format&oldid=98597166    (Abgerufen: 4. Februar 2012, 18:49 UTC)]

[2] [Seite "Portable Document Format". In: Wikipedia, Die freie Enzyklopädie. Bearbeitungsstand: 29. Januar 2012, 09:09 UTC.
URL: http://de.wikipedia.org/w/index.php?title=Portable_Document_Format&oldid=98974548    (Abgerufen: 4. Februar 2012, 19:02 UTC)]

 


 

Weblinks:

Adobe® PDF Reference Archives  
Die ISO-Norm 19005-1:2005 Part 1: Use of PDF 1.4 (PDF/A-1)  
Das Korrigendum ISO 19005-1:2005/Cor 1:2007 zur ISO-Norm 19005-1:2005  
Die ISO-Norm 19005-2:2011 Part 2: Use of ISO 32000-1 (PDF/A-2)  
ISO-Norm PDF/E (24517)  
ISO-Normenreihe 15930  
PDF-Spezifikation bei Adobe  
AIIM International