PDF2HTML: PDF-Dateien in HTML konvertieren

PDF2HTML-Converter

Es gibt viele Tools mit denen sich PDFs in HTML umwandeln lassen. Für die meisten Ansprüche genügt jedoch das kostenlose Tool für die Kommandozeile PDFToHTML. Hier finden Sie eine leicht bedienbare grafische Oberfläche dafür.

Das Kommandozeilen-Tool PDFToHTML (poppler.freedesktop.org, Binärdateien für Windows unter blog.alivate.com.au/poppler-windows) wandelt auch komplexe PDF-Dokumente in HTML um. Das Ergebnis ist nicht immer optimal, aber für die meisten Anwender ausreichend. Kommerzielle Tools erledigen die Aufgabe meist auch nicht viel besser.

Download zu diesem Artikel:
PDF2HTML-Converter 1.2:

Installation von PDF2HTML-Converter

PDF2HTML-Converter ist ein portables Tool. Entpacken Sie das Programmarchiv in einen beliebigen Ordner. Das Tool benötigt weitere Programme aus dem Ordner „pdftohtml“. Dieser muss im gleichen Verzeichnis liegen. PDF2HTML-Converter legt keine Werte in der Registry ab, sondern speichert seine Konfiguration im Installationsordner. Für die De-Installation löschen Sie einfach das Programmverzeichnis.

Export-Optionen

PDF2HTML-Converter

PDF2HTML-Converter: GUI für PDFToHTML

PDF2HTML-Converter steuert das Kommandozeilen-Tool PDFToHTML (pdftohtml.sourceforge.net). Die einstellbaren Optionen entsprechen daher den Schaltern dieses Tools.

Standardmäßig konvertiert das Tool PDF-Dokumente im einfachen Modus (keine Option ist gesetzt). Besondere Layouts werden dabei nicht berücksichtigt. Es ergibt sich ein Fließtext, Bilder werden in das PNG-Format konvertiert. Die Ausgabe erfolgt in den Ordner, in dem auch das Quell-Dokument liegt. Der Name des erzeugten Dokuments entspricht dem Originalnamen mit angehängtem „html“.

1. „Seiten von bis“: Mit dieser Option beschränken Sie die zu konvertierenden Seiten.

2. „nur ein Dokument erzeugen“. Besteht eine PDF-Datei aus mehreren Seiten, wird eine entsprechende Menge von HTML-Dateien erstellt. Ist diese Option aktiv, landen alle Seiten in einer HTML-Datei.

3. „komplexe Dokumente“: Verwenden Sie diese Option, wenn Sie Dokumente mit komplexen Layouts konvertieren möchten, beispielsweise Dokumente mit mehreren Spalten und Bildern.

4. „keine Frames“: Standardmäßig erzeugt das Tool ein bei mehreren Seiten ein HTML-Framedokument mit einer Navigation auf der linken Seite. Ist diese Option aktiv, entsteht ein Dokument ohne Frames.

5. „keine Bilder“: Bilder werden nicht extrahiert.

6. „versteckten Text ausgeben“: Versteckten Text mit ausgeben.

7. „Titel durch Dateinamen ersetzen“: pdftohtml fügt in den <Title>-Tage der HTML-Dokumente den kompletten Pfad zur Datei ein. Ist diese Option aktiv, wird nur der Dateiname ohne Dateinamenserweiterung eingesetzt.

8. „<html> ersetzen durch“: pdftohtml erstellt HTML-Dateien mit „<html xmlns=“http://www.w3.org/1999/xhtml“ lang=““ xml:lang=““>“. Wenn Sie zusätzlich die Sprache angeben möchten, aktivieren Sie die Option und fügen Sie ins Eingabefeld „<html xmlns=“http://www.w3.org/1999/xhtml“ lang=“de“ xml:lang=“de“>“ ein.

9. „mit Unterverzeichnissen“: Wenn Sie einen Ordner mit Quelldokumenten angeben, konvertiert das Tool auch alle gefundenen Dokumente aus den Unterverzeichnissen.

10. „.pdf links durch .html“ ersetzen“: Enthält ein Dokument einen Link auf eine PDF-Datei, ersetzt das Tool diesen durch einen Link auf eine HTML-Datei mit dem gleichen Namen.

11. „Absätze nicht verbinden“: Standardmäßig verbindet das Tool Ansätze miteinander. Ist diese Option aktiv bleiben Absätze getrennt.

12. „Zoom Faktor“: Standardmäßig werden die Dokumente um den Faktor 1,5 vergrößert. Sie können hier bei Bedarf einen größeren oder kleineren Wert eingeben.

13. „XML statt HTML erzeugen“: Das Tool konvertiert PDF nach XML statt nach HTML.

14. „nur markierte Dokumente“: Standardmäßig verarbeitet das Tool alle Dokumente aus der Liste. Ist diese Option aktive, konvertiert es nur das gerade markierte Dokument.

15. „Text-Encoding“: Standard ist „UTF-8“. Mögliche Werte sind ASCII7, Symbol, ZapfDingbats, UTF-8, UCS-2 und Latin-1. Achtung: Groß-/Kleinschreibung werden unterschieden.

16. „Bildformat“: Standardmäßig erstellt das Tool PNG-Dateien. Sie können aber auch „jpg“ wählen. Gilt nur in Verbindung mit „komplexe Dokumente“. Standardmäßig erzeugt das Tool PNG-Dateien. Sie können hier aber beispielsweise auch „jpeg“ eintragen.

17. „Ausgabe in“: Wählen Sie hier einen Ordner, in dem Sie die konvertierten Dateien ablegen möchten. Andernfalls werden die Dateien im gleichen Ordner erstellt, in dem die Quelldatei liegt. Die Angabe eines Ordners ist erforderlich, wenn Sie jede Datei in einem anderen Ordner ablegen möchten oder einen Index.html erzeugen möchten.

18. „Neuer Ordner für jede Datei“: Gilt nur in Verbindung mit „Ausgabe in“. Das Tool legt beim Konvertieren mehrerer Dateien einen eigenen Ordner für jedes Dokument an.

19: „Index.html erstellen“: Es wird eine Index.html mit einer verlinkten Liste aller konvertierten Datei erstellt.

Weitere Optionen

Nach einem Klick auf „Optionen“ sehen Sie den abgebildeten Dialog. Hier können Sie für passwortgeschützte PDF-Dokumente das Besitzer- oder Anwender-Kennwort eingeben. Das  Kennwort gilt für alle Dokumente, die Sie konvertieren.
Standardmäßig bringt pcwPDF2HTML sein eigenes PDFToHTML mit. Dieses liegen im  entsprechenden Unterordner. Sie können das Programm aber auch aus einem anderen Verzeichnis verwenden. Geben Sie in diesem Fall den Pfad zu der ausführbaren Datei an.

Optionen

Optionen

PDF2HTML-Converter bedienen

Über die Schaltfläche „Hinzufügen“ fügen Sie den kompletten Pfad zu den PDF-Dokumenten in die Liste ein. Endet der Pfad mit „*.pdf“, verarbeitet das Tool alle PDF-Dateien aus diesem Ordner. Ist die Option „mit Unterverzeichnissen“ aktiv, werden auch die Dateien aus allen Unterverzeichnissen berücksichtigt.

Sie können Dateien und Ordner auch per Drag & Drop vom Windows Explorer auf die Liste ziehen.

Über die Schaltfläche „Löschen“ entfernen Sie den gerade markierten Eintrag aus der Liste. Mit „Alle Löschen“ entfernen Sie alle Einträge.

Mit einem Klick auf „Konvertieren“ starten Sie die Umwandlung. Nach einem Klick auf „Log anzeigen“ sehen Sie bei Bedarf die Ausgaben der Kommandozeilen-Tools.

Mit „Abbrechen“ stoppen Sie den Export. Sie müssen dann warten, bis das Programm den gerade laufenden Export beendet hat. Das gleiche gilt, wenn Sie das Programm beenden.

Lizenz

PDF2HTML-Converter ist freie Software. Sie können es unter den Bedingungen der GNU General Public License, wie von der Free Software Foundation veröffentlicht, weitergeben und/oder modifizieren, entweder gemäß Version 2 der Lizenz oder (nach Ihrer Option) jeder späteren Version.
Die Veröffentlichung dieses Programms erfolgt in der Hoffnung, dass es Ihnen von Nutzen sein wird, aber OHNE IRGENDEINE GARANTIE, sogar ohne die implizite Garantie der MARKTREIFE oder der VERWENDBARKEIT FÜR EINEN BESTIMMTEN ZWECK. Details finden Sie in der GNU General Public License.

Be Sociable, Share!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.