OCR
Textexport aus PDFs auf dem Mac
Weblite hat mit PDF OCR eine Mac-Software im Programm, die Texte aus PDFs in Textdateien exportieren kann. Das Programm verwendet eine optische Zeichenerkennung und kann dadurch auch aus eingescannten Vorlagen Texte extrahieren.
Der Anwender nutzt PDF OCR per Drag and Drop. Die gewünschte PDF-Datei wird auf die spartanische Programmoberfläche gezogen. Daraufhin fragt ein Einstellungsdialog nur noch ab, in welcher Sprache der Text gehalten ist und ob er ein- oder mehrspaltig angelegt ist. Die Ausgabemöglichkeiten erschöpfen sich in weiche und harte Umbrüche.
Die Erkennungsgenauigkeit schwankt stark und hängt von der Qualität der Vorlage ab, wie bei allen optischen Zeichenerkennungen. Geschützte PDFs kann auch PDF OCR nicht bearbeiten. Die Texterkennung der Software basiert auf Tesseract von Google.
Neben der vorinstallierten englischsprachigen Textkorrekturdatei lassen sich noch weitere Sprachen herunterladen und installieren, darunter Deutsch. Die neue Version 1.8 von PDF OCR beansprucht im Betrieb weniger Festplattenspeicherplatz, selbst wenn die PDFs sehr umfangreich sind.
PDF OCR von Weblite kann in der kostenlosen Communityfunktion pro Durchlauf nur die erste Seite aus dem PDF extrahieren. Mit Programmen wie PDF Split and Merge lassen sich PDF-Seiten zwar problemlos in einzelne Dateien aufteilen, aber mühsam ist das Prozedere dennoch.
Die kostenpflichtige Variante kostet rund 30 US-Dollar und besitzt keine Beschränkungen.
nur echt mit 32 zähnen :-)
Ist auch nicht für Optik-Onanisten gedacht, sondern für Leute, die Word-Dateien aus PDFs...