3.111 Text extrahieren (OCR)

Aktualisiert am Aug 26, 2024

Erfahren Sie in diesem Artikel,

welche Voraussetzungen für diese Korrektur gegeben sein müssen und
wie Sie diese Korrektur anwenden können.

1. Einführung

Im Workflow steht die Korrektur Text extrahieren (OCR) zur Verfügung. Das Ziel dieser Korrektur ist, alle Textelemente der PDF-Datei in der gewählten Sprache zu extrahieren und als Textdatei (.txt) im Reiter »Zusätze« abzulegen.

2. Allgemeines

Die Korrektur Text extrahieren (OCR) kann verwendet werden, um Zeichen und Ziffern des Motives in der gewählten Sprache zu extrahieren. Durch die Erhöhung des Kontrastes kann die Lesbarkeit des Textes teilweise deutlich gesteigert werden. Das Motiv selbst verändert sich durch diese Korrektur nicht.

Verwenden Sie diese Korrektur, um den Text einer Datei beispielsweise auf die Rechtschreibung zu prüfen. Der extrahierte Text kann in einem Rechtschreibprogramm Ihrer Wahl auf Rechtschreibfehler geprüft werden.

Die Korrektur finden Sie im Reiter Datenkorrektur eines Artikels, Auftrags bzw. Produktionsauftrags durch

Eingabe des Namens der Korrektur im Bereich Filter,
Aktivieren der Option Text im Bereich Kategorie,
Aktivieren der Option Erzeugen im Bereich Aktion,
Aktivieren der Option Text oder OCR im Bereich Suchen.

3. Beschreibung

Mit dieser Korrektur können mittels OCR Texte, selbst wenn Text bereits in Kontur umgewandelt wurde, aus der Datei extrahiert werden. Die erzeugte Textdatei wird im Reiter »Zusätze« gespeichert. Durch die Verstärkung des Kontrastes kann in vielen Fällen die Erkennung von Buchstaben verbessert werden, sodass selbst graue Buchstaben auf grauem Hintergrund erkannt werden können.

Beachten Sie, dass diese Korrektur das Motiv nicht verändert.

3.1. Voraussetzungen und Funktionsweise

Damit die Korrektur das tut, was sie verspricht, muss folgender Sachverhalt gegeben sein:

In der Datei befinden sich Buchstaben/Ziffern.
In welcher Form Buchstaben/Ziffern dabei vorliegen ist irrelevant. Sie können dabei
- als Textobjekte vorliegen,
- als Vektoren (in Kontur umgewandelte Texte) vorliegen oder
- in Bildern (bereits gerasterte Texte) vorkommen.

Reihenfolge der Extraktion

Beachten Sie, dass die Textpassagen nicht immer in der richtigen Reihenfolge extrahiert werden. Dies ist vor allem der Fall, wenn ein Layout mit Texten über das ganze Motiv angeordnet ist und darunter einzelne Textblöcke – z.B.: zweispaltig formatiert wurden. Die Texterkennung beginnt grundsätzlich links oben und arbeitet sich – je nach Aufbau der Datei – nach rechts unten durch. Texte die in Konturen oder Bilder umgewandelt wurden, werden immer hinten angereiht. Texte, die in Kontur umgewandelt wurde, werden dabei Text-Bildern vorgezogen.

Abbildung 1: Der Dialog der Korrektur Text extrahieren (OCR)

Um Text aus dem Motiv zu extrahieren, können folgende Optionen gewählt werden:

Sprache [1] – wählen Sie im Auswahlmenü aus, in welcher Sprache der zu extrahierende Text verfasst wurde. Zur Auswahl stehen folgende Möglichkeiten:
- Deutsch – der zu extrahierende Text wurde auf Deutsch verfasst.
- Englisch – der zu extrahierende Text wurde auf Englisch verfasst.
- Italienisch – der zu extrahierende Text wurde auf Italienisch verfasst.
- Französisch – der zu extrahierende Text wurde auf Französisch verfasst.
- Spanisch – der zu extrahierende Text wurde auf Spanisch verfasst.
- Portugiesisch – der zu extrahierende Text wurde auf Portugiesisch verfasst.
- Schwedisch – der zu extrahierende Text wurde auf Schwedisch verfasst.
- Polnisch – der zu extrahierende Text wurde auf Polnisch verfasst.
- Russisch – der zu extrahierende Text wurde auf Russisch verfasst.
- Japanisch – der zu extrahierende Text wurde auf Japanisch verfasst.
- Koreanisch – der zu extrahierende Text wurde auf Koreanisch verfasst.
- Chinesisch – der zu extrahierende Text wurde auf Chinesisch verfasst.
- Variabler Inhalt [4] – wählen Sie darin den gewünschten Platzhalter – Datenbankfeld bzw. Benutzerdefiniertes Feld – aus, woraus der Wert für die Sprache entnommen werden soll. Folgende Werte müssen im gewählten Feld vorgefunden werden, damit die Auswahl ausgeführt wird:
  - deu
  - eng
  - ita
  - fra
  - spa
  - por
  - swe
  - pol
  - rus
  - jpn
  - kor
  - chi_tra
Genauigkeit [2] – wählen Sie im Auswahlmenü aus, mit welcher Auflösung das Bild zur OCR-Erkennung gerendert werden soll. Je verschnörkelter die Schrift ist, desto höher sollte die gewählt Genauigkeit sein. Beachten Sie allerdings, dass eine höhere Auflösung auch mehr Zeit in Anspruch nimmt. Folgende Möglichkeiten stehen zur Verfügung:
- Schnell (große Textgröße) – die Datei wird mit einer Auflösung von 150 dpi gerendert. Diese Option eignet sich für große Textgrößen.
- Normal (Lesegrößen) – die Datei wird mit einer Auflösung von 600 dpi gerendert. Diese Option eignet sich für Lesegrößen.
- Hohe Qualität (kleine Textgrößen) – die Datei wird mit einer Auflösung von 1200 dpi gerendert. Diese Option eignet sich für kleine Textgrößen.
- Variabler Inhalt [5] – wählen Sie darin den gewünschten Platzhalter – Datenbankfeld bzw. Benutzerdefiniertes Feld – aus, woraus der Wert für die Genauigkeit entnommen werden soll. Folgende Werte müssen im gewählten Feld vorgefunden werden, damit die Auswahl ausgeführt wird:
  - 150
  - 600
  - 1200
Kontrast [3] – wählen Sie im Auswahlmenü den Kontrast des Textes aus. Je höher der Kontrast ist, desto lesbarer wird in vielen Fällen der Text. Folgende Möglichkeiten stehen zur Verfügung:
- Standard – der Kontrast des Textes ist bleibt wie er ist.
- High – der Kontrast des Bildes zur OCR-Erkennung wird verstärkt
- Extreme – der Kontrast des Bildes zur OCR-Erkennung wird extrem verstärkt
- Variabler Inhalt [6] – wählen Sie darin den gewünschten Platzhalter – Datenbankfeld bzw. Benutzerdefiniertes Feld – aus, woraus der Wert für den Kontrast entnommen werden soll. Folgende Werte müssen im gewählten Feld vorgefunden werden, damit die Auswahl ausgeführt wird:
  - Standard
  - High
  - Extreme

Abbildung 2: Links: Vorzufindenden Werte im gewählten Feld für die Option Sprache: Mitte: Vorzufindenden Werte im gewählten Feld für die Option Genauigkeit; Rechts: Vorzufindenden Werte im gewählten Feld für die Option Kontrast

3.2. Vorher/Nachher

Zum Experimentieren mit dieser Funktion können Sie auf die Beispieldatei »Sample_Extract text (OCR).pdf« zurückgreifen. In der Datei befinden sich drei verschiedene Schriftarten.

Die Überschrift wurde mit der Schriftart Bradley Hand Bold, dem Schriftschnitt Bold und der Schriftgröße 8 pt gestaltet. Die Überschrift ist in ein Bild umgewandelt worden.
Der erste Absatz wurde mit der Schriftart Myriad Pro, den Schriftschnitten Regular und Italic sowie der Schriftgröße 5 pt formatiert. Dieser Textteil wurde in Pfade umgewandelt, wodurch es sich dabei nun um Vektoren handelt.
Der zweite Absatz wurde mit der Schriftart Snell Roundhand, dem Schriftgrad Regular und der Schriftgröße 6 pt gestaltet. Bei dieser Textpassage handelt es um einen ganz normalen Text.

Nach Anwendung der Korrektur erhalten Sie die Text-Datei »Sample_Extract text_OCR.txt«, die im Reiter Zusätze heruntergeladen werden kann. Dafür wurden die Werte aus Abbildung 1 verwenden.

Abbildung 3: Links: Originaldatei; Rechts: Der Reiter Zusätze mit der extrahierten Text-Datei

Artikel Update: Workflow 1.18.0 – 08/2024

Vorheriger Artikel 3.110 Text ersetzen

Nächster Artikel 3.112 Tiefschwarz in 100% K umwandeln

Benutzerhandbuch – Durst