Click the question to show/hide the answerIch habe mehrere Dokumente mit ähnlichen Layouts. Kann ich die Extrahierung von Daten irgendwie vereinfachen?

Wenn Sie Datenfelder markieren und extrahieren, erstellt EscapeE eine Datei (mit dem Erweiterungsteil *.EE), die die Felder-Definitionen enthält. Sie können also für neue Dokumente die gleiche .EE-Datei verwenden und nach Bedarf bearbeiten.

Click the question to show/hide the answerIch sehe keine Weise, die Stelle einer .EE-Datei zu bestimmen. Muss ich die DEFAULT.EE-Datei immer im gleichen Ordner als die Druck-Dateien speichern?

Das können Sie tun – die Definitionens-Datei gilt dann für alle Dateien in diesem Ordner, ausgenommen, dass eine .EE-Datei mit dem entsprechenden Stamm auch dort liegt. Zum Beispiel, wenn die folgende Dateien in einem Ordner sind:
A.PCL
A.EE
B.PCL
C.PCL
DEFAULT.EE
dann wird die Datei-'A' die von 'A.EE' definierten Felder verwenden, wobei die anderen DEFAULT.EE benutzen. Falls Sie eine Definitionsdatei ausdrücklich bestimmen wollen, können Sie entweder den Name der Datei im Felder-Dialogfenster (das Kästchen am Kopf des Bildschirms) eingeben, oder die Datei in der Kommandozeile bestimmen, wenn Sie EscapeE von einer Verknüpfung, einem CMD-Fenster oder einem anderen Programm aufrufen. Die entsprechende Syntax dafür heißt:
ESCAPEE /FIELDS dateiname
Nach Bedarf können Sie fast alle Optionen von EscapeE durch der Kommandozeile aufrufen – siehe Kommandozeile-Syntax.

Click the question to show/hide the answerIch muss den vollständige Text aus einem Dokument extrahieren, nicht nur einzelne Felder.  Wie kann ich auf einen Schlag das Text-Inhalt extrahieren, und gleichzeitig die TIFFs erstellen?

1. Definieren Sie ein Feld, das die ganze Seite einschliesst. Das können Sie einfach erledigen, indem Sie die ganze Seite mit der Maus markieren, und mit der rechten Taste klicken. Selektieren Sie die 'Neues Feld..'-Option, und geben Sie nach Bedarf im nächsten Fenster einen neuen Name ein. Dabei wird standardmäßig eine neue Felderdefinitionsdatei namens xxxx.EE, wobei xxxx der Stamm des Names der aktuellen Datei ist. Sie können diese Datei nach Bedarf als DEFAULT.EE umbenennen, damit Sie die Felderdefinitionen für weitere Dokumente aus dem selben Verzeichnis nicht extra aufrufen müssen.
2. Aktivieren Sie die Protokollierung von Felder als Klartext, entweder im 'Optionen'-Menü oder beim Export der Datei.

Click the question to show/hide the answerWenn ich versuche, Text zu extrahieren, bekomme ich bloß eine leere Datei - warum?

Ihre Datei enthält keinen Text, sondern nur Grafiken. EscapeE ist (seit Version 8.50) von der OCR (Texterkennung) fähig, aber dafür müssen Sie entweder
Microsoft® Office 2003 oder 2007 einschliesslich dem 'Microsoft® Office Document Imaging tool' (MODI) installiert haben, und das OCR-Plug-In von RedTitan kaufen oder
wenn Sie keine MODI besitzen, weil Sie eine neuere Version von Office verwenden, bieten RedTitan ein alternative OCR-Plug-In an. Für weitere Hinweise, suchen Sie in der EscapeE Hilfe-Datei nach 'OCR', oder wenden Sie sich an help@redtitan.com.

Anderenfalls wenn das Dokument von einem Windows® Treiber erzeugt wurde, können Sie möglicherweise Text davon gewinnen. Im 'Drucker-Einrichtung'-Dialogfenster, klicken Sie 'Eigenschaften' und dann 'Erweiterte Grafik-Optionen'. Sie sollen für 'Herunterladene TrueType® Fonts' entweder 'Outline Soft-Fonts' oder 'Bitmap-Soft-Fonts' bestimmen.

Tipp: wenn Ihre Datei hauptsächlich aus Grafiken entsteht, ergibt das Klicken auf Text mit der rechten Maustaste keine "Textdetails" oder "Fonteigenschaften" Optionen sondern nur "Grafikdetails".

Click the question to show/hide the answerAls ich versucht haben, Text zu extrahieren, habe ich nur Schrott bekommen. Wieso?

Sie leiden unter den nicht-standardisierten Zeichen-Codes, die von manchen Treiber erzeugt werden. Die meiste solche Problemen werden von Windows® Treibern verursacht, denn maßgeschneiderte Software sowie UNIX® Systeme treiben Drucker ziemlich überschaubar, also Sie haben die Ausgabe wohl mittels eines Windows® Treiber erzeugt.
Wenn Sie Fonts verwenden, die auf dem Drucker nicht resident sind, und die der Treiber herunterladen muss, mögen die standardmäßige ASCII oder Latin-1-Codes nicht benutzt werden: versuchen Sie unter Optionen|Konfiguration die 'Datenherkunft'-Option als 'Windows HP Treiber' einzustellen.
Andere Treiber (besonders die von Windows2000 und späteren Betriebsystemen) weisen die Zeichen-Codes arbiträr (in der Reihenfolge ihres Auftritts im Text) an. Das heisst, zum Beispiel, dass wenn der Text mit dem Wort 'Hallo' anfangt, wird zum Zeichen 'H' den Code '1' und zum Zeichen 'a' den Code '2' zugewiesen, usw. Für die Anzeige von EscapeE spielt das keine Rolle, aber es kann Problemen bei der Verwendung des Texts verursachen. Die Standardkonfiguration ist 'Windows Treiber', aber Sie können auch 'Andere' probieren, die gar keine Code-Konvertierung verwendet.

Falls es nicht möglich wird, den Windows-Druckertreiber zu ändern, können Sie mithilfe von dem EEFonts-Programm einen Zeichenerkennungsdatenbank einrichten, der von der RedTitan® EscapeE PCL®-Viewer Anwendung benutzt werden kann, um den Text wieder nutzbar zu machen, entweder im Form des Windows Zeichensatzes oder als Unicode.

mehr >

Click the question to show/hide the answerWarum enthalten manche Felder mehr Text, als ich markiert habe?

Das Problem kommt vor, weil zwei Text-Abschnitte im Feld einander überschneiden, und werden deshalb von EscapeE verkettet. Als Lösung können Sie die Suche-Kriterien spezifischer bestimmen, oder das Feld genauer abgrenzen. Zum Beispiel, wenn zwei Text-Abschnitte verschiedene Fonts oder Größen haben, können Sie die entsprechende Eigenschaften im Suche-Tag-Optionen Dialogfenster bestimmen. Sie können auf überschneidenden Felder prüfen, indem Sie den Text mit der rechten Maustaste klicken, und Textdetails auswählen. Sie sehen eine Zeile für jeder Text-Anschnitt, der bei der geklickten Stelle gefunden wurde.

Click the question to show/hide the answerWenn ich versuche, mehrere Felder aus die 'Detail'-Zeile einer Rechnung zu extrahieren, werden zusätzliche Daten aufgelesen.  Warum?

Eine Zeile wird als Teil eines Feldes betrachtet, wenn irgendein Teil davon innerhalb des Feldes liegt, und die Zeichen aus solchen Zeilen werden eingeschlossen, wenn zumindest die Hälfte der Breite von dem Zeichen innerhalb des Feldes liegt. Wenn die Felder nicht mit den Daten gut ausgerichtet sind, können zusätzliche Zeilen eingeschlossen werden. Deshalb ist es äußerst wichtig, dass die Fonts zwischen der Definierung der Felder und der Extrahierung der Daten nicht geändert werden (z.b. die Ersetzung von einem fehlenden Font durch Courier). Sie können dieses Problem manchmal vermeiden, indem Sie die Felder bezüglich eines expliziten Tags definieren: zum Beispiel, die Beschreibungsfelder können den 'Beschreibung'-Text als Bezugnahme verwenden, damit die Offsets ab die Stelle gemessen werden, wo der Text gedruckt wird.
Tipp: im 'Felder'-Menü gibt es eine 'Zeigen'-Option. Sie können diese aktivieren, damit alle Felder gelb und alle ausgewählte Inhalt rot angezeigt werden.

Click the question to show/hide the answerWie definiere ich ein Feld bezüglich eines Tags?

Um ein Feld zu editieren, klicken Sie mit der rechten Maustaste darauf, und wählen Sie 'Feld editieren' aus. Um Felder ausschliesslich für Seiten einzurichten, die eine bestimmte Text-Suchmarke enthalten, sollen Sie die Felder bezüglich eines Tags definieren, indem Sie die benötigte Suchmarke mit der rechten Maustaste klicken, und 'Neuer Tag' auswählen. Der ausgewählte Text wird im Tag-Kästchen angezeigt, und kann nach Bedarf editiert werden. Klicken Sie dann 'OK', und definieren Sie das Feld (oder wählen Sie ein bestehendes Feld aus). Sie können dann im Feld-Eigenschaften-Dialogfenster mittels dem 'Referenzfeld'-Menü das entsprechende Tag auswählen.

mehr >

Click the question to show/hide the answerKann ich die Eigenschaften, Namen und Stellungen von Felder und Tags in der .EE-Datei direkt bearbeiten, ohne das Seitenansicht verwenden zu müssen?

Ja, Sie können die .EE-Datei selbst editieren oder sogar ganz von vorne eingeben, denn die ist einfach eine XML Text-Datei.

Click the question to show/hide the answerIst es bei der Extrahierung von Felder möglich, verschiedene Seitenformaten durch einer einzigen PCL-Datei zu bewältigen?

Sie können die Extrahierung von Felder an verschiedenen Arten von Seiten anpassen, indem Sie eine einmalige Text-Suchmarke auswählen, die ausschliesslich auf dieser Art von Seite vorkommt, und dann eine Reihe von Felder bezüglich jeder solchen Suchmarke definieren. Sie können auch Sätze von mehreren Seiten definieren, die alle n Seiten wiederholen (siehe Erweiterte Einstellungen für Feld-Definitionen). Sie können die Startseite extra bestimmen, also ein Feld könnte zum Beispiel so definiert werden, damit es auf Seite 3 beginnt, und dann alle 2 Seiten wiederholt. Um die erste Seite zu überspringen, können Sie ein Feld definieren, das auf Seite 2 beginnt, und danach auf jeder Seite vorkommt.