Reference Manual

Print2CAD 2019, Artificial Intelligence

Optimierung 3:

Teil 1 - Automatische Texterkennung

USA Flag
German Flag
Optimierung 3: Teil 1 - Automatische Texterkennung

Optimierung 3:

Teil 2 - Konvertierung der nativen PDF-Texte

Optimierung 3:

Sample - OCR of Simple Direction Text

Optimierung 3:  Teil 2 - Konvertierung der nativen PDF-Texte
Optimization 3:  Part 2 - Native Text Recognition

Automatische OCR-Texterkennung von nicht nativen PDF-Texten

Der Text in PDF-Dateien kann als nativer PDF-Text, als Text aus Linien, als Text aus Schraffuren und als Text aus Rasterbildern dargestellt werden.

Um die richtige Art von einem Text zu erkennen, verwendet das Programm die Methoden der künstlichen Intelligenz in Form von OCR (Optische Text Erkennung) und Symbol Recognition (Symbolerkennung).

Die automatische Texterkennung ermöglicht dem Anwender, Text mit gleicher Textrichtung in Konstruktionsplänen automatisch zu erkennen. Die Richtung eines Textes muss gleich sein, wenn nicht dann muss die "Erweiterte OCR Texterkennung" benutzt werden..

Automatische OCR-Texterkennung von nicht nativen PDF-Texten

 

Automatische OCR-Texterkennung von nicht nativen PDF-Texten

Text als Rasterbild

Text als Schraffur

Automatische OCR-Texterkennung von nicht nativen PDF-Texten

Text als Linien und Polylinien

OCR Parameter: Text Neigung

Automatische Texterkennung funktioniert nur mit nicht nativen Texten, wenn der Text die gleiche Richtung besitzt. Wenn die PDF-Zeichnung Texte mit verschiedenen Richtungen enthält, schlägt die automatische Texterkennung fehl. In diesem Fall soll der "Erweiterte OCR Text Erkennung" benutzt werden.

OCR Parameter: Text Neigung

OCR Parameter: Textdarstellung

Die korrekte Auswahl der OCR Text Darstellungsart ist für die korrekte Texterkennung von übergeordneter Wichtigkeit.

Der Text für die OCR-Texterkennung kann in PDF-Datei als nativer Text, Text aus Linien oder Polylinien, Text aus Schraffuren oder Text
aus Pixelbilder definiert sein.

Wichtig!
Native Text brauchen nicht ausgewählt werden. Die nativen Texte werden immer erkannt.
In seltenen Fällen kann der native Text nicht als echter Text erkannt werden, dann soll die Repräsentation als nativer Text ausgewählt werden.

Native Text brauchen nicht ausgewählt werden.

Die Analyse einer PDF-Datei sollte vor der Aktivierung einer Textdarstellung durchgeführt werden. Die Analyse einer PDF-Datei zeigt in separaten Bildern, welche Art von Textdarstellung in der PDF-Datei verwendet wird.

Wenn Sie mehr als eine Textdarstellung finden, wählen Sie alle gefunden aus, die native Text Darstellung soll normalerweise nicht ausgewählt werden.

OCR Parameter: Textdarstellung

OCR Parameter: Textsprache

Sprache Deutch

Die korrekte Auswahl der Textsprache hilft, die richtigen Wörter zu bauen. Print2CAD verwendet künstliche Intelligenzmethoden für die Texterkennung und ein internes Wörterbuch, um ungewöhnliche Textkombinationen zu eliminieren.

OCR Parameter: Maximale Auflösung in DPI

Die richtige Auflösung für die OCR-Texterkennung ist sehr wichtig. Die Auflösung muss so niedrig wie möglich sein, aber der Text muss deutlich lesbar sein. Versuchen Sie zuerst mit 300 DPI und drücken Sie die Schaltfläche "Vorschau", wenn der kleinste Text nicht lesbar ist, erhöhen Sie die Auflösung in 50 DPI Schritten.

OCR Auflosung

OCR Parameter: Minimale und maximale Texthöhe in Pixel

Minimale und maximale Texthöhe in Pixel

Die Parameter für maximale und minimale Texthöhe ist sehr wichtig. Die Erkennung der Texte erfolgt auf Basis dieser Parameter. Drücken Sie die Schaltfläche "Vorschau" und wenn Sie sehen, dass nicht alle Texte erkannt sind, erhöhen Sie die maximale Höhe. Wenn Sie sehen, dass viele freie Pixel als Text erkannt sind, erhöhen Sie die minimale Höhe.

OCR Parameter: Schwellwert für die Farbe Schwarz

Schwellwert für die Farbe Schwarz
OCR Parameter: Schwellwert für die Farbe Schwarz
Beispiel: Schwellwert = 120

Wenn Sie die Rasterbilder als Textdarstellung wählen, entscheidet der Schwellwert, welches Pixel schwarz sind und welche Pixel zum weißen Hintergrund angehören. Drücken Sie die Schaltfläche "Vorschau" und wenn Sie sehen, dass die Texte z.B. miteinander verbunden sind, verringern Sie den Schwellenwert.

Beispiel: Schwellwert = 120

Konvertierung von nativen PDF-Texten

Die Texte in PDF Dateien können als Zeichenketten oder einzelne Buchstaben platziert werden. Die echten PDF-Texte erkennen Sie daran, dass die Ränder der Texte auch unter maximaler Vergrößerung immer einen glatten Rand besitzen. Diese Textart kann sehr gut in echte DWG- oder DXF-Texte konvertiert werden.

Sind die Ränder nicht glatt oder entsprechen einem der unteren Fälle der „Falschen Texte", dann kann Print2CAD diese „Texte" nicht mehr in echte Texte umwandeln. Die Ursache hierfür ist der mathematische Widerspruch zwischen Vektorisierungsverfahren und OCR-Verfahren (Optische Texterkennung). Die beiden Verfahren können ohne sehr grobe Fehler nicht miteinander kombiniert werden. Da Print2CAD eher Konstruktionszeichnungen konvertiert, verwendet Print2CAD ausschließlich Vektorisierungsverfahren. OCR aus Text wird nur nach der korrekten Textseparation erfolgreich.

Eine andere Problematik stellen die Fonts dar. Die PDF-Fonts werden in PDF meistens eingebunden. In DWG oder DXF müssen die Fonts aus dem System entnommen werden.

Da ich die Fonts aus PDF in ein Windows-System nicht extrahieren kann und darf, muss ich in dem Windows-System ähnliche Fonts aussuchen und diese als Ersatzfonts definieren.

Konvertierung von nativen PDF-Texten

Texte als CAD-Zeichenketten ausgeben

In den PDF-Dateien sind die Texte meistens als getrennte Buchstaben oder Buchstabengruppen mit eigenen Einfügepunkten definiert. Print2CAD bildet aus diesen Buchstaben mit Hilfe von speziellen internen Funktionen Zeichenketten und platziert diese Zeichenketten als Texte in die CAD Zeichnung.

Print2CAD besitzt OCR Funktionen, die in Grundelemente wie Linie, Bogen, Schraffur usw. zerlegte Texte zu rekonstruieren ermöglichen. Diese Texte werden dann als Linien bzw. Schraffuren in der CAD Zeichnung dargestellt.

Das gleiche betrifft Texte, die in PDF als Rasterbilder eingefügt sind. Diese werden als Text nicht dargestellt, nur die echten PDF-Texte und Buchstaben werden in DWG- bzw. DXF-Texte umgewandelt. Deise Texte muessen mit OCR erkannt werden.

Texte als CAD-Zeichenketten ausgeben

Parameter: Konvertieren der nativen Text in Schraffuren

Es ist nicht immer möglich, Text aus einer PDF zu extrahieren, besonders wenn die Unicode-Codec fehlt oder "benutzerdefiniert" ist. Es gibt viele Konstruktionszeichnungen, die diese Art von Trick verwenden, um Sie daran zu hindern, die Dateien zu konvertieren.

Wenn es nicht möglich ist, den korrekten Text im Acrobat auszuschneiden und im Texteditor einzufügen, dann haben Sie sehr wenig Chance, den Text selbst mit Print2CAD zu konvertieren. Wenn Acrobat es nicht extrahieren kann, ist es sehr unwahrscheinlich, dass Print2CAD den Text korrekt extrahieren kann.

In diesem Fall können Sie diese Funktion aktivieren und die Text als Schraffuren korrekt darstellen.

Wichtig!
Wenn Print2CAD eine falschen Codec entdeckt, konvertiert Print2CAD diese Texte automatisch in Schraffuren.

Parameter: Visualisierung eines Textes mit falschem Codec

Wenn es nicht möglich ist, den korrekten Text im Acrobat auszuschneiden und im Texteditor einzufügen, dann haben Sie sehr wenig Chance, den Text selbst mit Print2CAD zu konvertieren. Wenn Acrobat es nicht extrahieren kann, ist es sehr unwahrscheinlich, dass Print2CAD den Text korrekt extrahieren kann.

Wenn Print2CAD eine falschen Codec entdeckt, konvertiert Print2CAD diese Texte automatisch in Schraffuren.

Parameter: Texte auf einen Layer einsortieren

Alle echten PDF-Texte werden auf ein vorgegebenen Layer einsortiert. Sind es keine echten Texte sondern nur Polylinien, Schraffuren oder Rasterbilder, dann werden die Texte als Element Text nicht erkannt.

Parameter: Skalierfaktoren für die Leerzeichen-Ersatzbreite

Fall werden die Leerzeichen nicht ausgegeben. Wenn Print2CAD die Buchstaben zu Texten zusammenbindet, werden Leerzeichen aufgrund einer fiktiven Leerzeichen-Ersatzbreite erkannt, die der Breite vom Buchstaben „a“ entspricht. Sollte die Leerzeichenerkennung nicht richtig funktionieren, dann erhöhen bzw. verkleinern Sie die Ersatzbreite um den Faktor (Ausprobieren) nach unterem Schema:

Parameter: Skalierfaktoren für die Leerzeichen-Ersatzbreite

Parameter: Skalierfaktoren für Textbreite und -höhe

Findet Print2CAD die in PDF benutzten Fonts im Windows-System nicht, dann entscheidet Print2CAD einen ähnlichen Font zu verwenden. Dabei kann sich die Textbreite verändern.

Eine Abhilfe hierfür ist die Verwendung von Skalierfaktoren für die Textbreite und Texthöhe. Die Texte werden mit den angegebenen Faktoren skaliert und in der CAD Zeichnung linksbündig platziert.

 

Parameter: Ersatz TTF- bzw. SHX-Font

Bei Aktivierung dieser Option wird allen Textstilen der gleiche, hier ausgewählte Textfont zugewiesen.

Die Schriftarten in einem PDF sind meistens eingebunden, so dass Sie diese Schriftarten nicht auf Ihrem Computer haben müssen um das PDF-Dokument anzeigen zu können.

In DWG- oder DXF-Dateien können Sie keine Schriftarten einbinden, daher müssen Sie diese Schriftarten auf Ihrem Computer installiert haben.

Es ist uns leider nicht möglich in ein PDF eingebettete Schriftarten zu extrahieren und diese in Ihren Computer zu implementieren.

Print2CAD sucht, währen der Konvertierung, nach der ähnlichsten Schriftart auf Ihrem Computer und konvertiert den Text in jene.

 

 

BacktoCAD Technologies, LLC

601 Cleveland St, Suite 310

Clearwater, FL 33755, USA

 

Email: bc-sales@cad-pdf.com
Phone: (727) 303 0383

© Copyright 2017 BackToCAD Technologies, LLC. All rights reserved. Kazmierczak® is a registered trademark of Kazmierczak Software GmbH. Print2CAD, AzubiCAD, and CAD2Print are Trademarks of BackToCAD Technologies LLC. CADconv is a Trademark of Expert Robotics Inc.. DWG is the name of Autodesk’s proprietary file format and technology used in AutoCAD® software and related products. Autodesk, the Autodesk logo, AutoCAD, DWG are registered trademarks or trademarks of Autodesk, Inc., and/or its subsidiaries and/or affiliates in the USA and/or other countries. All other brand names, product names, or trademarks belong to their respective holders. This website is independent of Autodesk, Inc., and is not authorized by, endorsed by, sponsored by, affiliated with, or otherwise approved by Autodesk, Inc. The material and software have been placed on this Internet site under the authority of the copyright owner for the sole purpose of viewing of the materials by users of this site. Users, press or journalists are not authorized to reproduce any of the materials in any form or by any means, electronic or mechanical, including data storage and retrieval systems, recording, printing or photocopying.