Reference Manual

Print2CAD 2019, Artificial Intelligence

KI Funktion 1:
Erweiterte OCR Texterkennung

USA Flag
German Flag
KI Funktion 1: Erweiterte OCR Texterkennung
AI Function 1: Enhanced OCR Text Recognition
AI Function 1: Enhanced OCR Text Recognition

OCR Text Erkennung - Text in eine Richtung

OCR Text Erkennung - Text in verschiedene Richtungen

point-small

Verbesserte OCR-Texterkennung

Der Text in PDF-Dateien kann als nativer PDF-Text, als Text aus Linien, als Text aus Schraffuren und als Text aus Rasterbildern dargestellt werden.

Um die richtige Art von einem Text zu erkennen, verwendet das Programm die Methoden der künstlichen Intelligenz in Form von OCR (Optische Text Erkennung) und Symbol Recognition (Symbolerkennung).

Die erweiterte Texterkennung ermöglicht dem Anwender, Text mit unterschiedlichen Textrichtungen in Konstruktionsplänen zu erkennen. Die Richtung eines Textes muss mit Hilfe eines speziellen Editors definiert werden.

Verbesserte OCR-Texterkennung
Verbesserte OCR-Texterkennung

Text als Rasterbild

Text als Schraffur

Verbesserte OCR-Texterkennung

Text als Linien und Polylinien

OCR Parameter: OCR Text Darstellungsart

point-small

Die korrekte Auswahl der OCR Text Darstellungsart ist für die korrekte Texterkennung von übergeordneter Wichtigkeit.

Der Text für die OCR-Texterkennung kann in PDF-Datei als nativer Text, Text aus Linien oder Polylinien, Text aus Schraffuren oder Text
aus Pixelbilder definiert sein.

Wichtig!
Native Text brauchen nicht ausgewählt werden. Die nativen Texte werden immer erkannt.
In seltenen Fällen kann der native Text nicht als echter Text erkannt werden, dann soll die Repräsentation als nativer Text ausgewählt werden.

OCR Text Darstellungsart

Die Analyse einer PDF-Datei sollte vor der Aktivierung einer Textdarstellung durchgeführt werden. Die Analyse einer PDF-Datei zeigt in separaten Bildern, welche Art von Textdarstellung in der PDF-Datei verwendet wird.

Wenn Sie mehr als eine Textdarstellung finden, wählen Sie alle gefunden aus, die native Text Darstellung soll normalerweise nicht ausgewählt werden.

OCR Parameter: OCR Text Darstellungsart
point-small

OCR Parameter: Textsprache

Die korrekte Auswahl der Textsprache hilft, die richtigen Wörter zu bauen. Print2CAD verwendet künstliche Intelligenzmethoden für die Texterkennung und ein internes Wörterbuch, um ungewöhnliche Textkombinationen zu eliminieren.

Sprache Deutch
point-small

OCR Parameter: Maximale Auflösung in DPI

Die richtige Auflösung für die OCR-Texterkennung ist sehr wichtig. Die Auflösung muss so niedrig wie möglich sein, aber der Text muss deutlich lesbar sein. Versuchen Sie zuerst mit 300 DPI und drücken Sie die Schaltfläche "Vorschau", wenn der kleinste Text nicht lesbar ist, erhöhen Sie die Auflösung in 50 DPI Schritten.

Maximale Auflösung in DPI
point-small

OCR Parameter: Minimale und maximale Texthöhe in Pixel

Die Parameter für maximale und minimale Texthöhe ist sehr wichtig. Die Erkennung der Texte erfolgt auf Basis dieser Parameter. Drücken Sie die Schaltfläche "Vorschau" und wenn Sie sehen, dass nicht alle Texte erkannt sind, erhöhen Sie die maximale Höhe. Wenn Sie sehen, dass viele freie Pixel als Text erkannt sind, erhöhen Sie die minimale Höhe.

Minimale und maximale Texthöhe in Pixel
point-small

OCR Parameter: Schwellwert für die Farbe Schwarz

Wenn Sie die Rasterbilder als Textdarstellung wählen, entscheidet der Schwellwert, welches Pixel schwarz sind und welche Pixel zum weißen Hintergrund angehören. Drücken Sie die Schaltfläche "Vorschau" und wenn Sie sehen, dass die Texte z.B. miteinander verbunden sind, verringern Sie den Schwellenwert.

Rasterbild Schwellwert
OCR Parameter: Schwellwert für die Farbe Schwarz
OCR Parameter: Schwellwert für die Farbe Schwarz

Textbereiche (Information über den Textart und die Textrichtung)

point-small

Beispiel: Schwellwert = 120

Die OCR-Texterkennung funktioniert nur, wenn die richtige Textrichtung erkannt werden kann. Leider kann in einem Bauplan der Text in ganz anderen Richtungen existieren.

Für eine gut durchgeführte OCR-Texterkennung ist eine manuelle Vorabtrennung der Textbereiche mit einer gemeinsamen Richtung erforderlich.

Print2CAD bietet einen speziellen Editor für die Textbereiche.

Ein "Textbereich" wird mit Hilfe von 3 Punkten definiert. Die ersten beiden Punkte geben die Textrichtung und der dritte Punkt gibt die rechte obere Ecke eines Textfeldes.

Textbereiche (Information über den Textart und die Textrichtung)

Im Textbereichseditor können Sie verschiedene Auswahl für "Textbereich" und für "Zahlenbereich" auswählen.

"Textbereich" erkennt Buchstaben, Zahlen und Sonderzeichen wie "+", "-" usw. Im Zweifelsfall zwischen Zahl und Buchstabe (z.B. zwischen den Buchstaben "l" und der Zahl "1") wird die Erkennung den Buchstaben " l " auswählen.

"Zahlenbereich" erkennt Zahlen, Buchstaben und Sonderzeichen wie "+", "-" usw. Im Zweifelsfall zwischen Zahl und Buchstabe (z.B. zwischen den Buchstaben "l" und der Zahl "1") wird die Erkennung die Zahl " 1 " auswählen.

Textbereiche (Information über den Textart und die Textrichtung)
Textbereiche (Information über den Textart und die Textrichtung)

Wenn der Textbereich ein PDF-Element schneidet, wird dieses Element bei der OCR-Texterkennung nicht berücksichtigt.

Wenn der Textbereich ein PDF-Element schneidet

Tipps:
- Versuchen Sie, Zahlen und Buchstaben in verschiedenen Textbereichen zu trennen.
- Versuchen Sie, in einem Textbereich nur Text mit einer gemeinsamen oder ähnlichen Texthöhe zu trennen.
- Versuchen Sie, saubere Textbereiche ohne Unterbrechung von anderen Zeichnungselementen zu trennen.
- Definieren Sie niemals einen gemeinsamen Textbereich für die gesamte Zeichnung.
- Eine gründliche Auswahl des Textes durch Textbereiche verbessert die Qualität der Texterkennung erheblich.

Textbereiche (Information über den Textart und die Textrichtung)

BacktoCAD Technologies, LLC

601 Cleveland St, Suite 310

Clearwater, FL 33755, USA

 

Email: bc-sales@cad-pdf.com
Phone: (727) 303 0383

© Copyright 2017 BackToCAD Technologies, LLC. All rights reserved. Kazmierczak® is a registered trademark of Kazmierczak Software GmbH. Print2CAD, AzubiCAD, and CAD2Print are Trademarks of BackToCAD Technologies LLC. CADconv is a Trademark of Expert Robotics Inc.. DWG is the name of Autodesk’s proprietary file format and technology used in AutoCAD® software and related products. Autodesk, the Autodesk logo, AutoCAD, DWG are registered trademarks or trademarks of Autodesk, Inc., and/or its subsidiaries and/or affiliates in the USA and/or other countries. All other brand names, product names, or trademarks belong to their respective holders. This website is independent of Autodesk, Inc., and is not authorized by, endorsed by, sponsored by, affiliated with, or otherwise approved by Autodesk, Inc. The material and software have been placed on this Internet site under the authority of the copyright owner for the sole purpose of viewing of the materials by users of this site. Users, press or journalists are not authorized to reproduce any of the materials in any form or by any means, electronic or mechanical, including data storage and retrieval systems, recording, printing or photocopying.