SearARep
Programm zum |
Wps RegExKostenloses Programm zum lokalen Testen und Verwalten von Regulären Ausdrücken |
Diese zwei, doch sehr gegensätzlichen Aussagen, enthalten beide einen wahren Kern.
Ist dabei ein Dienstleistungsangebot zum optischen Texteinlesen nicht ein Eulen-nach-Athen-tragen-Angebot?
Ich möchte Ihnen an dieser Stelle allgemeine Hinweise zum optischen Texteinlesen, den damit verbundenen Problemen, Lösungsansätzen und meinen ganz persönlichen Weg erläutern.
Die dann folgenden Ausführungen zur automatische Textaufbereitung, Datenkonvertierung und Database-Publishing sollen Ihnen zeigen, dass die Arbeit mit dem Texteinlesen nicht getan ist.
Richtig ist sicherlich, dass die heute gelieferten OCR-Programme ausgereift sind und qualitativ einen hohen Standard haben.
Tests in Fachzeitschriften zeigen, dass die Fehlerrate sehr gering ist.
Es werden einige Seiten Text eingelesen und oft finden sich nur ein oder zwei Fehler.
Zwei Fehler, auf, sagen wir mal, zehn Textseiten mit ca. 1.500 Zeichen bedeuten aber immerhin eine Fehlerquote von 0,133 %, ein Fehler alle fünf Seiten und bei einem Roman von fünfhundert Seiten 100 Fehler.
Und dies wäre schon eine optimistische Annahme, und diese Aussage gilt für eine gute Vorlage, d. h.:
Folgt daraus
Ganz sicher nicht!
Wenn die Vorlage auch nur halbwegs akzeptabel ist, kann durch intelligente Nacharbeit ein fehlerhaft eingelesener Text so effektiv aufbereitet werden, dass sich dieser Weg jederzeit mit der preiswertesten Neuerfassung messen lassen kann.
OCR kann also nur der erste Schritt sein. Danach muss eine möglichst sorgfältige Bearbeitung erfolgen.
Es muss darum gehen, Fehler beim Einlesen möglichst zu vermeiden und anschließend die doch noch vorhandenen Fehler effektiv und kostengünstig zu beseitigen.
Dies kann weitgehend manuell durch die im OCR-Programm angebotenen Werkzeuge geschehen, oder auf dem fast automatischen Weg mit Hilfe meines Programmes zur Textkorrektur und Textaufbereitung.
OCR lohnt sich immer dann, wenn diese Lösung bei vergleichbarer Qualität preiswerter oder vielleicht auch nur schneller ist.
Weiter sollten Sie einen eventuellen Zusatznutzen in den Vergleich mit einbeziehen.
Als Vergleichsbasis bietet sich also zuerst einmal der Preis für eine Neuerfassung an. Da es sich hier um ein Dienstleistungsangebot handelt, sollten Sie dies bei der Preisbildung berücksichtigen.
Hieraus ergibt sich, dass eine gewisse Mindestmenge zur Verarbeitung vorliegen sollte. Dabei sollte sich der Begriff Menge nicht nur auf die Anzahl der Zeichen beziehen.
OCR und automatische Textaufbereitung erweisen sich oft dann als besonders konkurrenzfähig, wennOCR sollte immer dann in Erwägung gezogen werden, wenn
Die OCR-Verarbeitung eines Textes erfolgt in mehreren Verarbeitungsschritten.
Lesen Sie bitte hierzu:
Die Anwendung eines Standardprogrammes zur OCR-Verarbeitung.
Die kombinierte Verarbeitung von Standardprogramm und automatischer Textaufbereitung.