Die Schritte 1-4 werden mit dem OCR-Programm erledigt:
Einige Seiten als Stichprobe aus dem einzulesenden Werk - möglichst über das Werk verteilt - einscannen, Helligkeit und Kontrast variieren, das beste erzielte Ergebnis für das Gesamtwerk verwenden.
Den gesamten Text einscannen.
Den Texterkennungsvorgang über alle Seiten laufen lassen.
Den Text mit allen Gestaltungsmerkmalen (Layout wie Druckvorlage, identischer Zeilen- und Seitenumbruch) im HTML-Format ablegen.
Hier beginnt Arbeit mit meinem Textaufbereitungsprogramm:
Die HTML-Datei wird in das Textformat des Corel™-Ventura-Publisher umgewandelt, dabei werden HTML-Formatangaben (CSS-Formate und direkte Auszeichnungen wie Einzüge, Ausrichtungen, Tabellendefinitionen, Schriftwechsel und andere Auszeichnungen) in Formatangaben des Publishers umgewandelt.
Jetzt werden Sonderzeichen im Text behandelt.
Soweit möglich werden aus dem Kontext Gedankenstriche ermittelt und mit den richtigen Zeichen und Abständen versehen.
Anführungszeichen und Klammern werden auf die richtigen Zeichen, richtige Schachtelung und Plausibilität überprüft.
An sich aus dem Kontext ergebenden Stellen, werden spezielle Abstandszeichen und geschützte Leerzeichen eingesetzt.
Apostrophe werden ggf. korrigiert
Einlesen aller Druckzeilen Wort für Wort.
Es wird Wort für Wort extrahiert und geprüft, ob es in einem der von mir erzeugten und gepflegten Wörterbücher vorkommt.
Ist das Wort unbekannt, werden bestimmte Zeichenkombinationen durch als Lesefehler bekannte Zeichenkombinationen aus einer Datenbank ersetzt und das erhaltene Wort wieder mit Wörterbüchern überprüft.
Wird das Wort hierbei gefunden, wird es ersetzt und farbig markiert.
Wenn das Wort nach Abarbeitung der Lesefehlerdatenbank immer noch als unbekannt eingestuft wird, prüft das Programm, ob es sich um ein versehentlich zusammengefügtes Wort handelt.
Dies kommt vor, wenn der Wortzwischenraum zu gering ist.
Dann sind Wortteile in Wörterbüchern vorhanden, das Gesamtwort aber nicht.
Dieses Wort wird dem Wörterbuch entsprechend zerlegt und farbig markiert.
Ist das Wort immer noch unbekannt, werden die Wörter nach und nach bis zum Zeilenende versuchsweise zusammengefügt und wieder mit dem Wörterbuch abgeglichen. Wird hierbei ein Wort gefunden, wird es zusammengefügt in den Text eingesetzt und farbig markiert.
Hat keiner dieser Versuche zum Erfolg geführt, wird das Wort als unbekanntes Wort in die werkspezifische Wörterliste eingetragen.
Wurde ein bekanntes Wort ermittelt, wird untersucht, ob dieses Wort als kritisch anzusehen ist. Ist dies der Fall, wird das Wort farbig markiert.
Wurde das Wort als Abkürzung erkannt, wird untersucht, ob die Schreibweise dem Kontext entsprechend richtig ist (Groß/Kleinschreibung, Abkürzungspunkt, Festabstände). Ist dies nicht der Fall, wird die Abkürzung ersetzt und farbig markiert.
Wurde das Wort als Eigenname erkannt, wird die Groß- und Kleinschreibung überprüft. Ist sie nicht richtig, wird das Wort ersetzt und farbig markiert.
Wurde das Wort als immer groß zu schreibendes Wort erkannt, wird bei Falschschreibung das Wort ersetzt und farbig markiert.
Wurde eine Zahl erkannt, wird untersucht, ob die Formatierung dem Kontext entspricht (Beträge, Daten) und ob eventuell das Wort vorher oder nachher mit einem Festabstand anzubinden ist. Bei Korrekturen wird auch hier farbig markiert.
Bei Erreichen des Endes der Druckzeile wird untersucht, ob als letztes Zeichen ein Trennzeichen steht:
Ist dies der Fall, wird untersucht, ob das Wort in der nächsten Zeile mit einem Kleinbuchstaben beginnt:
Ist dies der Fall, werden die beiden Worte ohne Trennzeichen zusammengefügt und das Wort in den Wörterbüchern gesucht.
Wird das Wort gefunden, wird die Trennung dieses Wortes mit Hilfe der Trennvorgaben im Wörterbuch überprüft.
Ist die Trennung erkannt, wird das Zeilenende durch eine weiche Zeilenschaltung ersetzt und die Trennung in einen Trennvorschlag umgewandelt.
Ist die Tennung falsch, wird das Zeilenende auch ersetzt, das Wort aber farbig markiert und als erkanntes Wort mit der verwendeten Trennung in die werkspezifische Wörterliste eingetragen.
Wurde das Wort zusätzlich als kritisches Wort erkannt, wird es entsprechend farbig markiert.
Wird das Wort nicht gefunden, handelt es sich eventuell um ein gekuppeltes Wort. Die beiden Wortteile werden mit dem Trennzeichen zusammengefügt und in den Wörterbüchern gesucht.
Wird das Wort nicht gefunden, handelt es sich eventuell um ein gekuppeltes Wort. Die beiden Wortteile werden mit dem Trennzeichen zusammengefügt und in den Wörterbüchern gesucht.
Wird das Wort als Kuppelwort gefunden, aber als kritisches Wort erkannt, wird der Trennstrich im Text um ein weiches Zeilenende ergänzt. Das Kuppelwort wird als kritisches Wort in die werkspezifische Wörterliste eingetragen und im Text farbig markiert.
Wird das Wort als Kuppelwort nicht gefunden, werden mit Hilfe der Lesefehler-Datenbank als kritisch erkannte Zeichenfolgen testweise ersetzt:
Wird das Wort jetzt gefunden, wird das Trennzeichen um ein weiches Zeilenende ergänzt, das ganze Wort im Text als ausgetauscht farbig markiert und als erkannt in die werkspezifische Wörterliste eingetragen.
Wird das Wort auch jetzt nicht gefunden, wird das Trennzeichen durch einen Trennvorschlag ersetzt und um ein weiches Zeilenende ergänzt. Das Wort wird als nicht erkanntes Wort im Text farbig markiert und als unbekanntes Wort in die werkspezifische Wörterliste eingetragen.
Bei Erreichen des Endes der Druckzeile wird untersucht, ob als letztes Zeichen ein Trennzeichen steht:
Ist dies der Fall, wird untersucht, ob das Wort in der nächsten Zeile mit einem Kleinbuchstaben beginnt:
Ist dies der Fall, werden die beiden Worte ohne Trennzeichen zusammengefügt und das Wort in den Wörterbüchern gesucht.
Wird das Wort gefunden, wird die Trennung dieses Wortes mit Hilfe der Trennvorgaben im Wörterbuch überprüft.
Ist die Trennung erkannt, wird das Zeilenende durch eine weiche Zeilenschaltung ersetzt und die Trennung in einen Trennvorschlag umgewandelt.
Ist die Tennung falsch, wird das Zeilenende auch ersetzt, das Wort aber farbig markiert und als erkanntes Wort mit der verwendeten Trennung in die werkspezifische Wörterliste eingetragen.
Wurde das Wort zusätzlich als kritisches Wort erkannt, wird es entsprechend farbig markiert.
Wird das Wort nicht gefunden, handelt es sich eventuell um ein gekuppeltes Wort. Die beiden Wortteile werden mit dem Trennzeichen zusammengefügt und in den Wörterbüchern gesucht.
Wird das Wort als Kuppelwort gefunden, wird der Trennstrich im Text um ein weiches Zeilenende ergänzt. Das Kuppelwort wird als bekannt in die werkspezifische Wörterliste eingetragen.
Wird das Wort als Kuppelwort gefunden, aber als kritisches Wort erkannt, wird der Trennstrich im Text um ein weiches Zeilenende ergänzt. Das Kuppelwort wird als kritisches Wort in die werkspezifische Wörterliste eingetragen und im Text farbig markiert.
Wird das Wort als Kuppelwort nicht gefunden, werden mit Hilfe der Lesefehler-Datenbank als kritisch erkannte Zeichenfolgen testweise ersetzt:
Wird das Wort jetzt gefunden, wird das Trennzeichen um ein weiches Zeilenende ergänzt, das ganze Wort im Text als ausgetauscht farbig markiert und als erkannt in die werkspezifische Wörterliste eingetragen.
Wird das Wort auch jetzt nicht gefunden, wird das Trennzeichen durch einen Trennvorschlag ersetzt und um ein weiches Zeilenende ergänzt. Das Wort wird als nicht erkanntes Wort im Text farbig markiert und als unbekanntes Wort in die werkspezifische Wörterliste eingetragen.
Beginnt das Wort in der nächsten Zeile mit einem Großbuchstaben, wird angenommen, dass es sich um ein gekuppeltes Wort handelt.
Ist es als gekuppeltes Wort im Wörterbuch vorhanden, wird es als erkanntes Wort in die werkspezifische Wörterliste eingetragen. Das Trennzeichen wird um ein weiches Zeilenende ergänzt.
Ist es nicht vorhanden, wird es durch Ersetzungen aus der Lesefehlerdatenbank solange verändert, bis es
in einem Wörterbuch gefunden wurde.
In diesem Fall wird das Trennzeichen um ein weiches Zeilenende ergänzt, das ganze Wort farbig markiert und als erkannt in die werkspezifische Wörterliste eingetragen.
nicht gefunden wurde.
In diesem Fall wird das Trennzeichen um ein weiches Zeilenende ergänzt, das Wort farbig markiert und als unbekanntes Wort in die werkspezifische Wörterliste eingetragen.
Bei Erreichen des Endes der Druckzeile wird untersucht, ob als letztes Zeichen ein Trennzeichen steht:
Ist dies der Fall, wird untersucht, ob das Wort in der nächsten Zeile mit einem Kleinbuchstaben beginnt:
Ist dies der Fall, werden die beiden Worte ohne Trennzeichen zusammengefügt und das Wort in den Wörterbüchern gesucht.
Wird das Wort gefunden, wird die Trennung dieses Wortes mit Hilfe der Trennvorgaben im Wörterbuch überprüft.
Ist die Trennung erkannt, wird das Zeilenende durch eine weiche Zeilenschaltung ersetzt und die Trennung in einen Trennvorschlag umgewandelt.
Ist die Tennung falsch, wird das Zeilenende auch ersetzt, das Wort aber farbig markiert und als erkanntes Wort mit der verwendeten Trennung in die werkspezifische Wörterliste eingetragen.
Wurde das Wort zusätzlich als kritisches Wort erkannt, wird es entsprechend farbig markiert.
Wird das Wort nicht gefunden, handelt es sich eventuell um ein gekuppeltes Wort. Die beiden Wortteile werden mit dem Trennzeichen zusammengefügt und in den Wörterbüchern gesucht.
Wird das Wort als Kuppelwort gefunden, wird der Trennstrich im Text um ein weiches Zeilenende ergänzt. Das Kuppelwort wird als bekannt in die werkspezifische Wörterliste eingetragen.
Wird das Wort als Kuppelwort gefunden, aber als kritisches Wort erkannt, wird der Trennstrich im Text um ein weiches Zeilenende ergänzt. Das Kuppelwort wird als kritisches Wort in die werkspezifische Wörterliste eingetragen und im Text farbig markiert.
Wird das Wort als Kuppelwort nicht gefunden, werden mit Hilfe der Lesefehler-Datenbank als kritisch erkannte Zeichenfolgen testweise ersetzt:
Wird das Wort jetzt gefunden, wird das Trennzeichen um ein weiches Zeilenende ergänzt, das ganze Wort im Text als ausgetauscht farbig markiert und als erkannt in die werkspezifische Wörterliste eingetragen.
Wird das Wort auch jetzt nicht gefunden, wird das Trennzeichen durch einen Trennvorschlag ersetzt und um ein weiches Zeilenende ergänzt. Das Wort wird als nicht erkanntes Wort im Text farbig markiert und als unbekanntes Wort in die werkspezifische Wörterliste eingetragen.
Beginnt das Wort in der nächsten Zeile mit einem Großbuchstaben, wird angenommen, dass es sich um ein gekuppeltes Wort handelt.
Ist es als gekuppeltes Wort im Wörterbuch vorhanden, wird es als erkanntes Wort in die werkspezifische Wörterliste eingetragen. Das Trennzeichen wird um ein weiches Zeilenende ergänzt.
Ist es nicht vorhanden, wird es durch Ersetzungen aus der Lesefehlerdatenbank solange verändert, bis es
in einem Wörterbuch gefunden wurde.
In diesem Fall wird das Trennzeichen um ein weiches Zeilenende ergänzt, das ganze Wort farbig markiert und als erkannt in die werkspezifische Wörterliste eingetragen.
nicht gefunden wurde.
In diesem Fall wird das Trennzeichen um ein weiches Zeilenende ergänzt, das Wort farbig markiert und als unbekanntes Wort in die werkspezifische Wörterliste eingetragen.
Steht am Ende der Druckzeile kein Trennzeichen, wird untersucht:
ob am Anfang der nächsten Zeile ein gößerer Leerraum steht, als in der aktuellen Zeile. In diesem Fall wird weiter untersucht, ob am Ende der aktuellen Zeile ein Satzendezeichen steht. Ist das der Fall, wird ein Absatzende angenommen und ein hartes Zeilenende ausgegeben.
ob es sich bei der aktuellen Zeile um eine kürzere Zeile handelt, d. h. Leerraum am Ende der Zeile oder die ermittelte Zeilenlänge ist kürzer als die Normzeile, das letzte Wort wäre noch trennbar und die Zeile endet mit einem Satzendezeichen. In diesem Fall wird ein Absatzende angenommen und ein hartes Zeilenende ausgegeben.
ob es sich bei der aktuellen Zeile um eine kürzere Zeile handelt, d. h. Leerraum am Ende der Zeile oder die ermittelte Zeilenlänge ist kürzer als die Normzeile, das letzte Wort wäre noch trennbar, die Zeile hat kein Satzendezeichen, aber die Folgezeile beginnt mit einem Gliederungselement oder ist sehr kurz und endet ohne Satzzeichen oder mit einem Komma. Auch hier wird ein Absatzende angenommenen und eine harte Zeilenschaltung eingefügt.
Wurde ein Gliederungselement erkannt, wird vor der nächsten Zeile ein entsprechendes Absatzformat eingefügt.
Alle anderen Zeilen werden als fortzusetzende Zeile behandelt und das Zeilenende durch die Kombination Leerzeichen und weiches Zeilenende ersetzt.
Erkannte Absätze werden abwechselnd in einer anderen Farbe markiert.
Bei Erreichen des Seitenendes wird überprüft, ob Leerraum und Anzahl erkannter Zeilen den gesamten Satzspiegel ausfüllen. Ist dies nicht der Fall, wird die Seite "als-zu-Überprüfen" markiert.
Zur Erleichterung des Korrekturvorganges wird die erzeugte Datei in das DTP-Programm Corel™-Ventura-Publisher eingelesen und eine PDF-Datei als Korrekturvorlage erzeugt. Das erzeugte Layout entspricht weitgehend der Druckvorlage und enthält als Korrekturhilfe die durch das Bearbeitungsprogramm erzeugten farbigen Korrekturhilfen.
Anschließend wird die erhaltene Wörterliste bearbeitet:
bisher unbekannt, aber sonst korrekt sind,
verifiziert durch Nachschlagewerke.
Diese Wörter werden für die Aufnahme in eines der Wörterbücher markiert.
bisher unbekannt sind,
die erkannte Schreibweise aber mit der Vorlage übereinstimmt:
bei offensichtlich falscher Schreibweise wird das Wort farbig markiert
andernfalls wird das Wort in das werkspezifische Wörterbuch aufgenommen.
die Schreibweise nicht mit der Vorlage übereinstimmt
Hier wir das Wort um das richtige Wort ergänzt und als zu Ersetzen markiert.
In der eingelesenen Datei werden alle eingegebenen Wörter ausgetauscht.
Zur Überprüfung der korrigierten Datei sollte der Vorgang ab dem 7. Schritt so lange wiederholt werden, bis in der erzeugten Wörterliste kein unbekanntes Wort mehr verzeichnet ist.
Jetzt werden die als kritisch markierten Stellen, Absätze, ggf. Trennungen, Sonderzeichen und kritische Wörter (bestimmte Umlaut- und Akzentkombinationen), deren richtige Verwendung nicht durch Wörterbücher erkannt werden können, manuell geprüft und korrigiert.
Für Sie als Kunden wird noch einmal eine PDF-Datei als Korrekturgrundlage erzeugt.
Jetzt werden durch einen Konvertierungsvorgang alle Bearbeitungsmarkierungen gelöscht und die Datei des Zielformates erzeugt, auf Wunsch komplett vorgetrennt.
Auf Wunsch wird zum Schluss das gewünschte Endprodukt (Druckvorlage, Website, Datenbank oder digitales Werk) erzeugt.
Einheitliche Gestaltung (Abstände, Anführungszeichen, Apostrophe u. ä.).
Laufende Einarbeitung neuer Erkenntnisse durch Erweiterung der Datenbank für Erkennungsfehler, permanente Pflege und Erweiterung der verwendeten Wörterbücher.
Zusätzlich zur gewünschten Zieldatei erhalten Sie:
Eine komplette Wörterliste aller verwendeten Wörter mit Erstvorkommen und Häufigkeit.
Eine PDF-Datei mit Markierungen aller als kritisch erkannten Stellen und einem fast identischen Layout der Papiervorlage.
Auf Wunsch automatisch erzeugte Inhalts- und Stichwortverzeichnisse, Verweise und Fußnoten.
Eine nach Ihren Wünschen aufbereitete Gestaltung im benötigten Zielformat.
Anzeigen Software (Adobe Photoshop Creative Suite 5):