Hier Kurzübersichten zu den zur Verfügung stehenden Zeichenerkennungs OCR-Programmen geben:

Inhaltsverzeichnis

1 Open Source Programme
- 1.1 Tesseract (Open Source)
2 Kommerziele Programme
- 2.1 Abby-Finereader

Open Source Programme

Tesseract (Open Source)

Tesseract ist ein reines Zeichenerkennungs OCR/Programm ohne die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche, das jedoch auf Zeichenebene sehr gute Ergebnisse bietet. Das Programm wird aktuell von Google weiterentwickelt und steht unter einer Open-Source-Lizenz steht. Es kann dementsprechend kostenlos verwendet werden. Google benutyt das Programm auch für die OCR bei Google Books. Tesseract verarbeitet die folgenden Bildformate:

tif, multipage tif, jpg, gif und png. Tesseract ermöglicht Texterkennung für mehr als 30 Sprachen, darunter auch Fraktur (Deutsch, Dänisch und Schwedisch). Das Programm liefert auch bei mehdrspaltigem Layout gute Ergebnisse. Allerdings ist keine grafische Benutzeroberfläche dabei (es gibt aber GUIs von Dritten) und das Layout der Seite geht komplett verloren, wobei letzteres für Wikisource kein Problem darstellt. Für die Durchführung der OCR muss man also ein klein wenig auf der Windows-Kommandozeile rumklimpern.

Siehe Fraktur/OCR mit Tesseract: http://www.finanzer.org/blog/2011/06/12/fraktur-ocr-mit-tessaract/

OCR

Inhaltsverzeichnis

Open Source Programme

Tesseract (Open Source)

Kommerziele Programme

Abby-Finereader

Navigationsmenü

Meine Werkzeuge

Namensräume

Varianten

Ansichten

Mehr

Suche

Navigation

Specials

Werkzeuge