OCR
Version vom 5. November 2012, 17:30 Uhr von WikiSysop (Diskussion | Beiträge) (→Open Source Programme)
Hier Kurzübersichten zu den zur Verfügung stehenden Zeichenerkennungs OCR-Programmen geben:
Inhaltsverzeichnis
Open Source Programme
Tesseract (Open Source)
Tesseract ist ein reines Zeichenerkennungs OCR/Programm ohne die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche, das jedoch auf Zeichenebene sehr gute Ergebnisse bietet. Das Programm wird aktuell von Google weiterentwickelt und steht unter einer Open-Source-Lizenz steht. Es kann dementsprechend kostenlos verwendet werden. Google benutyt das Programm auch für die OCR bei Google Books. Tesseract verarbeitet die folgenden Bildformate:
tif, multipage tif, jpg, gif und png. Tesseract ermöglicht Texterkennung für mehr als 30 Sprachen, darunter auch Fraktur (Deutsch, Dänisch und Schwedisch). Das Programm liefert auch bei mehdrspaltigem Layout gute Ergebnisse. Allerdings ist keine grafische Benutzeroberfläche dabei (es gibt aber GUIs von Dritten) und das Layout der Seite geht komplett verloren, wobei letzteres für Wikisource kein Problem darstellt. Für die Durchführung der OCR muss man also ein klein wenig auf der Windows-Kommandozeile rumklimpern.
Siehe Fraktur/OCR mit Tesseract: http://www.finanzer.org/blog/2011/06/12/fraktur-ocr-mit-tessaract/