OCR: Unterschied zwischen den Versionen
(Die Seite wurde neu angelegt: „Hier Kurzübersichten zu den zur Verfügung stehenden Zeichenerkennungs OCR-Programmen geben: =Open Source Programme= ==Tesseract (Open Source)== '''Tesseract'''…“) |
(→Open Source Programme) |
||
(Eine dazwischenliegende Version desselben Benutzers wird nicht angezeigt) | |||
Zeile 3: | Zeile 3: | ||
=Open Source Programme= | =Open Source Programme= | ||
==Tesseract (Open Source)== | ==Tesseract (Open Source)== | ||
− | '''Tesseract''' | + | '''Tesseract''' ist ein reines Zeichenerkennungs OCR/Programm ohne die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche, das jedoch auf Zeichenebene sehr gute Ergebnisse bietet. Das Programm wird aktuell von Google weiterentwickelt und steht unter einer Open-Source-Lizenz steht. Es kann dementsprechend kostenlos verwendet werden. Google benutyt das Programm auch für die OCR bei Google Books. Tesseract verarbeitet die folgenden Bildformate: |
− | + | tif, multipage tif, jpg, gif und png. Tesseract ermöglicht Texterkennung für mehr als 30 Sprachen, darunter auch Fraktur (Deutsch, Dänisch und Schwedisch). Das Programm liefert auch bei mehdrspaltigem Layout gute Ergebnisse. Allerdings ist keine grafische Benutzeroberfläche dabei (es gibt aber GUIs von Dritten) und das Layout der Seite geht komplett verloren, wobei letzteres für Wikisource kein Problem darstellt. Für die Durchführung der OCR muss man also ein klein wenig auf der Windows-Kommandozeile rumklimpern. | |
− | |||
+ | Siehe Fraktur/OCR mit Tesseract: http://www.finanzer.org/blog/2011/06/12/fraktur-ocr-mit-tessaract/ | ||
=Kommerziele Programme= | =Kommerziele Programme= | ||
==Abby-Finereader== | ==Abby-Finereader== |
Aktuelle Version vom 5. November 2012, 17:30 Uhr
Hier Kurzübersichten zu den zur Verfügung stehenden Zeichenerkennungs OCR-Programmen geben:
Inhaltsverzeichnis
Open Source Programme
Tesseract (Open Source)
Tesseract ist ein reines Zeichenerkennungs OCR/Programm ohne die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche, das jedoch auf Zeichenebene sehr gute Ergebnisse bietet. Das Programm wird aktuell von Google weiterentwickelt und steht unter einer Open-Source-Lizenz steht. Es kann dementsprechend kostenlos verwendet werden. Google benutyt das Programm auch für die OCR bei Google Books. Tesseract verarbeitet die folgenden Bildformate:
tif, multipage tif, jpg, gif und png. Tesseract ermöglicht Texterkennung für mehr als 30 Sprachen, darunter auch Fraktur (Deutsch, Dänisch und Schwedisch). Das Programm liefert auch bei mehdrspaltigem Layout gute Ergebnisse. Allerdings ist keine grafische Benutzeroberfläche dabei (es gibt aber GUIs von Dritten) und das Layout der Seite geht komplett verloren, wobei letzteres für Wikisource kein Problem darstellt. Für die Durchführung der OCR muss man also ein klein wenig auf der Windows-Kommandozeile rumklimpern.
Siehe Fraktur/OCR mit Tesseract: http://www.finanzer.org/blog/2011/06/12/fraktur-ocr-mit-tessaract/