Laden...

TIFF Dokumente in Text umwandeln (OCR) ??

Erstellt von #coder# vor 12 Jahren Letzter Beitrag vor 12 Jahren 3.299 Views
#coder# Themenstarter:in
395 Beiträge seit 2008
vor 12 Jahren
TIFF Dokumente in Text umwandeln (OCR) ??

Hallo, ich habe eine Frage, wie kann man aus einem TIFF Dokument über ein OCR Modul oder ähnliches reinen Text auslesen und später speichern (Text, PDF)? Gibt es hierfür evtl. schon fertige bzw kommerzielle Tools, Module??

297 Beiträge seit 2008
vor 12 Jahren

Hi,

ich habe früher in einem Projekt mal den FineReader von Abbyy verwendet, damit hat es wunderbar geklappt TIFF-Dateien zu analysieren.

Schöne Grüsse

There are 10 kind of people, those who understand binary and those who don't.

E
180 Beiträge seit 2010
vor 12 Jahren

Frage: wie präzise war denn die Konvertierung, und was für Dokumente hattet ihr im Einsatz beim Test bzw. dann im Release. Spiele auch schon seit längerem mit dem Gedanken, aber bisher waren die OCR Ergebnisse leider unbrauchbar und schafften mehr Nacharbeit als Nutzen. Getestet hatten wir es mit Tabellenstrukturen (und vergleichbares) von Lebensläufen glaube mit Omnipage.

Gruß

1.820 Beiträge seit 2005
vor 12 Jahren

Hallo!

Microsoft hat in den Office-Paketen eine OCR-Schnittstelle (MODI), dazu gibt's auch auf CodeProject ein Projekt.

Nobody is perfect. I'm sad, i'm not nobody 🙁

297 Beiträge seit 2008
vor 12 Jahren

Wir haben die TIFF-Dokumente (in der Regel Rechnungen) mit der OCR-Software verarbeitet und anschliessend die Positionen der einzelnen Wörter extrahiert. Die Qualität der Ergebnisse war eigentlich ziemlich gut, allerdings hat die Verarbeitung ein wenig gedauert.
Ansonsten wurden eigentlich alle Texte erkannt und auch richtig verarbeitet. Dazu zählten Tabellen, Fliesstexte und Aufzählungen.

There are 10 kind of people, those who understand binary and those who don't.

502 Beiträge seit 2004
vor 12 Jahren

Von Google gibt's die OCR-Engine namens Tesseract for free - die kann per Kommandozeile (und Configfiles) gesteuert werden und das Ergebnis (inkl. Positionsdaten für Zeichen, Wörter, etc.) als XML ausgeben.
Es gibt auch einen Port nach .net - aber meine bisherige Erfahrung sagt mir, dass man davon die Finger lassen sollte. Aber die Kommandozeile ist echt gut.

Bart Simpson

Praxis ist wenn alles funktioniert und keiner weiss warum.
Theorie ist wenn man alles weiss, aber nichts funktioniert.

Bei uns wird Theorie und Praxis vereint: Nichts funktioniert und keiner weiss warum...