Hallo, ich habe eine Frage, wie kann man aus einem TIFF Dokument über ein OCR Modul oder ähnliches reinen Text auslesen und später speichern (Text, PDF)? Gibt es hierfür evtl. schon fertige bzw kommerzielle Tools, Module??
Hi,
ich habe früher in einem Projekt mal den FineReader von Abbyy verwendet, damit hat es wunderbar geklappt TIFF-Dateien zu analysieren.
Schöne Grüsse
There are 10 kind of people, those who understand binary and those who don't.
Frage: wie präzise war denn die Konvertierung, und was für Dokumente hattet ihr im Einsatz beim Test bzw. dann im Release. Spiele auch schon seit längerem mit dem Gedanken, aber bisher waren die OCR Ergebnisse leider unbrauchbar und schafften mehr Nacharbeit als Nutzen. Getestet hatten wir es mit Tabellenstrukturen (und vergleichbares) von Lebensläufen glaube mit Omnipage.
Gruß
Hallo!
Microsoft hat in den Office-Paketen eine OCR-Schnittstelle (MODI), dazu gibt's auch auf CodeProject ein Projekt.
Nobody is perfect. I'm sad, i'm not nobody 🙁
Wir haben die TIFF-Dokumente (in der Regel Rechnungen) mit der OCR-Software verarbeitet und anschliessend die Positionen der einzelnen Wörter extrahiert. Die Qualität der Ergebnisse war eigentlich ziemlich gut, allerdings hat die Verarbeitung ein wenig gedauert.
Ansonsten wurden eigentlich alle Texte erkannt und auch richtig verarbeitet. Dazu zählten Tabellen, Fliesstexte und Aufzählungen.
There are 10 kind of people, those who understand binary and those who don't.
Von Google gibt's die OCR-Engine namens Tesseract for free - die kann per Kommandozeile (und Configfiles) gesteuert werden und das Ergebnis (inkl. Positionsdaten für Zeichen, Wörter, etc.) als XML ausgeben.
Es gibt auch einen Port nach .net - aber meine bisherige Erfahrung sagt mir, dass man davon die Finger lassen sollte. Aber die Kommandozeile ist echt gut.
Bart Simpson
Praxis ist wenn alles funktioniert und keiner weiss warum.
Theorie ist wenn man alles weiss, aber nichts funktioniert.
Bei uns wird Theorie und Praxis vereint: Nichts funktioniert und keiner weiss warum...