Hallo, ich suche eine OCR API für PDF Dateien. Wenn möglich nur Free oder OpenSource. Hat jemand ein paar Empfehlungen? Danke
Was genau möchtest du denn erkennen? Möchtest du den reinen Text aus PDFs haben?
Was genau möchtest du denn erkennen? Möchtest du den reinen Text aus PDFs haben?
Der Step vor ich den Text aus dem PDF lese. Es kann sein, dass Dokumente eingescannt worden sind, aber ohne OCR Erkennung, sprich es letztendlich nur ein "Bild" als PDF Format. Deshalb möchte ich manuell eine OCR Erkennung drüber laufen lasssen und dann via iText oder so die Texte auslesen.
Danke
Okay... Ich denke, dass du dann einen PDF-Reader für .NET brauchst, der die Bilder herausfiltert.
Diese Bilder kannst du dann, unabhängig vom PDF "Text-Erkennen lassen".
Zum ersten kann ich dir keinen Tipp geben.
Am besten ist, wenn du dir für die OCR-Library selbst ein Bild machst:
Hallo DeZio,
ich denke nicht, dass man sich selbst um die zwei Phasen (Bild aus PDF auslesen, Bild per OCR in Text umsetzen) kümmern muss, sondern dass es Tools gibt, die das auf einen Rutsch machen.
Hallo ZeroQool,
hast du es schon mal mit Google-Suche nach ocr pdf to text probiert. Die Treffer sehen doch ganz vielversprechend aus. Du kannst gerne deine Ergebnisse hier posten.
herbivore