Rund um die Programmierung

Suche OCR API für PDFs (Free, OpenSource)

Erstellt von ZeroQool vor 11 Jahren Letzter Beitrag vor 11 Jahren 1.104 Views

ZeroQool Themenstarter:in

322 Beiträge seit 2006

vor 11 Jahren

Suche OCR API für PDFs (Free, OpenSource)

Hallo, ich suche eine OCR API für PDF Dateien. Wenn möglich nur Free oder OpenSource. Hat jemand ein paar Empfehlungen? Danke

DeZio

76 Beiträge seit 2008

vor 11 Jahren

Was genau möchtest du denn erkennen? Möchtest du den reinen Text aus PDFs haben?

ZeroQool Themenstarter:in

322 Beiträge seit 2006

vor 11 Jahren

Was genau möchtest du denn erkennen? Möchtest du den reinen Text aus PDFs haben?

Der Step vor ich den Text aus dem PDF lese. Es kann sein, dass Dokumente eingescannt worden sind, aber ohne OCR Erkennung, sprich es letztendlich nur ein "Bild" als PDF Format. Deshalb möchte ich manuell eine OCR Erkennung drüber laufen lasssen und dann via iText oder so die Texte auslesen.

Danke

DeZio

76 Beiträge seit 2008

vor 11 Jahren

Okay... Ich denke, dass du dann einen PDF-Reader für .NET brauchst, der die Bilder herausfiltert.
Diese Bilder kannst du dann, unabhängig vom PDF "Text-Erkennen lassen".

Zum ersten kann ich dir keinen Tipp geben.
Am besten ist, wenn du dir für die OCR-Library selbst ein Bild machst:

C# OCR

herbivore

49.485 Beiträge seit 2005

vor 11 Jahren

Hallo DeZio,

ich denke nicht, dass man sich selbst um die zwei Phasen (Bild aus PDF auslesen, Bild per OCR in Text umsetzen) kümmern muss, sondern dass es Tools gibt, die das auf einen Rutsch machen.

Hallo ZeroQool,

hast du es schon mal mit Google-Suche nach ocr pdf to text probiert. Die Treffer sehen doch ganz vielversprechend aus. Du kannst gerne deine Ergebnisse hier posten.

herbivore

Antwort erstellen

Dabei seit:	11.01.2005
Wohnort/Region:	Berlin