myCSharp.de - DIE C# und .NET Community
Willkommen auf myCSharp.de! Anmelden | kostenlos registrieren
 
 | Suche | FAQ

» Hauptmenü
myCSharp.de
» Startseite
» Forum
» FAQ
» Artikel
» C#-Snippets
» Jobbörse
» Suche
» Regeln
» Wie poste ich richtig?
» Forum-FAQ

Mitglieder
» Liste / Suche
» Wer ist wo online?

Ressourcen
» openbook: Visual C#
» openbook: OO
» Microsoft Docs

Team
» Kontakt
» Übersicht
» Wir über uns

» myCSharp.de Diskussionsforum
Du befindest Dich hier: Community-Index » Diskussionsforum » Entwicklung » Rund um die Programmierung » Daten aus pdf im xml-Format oder doch eher in einem anderen Format zur Verfügung stellen?
Letzter Beitrag | Erster ungelesener Beitrag Druckvorschau | Thema zu Favoriten hinzufügen

Antwort erstellen
Zum Ende der Seite springen  

Daten aus pdf im xml-Format oder doch eher in einem anderen Format zur Verfügung stellen?

 
Autor
Beitrag « Vorheriges Thema | Nächstes Thema »
gkd gkd ist männlich
myCSharp.de-Mitglied

Dabei seit: 20.02.2020
Beiträge: 3
Herkunft: Innsbruck


gkd ist offline

Daten aus pdf im xml-Format oder doch eher in einem anderen Format zur Verfügung stellen?

Beitrag: beantworten | zitieren | editieren | melden/löschen       | Top

Guten Morgen zusammen,

hatte gestern abend noch eine lustige Unterhaltung mit einem Bekannten zum Thema "Datenaufbereitung aus pdf".
Nachdem ich ihn davon überzeugt hatte, dass man Daten aus pdf-Files sehr gut exportieren kann (wo er davor noch der Meinung war das sowas nicht funktionieren kann), sind wir beim Dateiformat hängen geblieben.

Er meint er würde es als json-Datei zur Verfügung stellen, mein Favourit wäre als xml-Datei.

Wir haben uns dann mal gedacht, wir lassen mal eine ganze Entwickler-Community darüber philosophieren was intelligenter ist.

Also, was meint ihr? Was ist gescheider? Gibt es ansonnsten ein anderes Format das sich besser eignen würde?

Die Daten sollen am Ende in einer Datenbank gespeichert werden können.

Wünsch euch einen schönen Tag,

Verschneite Grüsse aus Tirol
Neuer Beitrag 27.02.2020 08:01 E-Mail | Beiträge des Benutzers | zu Buddylist hinzufügen
Alf Ator
myCSharp.de-Mitglied

avatar-586.gif


Dabei seit: 30.10.2007
Beiträge: 594
Entwicklungsumgebung: VS2005 / VS2008


Alf Ator ist offline

Beitrag: beantworten | zitieren | editieren | melden/löschen       | Top

Hallo gkd

Zitat von gkd:
Nachdem ich ihn davon überzeugt hatte, dass man Daten aus pdf-Files sehr gut exportieren kann

Kannst du uns davon auch überzeugen?


Abgesehen davon, ob json oder xml, es kommt natürlich auf den Anwendungsfall an. Brauche ich xml nicht aus einem bestimmten Grund, verwende ich eher json, weil es etwas schlanker ist und mit newtonsoft so schön einfach zu verwenden.

Gruß
Alf
Neuer Beitrag 27.02.2020 09:25 E-Mail | Beiträge des Benutzers | zu Buddylist hinzufügen
gfoidl gfoidl ist männlich
myCSharp.de-Team

avatar-2894.jpg


Dabei seit: 07.06.2009
Beiträge: 6.629
Entwicklungsumgebung: VS 2019
Herkunft: Waidring


gfoidl ist offline

Beitrag: beantworten | zitieren | editieren | melden/löschen       | Top

Hallo gkd,

Zitat:
Daten aus pdf-Files sehr gut exportieren kann

Afaik direkt mit den Adobe-Methoden vom PDF ist das XML passender und JSON ein Murks wegen der ganzen Meta-Infos.
Exportiere mal versuchsweise in beide Formate und schau dir dann -- wie auch Alf Ator meint -- den für euren Anwendungsfall passenden Weg an.

In Zusammenhang mit dem LiveCycle-Server von Adobe hat XML Vorteile, da so aus dem XML + der Dokumentvorlage (XDP) wieder ein PDF erstellt werden kann.

Die Frage nach dem "besser" von XML od. JSON kann nicht pauschal beantwortet werden.
Wenn ein XSLT-Prozessor verwendet werden soll, so macht JSON nicht viel Sinn um nur ein Beispiel zu nennen.

Zitat:
Die Daten sollen am Ende in einer Datenbank gespeichert werden können.

Das könnte für JSON sprechen, v.a. dann wenn eine entsprechende Dokument-DB verwendet wird, welche JSON bestens unterstützt.

mfG Gü
Neuer Beitrag 27.02.2020 09:55 Beiträge des Benutzers | zu Buddylist hinzufügen
M.L.
myCSharp.de-Mitglied

Dabei seit: 26.09.2006
Beiträge: 207
Entwicklungsumgebung: VS Community '19


M.L. ist offline

Beitrag: beantworten | zitieren | editieren | melden/löschen       | Top

Zitat:
man Daten aus pdf-Files sehr gut exportieren kann

Das kann mit geeigneten Werkzeugen sogar stimmen. Aber wenn die Quell-pdf-Datei aus Bildern besteht (Stichwort Freepdf oder print2pdf) hat man bzgl. Text- oder anderer Daten ein kleines Problem...
Neuer Beitrag 27.02.2020 10:56 E-Mail | Beiträge des Benutzers | zu Buddylist hinzufügen
Abt
myCSharp.de-Team

avatar-4119.png


Dabei seit: 20.07.2008
Beiträge: 13.560
Herkunft: Stuttgart/Stockholm


Abt ist offline

Beitrag: beantworten | zitieren | editieren | melden/löschen       | Top

Zitat von gkd:
Nachdem ich ihn davon überzeugt hatte, dass man Daten aus pdf-Files sehr gut exportieren kann

Also man muss es einfach so sagen: Daten aus PDF Dateien sind pauschal richtig beschissen zu exportieren.
Es gibt keine Garantie, dass Inhalte so gespeichert sind, wie sie dargestellt werden; ganz oft sind automatisierte Dokumente oder eben von freien Tools einfach nur Bilder.

Gute bzw. gut zu verarbeitende Inhalte bekommt man fast nur von offiziellen Adobe Produkten oder von großen Software Produkten wie die Office Suite - und auch hier nicht immer 100%.
PDF ist - im Groben und Ganzen - einfach nur (aus technisch konsumierenden Sicht) ein richtig beschissenes Datenformat.
Neuer Beitrag 27.02.2020 11:14 Beiträge des Benutzers | zu Buddylist hinzufügen
gkd gkd ist männlich
myCSharp.de-Mitglied

Dabei seit: 20.02.2020
Beiträge: 3
Herkunft: Innsbruck

Themenstarter Thema begonnen von gkd

gkd ist offline

Beitrag: beantworten | zitieren | editieren | melden/löschen       | Top

Hallo Alf,

zuerst mal vielen Dank für deine Antwort.

Entweder mit dem iText.Sharp oder unter Linux/Mac mit pdfgrep.
Das es mit JSON schlanker wäre, hab ich auch schon mehrfach gelesen / gehört.
Werd es mir mal anschauen.



Hallo Gü,

danke auch dir für deine Antwort.

Hat definitiv ihren Vorteil darin, das dem Benutzer / Kunden die Daten in einem Design seiner Wahl präsentiert werden kann.

Soweit haben wir dies dann nicht beredet, da wir hier uns hauptsächlich rein ums exportieren der Daten geredet haben.
Aber ist definitiv guter Stoff für weitere Fach-Simpeleien. :D

Zitat von M.L.:
Zitat:
man Daten aus pdf-Files sehr gut exportieren kann

Das kann mit geeigneten Werkzeugen sogar stimmen. Aber wenn die Quell-pdf-Datei aus Bildern besteht (Stichwort Freepdf oder print2pdf) hat man bzgl. Text- oder anderer Daten ein kleines Problem...

Hallo M.L,

für Bilddaten wäre hier dann eher der Weg über Python zu gehen, oder?

Zitat von Abt:
Zitat von gkd:
Nachdem ich ihn davon überzeugt hatte, dass man Daten aus pdf-Files sehr gut exportieren kann

Also man muss es einfach so sagen: Daten aus PDF Dateien sind pauschal richtig beschissen zu exportieren.
Es gibt keine Garantie, dass Inhalte so gespeichert sind, wie sie dargestellt werden; ganz oft sind automatisierte Dokumente oder eben von freien Tools einfach nur Bilder.

Gute bzw. gut zu verarbeitende Inhalte bekommt man fast nur von offiziellen Adobe Produkten oder von großen Software Produkten wie die Office Suite - und auch hier nicht immer 100%.
PDF ist - im Groben und Ganzen - einfach nur (aus technisch konsumierenden Sicht) ein richtig beschissenes Datenformat.

Mit exportieren der Daten aus dem pdf allein ist es nicht getan, das stimmt.

Wie würdest du die Daten zur Verfügung stellen, damit Sie nicht von jedem manipuliert werden können?
Neuer Beitrag 27.02.2020 11:27 E-Mail | Beiträge des Benutzers | zu Buddylist hinzufügen
gfoidl gfoidl ist männlich
myCSharp.de-Team

avatar-2894.jpg


Dabei seit: 07.06.2009
Beiträge: 6.629
Entwicklungsumgebung: VS 2019
Herkunft: Waidring


gfoidl ist offline

Beitrag: beantworten | zitieren | editieren | melden/löschen       | Top

Hallo gkd,

Zitat:
für Bilddaten wäre hier dann eher der Weg über Python zu gehen, oder?

Warum kommst du auf Python? Geht mit .NET genauso.

Zitat:
gut zu verarbeitende Inhalte bekommt man fast nur von offiziellen Adobe Produkten

Stimmt und das lässt sich Adobe auch recht gut bezahlen ;-)

Zitat:
Wie würdest du die Daten zur Verfügung stellen, damit Sie nicht von jedem manipuliert werden können?

Was meinst du mit "zur Verfügung stellen"?
Als Dokument zum Weiterreichen? Dazu gibt es Signaturen.

mfG Gü
Neuer Beitrag 27.02.2020 12:34 Beiträge des Benutzers | zu Buddylist hinzufügen
gkd gkd ist männlich
myCSharp.de-Mitglied

Dabei seit: 20.02.2020
Beiträge: 3
Herkunft: Innsbruck

Themenstarter Thema begonnen von gkd

gkd ist offline

Beitrag: beantworten | zitieren | editieren | melden/löschen       | Top

großes Grinsen stimmt. smile Hier war schneller getippt als wie nachgedacht. Danke für den Hinweis.
Neuer Beitrag 27.02.2020 20:40 E-Mail | Beiträge des Benutzers | zu Buddylist hinzufügen
Baumstruktur | Brettstruktur       | Top 
myCSharp.de | Forum Der Startbeitrag ist älter als ein Monat.
Der letzte Beitrag ist älter als ein Monat.
Antwort erstellen


© Copyright 2003-2020 myCSharp.de-Team | Impressum | Datenschutz | Alle Rechte vorbehalten. | Dieses Portal verwendet zum korrekten Betrieb Cookies. 29.03.2020 10:35