Laden...

Umlaute im XML falsch - Wie Datei laden?

Erstellt von hurricane vor 16 Jahren Letzter Beitrag vor 16 Jahren 6.159 Views
hurricane Themenstarter:in
379 Beiträge seit 2004
vor 16 Jahren
Umlaute im XML falsch - Wie Datei laden?

Ich habe ein XML in dem die Umlaute nicht richtig decodiert sind. Ich habe das Dokument so bekommen und frage mich nun ob man diese Umlaute wieder korrekt einlesen kann.

Ich habe bereits den Text mit allen möglichen Codierungen einzulesen (UTF8, iso-8859-1,...) es werden jedoch immer merkwürdige Zeichen eingelesen (us-ascii = ???, iso-8859-1 = �, utf8 = ý).

Ich habe einmal ein Bild hochgeladen, damit ihr weisst, was ich überhaupt meine.

S
8.746 Beiträge seit 2005
vor 16 Jahren

Ist im Dokument ein Encoding angegeben?

hurricane Themenstarter:in
379 Beiträge seit 2004
vor 16 Jahren

Ja es ist utf8 angegeben.

Der Kopf der Datei lautet:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
87 Beiträge seit 2006
vor 16 Jahren
  1. ich würde mal überprüfen ob die datei wirklich UTF8 ist, wenn die sich mit nem hex editor anschaut müsste dann da wo sich ein ü befindet ein
C3 BC

zu lesen sein, auserdem sollten UTF8-dateien immer in den ersten 3 byte

EF BB BF

enthalten
und wenns kein UTF8 is is die XML beschreibung quark
--> beschwerde an den der das verbrochen hat 😉

  1. schon mal die "default"-codierung versucht? das dürfte auf den den deutschen ms-win rechnern der Windows-1252 codierung entsprechen

"In der Informatik geht es genauso wenig um Computer wie in der Astonomie um Teleskope."
Edsger W. Dijkstra

The Humble Programmer by Edsger W. Dijkstra

hurricane Themenstarter:in
379 Beiträge seit 2004
vor 16 Jahren

zu 1:
Die ersten Zeichen im Dokument sind "3C 3F" was wie ich herausgefunden habe "ISO-8859-1" entspricht

Umlaute (ä, ö, ü, ß) und Sonderzeichen werden im Hexeditor (HxD) als "�" dargestellt, was dem HEX "EF BF BD" entspricht.

zu 2:
Ja ich habe auch default pobiert, ich habe alle Encoding Varianten durchprobiert, die mir "Encoding" anbietet 😉

ciao Anke

U
1.688 Beiträge seit 2007
vor 16 Jahren

Hi hurricane,

wenn Du die Muster kennst, würde ich einfach mal Suchen/Ersetzen drüber laufen lassen, evtl. auch im Hex-Editor.

hurricane Themenstarter:in
379 Beiträge seit 2004
vor 16 Jahren

@ujr

Da alle Sonderzeichen den gleichen Code enthalten, kann ich leider nicht mit Suchen und Ersetzen ran gehen.
Es ging mir auch eigentlich generell darum, ob man die Sonderzeichen noch laden kann, wenn das XML bereits falsch formatiert wurde, wo wie in diesem Beispiel.

Da aber wirklich immer genau der selbe Hexcode verwendet wird, kann man das wohl nicht mehr gerade biegen.

trotzdem danke

sagt Anke 🙂

U
1.688 Beiträge seit 2007
vor 16 Jahren

Da alle Sonderzeichen den gleichen Code enthalten, kann ich leider nicht mit Suchen und Ersetzen ran gehen.

Also alle ä, ö, ü sind identisch? Dann ist eine Unterscheidung sowieso unmöglich, da hilft auch kein Wechsel der Kodierung. Unterschiedliche Zeichen müssen schon als unterschiedlich zu erkennen sein.

hurricane Themenstarter:in
379 Beiträge seit 2004
vor 16 Jahren

Ja, das ist mir auch jetzt erst aufgefallen als ich mit dem HEX Editor reingeschaut habe. Keine Ahnung wie und womit derjenige es erzeugt hat 😉