Ich habe ein XML in dem die Umlaute nicht richtig decodiert sind. Ich habe das Dokument so bekommen und frage mich nun ob man diese Umlaute wieder korrekt einlesen kann.
Ich habe bereits den Text mit allen möglichen Codierungen einzulesen (UTF8, iso-8859-1,...) es werden jedoch immer merkwürdige Zeichen eingelesen (us-ascii = ???, iso-8859-1 = �, utf8 = ý).
Ich habe einmal ein Bild hochgeladen, damit ihr weisst, was ich überhaupt meine.
Ist im Dokument ein Encoding angegeben?
Ja es ist utf8 angegeben.
Der Kopf der Datei lautet:
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
C3 BC
zu lesen sein, auserdem sollten UTF8-dateien immer in den ersten 3 byte
EF BB BF
enthalten
und wenns kein UTF8 is is die XML beschreibung quark
--> beschwerde an den der das verbrochen hat 😉
"In der Informatik geht es genauso wenig um Computer wie in der Astonomie um Teleskope."
Edsger W. Dijkstra
zu 1:
Die ersten Zeichen im Dokument sind "3C 3F" was wie ich herausgefunden habe "ISO-8859-1" entspricht
Umlaute (ä, ö, ü, ß) und Sonderzeichen werden im Hexeditor (HxD) als "�" dargestellt, was dem HEX "EF BF BD" entspricht.
zu 2:
Ja ich habe auch default pobiert, ich habe alle Encoding Varianten durchprobiert, die mir "Encoding" anbietet 😉
ciao Anke
Hi hurricane,
wenn Du die Muster kennst, würde ich einfach mal Suchen/Ersetzen drüber laufen lassen, evtl. auch im Hex-Editor.
@ujr
Da alle Sonderzeichen den gleichen Code enthalten, kann ich leider nicht mit Suchen und Ersetzen ran gehen.
Es ging mir auch eigentlich generell darum, ob man die Sonderzeichen noch laden kann, wenn das XML bereits falsch formatiert wurde, wo wie in diesem Beispiel.
Da aber wirklich immer genau der selbe Hexcode verwendet wird, kann man das wohl nicht mehr gerade biegen.
trotzdem danke
sagt Anke 🙂
Da alle Sonderzeichen den gleichen Code enthalten, kann ich leider nicht mit Suchen und Ersetzen ran gehen.
Also alle ä, ö, ü sind identisch? Dann ist eine Unterscheidung sowieso unmöglich, da hilft auch kein Wechsel der Kodierung. Unterschiedliche Zeichen müssen schon als unterschiedlich zu erkennen sein.
Ja, das ist mir auch jetzt erst aufgefallen als ich mit dem HEX Editor reingeschaut habe. Keine Ahnung wie und womit derjenige es erzeugt hat 😉