Hallo zusammen,
ich möchte den reinen Text aus einem HTML-Sourcecode erhalten.
Hat jemand eine Idee, wie ich am besten vorgehe und was ich alles entfernen muss?
Danke.
Es gibt Bibliotheken, die HTML parsen können. Schau dir z.B. Html Agility Pack an. Das war seinerzeit nicht schlecht, hab aber schon lang nichts mehr damit (und mit .NET) gemacht.
Einen einfachen Scanner/Parser, der nur den Klartext extrahiert sollte man aber auch selber schnell schreiben können.
Hallo,
mit Bordmitteln geht's auch ziemlich einfach:
Dokument in ein WebBrowser-Control laden, und dann webBrowser.Document.Body.InnerText
auslesen.
Gruß, MarsStein
Non quia difficilia sunt, non audemus, sed quia non audemus, difficilia sunt! - Seneca