Laden...

Text aus HTML-Seite extrahieren

Erstellt von Christoph K. vor 8 Jahren Letzter Beitrag vor 8 Jahren 1.451 Views
Christoph K. Themenstarter:in
821 Beiträge seit 2009
vor 8 Jahren
Text aus HTML-Seite extrahieren

Hallo zusammen,

ich möchte den reinen Text aus einem HTML-Sourcecode erhalten.

Hat jemand eine Idee, wie ich am besten vorgehe und was ich alles entfernen muss?

Danke.

C
1.214 Beiträge seit 2006
vor 8 Jahren

Es gibt Bibliotheken, die HTML parsen können. Schau dir z.B. Html Agility Pack an. Das war seinerzeit nicht schlecht, hab aber schon lang nichts mehr damit (und mit .NET) gemacht.
Einen einfachen Scanner/Parser, der nur den Klartext extrahiert sollte man aber auch selber schnell schreiben können.

3.170 Beiträge seit 2006
vor 8 Jahren

Hallo,

mit Bordmitteln geht's auch ziemlich einfach:
Dokument in ein WebBrowser-Control laden, und dann webBrowser.Document.Body.InnerText auslesen.

Gruß, MarsStein

Non quia difficilia sunt, non audemus, sed quia non audemus, difficilia sunt! - Seneca