Basistechnologien und allgemeine .NET-Klassen

Text aus HTML-Seite extrahieren

Erstellt von Christoph K. vor 8 Jahren Letzter Beitrag vor 8 Jahren 1.454 Views

Antwort erstellen

Christoph K. Themenstarter:in

821 Beiträge seit 2009

vor 8 Jahren

Text aus HTML-Seite extrahieren

Hallo zusammen,

ich möchte den reinen Text aus einem HTML-Sourcecode erhalten.

Hat jemand eine Idee, wie ich am besten vorgehe und was ich alles entfernen muss?

Danke.

Coder007

1.214 Beiträge seit 2006

vor 8 Jahren

Es gibt Bibliotheken, die HTML parsen können. Schau dir z.B. Html Agility Pack an. Das war seinerzeit nicht schlecht, hab aber schon lang nichts mehr damit (und mit .NET) gemacht.
Einen einfachen Scanner/Parser, der nur den Klartext extrahiert sollte man aber auch selber schnell schreiben können.

MarsStein

3.170 Beiträge seit 2006

vor 8 Jahren

Hallo,

mit Bordmitteln geht's auch ziemlich einfach:
Dokument in ein WebBrowser-Control laden, und dann webBrowser.Document.Body.InnerText auslesen.

Gruß, MarsStein

Non quia difficilia sunt, non audemus, sed quia non audemus, difficilia sunt! - Seneca

Antwort erstellen

Dabei seit:	14.02.2009
Wohnort/Region:	Köln

Dabei seit:	27.06.2006
Wohnort/Region:	Trier -> München