Laden...

Den am Ende sichtbaren Text einer HTML-Seite exportieren

Erstellt von Ploetzi vor 12 Jahren Letzter Beitrag vor 12 Jahren 783 Views
Ploetzi Themenstarter:in
313 Beiträge seit 2006
vor 12 Jahren
Den am Ende sichtbaren Text einer HTML-Seite exportieren

Hallo,
ich möchte aus einem HTML Dokument den sichtbaren Text anzeigen.

Das hört sich erstmal einfach an. HTML Tags, per Regex entfernen. Nur dann bleibt der JS Code immer noch hierbei.

Habt ihr eine Idee wie man das machen kann?

Grüsse,

D
615 Beiträge seit 2009
vor 12 Jahren

Hallo Ploetzi

Versteh ich dich richtig, du willst den javascript code entfernen ?

Ich würde Dir das HTML Agility Pack empfehlen!

So würde das in etwa gehen :


if(node.Attributes.Any(a => a.Value.ToLower().Contains("javascript"))
 node.Remove();

Beste Grüsse

Diräkt

49.485 Beiträge seit 2005
vor 12 Jahren

Hallo Ploetzi,

den JavaScript-Quelltext zu entfernen sollte ja nicht die Klippe sein, genauso wenig wie den CSS-Quelltext. All dieser Text steht ja zwischen speziellen Tags (<script>, <style>), die man komplett mit dem durch sie eingeschlossenen Inhalt entfernen kann. Genauso wie überhaupt alles, was innerhalb von <head> steht (bzw. außerhalb von <body>).

Was anderes ist, wenn du den Text haben willst, wie er am Ende aussieht, inkl. aller Änderungen am Text, die durch JavaScript-Code durchgeführt wurden.

Was genau willst du?

herbivore

16.832 Beiträge seit 2008
vor 12 Jahren

...wobei hier auch noch die Elemente aussortiert gehören, die dem Nutzer durch CSS nicht sichtbar gemacht werden.