Hallo,
ich möchte aus einem HTML Dokument den sichtbaren Text anzeigen.
Das hört sich erstmal einfach an. HTML Tags, per Regex entfernen. Nur dann bleibt der JS Code immer noch hierbei.
Habt ihr eine Idee wie man das machen kann?
Grüsse,
Unsere Website
iPhone Programmierung | Android Programmierung
Hallo Ploetzi
Versteh ich dich richtig, du willst den javascript code entfernen ?
Ich würde Dir das HTML Agility Pack empfehlen!
So würde das in etwa gehen :
if(node.Attributes.Any(a => a.Value.ToLower().Contains("javascript"))
node.Remove();
Beste Grüsse
Diräkt
Hallo Ploetzi,
den JavaScript-Quelltext zu entfernen sollte ja nicht die Klippe sein, genauso wenig wie den CSS-Quelltext. All dieser Text steht ja zwischen speziellen Tags (<script>, <style>), die man komplett mit dem durch sie eingeschlossenen Inhalt entfernen kann. Genauso wie überhaupt alles, was innerhalb von <head> steht (bzw. außerhalb von <body>).
Was anderes ist, wenn du den Text haben willst, wie er am Ende aussieht, inkl. aller Änderungen am Text, die durch JavaScript-Code durchgeführt wurden.
Was genau willst du?
herbivore
...wobei hier auch noch die Elemente aussortiert gehören, die dem Nutzer durch CSS nicht sichtbar gemacht werden.
- performance is a feature -
Microsoft MVP - @Website - @AzureStuttgart - github.com/BenjaminAbt - Sustainable Code