Hallo,
ich habe eine HTML-Text und möchte dort die <p>-Werte auslesen.
<div class="artikel">
<p>text1</p>
<p>text2</p>
<div ...>
<p>text3</p>
<p>text4</p>
</div>
Dabei kann allerdings mal ein anderes Tag sein, was ich nicht möchte. Ich möchte nur die Werte innerhalb <p> und </p> haben.
Habe es mit
var doc = new HtmlDocument();
doc.LoadHtml(html);
var paragraphs = doc.DocumentNode.SelectNodes("[@class='article__text']//p");
if (paragraphs != null)
{
foreach (var paragraph in paragraphs)
{
Console.WriteLine(paragraph.InnerText);
}
}
versucht, aber das geht nicht.
Wie mache ich es richtig?
Tschau
https://github.com/AngleSharp/AngleSharp
--
Dein HtmlDocument aus dem Forms Namespace ist dafür nicht gedacht, siehe 2 Sekunden Blick in die Docs.
Provides top-level programmatic access to an HTML document hosted by the WebBrowser control.
- performance is a feature -
Microsoft MVP - @Website - @AzureStuttgart - github.com/BenjaminAbt - Sustainable Code