Laden...

Text aus HTML herausfiltern

Letzter Beitrag vor 7 Monaten 2 Posts 504 Views
Text aus HTML herausfiltern

Hallo,

ich habe eine HTML-Text und möchte dort die <p>-Werte auslesen.

<div class="artikel">
  <p>text1</p>
  <p>text2</p>
  <div ...>
  <p>text3</p>
  <p>text4</p>
</div>

Dabei kann allerdings mal ein anderes Tag sein, was ich nicht möchte. Ich möchte nur die Werte innerhalb <p> und </p> haben.

Habe es mit

		var doc = new HtmlDocument();
		doc.LoadHtml(html);

		          var paragraphs = doc.DocumentNode.SelectNodes("[@class='article__text']//p");
                  if (paragraphs != null)
                  {
                      foreach (var paragraph in paragraphs)
                      {
						  Console.WriteLine(paragraph.InnerText);
                      }
                  }

versucht, aber das geht nicht.

Wie mache ich es richtig?

Tschau

C# Parse HTML

https://github.com/AngleSharp/AngleSharp

--

Dein HtmlDocument aus dem Forms Namespace ist dafür nicht gedacht, siehe 2 Sekunden Blick in die Docs.

Provides top-level programmatic access to an HTML document hosted by the WebBrowser control.