Laden...

Webseite: Crawlen/Scrappen, HTML auslesen

Erstellt von mkolb vor 16 Tagen Letzter Beitrag vor 16 Tagen 231 Views
M
mkolb Themenstarter:in
55 Beiträge seit 2017
vor 16 Tagen
Webseite: Crawlen/Scrappen, HTML auslesen

Hallo,

ich möchte eine Webseite auslesen. Habe dazu HTMLAgility verwendet.

Wenn ich die Seite im Browser aufrufe oder auch über WebView2, dann wird alles korrekt dargestellt:
URL: https://www.finanzen.net/index/sdax/werte

Wenn ich über den Code

HtmlWeb hw = new HtmlWeb();
HtmlAgilityPack.HtmlDocument doc = hw.Load(LStr_URL);
return doc.Text;

verwende, erhalte ich nur diese Fehlermeldung zurück:

<HTML><HEAD>
<TITLE>Access Denied</TITLE>
</HEAD><BODY>
<H1>Access Denied</H1>
 
You don't have permission to access "http&#58;&#47;&#47;www&#46;finanzen&#46;net&#47;index&#47;sdax&#47;werte" on this server.<P>
Reference&#32;&#35;18&#46;cf580317&#46;1715336877&#46;eeeef10
<P>https&#58;&#47;&#47;errors&#46;edgesuite&#46;net&#47;18&#46;cf580317&#46;1715336877&#46;eeeef10</P>
</BODY>
</HTML>

Wie komme ich trotzdem an den HTML-Code, um diesen auszuwerten?

Tschau
Biker68

16.864 Beiträge seit 2008
vor 16 Tagen

Finanzen.net verbietet das Crawling und hat für sowas extra eine API.
Entsprechend haben sie auch Maßnahmen, dass Du eben nicht crawlst. Eine solche siehst Du evtl. hier.

Und da dies eine rechtlich problematische Situation ist - das Anbieten von Daten ist Teil des Geschäfts von Finanzen, daher hätten sie evtl. Schadensersatzansprüche im Fall der Fälle - werd ich Dir da auch nicht helfen, das zu umgehen. Denke da hast Verständnis für.