Laden...

HTML source code aus Webseite auslesen

Erstellt von ctillmann vor 15 Jahren Letzter Beitrag vor 15 Jahren 2.185 Views
C
ctillmann Themenstarter:in
6 Beiträge seit 2009
vor 15 Jahren
HTML source code aus Webseite auslesen

Hallo zusammen,

ich versuche vergeblich den Source Code aus einer Webseite auszulesen. Der Haken bei der Sache ist, dass der innere Frame irgendwie mittels Javascript generiert wird. Den Rahmen darum bekomme ich schon, aber ich möchte den inneren Teil haben.

Code:


WebClient wClient = new WebClient();
wClient.Proxy = new WebProxy("http://proxy:8080/", true);
string sourceCode = wClient.DownloadString("https://...";);

Ergebnis:

 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">

<html>

<head>
<title>Support Forums : Error</title>
<meta http-equiv="content-type" content="text/html; charset=UTF-8">
<!--link rel="stylesheet" type="text/css" href="/forums/style/style.jsp;jsessionid=(J2EE5114900)ID1276779050DB11918465158696440375End;saplb_*=(J2EE5114900)5114950?threadID=656" /-->
<link rel="stylesheet" type="text/css" href="/forums/style/style.jsp;jsessionid=(J2EE5114900)ID1276779050DB11918465158696440375End;saplb_*=(J2EE5114900)5114950?threadID=656" />
<link rel="stylesheet" type="text/css" href="/forums/themes/sme/resources/style.css;jsessionid=(J2EE5114900)ID1276779050DB11918465158696440375End;saplb_*=(J2EE5114900)5114950?threadID=656" />
<script language="JavaScript" type="text/javascript" src="/forums/themes/sme/resources/[i]EP6PortalPageSupport.js;jsessionid=(J2EE5114900)ID1276779050DB11918465158696440375End;saplb_*=(J2EE5114900)5114950?threadID=656[/i]"></script>

</head>

<body>


<div class="jive-content">

<table width="100%" cellpadding="6" cellspacing="0" border="0">

<tr>
<td width="100%" valign="top">

Vermute, dass nach <script ... der Frame geladen und mittels Javascript "aufgelöst" wird. Wäre super, wenn jemand eine Idee hätte wie ich vielleicht mit einem Stream so etwas abgreifen kann.

Vielen Dank!

B
293 Beiträge seit 2008
vor 15 Jahren

Da müsste es zwei Möglichkeiten geben. Entweder du nimmst die zum Beispiel das Plugin Firebug (für'n Firefox) und analysierst die HTTP Header und Aufrufe und versuchst die auch von Hand zu senden, in der Hoffnung, dass du als Response den Quellcode bekommst... Oder du rufst die Seite in einem WebbrowserControl auf, wartest auf "DocumentCompleted" und holst die den Quelltext dann über "Webbrowser.DocumentText", da dies alles umfasst, sprich auch deinen "neuen Frame" der sich nur im DOM befindet...

Wenn ich nicht hier bin, findest du mich auf code-bude.net.

C
ctillmann Themenstarter:in
6 Beiträge seit 2009
vor 15 Jahren

danke erstmal für die schnelle antwort. wie funktioniert das mit dem http request? habe das noch nie gemacht.

die idee mit dem webserver control hatte ich auch schon, aber konnte das in meine .aspx seite nicht einfügen. habe vergessen zu erwähnen, dass ich eine webapplikation baue und keine windows anwendung.

Viele Grüße!

B
293 Beiträge seit 2008
vor 15 Jahren

Um welche Seite handelt es sich denn, von der du den Quelltext haben willst? Dann schau ich da mal rüber!

Wenn ich nicht hier bin, findest du mich auf code-bude.net.