Laden...

Gesamte Webseite downloaden und speichern

Erstellt von Underscare vor 10 Jahren Letzter Beitrag vor 10 Jahren 4.289 Views
U
Underscare Themenstarter:in
195 Beiträge seit 2006
vor 10 Jahren
Gesamte Webseite downloaden und speichern

Hallo zusammen,

ich suche nach einer Möglichkeit, wie ich eine komplette Webseite herunterladen und in einer DB speicher kann. Hierbei sollen vor allen Dingen auch die Bilder mit geladen und gespeichert werden.

Benutzt werden soll es für einen Bewerbungsmanager, den ich hier sogar vor gefühlten 20 Jahren mal vorgestellt habe. Soll nun endlich fertig gestellt werden 😉. Es geht darum, die Stellenbeschreibung von einem Jobportal speichern zu können, damit man die Beschreibung auch später noch lesen kann, wenn sie bereits entfernt wurde. Muss VB.NET nutzen.

Wie man den Quelltext herunterladen kann, weiß ich. Ich dachte mir, vielleicht kennt jemand ja eine elegante, einfache Möglichkeit, die gesamte Seite zu speichern. Muss später nur wieder innerhalb der Anwendung in einem WebView angezeigt werden.

Vielen Dank!

5.658 Beiträge seit 2006
vor 10 Jahren

Hi Underscare,

am einfachsten wäre es, die gesamte Webseite runterzuladen und in einem Zip-Archiv zu speichern. Damit umgehst du das Problem, hinterher das HTML mit den StyleSheets und Bildern wieder zusammenzuführen. Dazu müßtest du per WebClient die HTML-Seite runterladen und dann die Resourcen herausparsen (CSS, JS, Bilder...) und diese dann auch per WebClient herunterladen.

Christian

Weeks of programming can save you hours of planning

742 Beiträge seit 2005
vor 10 Jahren

Das sollte auch manuell relativ einfach gehen, z.B. mit diesem Projekt: http://htmlagilitypack.codeplex.com/.

Einfach alle script und images und style-tags durchgehen und links verfolgen, runterladen und vor dem abspeichern ändern. Dann für alle css dateien nach resourcen url(..) schauen und das gleiche spiel nochmal.

U
Underscare Themenstarter:in
195 Beiträge seit 2006
vor 10 Jahren

Erst einmal danke für eure Antworten! Schade, doch etwas mehr Aufwand als gedacht. Hatte in meiner Naivität gehofft die Seite mit einer Art InputStream einlesen zu können bzw. Di. Komplette Seit statisch in eine, Objekt zu speichern und das unfachmännisch zu serialisieren 😄. Aber dann werden wir (sind zu zweit) uns das mal mit dem parsen angucken müssen.

175 Beiträge seit 2010
vor 10 Jahren

Hi,

noch 3 Links/Tips dazu....

  1. Du könntest ja als Start Dir die Web Spider Library mal ansehen.

  2. Eine auch im Internet oft vorgeschlagene Lösung ist, mit einem WebControl die Seite aufzumachen und dann die Methode ShowSaveAsDialog aufzurufen (und dann eben per Programm "fernzubedienen"). Mir ist das Verhalten dieser Methode nicht bekannt - aber ggf. ist es ja möglich den "SaveAs" Dialog hidden zu gestalten (oder per Hook abzufangen) damit ihn keiner sieht....

  3. Ich bin mir nicht sicher.... Das Tool wget kann auf jeden Fall eine Website "komplett" downloaden. Ich weiss jetzt aber nicht, ob er dann auch die Links entsprechend anpasst. Will damit sagen, ggf. findest Du ja irgendwo ein Kommandozeilenutility dass tut was Du willst - dann wäre es ggf. eine Alternative dieses zu verwenden....

Bye,
Michael

Debuggers don't remove Bugs, they only show them in Slow-Motion.

F
10.010 Beiträge seit 2004
vor 10 Jahren

Was scheinbar 99% aller Leute mit denen ich rede nicht wissen ist, das es eine RFC 2557 zu Webarchiven gibt, die eine Webseite incl. aller enthaltenen Links ( also auch bilder, css und js ) speichern kann.

Die meisten glauben das das ein undokumentiertes MS Format ist.

Convert any URL to a MHTML archive using native .NET code