Entwickler-Ecke

ASP.NET und Web - kompletten quelltext ohne website zu laden auslesen


0odarkio0 - Sa 21.08.10 09:52
Titel: kompletten quelltext ohne website zu laden auslesen
hallo :)
ich würde gerne einen quelltext einer website auslesen, ohne diese website komplett laden und anzeigen zu müssen
per berfehl "webbrowser1.documenttext" funktioniert das zwar aber da muss ich ja immer erst die ganze seite laden lassen..
ohne die website zu laden hab ich folgendes versucht:
1. Versuch:

C#-Quelltext
1:
2:
3:
                // Quelltext holen
                WebClient web = new WebClient();
                string quelltext = web.DownloadString(url);


2. Versuch:

C#-Quelltext
1:
2:
3:
4:
5:
                HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);
                HttpWebResponse response = (HttpWebResponse)request.GetResponse();
                StreamReader reader = new StreamReader(response.GetResponseStream());
                string result = reader.ReadToEnd();
                response.Close();


bei den beiden versuchen bekomm ich aber immer nur die ersten 293 zeichen vom quelltext.. also nie den vollständigen
kann mir da vllt jemand weiter helfen wie ich den vollständigen quelltext auslesen kann?


Kha - Sa 21.08.10 10:37

:welcome:

Beide Methoden sollten normalerweise funktionieren, solange die Webseite selbst sich nicht querstellt. Wird da vielleicht erst mit JavaScript nachgeladen? Dann kommst du um eine Browser-Engine nicht herum.


0odarkio0 - Sa 21.08.10 11:36

ja das stimmt... mit javascript wird da nachgeladen denk ich also steht auch so im quelltext
kann ich denn dann wenigstens im webbrowser irgendwie die flash werbung usw blocken das die nicht mit geladen wird?


Kha - Sa 21.08.10 13:21

Mit dem Webbrowser kenne ich mich nicht aus, aber dass du nicht um ihn herum kommst, stimmt natürlich nicht ganz :oops: : Wenn du dir anschaust, welche Anfragen der JS-Code abschickt, kannst du sie auch mit dem WebClient abschicken.