网络爬虫二

博学而笃志切问而近思仁在其中

详情

网络爬虫二

作者：Aliot 发布时间：2017-07-11 评论：0 阅读：0

RequestState的定义是

1 class RequestState

2 {

3 private const int BUFFER_SIZE = 131072; //接收数据包的空间大小

4 private byte[] _data = new byte[BUFFER_SIZE]; //接收数据包的buffer

5 private StringBuilder _sb = new StringBuilder(); //存放所有接收到的字符

7 public HttpWebRequest Req { get; private set; } //请求

8 public string Url { get; private set; } //请求的URL

9 public int Depth { get; private set; } //此次请求的相对深度

10 public int Index { get; private set; } //工作实例的编号

11 public Stream ResStream { get; set; } //接收数据流

12 public StringBuilder Html

13 {

14 get

15 {

16 return _sb;

17 }

18 }

20 public byte[] Data

21 {

22 get

23 {

24 return _data;

25 }

26 }

28 public int BufferSize

29 {

30 get

31 {

32 return BUFFER_SIZE;

33 }

34 }

36 public RequestState(HttpWebRequest req, string url, int depth, int index)

37 {

38 Req = req;

39 Url = url;

40 Depth = depth;

41 Index = index;

42 }

43 }

TimeoutCallback的定义是

1 private void TimeoutCallback(object state, bool timedOut)

2 {

3 if (timedOut) //判断是否是超时

4 {

5 RequestState rs = state as RequestState;

6 if (rs != null)

7 {

8 rs.Req.Abort(); //撤销请求

9 }

10 _reqsBusy[rs.Index] = false; //重置工作状态

11 DispatchWork(); //分配新任务

12 }

13 }

接下来就是要处理请求的响应了

1 private void ReceivedResource(IAsyncResult ar)
2 {
3     RequestState rs = (RequestState)ar.AsyncState; //得到请求时传入的参数
4     HttpWebRequest req = rs.Req;
5     string url = rs.Url;
6     try
7     {
8         HttpWebResponse res = (HttpWebResponse)req.EndGetResponse(ar); //获取响应
9         if (_stop) //判断是否中止下载
10         {
11             res.Close();
12             req.Abort();
13             return;
14         }
15         if (res != null && res.StatusCode == HttpStatusCode.OK) //判断是否成功获取响应
16         {
17             Stream resStream = res.GetResponseStream(); //得到资源流
18             rs.ResStream = resStream;
19             var result = resStream.BeginRead(rs.Data, 0, rs.BufferSize, //异步请求读取数据
20                 new AsyncCallback(ReceivedData), rs);
21         }
22         else //响应失败
23         {
24             res.Close();
25             rs.Req.Abort();
26             _reqsBusy[rs.Index] = false; //重置工作状态
27             DispatchWork(); //分配新任务
28         }
29     }
30     catch (WebException we)
31     {
32         MessageBox.Show("ReceivedResource " + we.Message + url + we.Status);
33     }
34 }

第19行这里采用了异步的方法来读数据流是因为我们之前采用了异步的方式请求，不然的话不能够正常的接收数据。

该异步读取的方式是按包来读取的，所以一旦接收到一个包就会调用传入的回调方法ReceivedData，然后在该方法中处理收到的数据。
该方法同时传入了接收数据的空间rs.Data和空间的大小rs.BufferSize。

接下来是接收数据和处理

1 private void ReceivedData(IAsyncResult ar)
2 {
3     RequestState rs = (RequestState)ar.AsyncState; //获取参数
4     HttpWebRequest req = rs.Req;
5     Stream resStream = rs.ResStream;
6     string url = rs.Url;
7     int depth = rs.Depth;
8     string html = null;
9     int index = rs.Index;
10     int read = 0;
11
12     try
13     {
14         read = resStream.EndRead(ar); //获得数据读取结果
15         if (_stop)//判断是否中止下载
16         {
17             rs.ResStream.Close();
18             req.Abort();
19             return;
20         }
21         if (read > 0)
22         {
23             MemoryStream ms = new MemoryStream(rs.Data, 0, read); //利用获得的数据创建内存流
24             StreamReader reader = new StreamReader(ms, _encoding);
25             string str = reader.ReadToEnd(); //读取所有字符
26             rs.Html.Append(str); // 添加到之前的末尾
27             var result = resStream.BeginRead(rs.Data, 0, rs.BufferSize, //再次异步请求读取数据
28                 new AsyncCallback(ReceivedData), rs);
29             return;
30         }
31         html = rs.Html.ToString();
32         SaveContents(html, url); //保存到本地
33         string[] links = GetLinks(html); //获取页面中的链接
34         AddUrls(links, depth + 1); //过滤链接并添加到未下载集合中
35
36         _reqsBusy[index] = false; //重置工作状态
37         DispatchWork(); //分配新任务
38     }
39     catch (WebException we)
40     {
41         MessageBox.Show("ReceivedData Web " + we.Message + url + we.Status);
42     }
43 }

第14行获得了读取的数据大小read，如果read>0说明数据可能还没有读完，所以在27行继续请求读下一个数据包；
如果read<=0说明所有数据已经接收完毕，这时rs.Html中存放了完整的HTML数据，就可以进行下一步的处理了。

上一篇：网络爬虫一

下一篇：测试

loading......