网页抓取

王朝百科·作者佚名 2011-03-28

宽屏版字体: 小 | 中 | 大 | 超大

网页抓取主要有三个方面：

1。搜集新出现的网页；

2。搜集那些在上次搜集后有改变的网页；

3。发现自从上次搜集后已经不再存了的网页，并从库中删除。

网页抓取的优先策略：

通常是尽可能的首先抓取重要性的网页，这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。

什么是重要性高的网页呢，主要由这三个方面决定的：

1。链接欢迎度

链接欢迎度主要是由反向链接的数目和质量决定的。

2。链接重要度

链接重要度它是关于一个URL字符串的函数，仅仅考察字符串本身，它主要通过一些模式，如认为包含|“。com”，“HOME”的URL重要度高，以及包含较少斜杠的URL重要度高等。

3。平均链接的深度

平均链接的深度表示在一个种子站点集合中，每个种子站点如果存在一条链路到达该网页，那么平均链接深度又是该网页的一个链接指标，因为距离种子站点越近说明被访问的机会越多。

免责声明：本文为网络用户发布，其观点仅代表作者个人观点，与本站无关，本站仅提供信息存储服务。文中陈述内容未经本站证实，其真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

热搜词条