批量采集

王朝百科·作者佚名  2010-05-30  
宽屏版  字体: |||超大  

一.批量采集

批量采集通常指通过搜集数据来源的共同特征,利用自动化工具来大规模的采集。

二.网络批量采集

批量采集通常是指网络批量采集,是指从互联网中别的网站大批量采集数据到您的网站数据库。

三.网络批量采集的操作

批量采集新闻、网页、论坛等的内容,再保存到数据库或发布到网站,是一个从目标网页中摘取某些数据形成统一的本地数据库的一个过程。这些数据本来只是在可见的网页中以文本形式存在。这个过程所需要的不仅仅是网页爬行器与网页包装器。一个复杂的数据抽取过程需要应付种种障碍,例如会话识别,HTML表单,客户端Java脚本,以及数据整合问题例如与数据集与单词集不一致的情况,以及缺失和冲突的数据。可以根据用户设定的规则自动采集原网页,获取格式网页中需要的内容。

四.批量采集技术

网络批量采集在经济应用已经非常广泛,国内虽然起步较晚,但是现在也有一批公司在做批量采集研究,比如深圳乐思软件就是其中的佼佼者。

 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
 
© 2005- 王朝百科 版权所有