网络数据抽取

王朝百科·作者佚名  2010-06-11  
宽屏版  字体: |||超大  

网络数据抽取(Web data mining),主要包括结构化数据抽取(Structured Data Extraction)、信息集成(Information integreation)和观点挖掘(Opinion mining)等。是指从网络中取得大量的又利用价值的数字化信息。

结构化数据抽取(Structured Data Extraction)的目标是从Web页面中抽取结构化数据。这些结构化数据往往存储在后台数据库中,由网页按一定格式承载着展示给用户。例如论坛列表页面、Blog页面、搜索引擎结果页面等。

信息集成(Information integration)是针对结构化数据而言的。其目标是将从不同网站中抽取出的数据统一化后集成入库。其关键问题是如何从不同网站的数据表中识别出意义相同的数据并统一存储。

网络数据抽取技术流程的实现

其具体步骤如下(以最通用的‘Knowlesys采集’步骤为例)

第一步,确立采集目标,即由用户选择目标网站。

第二步:提取特征信息,即根据目标网站的网页格式,提取出采集目标数据的通性。

第三步:网络信息获取,即利用工具自动的把页面数据把存到数据库。

 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
 
© 2005- 王朝百科 版权所有