ShopBot
基于结构化或半结构化的网页信息抽取系统开发者:R. B. Doorenbos, O. Etzioni, D. S. Weld (1996/1997)[17,18]。
ShopBot 是比价代理系统,专门从网上卖家的网站上抽取信息,因此,比其他系统的局限性要大。其算法主要针对以表单形式提供查询的页面,而且返回的搜索结果是以表格形式显示的产品信息页面。从结果页面中抽取信息的技巧结合了启发式搜索、模式匹配和归纳式学习。
ShopBot的运行分两个阶段:离线学习阶段和在线比价阶段。在学习阶段,系统分析每个购物网站,获得其符号化描述,然后在比价阶段,利用获得的符号化描述,从网站上抽取信息,找到用户指定的产品的最低价格。
在学习阶段,系统利用简单的启发式方法找到正确的检索表单,学习如何向该表单发送查询请求。学习程序还必须判定查询结果页面的格式。一般包括头部、主体和尾部等三部分。头尾两部分在所有的结果页面中都是一致的,而主体则包含了想要的产品信息。结果页面的格式是通过三个步骤判定的:
第1 步:获取“找不到产品”的失败页面。用不存在的词(如“xldccxx-no-product”)作为关键字查询数据库,然后分析返回的页面。
第2 步:找到头尾部分。用可能存在的产品名称去查询数据库,通过分析返回的页面找到头尾部分。
第3 步:判定包含产品信息的主体格式。首先用HTML 标记和字串对可能的产品信息摘要进行定义和表示。
网页主体被切分成“逻辑行”,代表“垂直空格分隔”(vertical-space-delimited)的文本。学习程序用逻辑行比较不同的摘要形式,找到最佳匹配。这样可以找到产品的描述格式,但是不能归纳出信息栏的名称。最关键的价格信息是用手工编码的方法获取的。