文本数据挖掘

文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。顾名思义,文本数据挖掘是从文本中进行数据挖掘(Data Mining)。从这个意义上讲,文本数据挖掘是数据挖掘的一个分支。文本数据挖掘是一个边缘学科,由机器学习、数理统计、自然语言处理等多种学科交叉形成。文本数据挖掘是应用驱动的。它在智能商务(Business Intelligence)、信息检索(Information Retrieval)、生物信息处理(Bioinformatics)等方面都有广泛的应用;例如,客户关系管理(Customer Relationship Management),互联网搜索(Web Search)等等。
在现实生活中,许多领域都不断产生海量数据,特别是海量的文本数据。怎样从这些数据中抽取和发掘有用的信息和知识已成为一个日趋重要的问题。由于这个原因,文本数据挖掘虽是一个新兴学科,但已成为一个引人瞩目,发展迅速的领域。
我们对文本数据挖掘的理解可以用图1来说明。这个图由三部分组成:底层是文本数据挖掘的基础领域,包括机器学习、数理统计、自然语言处理;在此基础上是文本数据挖掘的基本技术,有五大类,包括文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理;在基本技术之上是两个主要应用领域,包括信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤、信息报告,知识发现包括数据分析、数据预测。
总之,我们把对文本数据的分类、融合、压缩、摘要、以及从文本中抽取发现知识与信息都看作是文本数据挖掘。以下我们主要对文本数据挖掘的五大基本技术做一个综述。在五项基本技术中,文本信息抽取和文本数据压缩是文本数据挖掘特有的技术,其它三项技术在其它数据挖掘领域中也会用到。