文本分类
文本自动分类 Automatic Text Categorization
何谓文本自动分类:
用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记
基於分类体系的自动分类
基於资讯过滤和用户兴趣(Profiles)的自动分类
基於分类体系的自动分类
所谓分类体系就是针对词的统计来分类
关键字分类,现在的全文检索
词的正确切分不易分辨(白痴造句法)
基於资讯过滤和用户兴趣的自动分类
学习人类对文本分类的知识和策略
从人对文本和类别之间相关性判断来学习文件用字和标记类别之间的关联
请参考:
n F. Sebastiani. “Machine learning in automated text categorization.” ACM Computing Surveys, 34(1), pp. 1-47, 2002. (.pdf)
n M. Rogati and Y. Yang. High-performing feature selection for text classification ACM CIKM 2002. (.pdf)
n Tie-Yan Liu, Yiming Yang, Hao Wan, et al, Support Vector Machines Classification with Very Large Scale Taxonomy, SIGKDD Explorations, Special Issue on Text Mining and Natural Language Processing, vol.7, issue.1, pp36~43, 2005. (.pdf)
n 苏金树、张博锋、徐 昕,基于机器学习的文本分类技术研究进展 软件学报 17(9): 1848-1859, 2006.9 (.pdf)
n 基于统计学习理论的支持向量机算法研究 http://www.youngfan.com/nn/SVM.pdf (.pdf)
n 瓦普尼克(著),张学工(译),统计学习理论的本质 清华大学出版社 2004.6
n SVMlight http://svmlight.joachims.org/
n SVMTorch http://bengio.abracadoudou.com/projects/SVMTorch.html