哈尔滨工业大学信息检索研究中心
简介哈工大信息检索研究中心 (HIT-CIR) 成立于2000 年9月1日,隶属于计算机科学与技术学院。信息检索研究中心主任为刘挺教授,研究人员包括秦兵教授、张宇副教授、车万翔讲师/博士。
目前,哈工大信息检索研究中心的研究方向包括文本检索、文本挖掘、语言分析、跨语言检索和跨媒体检索五个方面,研究中心以认知心理学和机器学习为理论,以语言分析为基础研究,以信息抽取、文本检索、跨语言/媒体检索为应用研究,以精准搜索与挖掘系统为应用系统平台。研究中心已完成和现承担的国家自然科学基金、国家863、国际合作、企业合作等课题40余项。在这些项目的支持下打造出“语言技术平台LTP”,并免费共享给300多家研究机构。
研究中心坚持理论研究与技术开发互动同步发展的原则,一方面在向技术极限挑战的过程中撰写高质量的论文,一方面将陆续完成的阶段性成果适时地转化为实用技术。研究中心近年来发表论文100余篇,包括连续在自然语言处理顶级会议ACL上发表多篇论文,积极参加国内外技术评测,并取得优异成绩,包括CoNLL'2009七国语言的句法语义分析评测的第一名。中心主要通过与企业合作,采取将技术嵌入企业的产品中的方式,实现研究的价值,回报社会。双语例句检索、汉语分词等一批技术已经陆续转化到金山词霸和金山WPS软件中。
研究中心努力营造浓厚的学术氛围,悉心培养优秀学子。目前研究中心有15名博士生,17名硕士生,学生中3人获微软学者奖学金,1人被评为微软“十大”优秀实习生,多人次获得美国数学建模竞赛奖、IBM奖学金、计算机世界奖学金、罗克维尔奖学金等。
研究中心与国内外10余家相关的研究机构和企业保持着密切而友好的合作关系。哈工大信息检索研究中心是一个充满活力的团队,她渴望向国内和国际的同行们学习,也愿意尽自己的努力为中文信息处理领域的发展做出贡献。
研究组文本挖掘(TM组)组长:秦兵
主要研究方向信息抽取、意见挖掘、自动文摘以及文本分类聚类技术。研究重点包括指代消解、实体关系抽取、事件抽取、意见挖掘等。文本挖掘组在2003年国家863组织的技术评测中获得“自动文摘”第一名。在2008年的TAC评测中的子任务之一Update Summary评测中名列前茅。在第一届中文倾向性分析评测“中文文本倾向性相关要素抽取”的Lenient和Strict评价体系下分别取得了第1名和第2名。已经完成高校合作项目“多文档自动文摘”,企业合作项目“文本分类和聚类”等。目前正在承担国家863项目“基于实体关系的文本内容挖掘及集成平台”,微软基金项目以及企业合作项目等。文本检索组(TR组)组长:张宇
重点研究问答系统(涉及本体知识的自动构建),以及话题检测与跟踪(涉及个性化检索),已完成多项国家项目,包括国家自然科学基金项目“开发域问答式信息检索技术研究”,863项目“中文信息模糊匹配技术”,以及多项国家信息内容安全项目,开发了人物搜索演示系统。语言分析(LA组)组长:车万翔
语言分析是以句子为单位将输入文本转换为内部表达的分析过程,包括分词、词性标注、命名实体识别、依存句法分析、词义消歧、语义角色标注等。在词义消歧方面提出基于等价伪词的词义消歧方法,依存分析和语义角标注色获得2008年CoNLL评测第2名,已授权金山公司使用汉语分词等七项技术。目前承担国家863课题“语言技术平台”,国家自然科学基金“汉语依存分析”,“汉语语义角色标注”,“汉语词义消歧”等。跨语言组(CL组)组长:刘挺(兼)
副组长:和为
跨语言(Cross Language: CL)组主要研究为信息检索服务的机器翻译和复述技术。CL组在复述领域已做了一些尝试并取得了初步的成果,2007年发表2篇IJCAI论文,2008年发表2篇ACL论文。
科研项目列表基于实例动态泛化的共指消解,60975055,国家自然科学基金面上项目,2010-2012
汉语依存句法分析若干关键技术研究,60803093,国家自然科学青年基金,2009—2011
基于实体关系的文本内容挖掘与集成技术平台,2008AA01Z144,863计划探索类专题项目,2008-2010
基于XML的分层交互式中文处理开放平台,2006AA01Z145,863计划探索类专题项目,2007-2008
汉语语义角色标注方法研究,60675034, 国家自然科学基金面上项目,2007-2009
中文文本分类、聚类、文摘系统, 深圳腾讯公司,2006
网页地理与新闻信息抽取, NEC中国研究院,2006
中文词义消歧技术研究, 东芝中国研发中心,2005-2006
基于等价伪词的汉语全文无指导词义消歧技术研究,60575042, 国家自然科学基金面上项目,2006-2008
中文短语及简单句的复述技术研究, 60503072, 国家自然科学基金面上项目,2006-2008
英文复述技术研究, 微软亚洲研究院,2005-2006
语料库授权, 东芝中国研发中心,2005
简繁转换等七项技术授权金山WPS专业版使用,珠海金山软件公司,2005
多文档自动文摘, IBM中国,2005
问答式信息检索技术理论与方法, 60435020, 国家自然科学基金重点项目“问题理解与答案抽取”子课题,2005-2008
金山在线客服系统, 北京金山软件公司,2004-2006
开放域问答式信息检索技术研究, 国家自然科学基金,2003-2004
中文信息模糊匹配技术, 863项目,2003
语料库加工, 东芝中国研发中心,2003
基于依存分析的中文自动校对系统, 863子项目, 2003
开放域问答式信息检索技术研究, 校基金,2002
信息产业部项目若干,2001-2006
发表论文2008年发表论文22篇
2007年发表论文19篇
2006年发表论文13篇
2005年发表论文25篇
2004年发表论文20篇
2001年-2003年发表论文18篇
2000年及以前发表论文10篇