150 likes | 414 Views
英文 NLP 组. 中心词抽取项目总结. 目录. 2. asc irm-saa 部门 08 年终总结. 项目背景 项目目标 项目成员 项目日程 解决方案 性能评测 DEMO & Wiki 应用情况 致谢 分享. 项目背景. 中心词的定义 Example : "store unit with mirror" -[store unit]_NP with [mirror]_NP (NP: Noun Phrase) -Key NP phrase of the sentence: store unit
E N D
英文NLP组 中心词抽取项目总结
目录 2 asc irm-saa 部门 08 年终总结 项目背景 项目目标 项目成员 项目日程 解决方案 性能评测 DEMO & Wiki 应用情况 致谢 分享
项目背景 中心词的定义 Example: "store unit with mirror" -[store unit]_NP with [mirror]_NP (NP: Noun Phrase) -Key NP phrase of the sentence: store unit -Key word of the sentence: unit 项目最初的需求主要来以下两方面 在国际站相关性项目中,需要用到Offer中Subject的中心词信息 在国际站产品组的Query分析中,需要Query的中心词信息 3 asc irm-saa 部门 08 年终总结
项目目标 给定一个Query或者一个Offer的Subject,输出Query或者Subject的中心词 提供便利的编程接口 4 asc irm-saa 部门 08 年终总结
项目成员 • 项目经理 • 林锋 • 项目成员 • 郭家清,康战辉,来夏莹(实习生) • 产品经理 • Cindy,Rachel
解决方案(1) Subject POS Tagging Chunking 中心NP抽取 NP抽取 规则 中心词抽取规则 中心词抽取 系统工作流程 • 对Subject进行POS Tagging和Chunking • 根据Chunking的结果统计出Subject的构成模式,以及NP的构成模式 • 对每种Subject的构成模式,制定规则抽出中心词所在的NP • 对每种NP的构成模式,制定规则从NP中抽取出中心词
性能评测 准确率评测 评测语料:手工标注300条语料 性能评测 评测语料:147万条offer的Subject ( 34.8M / 1,476,327 Sentences / 5,429,094 Words ) 测试环境: kbs10(Xeon 5405*2/4G RAM/750G SATA*2) 测试结果:Total: 242s, Speed: 0.164ms/Sentence, Memory: 28M 10 asc irm-saa 部门 08 年终总结
Demo & Wiki DEMO: http://kbs10.asc.cnz.alimama.com/kwe.php Wiki: http://asc.alibaba-inc.com/wiki/index.php/KeyWordExtraction 11 asc irm-saa 部门 08 年终总结
应用情况 目前应用于 B2B国际站相关性 IPX项目( Offer信息点抽取) English Query Rewrite B2B英文知识库 …… 将应用于 Smart Query System 替代Prisma抽取短句的主题词 12 asc irm-saa 部门 08 年终总结
致谢 • 产品组的Cindy,Rachel • 相关性组的欧文武,曹俊辉,金华兴 • 英文NLP组的全体成员
分享 • 郭家清 • 康战辉 • ……
15 asc irm-saa 部门 08 年终总结 Thanks! Q & A