李蕾(教师)
  • 学位:博士学位
  • 职称:教授
  • 学科:计算机科学与技术*
  • 所在单位:人工智能学院
教师英文名称:Li Lei
电子邮箱:leili@bupt.edu.cn
职务:教师
学历:研究生毕业
办公地点:科研楼812
性别:
联系方式:leili@bupt.edu.cn
在职信息:在职
毕业院校:北京邮电大学
博士生导师
硕士生导师
学科:计算机科学与技术*
博士生导师
硕士生导师
当前位置: 中文主页 >> 科学研究 >> 专利
一种检测文本重复的方法
点击次数:
所属单位:
北京邮电大学
教研室:
智能科学与技术中心
专利范围:
中国
学校署名:
北京邮电大学
第一作者:
李蕾
发明设计人:
聂洋,赵青
专利说明:
本发明公开了一种检测文本重复的方法:根据一文本中每一个词语的TF值及其是否在标题中出现得到该词语的权值,顺序从文本中取出权值最高的若干词语作为关键词集框架;对于得到关键词集框架的任意两篇文本,依次判断一篇文本关键词集框架中的每一个词语是否在另一篇文本的关键词集框架中,当该词语属于两篇文本的关键词集框架、且在两篇文本中的权值匹配时,将表征匹配程度的匹配值加1,直至一篇文本关键词集框架中最后一个词语,根据得到的匹配值得到两篇文本的相似度;根据相似度及一相似度阈值判断出两篇文本是否为重复的文本。
专利类型:
发明
专利状态:
授权专利
申请号:
201110029493.8
授权号:
ZL 2011 1 0029493.8
发明人数:
3
是否职务专利:
申请日期:
2011-01-27
公开日期:
2011-01-20
授权日期:
2012-07-04
个人简介

李蕾,2001年在北京邮电大学获得博士学位。2000-2003任首都信息发展股份有限公司网络多媒体实验室工程师,2003-2004任澳大利亚悉尼麦觉里大学语言技术中心博士后研究员。2004至今任教于北京邮电大学(信息工程学院、计算机学院、人工智能学院),现为人工智能学院教授,博士生导师。主要研究领域为自然语言处理、自动摘要、知识图谱、机器学习、社交网络分析、数据挖掘、智能信息处理等,在相关领域已发表学术论文100余篇,主持和参与的国家级、省部级科研项目10余项,企业合作项目10余项,获得国家授权专利7项。参加国内外相关评测10余次,在ACM SIGIR BIRNDL等自动摘要与内容关联评测任务中多次获得好成绩。学术兼职为中国人工智能学会自然语言理解专业委员会秘书长。

其他联系方式

邮编 : 100876

  • 通讯/办公地址 : 科研楼812

  • 邮箱 : leili@bupt.edu.cn

  • 扫一扫用手机查看