温大学子创摘要算法 10万单词压缩成500个

29.05.2017  20:00

  在这个信息爆炸的时代,我们每天看到的信息太多了,那么,怎样才能从繁杂的信息里找到自己想读的文字呢?温州大学瓯江学院师生近日完成的一项名为“基于主题建模的文本小说自动摘要生成算法”的研究,可以帮大家解决这一问题,这项成果不仅被计算机科学与技术学科国际著名学术期刊《专家系统与应用》刊发,还顺利申请了国家发明专利。

  将10万个单词的英文小说

  压缩成500个单词的摘要

  雷力是温州大学瓯江学院电子信息工程专业2016届本科毕业生,也是这项研究的主要研究者。他说,这项研究成果可以借助计算机代替人工,能够快速地将10万个单词的长篇英文小说,自动压缩为500个单词左右的高质量小说摘要,帮助人们快速了解长篇小说的内容梗概。

  在互联网信息爆炸的时代背景,该研究具有重要的现实意义。该研究还申请了国家发明专利,并得到国家自然科学基金的资助。

  说起搞这项研究的原因,雷力说,大三暑假,他开始考虑自己的毕业设计。那时,他刚从台湾中华大学以交换生身份学习归来,对“自然语言处理”领域产生了浓厚的兴趣:这是一门融汇了计算机科学、语言学等在内的跨学科领域。他考虑以这个作为自己的毕业设计方向,作为自己迈向这个领域的第一步。

  跨专业参与毕业设计不易

  幸得学校老师的帮助

  对于非计算机专业的学生来说,跨专业参与毕业设计是一件非常困难的事情:一是因为流程烦琐,未必能找到合适的导师;二是因为自身缺少计算机科学的背景知识,存在着无法毕业的风险。但在班主任尤佳的鼓励帮助下,雷力争取到了在计算机科学系答辩的机会。

  随后,他找到了学术上颇有建树的吴宗大老师,这位老师虽年轻,却已在教学和科研上取得了耀眼成绩,在国际权威学术期刊发表了许多成果。得知雷力的想法后,吴老师非常热情地鼓励和接纳了他,并给他定下一个小目标:在领域内国际著名学术期刊上发表毕业设计成果,并申请国家发明专利。

  相比已有的国际主流方法

  他的方法摘要质量更高

  定下目标后,雷力开始不断地阅读相关资料。一次,他偶然读到了一篇论文,是利用文本自动摘要技术对小说进行摘要。他想,能不能在保证压缩质量的前提下,进一步提高压缩比呢,比如控制在四五百字?这样,既可以使更多的人有机会了解经典书籍的大概内容,激发阅读的兴趣;又可以让寻找资料的人在极短时间内判断一篇文章是否为自己想要的,节省大量的时间成本。

  有了这个想法后,雷力在吴老师的指导下,几乎疯狂地弥补着这块研究的背景知识。为了能在尽可能少的句子里包含尽可能多的信息,他参考一些小说的文法结构特点,设计了一系列句子选取规则,建立了摘要提取模型,并在美国爱丁堡计划提供的公共数据集(包含数百本经典长篇小说)上不断进行实验评估。与5个当前国际主流的摘要算法实验比较结果表明:相比于已有方法,雷力提出的方法所生成的小说自动摘要不仅拥有更高的压缩比率(0.5%以内),并且拥有极高的摘要质量(摘要主题多样性得到显著提高)。

  这篇毕业设计获得了温州大学瓯江学院2016届本科优秀毕业论文。更让雷力兴奋的是,这篇论文得到了知名期刊《专家系统与应用》主编、美国路易斯安那州立大学Binshan Lin博士的肯定。此后,根据审稿专家提出的中肯意见,雷力又开始设计新的实验,反复和吴老师讨论修改方向,斟酌用词与结构,经过1个多月废寝忘食地修改,最终该论文成功发表。

  最近,凭借该论文,雷力正积极申请国外名校的研究生,现已得到多个学校的回应。