活动通知文本识别并自动转换为日历项的方法

文档序号:6437446阅读:643来源:国知局
专利名称:活动通知文本识别并自动转换为日历项的方法
技术领域
本发明属于计算机自然语言处理领域,具体涉及一种识别活动通知并自动将活动通知转换为日历项的方法。
背景技术
现代信息技术的发达,造就了信息的高效广泛传播,足不出户就可知天下事。然而,正是随着信息技术的不断改革升级,信息流变得无比的庞大,给信息使用者寻求有用的信息带来了困难。这一问题已经不单单成为个人生活中的障碍,更成为社会企业提高生产效率所不得不面临的重要问题。传统的处理方式包括滤除冗余信息和抽取主要信息。对于信息的滤除,需要分析具体的社会经济环境,这依赖于庞大的工作量。但是,抽取信息的主要内容就仅仅是对文本进行解析,相对而言,工作量有了大幅的减少。通常情况下,对一个活动通知文本信息而言,其最主要的要素为主题、时间、地点等。而事实上,经过考察发现时间格式具有相对固定的形式和较少的变化。因此,从文本中对时间进行提取是一个切实可行的设想。而且,在活动通知文本当中,文本的主题也有着固定的格式约束,这也为主题的提取提供了可能性。最后,对于活动通知文本中出现的地点,基于前述方法,也能够做到有效的提取。这样一来,就极大的简化了活动通知文本信息的呈现形式,为人们的生活带米了便利。

发明内容
本发明的目的在于填补现阶段对于自动提取活动通知生成日程方面的技术空白,从而能够达到自动提取文本中的日程信息并自动生成日历项的效果。本发明所述的方法主要解决的首要技术问题是要从内容纷繁复杂的文本信息中提取出用户可能需要的日程信息。在获取包含日程内容的文本信息后,本发明立即对文本内容进行分析与挖掘,分别找出包含主题、时间、地点等要素的字段,再对其(特别是时间)进行相应的处理,提取出日历项中需要记录的内容,最后按iCalender的标准化格式生成能够兼容Google日历等多种日程安排软件的ics文件,由此达到方便用户记录日程并管理日程的目的。本发明启用后,当用户选定了包含日程信息的相关文本后,本发明可以自动提取关于日程的主题、时间、地点等关键信息,然后生成日程项并存入谷歌日历中。本发明的主要使用步骤如下: 当用户需要将某文本信息中的相关内容记录下来并生成日历项时,只需选中想要生成日历项的活动通知文本,启动使用了本发明所述方法的软件,所选的文本内容就将会作为源文本进行处理。 在获得源文本后,本发明开始对其内容进行处理,提取时间、地点、主题三种语素。对于时间语素,根据被 提取的时间语素的具体表达形式对其进行标准化,作为日历项的时间参数;对于地点和主题语素则直接作为日历项中对应的地点和主题信息填入。生成完整的日历项信息后,通过软件的用户界面显示。 用户可以通过用户界面对提取出的日历项内容进行个性化的更改,确认内容准确无误后,可以点击保存,本发明则可根据最终确认的日历项信息生成日历项源文件,存入本地,或者根据用户设置的账户信息将日历项直接发布到用户的网络日历中,以实现日历的集中管理。本发明相对于现有的技术具有如下优点:21世纪的人们,不仅要面对生活中海量的各类信息,还要面对繁忙的日常活动。而日程安排于是成为了人们生活中的重要一环,而现有的日程安排软件均需要用户手动输入日程信息,而本发明可以通过对文本的分析自动生成日历项,同时又可供用户根据自身需要手工调整,大大提升了用户日程管理的效率。同时本发明生成的日历项采用国际通用的iCalendar日历存储标准,为谷歌日历等多种日历管理应用所兼容,用户通过本发明自动生成的日历项可以保存到这些日历管理应用中,大大扩展了其日历管理的功能。


图1:本发明所述的文本中时间要素提取处理程序框2:本发明所述的时间标准化处理程序框3:本发明所述的开始时间和结束时间处理程序框4:本发明所述的文本中地点要素提取处理程序框5:本发明所述的文本中主题要素提取处理程序框图具体实施方法该方法可通过软件在手机和个人电脑上实现中文文本中时间、地点、主题的提取。以及对时间日期格式的统一化,并实现地点学习入库的功能。时间提取与处理这一部分主要针对中文句段进行自动时间提取,并将原文中时间格式统一转换为标准格式:“XXXX年XX月XX日(星期x)xx:xx”。针对会议、活动等通知文本进行时间提取和转换,存在一个对模糊时间的处理(如:明天下午5点,下周三等)。首先参考图1进行文本时间提取。先对文本进行第一次标准化处理。即进行以下处理:1.大写中文数字转换为小写阿拉伯数字。2.中文分号、括号转换为英文分号、括号。3.“一刻”改为“ 15分”,“半”改为“30分”,4.“礼拜” “周”改为“星期”,“礼拜天/日” “周天/日” “星期天/日”均转换为“星期V,。5.所有表示一天中具体时辰的词,类似于AM、下午、晚等,均以相同字符个数的空格代替。并利用数组对其在正文中位置进行记录。

针对进行了第一次标准化的文本,进一步找到文本中的发布时间所在段,即文本中最后一行含有时间的第一段。若存在这样一个段,则利用“时间格式正则表达式库”对该段进行逐字比对直至找出这个时间,记录下其时间类型。并将该时间进行时间点处理(具体处理方法见下文)。若不存在这样一段文字,则将发布时间这一字符串默认为“default”。将文本余下文字作为正文,进一步进行时间提取。利用“时间格式正则表达式库”针对正文进行比对,若找到一个时间,保存并记录时间类型后,删除该时间,并将该位置设置为空,寻找其后是否存在时间段连接词或符号,如:“到”,等,以及另一个时间。若存在,进行与前一时间相同的处理后,对这两个时间进行时间段处理(详见下文)并保存。若不存在,则对这个时间进行时间点处理并保存。然后返回正文开头。对正文进行反复时间寻找与删除,直至正文中没有任何形式的时间。则完成时间提取。参考图2进行时间点处理,首先对时间进行第二次标准化,即:1.所有表示年月的符号,如“/”等,转换为“年” “月” “日”2.时,分的格式转为“XX:XX”3.将“星期”后面的阿拉伯数字换为中文数字4.将2位数字表示的年份换为4位5.将整个时间语素字符串中的空格去掉首先判断该时间是否为发布时间,若是,则该时间不可能为模糊时间,针对其时间类型,利用本机时间对该时间进行补全,并转换为标准时间。若不是,首先根据其时间类型判断其是否为模糊时间,若是,首先基于发布时间,对时间进行计算,并补全日期时间的年、月、日、星期、时、分六元素,若没有发布时间,则利用本机时间进行计算补全,若不是模糊时间,直接利用本机时间补全,形成标准时间。接着,考察时间中是否存在时辰词,若存在中午12点以后的词且具体小时小于12,则对时间的小时要素加上12个小时,否则,不进行任何处理。最后,对于标准时间,根据本机时间判断是否过期,若过期,则标记该时间已过期,否则不做任何处理。参考图3进行时间段处理,针对时间I进行时间点处理,得到标准化时间I。根据时间I补全时间2,并对时间2进行时间点标准化处理,得到标准时间2。令时间段的格式为“时间1-时间2”地点提取如图4所示的地点提取方法实现流程图:对于一段通知文本,根据以下步骤进行地点识别和提取:S1、对其进行部分格式转化(如将中文格式的“:”全部转换为英文格式的“:”,以减少路标词识别的困难);S2、判断是否存在地点路标词(如“地点:”、“地址:”等),如果有,则截取路标词之后的文字,若只有一行,则以换行符为结束点,若不止一行,则以第一个句号为结束点,作为候选地点I。如果没有地点路标词,进入下一步;S3、用全文比对已有的地点常规数据库,如果有匹配值,则作为候选地点2,如果没有,则进入下一步;
54、用全文比对地点学习数据库,如果有匹配值,则作为候选地点3,如果没有,进入下一步;
55、将候选地点1、2、3都列入日历项的地点栏目列表中供用户选择。如果无候选地点或无可取的候选地点,则将用户手动输入日历项地点栏的地点自动加入到地点学习数据库中。主题提取如图5所示的主题提取方法实现流程图,主题提取步骤如下:S1、判断第一个换行符之后是否有空行和文字,如果有,则截取首字符至第一个换行符之间的文字作为候选主题1,如果没有,则进入下一步;S2、判断第二个换行符后面是否有空行和文字,如果有,再判断第二个换行符之上的文本的末行是否有日期时间,如果有(判断该时间为“发布时间”),截取首字符至第一个换行符之间的文字作为候选主题2,如果没有,进入下一步;S3、判断是否存在标题路标词,如果有,则截取路标词之后的文字,若只有一行,则以换行符为结束点,若不止一行,则以第一个句号为结束点,作为候选主题3。如果没有,进入下一步;S4、判断候选主题1、2、3是否都没有,如果都没有,则截取第一行文字或首字符至第一个句号为主题。
权利要求
1.一种活动通知文本识别并自动转换为日历项的方法,包括如下步骤:S1、当选定活动通知文本并启动截取活动主题、时间和地点的软件后,活动通知文本进入后台程序,开始进行解析。S2、检查文本格式是否为具有典型的可识别格式,分别提取相关的主题、时间、地点等部分。S3、对处理后的活动信息,列示在一个标准的日程格式中,该格式能够清晰明了的展现活动信息的主题、时间、地点和说明等内容。S4、将该列示活动通知以该格式储存在一个通用的日程文档中,储存时采用国际通用的iCalendar标准日历格式。
2.根据权利要求1所述的活动通知文本识别并自动转换为日历项的方法,其特征在于,在步骤SI中所述的通知文本在呈现方式上是文字、文本档案等可以选定的格式。
3.根据权利要求1所述的活动通知文本识别并自动转换为日历项的方法,其特征在于,在步骤S2中所述的具有典型特征的活动通知,是指能够从直观上分辨其为通知。
4.根据权利要求1所述的活动通知文本识别与日历化技术,其特征在于,在步骤S2中所列示的时间、地点等有一个逻辑上的判断分析,从时间上判断通知的发布状态是否过时。
5.根据权利要求4所述的活动通知文本识别与日历化技术,其特征在于,允许有无法判断的时间地点存在,并进入步骤S3、S4中。
6.根据权利要求4所述的活动通知文本识别与日历化技术,其特征在于,在步骤S3中,可以对列示后的文本进行编辑。
全文摘要
活动通知文本识别并自动转换为日历项的方法是一种将活动通知文本信息自动进行解析并生成日历项的方法,属于计算机自然语言处理领域。本发明的目的在于从内容纷繁复杂的活动通知文本信息中提取出用户需要的日程信息,并为其自动生成日历项,从而省去了用户手动编辑日程安排的麻烦,提高了用户进行日程安排管理的效率。本发明能够将活动通知中的时间、主题、地点三个要素从中识别并提取出来,直接安置到日历项相应的时间、主题和地点栏目中,对于时间要素,更是能将不同种类的日期时间格式进行标准化,从而方便计算机进行进一步处理和储存。本发明对活动通知文本的识别和处理能力强,突破了自然语言处理领域时间实体识别的技术难点,并能为广大的用户带来便捷的日程安排功能,在日程安排和时间管理领域拥有广阔的市场。
文档编号G06Q10/10GK103093334SQ20111034469
公开日2013年5月8日 申请日期2011年11月4日 优先权日2011年11月4日
发明者周超然, 杜婷, 肖颖华, 刁媛, 鲁文宇, 曾庆鼎 申请人:周超然, 杜婷, 肖颖华, 刁媛, 鲁文宇, 曾庆鼎
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1