文本涉及地分析方法及其系统的制作方法

文档序号:9844093阅读:665来源:国知局
文本涉及地分析方法及其系统的制作方法
【技术领域】
[0001] 本发明涉及文本分析领域,尤其涉及一种文本涉及地分析方法及其系统。
【背景技术】
[0002] 随着网络技术的发展和用户数量的不断增长,网络中产生的数据正经历爆炸式的 增长,这对网络数据的分析提出了更多和更高的要求。文本分析和挖掘技术是目前被广泛 应用的一项技术,通过相应的技术和方法对文本的语义内容进行分析,归类等一系列操作, 主要用于商品推荐,舆情分析,文本搜索等领域。
[0003] 在舆情分析中,需要对网络中舆情在不同的主题下进行整理和分析,例如不同地 域存在的舆情热点和发展趋势。为此,对于发帖内容中所涉及的地域信息进行抽取和判断 是舆情分析中一个相对重要的环节。
[0004] 在地域判断这一个环节中,已存在的技术在通过分词技术提取地域相关名词后, 主要通过在地域区划数据查找匹配来判断文本内容的地域属性。
[0005] 基于区划数据库的方法直观、易实现。然而,该方法的效果却不理想,而且依赖文 本中存在对应的地区名称。现实中,网络发帖文本中往往不直接提及区划地域名称,通常只 出现一些街道、地标;而同一街道或地标名称可能对应了多个城市。在这种情况下,该方法 无法提取和判断文本的地域属性。
[0006] 在大数据和知识图谱的发展背景下,文本分析有新的研究方向和技术。例如通过 知识图谱来对文本进行分析能够取得更好的效果。但由于知识图谱相关技术和应用仍存在 效率和易用性上的问题,在实际应用中未被广泛应用。
[0007] 在申请号为201210581448.8的公开文件中,提出了一种文本分析方法及文本分析 器,所述方法包括:对获取的文本以字符为单位进行切分处理,对切分得到的字符按照预先 设置的字符特征进行特征标注,形成特征字串;按照预先构建的分词模型,对特征字串进行 分词处理,得到包含字序的分词结果;根据分词结果中的字序进行合并处理,对合并得到的 词按照预先设置的字符特征进行特征标注,形成特征词串;根据预先构建的词性标注模型, 对特征词串进行词性标注,得到词性标注结果;确认词性标注结果中包含实体词词性标注, 则按照相邻相同规则,合并词性标注结果中包含实体词词性标注的实体词,得到文本分析 结果。但该方法主要分析文本中的实体词,无法分析文本的涉及地。

【发明内容】

[0008] 本发明所要解决的技术问题是:提供一种文本涉及地分析方法及其系统,可对文 本内容进行分析判断,获取文本属地。
[0009] 为了解决上述技术问题,本发明采用的技术方案为:一种文本涉及地分析方法,包 括
[0010] 提取文本的地域相关名词;
[0011] 将所述地域相关名词进行地域匹配,得到包含文本涉及地的地域区划列表;
[0012] 计算所述地域相关名词在所述文本中的词频概率,确定所述地域区划列表中对应 的文本涉及地的第一概率;
[0013] 计算所述地域相关名词及其对应的文本涉及地的语义相关度;根据所述语义相关 度,获取所述文本涉及地的语义概率;
[0014] 获取所述文本所在版块的统计信息或发布人的统计信息;分别获取所述文本涉及 地在所述统计信息中的历史概率;根据所述历史概率,获取所述文本涉及地的第二概率;
[0015] 根据所述第一概率、语义概率和第二概率,获取所述文本涉及地的综合概率;
[0016] 若所述综合概率大于等于第一预设阈值,则判定所述文本涉及地为所述文本的属 地;将所述文本涉及地添加至所述文本的地域属性标签。
[0017] 本发明还涉及一种文本涉及地分析系统,包括
[0018] 提取模块,用于提取文本的地域相关名词;
[0019] 匹配模块,用于将所述地域相关名词进行地域匹配,得到包含文本涉及地的地域 区划列表;
[0020] 第一确定模块,用于计算所述地域相关名词在所述文本中的词频概率,确定所述 地域区划列表中对应的文本涉及地的第一概率;
[0021] 第一计算模块,用于计算所述地域相关名词及其对应的文本涉及地的语义相关 度;
[0022] 第一获取模块,用于根据所述语义相关度,获取所述文本涉及地的语义概率;
[0023] 第二获取模块,用于获取所述文本所在版块的统计信息或发布人的统计信息;
[0024] 第三获取模块,用于分别获取所述文本涉及地在所述统计信息中的历史概率
[0025] 第四获取模块,用于根据所述历史概率,获取所述文本涉及地的第二概率;
[0026] 第五获取模块,用于根据所述第一概率、语义概率和第二概率,获取所述文本涉及 地的综合概率;
[0027] 第一判定模块,用于若所述综合概率大于等于第一预设阈值,则判定所述文本涉 及地为所述文本的属地;
[0028] 第一添加模块,用于将所述文本涉及地添加至所述文本的地域属性标签。
[0029] 本发明的有益效果在于:对文本所在版块和发布人进行涉及地信息的统计,并将 所述统计信息应用于文本的地域判断,所述统计信息能够有效地反映所述版本或人物的地 域偏好特性,从而更有效地辅助判断文本的地域属性,提高地域分析判断的准确性;对地域 相关名词和涉及地进行语义关联计算,并将所述关联度用于地域判断,通过对包含第一概 率、语义概率和第二概率的综合概率进行分析,进一步提高了地域分析判断的准确性。
【附图说明】
[0030] 图1为本发明一种文本涉及地分析方法的流程图;
[0031 ]图2为本发明实施例一的方法流程图;
[0032]图3为本发明实施例二的方法流程图;
[0033]图4为本发明一种文本涉及地分析系统的结构示意图;
[0034] 图5为本发明实施例三的系统结构示意图;
[0035] 图6为本发明实施例四的系统结构示意图。
[0036] 标号说明:
[0037] 1、提取模块;2、匹配模块;3、第一确定模块;4、第一计算模块;5、第一获取模块;6、 第二获取模块;7、第三获取模块;8、第四获取模块;9、第五获取模块;10、第一判定模块;11、 第一添加模块;12、第二添加模块;13、更新模块;14、第二确定模块;15、第三确定模块;16、 关联模块;17、第一判断模块;18、第二判定模块;19、第二判断模块;20、修改模块。
【具体实施方式】
[0038]为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附 图详予说明。
[0039]本发明最关键的构思在于:依据文本所在版块属地和发布人属地进行涉及地信息 的统计,并将统计信息应用于文本的地域判断中。
[0040] 请参阅图1,一种文本涉及地分析方法,包括
[0041] 提取文本的地域相关名词;
[0042] 将所述地域相关名词进行地域匹配,得到包含文本涉及地的地域区划列表;
[0043] 计算所述地域相关名词在所述文本中的词频概率,确定所述地域区划列表中对应 的文本涉及地的第一概率;
[0044] 计算所述地域相关名词及其对应的文
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1