社会经济指标的识别方法及装置的制造方法
【技术领域】
[0001]本公开涉及移动互联网领域,尤其涉及一种社会经济指标的识别方法及装置。
【背景技术】
[0002]社会经济指标一般包括两部分的内容,其一为社会经济指标名称,如“国内生产总值”、“货币总量”、“固定资产投资额”等,其二为社会经济指标值,如“518942.1亿”等,社会经济指标一般具有较大的分析价值,因此有必要对齐进行识别,然而,与名称、号码等传统识别对象不同的是,社会经济指标中的社会经济指标名和社会经济指标值在文本中可能并不相邻,这就导致识别的难度加大,传统的识别方式难以实现对社会经济指标的识别。
[0003]由于社会经济指标的特殊性,相关技术中,一般采用人工的方式进行社会经济指标的识别和整理,然而这样的方法不仅需要耗费大量的人力、财力,同时需要耗费大量的时间,效率较低,因此,目前亟需一种可以自动识别社会经济指标的方法。
【发明内容】
[0004]为克服相关技术中存在的问题,本公开提供一种社会经济指标的识别方法及装置。
[0005]根据本公开实施例的第一方面,提供一种社会经济指标的识别方法,包括:
[0006]获取待识别的文本集合,所述文本集合包括多个文本;
[0007]获取待识别的社会政治实体名称;
[0008]从所述文本集合中获取多个第一文本,所述第一文本包括所述社会政治实体名称及社会经济指标名称集合中的任一社会经济指标名称;
[0009]从所述多个第一文本中,获取多个第一地点名称,每个第一地点名称为预设地点名称集合中的地点名称;
[0010]从所述多个第一文本中,获取多个第一时间;
[0011 ]从所述多个第一文本中,获取多个第一数量词;
[0012]对于每个第一文本,生成所述第一文本的社会经济指标项,所述第一文本的社会经济指标项包括所述第一文本的第一地点名称、第一时间、第一数量词及所述第一文本中的社会经济指标名称。
[0013]在第一方面的第一种可能的实施方式中,从所述文本集合中获取多个第一文本之前,所述方法还包括:
[0014]根据所述社会政治实体名称及预设社会经济指标句法模式,从所述文本集合中,获取多个待过滤的社会经济指标名称;
[0015]根据预设社会经济指标名称后缀词表,对所述多个待过滤的社会经济指标名称进行筛选,得到所述社会经济指标名称集合,所述社会经济指标名称集合中的社会经济指标名称包括所述预设社会经济指标名称后缀词表中的任一社会经济指标名称后缀。
[0016]在第一方面的第二种可能的实施方式中,从所述多个第一文本中,获取多个第一地点名称包括:
[0017]对于每个第一文本,若所述第一文本中包含多个第二地点名称,则从所述多个第二地点名称中,将与所述第一文本中的社会经济指标名称距离最近的第二地点名称获取为所述第一文本的第一地点名称。
[0018]在第一方面的第三种可能的实施方式中,从所述多个第一文本中,获取多个第一时间包括:
[0019]对于每个第一文本,若所述第一文本中包含多个第二时间,则从所述多个第二时间中,将与所述第一文本中的社会经济指标名称距离最近的第二时间获取为所述第一文本的第一时间。
[0020]在第一方面的第四种可能的实施方式中,从所述多个第一文本中,获取多个第一数量词包括:
[0021]对于每个第一文本,检测所述第一文本中是否包含第二数量词,所述第二数量词为百分比数量词;
[0022]若所述第一文本中包含所述第二数量词,则检测所述第一文本中的社会经济指标名称是否包含预设字段;
[0023]若所述第一文本中的社会经济指标名称不包含预设字段,则过滤掉所述第二数量词,并将剩余的数量词获取为所述第一文本中的第一数量;
[0024]若所述第一文本中的社会经济指标名称包含所述预设字段,则将所述第二数量词获取为所述第一文本中的第一数量词。
[0025]在第一方面的第五种可能的实施方式中,从所述多个第一文本中,获取多个第一数量词包括:
[0026]对于每个第一文本,若所述第一文本中包括多个第三数量词时,检测所述多个第三数量词两两之间的比值是否超过第一预设阈值;
[0027]若所述多个第三数量词两两之间的比值超过所述第一预设阈值,则过滤掉所述多个第三数量词两两之间较小的数量词,并将剩余的所述第三数量词获取为所述第一文本中的第一数量词。
[0028]在第一方面的第六种可能的实施方式中,从所述多个第一文本中,获取多个第一数量词包括:
[0029]对于每个第一文本,检测所述第一文本中包括的第四数量词的数目是否大于第二预设阈值;
[0030]若所述第一文本中包括的所述第四数量词的数目大于所述第二预设阈值,则获取指定数量词区间,使得所述第一文本中不小于第三预设阈值数目的所述第四数量词位于所述指定数量词区间内;
[0031]过滤掉所述第一文本中不在所述指定数量词区间内的所述第四数量词,并将剩余的所述第四数量词获取为所述第一文本中包括的第一数量词。
[0032]在第一方面的第七种可能的实施方式中,从所述多个第一文本中,获取多个第一数量词包括:
[0033]对于每个第一文本,若所述第一文本包括多个第五数量词,且所述多个第五数量词出现的概率不同,则将出现概率最大的第五数量词获取为所述第一文本的第一数量词;
[0034]或者,
[0035]对于每个第一文本,若所述第一文本包括所述多个第五数量词,且所述多个第五数量词出现的概率相同,则计算所述多个第五数量词的平均值,并将所述多个第五数量词的平均值获取为所述第一文本中的第一数量词。
[0036]在第一方面的第八种可能的实施方式中,对于每个第一文本,生成所述第一文本的社会经济指标项之后,所述方法还包括:
[0037]对于每一个社会经济指标名称,生成所述社会经济指标名称的多个三元组集合,每一个三元组集合包括所述第一时间、所述第一地点名称及所述第一数量词;
[0038]对于所述多个三元组集合,获取每一个第一数量词的单位所属的待标准化单位类别;
[0039]统计每一个待标准化单位类别对应的所述第一数量词的数目;
[0040]获取指定单位类别,所述指定单位类别为对应所述第一数量词的数目最多的待标准化单位类别;
[0041 ]过滤掉单位不属于所述指定单位类别的第一数量词对应的社会经济指标项;
[0042]对属于所述指定单位类别的第一数量词进行单位标准化处理;
[0043]生成所述第一文本的标准社会经济指标项,所述标准社会经济指标项包括所述第一文本的第一地点名称、第一时间、经过单位标准化处理的第一数量词及所述第一文本中的社会经济指标名称。
[0044]在第一方面的第九种可能的实施方式中,所述社会经济指标名称集合包括多个社会经济指标名称和所述多个社会经济指标名称的变形。
[0045]根据本公开实施例的第二方面,提供一种社会经济指标的识别装置,包括:
[0046]文本集合获取模块,用于获取待识别的文本集合,所述文本集合包括多个文本;
[0047]名称获取模块,用于获取待识别的社会政治实体名称;
[0048]第一文本获取模块,用于从所述文本集合获取模块获取的所述文本集合中获取多个第一文本,所述第一文本包括所述名称获取模块获取的所述社会政治实体名称及社会经济指标名称集合中的任一社会经济指标名称;
[0049]地点获取模块,用于从所述第一文本获取模块获取的所述多个第一文本中,获取多个第一地点名称,每个第一地点名称为预设地点名称集合中的地点名称;
[0050]时间获取模块,用于从所述第一文本获取模块获取的所述多个第一文本中,获取多个第一时间;
[0051]数量词获取模块,用于从所述第一文本获取模块获取的所述多个第一文本中,获取多个第一数量词;
[0052]生成模块,用于对于每个第一文本,生成所述第一文本的社会经济指标项,所述第一文本的社会经济指标项包括所述地点获取模块获取的所述第一文本的第一地点名称、所述时间获取模块获取的所述第一文本的第一时间、所述数量词获取模块获取的所述第一文本的第一数量词及所述第一文本中的社会经济指标名称。
[0053]在第二方面的第一种可能的实施方式中,所述装置还包括:
[0054]指标名称获取模块,用于根据所述名称获取模块获取的所述社会政治实体名称及预设社会经济指标句法模式,从所述文本集合获取模块获取的所述文本集合中,获取多个待过滤的社会经济指标名称;
[0055]筛选模块,用于根据预设社会经济指标名称后缀词表,对所述指标名称获取模块获取的所述多个待过滤的社会经济指标名称进行筛选,得到所述社会经济指标名称集合,所述社会经济指标名称集合中的社会经济指标名称包括所述预设社会经济指标名称后缀词表中的任一社会经济指标名称后缀。
[0056]在第二方面的第二种可能的实施方式中,所述地点获取模块用于:
[0057]对于所述第一文本获取模块获取的每个第一文本,若所述第一文本中包含多个第二地点名称,则从所述多个第二地点名称中,将与所述第一文本中的社会经济指标名称距离最近的第二地点名称获取为所述第一文本的第一地点名称。
[0058]在第二方面的第三种可能的实施方式中,所述时间获取模块用于:
[0059]对于所述第一文本获取模块获取的每个第一文本,若所述第一文本中包含多个第二时间,则从所述多个第二时间中,将与所述第一文本中的社会经济指标名称距离最近的第二时间获取为所述第一文本的第一时间。
[0060]在第二方面的第四种可能的实施方式中,所述数量词获取模块用于:
[0061]对于所述第一文本获取模块获取的每个第一文本,检测所述第一文本中是否包含第二数量词,所述第二数量词为百分比数量词;
[0062]若所述第一文本中包含所述第二数量词,则检测所述第一文本中的社会经济指标名称是否包含预设字段;
[0063]若所述第一文本中的社会经济指标名称不包含预设字段,则过滤掉所述第二数量词,并将剩余的数量词获取为所述第一文本中的第一数量;
[0064]若所述第一文本中的社会经济指标名称包含所述预设字段,则将所述第二数量词获取为所述第一文本中的第一数量词。
[0065]在第二方面的第五种可能的实施方式中,所述数量词获取模块用于:
[0066]对于所述第一文本获取模块获取的每个第一文本,若所述第一文本中包括多个第三数量词时,检测所述多个第三数量词两两之间的比值是否超过第一预设阈值;
[0067]若所述多个第三数量词两两之间的比值超过所述第一预设阈值,则过滤掉所述多个第三数量词两两之间较小的数量词,并将剩余的所述第三数量词获取为所述第一文本中的第一数量词。
[0068]在第二方面的第六种可能的实施方式中,所述数量词获取模块用于:
[0069]对于所述第一文本获取模块获取的每个第一文本,检测所述第一文本中包括的第四数量词的数目是否大于第二预设阈值;
[0070]若所述第一文本中包括的所述第四数量词的数目大于所述第二预设阈值,则获取指定数量词区间,使得所述第一文本中不小于第三预设阈值数目的所述第四数量词位于所述指定数量词区间内;
[0071]过滤掉所述第一文本中不在所述指定数量词区间内的所述第四数量词,并将剩余的所述第四数量词获取为所述第一文本中包括的第一数量词。
[0072]在第二方面的第七种可能的实施方式中,所述数量词获取模块用于:
[0073]对于所述第一文本获取模块获取的每个第一文本,若所述第一文本包括多个第五数量词,且所述多个第五数量词出现的概率不同,则将出现概率最大的第五数量词获取为所述第一文本的第一数量词;
[0074]或者,
[0075]对于所述第一文本获取模块获取的每个第一文本,若所述第一文本包括所述多个第五数量词,且所述多个第五数量词出现的概率相同,则计算所述多个第五数量词的平均值,并将所述多个第五数量词的平均值获取为所述第一文本中的第一数量