数据处理装置、数据处理方法和程序的制作方法

文档序号:8258487阅读:432来源:国知局
数据处理装置、数据处理方法和程序的制作方法
【技术领域】
[0001] 本公开涉及数据处理领域,具体地涉及,涉及一种用于判断社会性服务网络中用 户发布的文本是否是问题的数据处理装置、数据处理方法和程序。此外,本公开还涉及一种 训练用于上述数据处理装置、数据处理方法或程序中的主题模型的方法,以及一种训练用 于其中的情感模型的方法。
【背景技术】
[0002] 在社会性服务网络中,比如在微博、facebook等社交网络中,用户常常发布一些针 对某个话题的观点、评论、评价等。例如,用户可能发布一些针对身体健康问题的看法或情 绪表达。因此,需要提供一种识别问题的方法。

【发明内容】

[0003] 在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本 理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的 关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概 念,以此作为稍后论述的更详细描述的前序。
[0004] 鉴于【背景技术】部分所述的需求,本发明关注于对社会性服务网络中用户发布的文 本是否问题进行识别的装置和方法。具体地,本发明提出了一种通过使用预先训练的模型 来获取文本中的相关特征从而基于这些相关特征来判断该文本是否是问题的数据处理装 置和方法。
[0005] 根据本发明的一个方面,提供了一种用于判断社会性服务网络中用户发布的文本 是否是问题的数据处理装置,包括:主题特征获取单元,被配置为利用预先训练的主题模型 获取文本的主题特征;情感特征获取单元,被配置为利用预先训练的情感模型获取文本的 情感特征;疑问标记特征提取单元,被配置为获取文本的疑问标记特征;以及分类器,被配 置为利用主题特征、情感特征和疑问标记特征对文本进行分类。
[0006] 根据本发明的另一个方面,提供了一种用于判断社会性服务网络中用户发布的文 本是否是问题的数据处理方法,包括:利用预先训练的主题模型获取文本的主题特征;利 用预先训练的情感模型获取文本的情感特征;获取文本的疑问标记特征;以及使用分类器 利用主题特征、情感特征和疑问标记特征对文本进行分类。
[0007] 根据本发明的又一个方面,还提供了一种训练用于判断社会性服务网络中的文本 是否是问题的主题模型的方法,包括:准备专家知识语料库;对专家知识语料库中的每个 文本进行分词;提取文本中的一个或更多个实词作为反映文本的主题的关键词;以及计算 以下概率的至少一部分作为主题模型:文本、关键词和主题,以及前述各项的各种组合的概 率、联合概率或者条件概率。
[0008] 根据本发明的另一个方面,还提供了一种训练用于判断社会性服务网络中的文本 是否是问题的情感模型的方法,包括:准备针对是否是问题标注过的问题数据集;对问题 数据集中的每个文本进行分词;提取文本中的一个或更多个非名词和/或符号作为反映文 本的情感倾向的情感词和/或符号;计算以下概率的至少一部分作为情感模型:文本、情感 词和/或符号和情感倾向,以及前述各项的各种组合的概率、联合概率或者条件概率。
[0009] 依据本发明的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质 和计算机程序产品。
[0010] 通过以下结合附图对本发明的优选实施例的详细说明,本发明的这些以及其他优 点将更加明显。
【附图说明】
[0011] 为了进一步阐述本申请的以上和其它优点和特征,下面结合附图对本申请的具体 实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且 形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解, 这些附图仅描述本申请的典型示例,而不应看作是对本申请的范围的限定。在附图中:
[0012] 图1是示出了根据本申请的一个实施例的数据处理装置的结构框图;
[0013] 图2是示出了根据本申请的一个实施例的数据处理装置中的主题特征获取单元 的结构框图;
[0014] 图3是示出了根据本申请的一个实施例的主题模型的产生过程的示意图;
[0015] 图4是示出了根据本申请的一个实施例的数据处理装置中的情感特征获取单元 的结构框图;
[0016] 图5是示出了根据本申请的一个实施例的情感模型的产生过程的示意图;
[0017] 图6是示出了根据本申请的一个实施例的数据处理方法的流程图;
[0018] 图7是示出了根据本申请的一个实施例的处理处理方法中的主题特征获取步骤 的流程图;
[0019] 图8是示出了根据本申请的一个实施例的处理处理方法中的情感特征获取步骤 的流程图;
[0020] 图9是示出了根据本申请的一个实施例的主题模型训练方法的流程图;
[0021] 图10是示出了根据本申请的一个实施例的情感模型训练方法的流程图;以及
[0022] 图11是其中可以实现根据本发明的实施例的方法和/或装置的通用个人计算机 的示例性结构的框图。
【具体实施方式】
[0023] 在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施 例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符 合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有 所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开 内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
[0024] 在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中 仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤,而省略了与本发明 关系不大的其他细节。
[0025] 下文中的描述按如下顺序进行:
[0026] 1.数据处理装置
[0027] 2.数据处理方法
[0028] 3?主题模型训练方法
[0029] 4.情感模型训练方法
[0030] 5.用以实施本申请的装置和方法的计算设备
[0031] [1?数据处理装置]
[0032] 首先参照图1描述根据本申请的一个实施例的数据处理装置100的结构。如图1 所示,数据处理装置1〇〇包括:主题特征获取单元101,被配置为利用预先训练的主题模型 获取文本的主题特征;情感特征获取单元102,被配置为利用预先训练的情感模型获取文 本的情感特征;疑问标记特征提取单元103,被配置为获取文本的疑问标记特征;以及分类 器104,被配置为利用主题特征、情感特征和疑问标记特征对文本进行分类。
[0033] 具体地,当使用数据处理装置100来判断用户发布的文本是否是问题时,主题特 征获取单元101、情感特征获取单元102和疑问词标记特征提取单元103分别从该文本中获 取其主题特征、情感特征和疑问标记特征,然后分类器使用所获取的这些特征对该文本进 行分类,即判断该文本是否是问题。
[0034] 其中,主题特征表示
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1