一种是非问题的处理方法及装置制造方法
【专利摘要】本发明实施例公开了一种是非问题的处理方法及装置,所述方法包括:获取是非问题检索式;根据是非问题检索式获取答案数据源;根据是非问题检索式对答案数据源中的观点进行识别统计;将观点的识别统计结果进行展示。通过本发明公开的一种是非问题的处理方法及装置,使得用户可以直观的获得答案数据源中的观点,提高了用户处理是非问题的效率。
【专利说明】一种是非问题的处理方法及装置
【技术领域】
[0001]本发明实施例涉及网络数据处理【技术领域】,尤其涉及一种是非问题的处理的方法及装置。
【背景技术】
[0002]随着互联网技术和通信技术的发展,用户可以随时借助手机、PC (personalcomputer,个人计算机)、PAD(平板电脑)等客户端登陆互联网,访问基于互联网的交互式问答平台。在交互式问答平台上,用户可以根据自身的需求,输入提问的问题,其他用户对该问题进行浏览并做出相应的回答,同时,这些回答的内容又可以提供给其他有相同问题的用户作为参考。
[0003]目前,当用户输入带“是不是”、“能不能”、“可以不可以”、“能吗”、“可以吗”这样的
具有是非观点的问题时,其他用户可能会做出带有正向观点或是反向观点的回答。例如,用户输入的问题为“雾霾对健康有危害吗”,其他用户做出的回答分别为“有危害”、“无危害”、“怎么可能有危害呢”。其中,“有危害”为正向观点,“无危害”、“怎么可能有危害呢”为反向观点。
[0004]在上述交互过程中,用户需要通过翻页等操作浏览大量其他用户的回答,才能检索到满意的回答,检索的效率很低,不能满足用户的问答需求。
【发明内容】
[0005]本发明实施例提供一种是非问题的处理方法及装置,以提高处理是非问题的效率,满足用户的问答需求。
[0006]一方面,本发明实施例提供了一种是非问题的处理的方法,包括:
[0007]获取是非问题检索式;
[0008]根据所述是非问题检索式获取答案数据源;
[0009]根据所述是非问题检索式对所述答案数据源中的观点进行识别统计;
[0010]将观点的识别统计结果进行展示。
[0011]另一方面,本发明实施例还提供了一种是非问题的处理装置,包括:
[0012]检索式获取模块,用于获取是非问题检索式;
[0013]答案数据源获取模块,用于根据所述是非问题检索式获取答案数据源;
[0014]观点统计模块,用于根据所述是非问题检索式对所述答案数据源中的观点进行识别统计;
[0015]统计结果展示模块,用于将观点的识别统计结果进行展示。
[0016]通过本发明实施例公开的一种是非问题的处理方法及装置,可以将是非问题检索式所对应的答案数据源中的观点进行识别统计;并将观点的识别统计结果进行展示,使得用户可以直观的获得所述答案数据源中的观点,提高了用户处理是非问题的效率。【专利附图】
【附图说明】
[0017]图1为本发明实施例一提供的一种是非问题的处理方法的流程示意图;
[0018]图2为本发明实施例二提供的一种是非问题的处理方法的流程示意图;
[0019]图3为本发明实施例三提供的一种是非问题的处理方法的流程示意图;
[0020]图4A为本发明实施例四提供的一种是非问题的处理方法的流程示意图;
[0021]图4B为本发明实施例四提供的一种是非问题的处理方法所适用的页面示意图;
[0022]图5为本发明实施例五提供的一种是非问题的处理方法的流程示意图;
[0023]图6为本发明实施例六提供的一种是非问题的处理装置的结构示意图。
【具体实施方式】
[0024]下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
[0025]实施例一
[0026]图1为本发明实施例一提供的一种是非问题的处理方法的流程示意图,该方法可适用于用户检索是非问题答案的情况下,该方法可以由是非问题的处理装置来执行,该装置可以由硬件和/或软件来实现,该装置可以配置在能够处理是非问题检索的服务器中。该方法具体包括:
[0027]S101,获取是非问题检索式。
[0028]本领域技术人员可以理解,带有“是不是”、“能不能”、“可以不可以”、“能吗”、“可
以吗”这样的包括是非观点的问题均可称为是非问题,可通过设置一些是非关键词来对用户输入的问题进行识别,获得是非问题检索式。
[0029]是非问题检索式可以直接采用用户输入的检索问题,但优选是对检索问题进行挖掘扩展,以获得尽量全面的检索结果。
[0030]例如,获取是非问题检索式的具体操作可以包括:
[0031]首先,获取用户输入的是非问题。
[0032]其次,识别是非问题中的问题内容关键词,并根据问题内容关键词进行扩展,生成是非问题检索式。
[0033]其中,问题内容关键词可以包括是非问题的主语、宾语和执行动作的谓语等,这可通过语义分析手段来获取。例如,用户输入的是非问题为“电脑能否定时关机”,其中主语为“电脑”,宾语为“定时关机”。因此,问题内容关键词分别为“电脑”、“定时关机”。可以依据问题内容关键词的类型进行扩展,将问题内容关键词和拓展生成与问题内容关键词具有相同类型的其他问题内容关键词,进行组合,形成多个关联的是非问题,将此问题集合作为是非问题检索式。例如,“电脑”的同义词扩展,可生成“个人计算机”和“PC”等,近义词扩展可生成“平板电脑”、“智能终端”等。则是非问题检索式可包括“个人计算机能否定时关机”、“智能终端能否定时关机”等。
[0034]S102,根据是非问题检索式获取答案数据源。
[0035]答案数据源是与是非问题检索式相关的答案,可以是网页内容、期刊文献等任意可作为检索数据的来源。其中,用户客户端可通过无线连接或者有线连接的方式向托管页面数据的服务器发送包含是非问题检索式的请求指令,托管页面数据的服务器接收该指令,并进行检索。
[0036]S103,根据是非问题检索式对答案数据源中的观点进行识别统计。
[0037]答案数据源中的观点一般不相同,常规的是非问题答案包括正向观点、反向观点和中立观点,例如,是、可以,作为正向观点;不是、不能,作为反向观点;不清楚、不确定作为中立观点。本操作中可以对答案数据源中的观点进行识别,进而进行统计。
[0038]S104,将观点的识别统计结果进行展示。
[0039]通过统计,将观点的统计结果进行展示,一般是向输入是非问题的用户客户端进行反馈。例如网页搜索结果显示、客户端检索结果推送的形式等。
[0040]通过本发明实施例一公开的是非问题的处理方法,可以根据是非问题检索式对答案数据源中的观点进行识别统计;并将观点的识别统计结果进行展示,使得用户可以直观的获得答案数据源中的观点,提高了用户检索获得是非问题答案的效率。
[0041]实施例二
[0042]图2为本发明实施例二提供的一种是非问题的处理方法的流程示意图,本实施例以上述实施例为基础,进一步优化了答案数据源的获取过程。即根据是非问题检索式获取答案数据源的操作包括:
[0043]S210、对所述是非问题检索式进行检索,以获取页面数据;
[0044]S220、基于设定策略对页面数据进行筛选,以获取答案数据源。
[0045]本实施例中,网络的页面数据是网络检索的典型数据来源,但网页的来源复杂,例如很多用户自行输入的问题答案等,这使得页面数据可能存在重复、广告、偏离较远等多种问题,这将给后续观点统计和统计结果展示都造成障碍,因此优选进行筛选后,再作为答案数据源。
[0046]其中,可以基于下述至少一条设定策略对页面数据进行筛选,以获取答案数据源:
[0047]根据页面数据的点击数据对页面数据进行筛选。该操作可以依据页面点击次数的高低对页面数据进行筛选,优选获取点击数据较高的页面数据,点击量大的页面往往意味着是用户关注的。
[0048]根据页面数据中的标题、问题内容和/或答案内容,与是非问题检索式的相似度,对页面数据进行筛选。该操作可以将标题、问题内容和/或答案内容与是非问题检索式进行语义、语气等比较,优先选取标题、问题内容和/或答案内容与是非问题检索式相似度较高的页面数据,这样可以过滤掉内容偏差较大的页面数据。
[0049]根据页面数据中的答案内容的字数,对页面数据进行筛选。为清楚的表达观点,具有较强的说服力,优先选取答案内容的字数较多的页面数据。
[0050]根据页面数据中对答案内容的用户采纳度,对页面数据进行筛选。优选选取对答案内容的用户采纳度高的页面数据,以提高页面数据的可信度。用户采纳度可以从用户点击“支持”、“赞”的统计结果来获知。
[0051]将页面数据基于设定白名单或黑名单关键词进行筛选。通过预先设定白名单或黑名单关键词,可以优先获取具有白名单关键词的页面数据,使用户获得正确搜索结果;屏蔽具有黑名单关键词的页面数据,可以避免用户在搜索时被干扰、被攻击,提高了用户的体验效果。此方式尤为适用于过滤掉广告网页、黄色网页等页面数据。
[0052]采用本实施例的技术方案,可以使答案数据源的定位更精确,后续观点识别和结果展示的效果更佳。
[0053]实施例三
[0054]图3为本发明实施例三提供的一种是非问题的处理方法的流程示意图,本实施例以上述实施例为基础,进一步优化了根据是非问题检索式对答案数据源中的观点进行识别统计的操作,该操作具体包括:
[0055]S301,根据是非问题检索式确定正向观点关键词和反向观点关键词。
[0056]正向观点关键词可以是表达肯定观点的词或字,反向观点关键词可以是表达否定观点的词或字。例如是非问题检索式为“蚕丝被能不能晒”,确定正向观点关键词可以为“能”、“是”、“可以”;反向观点关键词可以为“不能”、“不是”、“不可以”。
[0057]S302,在答案数据源的首句、第二句和/或关键句中识别正向观点关键词和反向观点关键词,以进行观点识别统计。
[0058]例如依次在答案数据源的首句、第二句和/或关键句识别“能”、“是”、“可以”、“不能”、“不是”和“不可以”正向观点关键词和反向观点关键词,将包括“能”、“是”和“可以”的答案数据源作为正向观点数据源,将包括“不能”、“不是”和“不可以”的答案数据源作为反向观点数据源。
[0059]其中,首句、第二句可以通过标点符号来区分。关键句是指答案数据源中能重点体现答案内容的句子。在进行观点识别前,可首先确定关键句,例如从所述是非问题检索式中获取句子成分关键词,与所述答案数据源中的句子进行匹配,根据匹配结果确定所述关键句。匹配度高的可确定为关键句。
[0060]实施例四
[0061]图4A为本发明实施例四提供的一种是非问题的处理方法的流程示意图,本实施例以上述实施例为基础,进一步优化了将观点的识别统计结果进行展示的操作。该操作具体包括:
[0062]S401,将正向观点和反向观点的识别统计值分别进行显示。
[0063]可以将正向观点和反向观点的识别统计值数据形式显示,也可以图形方式显示,同样可以采用数据与图形相结合的方式显示。如图4B所示,是非问题检索式为“蚕丝被能晒吗”,共33条网友回答,81%的网友的观点为“能”,19%的网友的观点为“不能”,从而直观的向用户展示了观点的识别统计结果,提高了用户获得正确检索结果的效率。
[0064]S402,将正向观点和反向观点对应的答案数据源进行排序,并显示。
[0065]上述操作中,将识别统计值、排序结果进行显示可以单独执行,也可以结合采用。
[0066]在上述操作中,将正向观点和反向观点对应的答案数据源进行排序的方式很多,例如可具体包括:
[0067]首先,根据是非问题检索式与答案数据源的标题相关性、答案数据源的点击数据和承载答案数据源的网页地址排序,确定相关性分值;例如,确定相关性分值QTscore的计算过程如公式(I)所示:
[0068]QTscore = w1;!<score1+w2;!<score2+W3;!<score3
[0069](I)[0070]在公式(I)中scorel为是非问题检索式与答案数据源的标题相关性,wl为与是非问题检索式与答案数据源的标题相关性对应的预设权值;sCOre2为答案数据源的点击数据,w2为与答案数据源的点击数据相对应的预设权值;SCOre3为承载答案数据源的网页地址排序,w3为与承载答案数据源的网页地址排序相对应的预设权值。
[0071]需要进行说明的是,在搜索引擎的页面上可以按照预设的排序方式承载并展示若干个承载答案数据源,并且每个答案数据源对应一个网页地址,承载答案数据源的网页地址排序即为搜索引擎页面上答案数据源的排序。这种预设的排序方式可以是按照发布时间先后顺序排序,由于发布时间最晚的答案数据源包含了最近的信息,准确性越高,因此发布时间最晚的答案数据源排序在先。这只是本发明实施例四给出的一种优选实施方式,不对本发明实施例公开的技术方案进行限定。
[0072]其次,根据答案数据源的观点正确性,确定正确性分值。
[0073]正确性可通过清晰度来确定。当答案数据源的观点中的正向观点关键词和反向观点关键词中观点越清晰,则正确性分值越高,观点不清晰带有猜测性词语,则正确性分值越低。例如“是”、“不是” “能” “不能”为观点清晰的观点关键词,“有可能” “估计是”为观点不清晰的观点关键词。
[0074]再次,根据答案数据源的文本长度和用户采纳度确定答案质量分值;
[0075]再次,根据相关性分值、正确性分值和答案质量分值确定答案数据源总分值;具体可依据公式(2)确定答案数据源总分值Score:
[0076]Score = q^QTscore+qa^PredictScare+qg^AnswerQuatscor
[0077](2)
[0078]在公式⑵中,QTscore为相关性分值、PredictScore为正确性分值,AnswerQuatscore为答案质量分值、Score为答案数据源总分值、ql为与相关性分值对应的预设权值,q2为与正确性分值对应的预设权值、q3为与答案质量分值对应的预设权值。
[0079]最后,根据答案数据源总分值对答案数据源进行排序,并显示。
[0080]可以按照答案数据源总分值由高到低的顺序依次对答案数据源进行排序,使得用户优先查看到答案数据源总分值较高的答案数据源,提高了获得正确检索结果的效率。
[0081]当然,还可以有其他方式对答案数据源进行排布,例如将正向观点和反向观点对应的答案数据源进行排序并显示,并显示,具体包括:
[0082]首先,对答案数据源进行特征抽取,将抽取的特征与预设学习模型进行匹配。
[0083]其中,抽取的各个特征可以是是非问题检索式与答案数据源的标题相关性、答案数据源的点击数据、承载答案数据源的网页地址排序、答案数据源的观点正确性、答案数据源的文本长度和用户采纳度确定答案质量分值中的一个或多个。预设学习模型包括了上述特征的集合,还包括各特征的参数允许范围,以进行特征匹配。
[0084]然后,根据匹配结果确定答案数据源的排序,并显示。
[0085]实 施例五
[0086]图5为本发明实施例五提供的一种是非问题的处理方法的流程示意图,该方法以前述实施例为基础,进一步增加了可适用于是非检索式为反问语气或者网友的做出否定回答表示肯定的情况。
[0087]即,在所述答案数据源的首句、第二句和/或关键句中识别正向观点关键词和反向观点关键词之前,优选还包括:
[0088]对所述答案数据源中的反问句式,进行观点反转;和/或
[0089]如果所述是非问题检索式与所述答案数据源对应的问题反向,则将所述答案数据源的观点进行反转。
[0090]本实施例的方法具体包括:
[0091]S501,获取是非问题检索式。
[0092]S502,根据是非问题检索式获取答案数据源。
[0093]S503,根据是非问题检索式确定正向观点关键词和反向观点关键词。
[0094]S504,从是非问题检索式中获取句子成分关键词,与答案数据源中的句子进行匹配,根据匹配结果确定关键句。
[0095]S505,对答案数据源中的反问句式,进行观点反转。
[0096]在上述操作中,答案数据源的句式可以为肯定句式,也可以为反问句式,例如“蚕丝被难道不能晒吗”,其对应的反转观点为“蚕丝被可以晒”,从而可以避免由于反问句式造成判断答案数据源观点错误。
[0097]S506,如果是非问题检索式与答案数据源对应的问题反向,则将答案数据源的观点进行反转。
[0098]在上述操作中,当是非问题检索式与答案数据源对应的问题反向时,例如非问题检索式为“蚕丝被能晒吗”,答案数据源对应的问题的“蚕丝被难道不能晒吗”,则将答案数据源的观点进行反转为“蚕丝被能晒”。从而,避免由于是非问题检索式与答案数据源对应的问题反向造成判断答案数据源的观点错误。
[0099]S507,在答案数据源的首句、第二句和/或关键句中识别正向观点关键词和反向观点关键词,以进行观点识别统计;
[0100]S508,将观点的识别统计结果进行展示。
[0101]通过本实施例公开的一种是非问题的处理方法,能够将对答案数据源中的反问句式,进行观点反转,并且能够将是非问题检索式与答案数据源对应的问题反向,将答案数据源的观点进行反转,提高了判断答案数据源观点的准确性。
[0102]实施例六
[0103]图6为本发明实施例六提供的一种是非问题的处理装置的结构示意图。
[0104]该装置具体包括:检索式获取模块61、答案数据源获取模块62、观点统计模块63和统计结果展示模块64。
[0105]其中,检索式获取模块61,用于获取是非问题检索式;答案数据源获取模块62,用于根据是非问题检索式获取答案数据源;观点统计模块63,用于根据是非问题检索式对答案数据源中的观点进行识别统计;统计结果展示模块64,用于将观点的识别统计结果进行展示。
[0106]在上述方案中,优选的检索式获取模块61包括:是非问题获取模块611和检索式生成模块612。是非问题获取模块611,用于获取用户输入的是非问题;检索式生成模块612,用于识别是非问题中的问题关键词,并根据问题关键词进行扩展,生成是非问题检索式。需要进行说明的是,问题关键词可以包括了是非问题的主语、观点和执行动作的词或字
[0107]可选的是,答案数据源获取模块62具体包括:页面数据获取模块621和页面数据筛选模块622。页面数据获取模块621,用于对是非问题检索式进行检索,以获取页面数据;页面数据筛选模块622,用于基于设定策略对页面数据进行筛选,以获取答案数据源;
[0108]其中,页面数据筛选模块622具体用于基于下述至少一条设定策略对页面数据进行筛选,以获取答案数据源:
[0109]根据页面数据的点击数据对页面数据进行筛选;
[0110]根据页面数据中的标题、问题内容和/或答案内容,与是非问题检索式的相似度,对页面数据进行筛选;对页面数据进行筛选。
[0111]根据页面数据中的答案内容的字数,对页面数据进行筛选;
[0112]根据页面数据中对答案内容的用户采纳度,对页面数据进行筛选;
[0113]将页面数据基于设定白名单或黑名单关键词进行筛选。
[0114]在本实施例中,为获得较优的答案数据源,可以筛选出页面数据的点击数据较高、页面数据中的标题、问题内容和/或答案内容,与是非问题检索式的相似度较高、答案内容的字数较多、用户采纳度较高的答案数据源,从而使用户获得质量较高的答案数据源,提高处理是非问题的效率。
[0115]本发明实施例中,观点统计模块63可具体包括:关键词确定模块631和关键词识别模块632。
[0116]其中,关键词确定模块631,用于根据是非问题检索式确定正向观点关键词和反向观点关键词;关键词识别模块632,用于在答案数据源的首句、第二句和/或关键句中识别正向观点关键词和反向观点关键词,以进行观点识别统计。
[0117]在现有技术中,由于获得的是非问题检索式有可能是反问语气,网友也可能采用否定的语气表示肯定,所以,在判断答案数据源观点时有可能发生误判。
[0118]为解决判断答案数据源观点时有可能发生误判的情况,本实施例提供一优选方式,关键词识别模块63还用于,在答案数据源的首句、第二句和/或关键句中识别正向观点关键词和反向观点关键词,以进行观点识别统计之前,从是非问题检索式中获取句子成分关键词,与答案数据源中的句子进行匹配,根据匹配结果确定关键句;和/或对答案数据源中的反问句式,进行观点反转;和/或如果是非问题检索式与答案数据源对应的问题反向,则将答案数据源的观点进行反转。
[0119]优选是,统计结果展示模块64具体包括:统计值显示模块和/或数据源排序模块。其中,统计值显示模块用于将正向观点和反向观点的识别统计值分别进行显示;数据源排序模块将正向观点和反向观点对应的答案数据源进行排序,并显示。
[0120]其中,所述数据源排序模块可具体用于:
[0121]根据是非问题检索式与答案数据源的标题相关性、答案数据源的点击数据和承载答案数据源的网页地址排序,确定相关性分值;根据答案数据源的观点正确性,确定正确性分值;根据答案数据源的文本长度和用户采纳度确定答案质量分值;根据相关性分值、正确性分值和答案质量分值确定答案数据源总分值;根据答案数据源总分值对答案数据源进行排序,并显示。
[0122]或者,所述数据源排序模块可具体用于:对所述答案数据源进行特征抽取,将抽取的特征与预设学习模型进行匹配;根据匹配结果确定所述答案数据源的排序,并显示。
[0123]通过本发明实施例公开的一种是非问题的处理装置,可以将是非问题检索式对答案数据源中的观点进行识别统计;并将观点的识别统计结果进行展示,使得用户可以直观的获得答案数据源中的观点,提高了用户处理是非问题的效率。
[0124]本发明实施例提供的是非问题的处理装置可用于执行本发明任意实施例提供的是非问题的处理方法,具备执行相应步骤的功能模块和有益效果。
[0125]请注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
【权利要求】
1.一种是非问题的处理方法,其特征在于,包括: 获取是非问题检索式; 根据所述是非问题检索式获取答案数据源; 根据所述是非问题检索式对所述答案数据源中的观点进行识别统计; 将观点的识别统计结果进行展示。
2.根据权利要求1所述的方法,其特征在于,获取是非问题检索式包括: 获取用户输入的是非问题; 识别所述是非问题中的问题关键词,并根据所述问题关键词进行扩展,生成所述是非问题检索式。
3.根据权利要求1所述的方法,其特征在于,根据所述是非问题检索式获取答案数据源包括: 对所述是非问题检索式进行检索,以获取页面数据; 基于设定策略对所述页面数据进行筛选,以获取所述答案数据源。
4.根据权利要求3所述的方法,其特征在于,基于设定策略对所述页面数据进行筛选,以获取所述答案数据源包括: 基于下述至少一条设定策略对所述页面数据进行筛选,以获取所述答案数据源: 根据所述页面数据的点击数据对所述页面数据进行筛选; 根据所述页面数据中的标题、问题内容和/或答案内容,与所述是非问题检索式的相似度,对所述页面数据进行筛选; 根据所述页面数据中的答案内容的字数,对所述页面数据进行筛选; 根据所述页面数据中对答案内容的用户采纳度,对所述页面数据进行筛选; 将所述页面数据基于设定白名单或黑名单关键词进行筛选。
5.根 据权利要求1所述的方法,其特征在于,根据所述是非问题检索式对所述答案数据源中的观点进行识别统计包括: 根据所述是非问题检索式确定正向观点关键词和反向观点关键词; 在所述答案数据源的首句、第二句和/或关键句中识别正向观点关键词和反向观点关键词,以进行观点识别统计。
6.根据权利要求5所述的方法,其特征在于,在所述答案数据源的首句、第二句和/或关键句中识别正向观点关键词和反向观点关键词之前,还包括: 从所述是非问题检索式中获取句子成分关键词,与所述答案数据源中的句子进行匹配,根据匹配结果确定所述关键句;和/或 对所述答案数据源中的反问句式,进行观点反转;和/或 如果所述是非问题检索式与所述答案数据源对应的问题反向,则将所述答案数据源的观点进行反转。
7.根据权利要求1所述的方法,其特征在于,将观点的识别统计结果进行展示包括: 将正向观点和反向观点的识别统计值分别进行显示;和/或 将所述正向观点和反向观点对应的答案数据源进行排序,并显示。
8.根据权利要求7所述的方法,其特征在于,将所述正向观点和反向观点对应的答案数据源进行排序,并显示包括:根据所述是非问题检索式与答案数据源的标题相关性、答案数据源的点击数据和承载答案数据源的网页地址排序,确定相关性分值; 根据所述答案数据源的观点正确性,确定正确性分值; 根据所述答案数据源的文本长度和用户采纳度确定答案质量分值; 根据所述相关性分值、正确性分值和答案质量分值确定所述答案数据源总分值; 根据所述答案数据源总分值对答案数据源进行排序,并显示。
9.根据权利要求7所述的方法,其特征在于,将所述正向观点和反向观点对应的答案数据源进行排序,并显示包括: 对所述答案数据源进行特征抽取,将抽取的特征与预设学习模型进行匹配; 根据匹配结果确定所述答案数据源的排序,并显示。
10.一种是非问题的处理装置,其特征在于,包括: 检索式获取模块,用于获取是非问题检索式; 答案数据源获取模块,用于根据所述是非问题检索式获取答案数据源; 观点统计模块,用于根据所述是非问题检索式对所述答案数据源中的观点进行识别统计; 统计结果展示模块,用于将观点的识别统计结果进行展示。
11.根据权利要求10所述的装置,其特征在于,所述检索式获取模块包括: 是非问题获取模块,用于获取用户输入的是非问题; 检索式生成模块,用于识别所述是非问题中的问题关键词,并根据所述问题关键词进行扩展,生成所述是非问题检索式。
12.根据权利要求10所述的装置,其特征在于,所述答案数据源获取模块包括: 页面数据获取模块,用于对所述是非问题检索式进行检索,以获取页面数据; 页面数据筛选模块,用于基于设定策略对所述页面数据进行筛选,以获取所述答案数据源; 其中,所述页面数据筛选模块具体用于基于下述至少一条设定策略对所述页面数据进行筛选,以获取所述答案数据源: 根据所述页面数据的点击数据对所述页面数据进行筛选; 根据所述页面数据中的标题、问题内容和/或答案内容,与所述是非问题检索式的相似度,对所述页面数据进行筛选; 根据所述页面数据中的答案内容的字数,对所述页面数据进行筛选; 根据所述页面数据中对答案内容的用户采纳度,对所述页面数据进行筛选; 将所述页面数据基于设定白名单或黑名单关键词进行筛选。
13.根据权利要求10所述的装置,其特征在于,所述观点统计模块包括: 关键词确定模块,用于根据所述是非问题检索式确定正向观点关键词和反向观点关键词; 关键词识别模块,用于在所述答案数据源的首句、第二句和/或关键句中识别正向观点关键词和反向观点关键词,以进行观点识别统计。
14.根据权利要求10所述的装置,其特征在于,所述统计结果展示模块包括: 统计值显示模块,用于将正向观点和反向观点的识别统计值分别进行显示;和/或数据源排序模块,用于将所述正向观点和反向观点对应的答案数据源进行排序,并显示。
15.根据权利要求14所述的装置,其特征在于,所述数据源排序模块具体用于: 根据所述是非问题检索式与答案数据源的标题相关性、答案数据源的点击数据和承载答案数据源的网页地址排序,确定相关性分值; 根据所述答案数据源的观点正确性,确定正确性分值; 根据所述答案数据源的文本长度和用户采纳度确定答案质量分值; 根据所述相关性分值、正确性分值和答案质量分值确定所述答案数据源总分值; 根据所述答案数据源总分值对答案数据源进行排序,并显示; 或者,所述数据源排序模块具体用于: 对所述答案数据源进行特征抽取,将抽取的特征与预设学习模型进行匹配; 根据匹配结果确定所述答案数据源的排序,并显示。
【文档编号】G06F17/30GK103927381SQ201410176085
【公开日】2014年7月16日 申请日期:2014年4月29日 优先权日:2014年4月29日
【发明者】何伯磊, 张希娟, 张伟萌, 忻舟, 马艳军 申请人:北京百度网讯科技有限公司