专利名称:一种自动生成网页的方法及装置的制作方法
—种自动生成网页的方法及装置
技术领域:
本发明涉及互联网数据处理技术,特别涉及一种自动生成网页的方法及装置。背景技术:
随着网络技术的发展,互联网上的各种信息也越来越丰富,尤其是百科全书类型的网站,给人们查找各类信息提供了极大的便利,例如现有的百度百科、维基百科、互动百科等网站,都是人们获取各类知识的有力助手。但是英文的百科网站上的网页内容,通常很难让只懂中文的人阅读。以往为了把这些目标用户不能阅读的信息提供给目标用户,采用的手段是使用机器翻译的方法,将这些以目标用户难以识别的语言形式存在的网页内容翻译为目标用户能够识别的语言形式,但是由于现有的机器翻译技术的限制,很难实现在将源语言的网页翻译为目标语言的网页时,保证目标语言网页的流畅度和可读性。很多通过机器翻译得到的目标语言网页,可读性都大打折扣,从而极大地影响了用户对相关信息的理解。实际上,人们在获取百科类信息时,并不要求信息的绝对完整性,但是对网页内容的流畅度和可读性的要求却较高。也就是说,如果人们希望了解一个介绍歌星迈克尔杰克逊的英文网页上的内容,人们并不是要了解这个英文网页上每个字词和句子的含义,而是需要了解这个网页的主要信息。
发明内容本发明所要解决的技术问题是提供一种自动生成网页的方法及装置,以解决现有技术在利用源语言的网页得到目标语言的网页时存在的难以保证目标语言网页的流畅度和可读性的缺陷。本发明为解决技术问题而采用的技术方案是提供一种自动生成网页的方法,包括根据第一语言页面生成第一语言检索词;将所述第一语言检索词翻译成第二语言检索词,使用所述第二语言检索词在第二语言页面集合中进行检索,从各个第二语言检索结果页面中提取第二语言候选页面;针对所述第一语言页面中的第一语言句子,从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子,并利用提取的第二语言句子生成最终网页。根据本发明之一优选实施例,根据第一语言页面生成第一语言检索词的步骤包括将第一语言页面的标题与所述第一语言页面上各段落的标题名组合形成第一语言检索词;或者,将第一语言页面的标题与所述第一语言页面上为半结构化数据设置的数据标签名称组合形成第一语言检索词。根据本发明之一优选实施例,根据第一语言页面生成第一语言检索词的步骤包括将第一语言页面中出现频率最高的N个词或出现频率最低的N个词作为第一语言检索词;或者,将第一语言页面中词频-反文档频率值最高的N个词或词频-反文档频率值最低的N个词作为第一语言检索词;或者,将第一语言页面中的命名实体作为第一语言检索词,其中N为正整数。根据本发明之一优选实施例,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括将所述第一语言页面的标题翻译为第二语言标题;从各个第二语言检索结果页面中选择标题与所述第二语言标题匹配的第二语言检索结果页面作为第二语言候选页面。根据本发明之一优选实施例,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括将所述第一语言页面的标题翻译为第二语言标题;分别统计所述第二语言标题在各个第二语言检索结果页面中出现的次数,将所述第二语言标题出现次数从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。根据本发明之一优选实施例,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括将所述第一语言页面的标题翻译为第二语言标题;将所述第二语言标题作为搜索词进行搜索,得到搜索结果,并确定各个第二语言检索结果页面在所述搜索结果中的排名,将排名位于前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。根据本发明之一优选实施例,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括将所述第一语言页面翻译为第二语言对比页面;分别统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量,并将包含的与所述第二语言对比页面相同的词语的数量从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,或者将包含的与所述第二语言对比页面相同的词语的数量占自身页面所有词语的数量的比例从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。根据本发明之一优选实施例,在统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量之前进一步包括对所述第二语言对比页面和各个第二语言检索结果页面进行预处理,所述预处理包括分词、词形还原或去除停用词。根据本发明之一优选实施例,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括分别计算各个第二语言检索结果页面与所述第一语言页面的主题相似度,将主题相似度排名位于前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。根据本发明之一优选实施例,针对所述第一语言页面中的第一语言句子,从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子的步骤包括针对所述第一语言页面中的每个第一语言句子,分别计算该第一语言句子与所述第二语言候选页面中的各个第二语言句子之间的相似度,并判断该第一语言句子与各个第二语言句子之间的相似度中的最大值是否大于设定阈值,如果是,则将该最大值对应的第二语言句子确定为与该第一语言句子匹配的第二语言句子,其中该第一语言句子与各个第二语言句子之间的相似度由该第一语言句子中的各个可译词的权重之和决定,所述可译词是在对应的第二语言句子中存在相应翻译词的词语。根据本发明之一优选实施例,在计算包含表示命名实体、时间或数量的特定可译词的第一语言句子与各个第二语言句子之间的相似度时,对所述特定可译词的权重进行加权。
根据本发明之一优选实施例,在利用提取的第二语言句子形成最终网页的步骤中,将提取的各个第二语言句子按照与该第二语言句子对应的第一语言句子在所述第一语言页面中出现的顺序排列以形成最终网页。本发明还提供了一种自动生成网页的装置,包括检索词生成单元,用于根据第一语言页面生成第一语言检索词;检索单元,用于将所述第一语言检索词翻译成第二语言检索词,并使用所述第二语言检索词在第二语言页面集合中进行检索;候选页面抽取单元,用于从各个第二语言检索结果页面中提取第二语言候选页面;匹配句子抽取单元,用于针对所述第一语言页面中的第一语言句子,从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子;网页生成单元,用于利用提取的第二语言句子生成最终网页。根据本发明之一优选实施例,所述检索词生成单元将第一语言页面的标题与所述第一语言页面上各段落的标题名组合形成第一语言检索词;或者,所述检索词单元将第一语言页面的标题与所述第一语言页面上为半结构化数据设置的数据标签名称组合形成第一语言检索词。根据本发明之一优选实施例,所述检索词生成单元将第一语言页面中出现频率最高的N个词或出现频率最低的N个词作为第一语言检索词;或者,所述检索词生成单元将第一语言页面中词频-反文档频率值最高的N个词或词频-反文档频率值最低的N个词作为第一语言检索词;或者,所述检索词生成单元将第一语言页面中的命名实体作为第一语言检索词,其中N为正整数。根据本发明之一优选实施例,所述候选页面抽取单元包括第一翻译子单元,用于将所述第一语言页面的标题翻译为第二语言标题;第一确定子单元,用于从各个第二语言检索结果页面中选择标题与所述第二语言标题匹配的第二语言检索结果页面作为第二语言候选页面。根据本发明之一优选实施例,所述候选页面抽取单元包括第二翻译子单元,用于将所述第一语言页面的标题翻译为第二语言标题;第二确定子单元,用于分别统计所述第二语言标题在各个第二语言检索结果页面中出现的次数,将所述第二语言标题出现次数从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。根据本发明之一优选实施例,所述候选页面抽取单元包括第三翻译子单元,用于将所述第一语言页面的标题翻译为第二语言标题;第三确定子单元,用于将所述第二语言标题作为搜索词进行搜索,得到搜索结果,并确定各个第二语言检索结果页面在所述搜索结果中的排名,将排名位于前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。根据本发明之一优选实施例,所述候选页面抽取单元包括第四翻译子单元,用于将所述第一语言页面翻译为第二语言对比页面;第四确定子单元,用于分别统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量,并将包含的与所述第二语言对比页面相同的词语的数量从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,或者将包含的与所述第二语言对比页面相同的词语的数量占自身页面所有词语的数量的比例从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。根据本发明之一优选实施例,所述候选页面抽取单元进一步包括预处理单元,用于在统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量之前对所述第二语言对比页面和各个第二语言检索结果页面进行预处理,所述预处理包括分词、词形还原或去除停用词。根据本发明之一优选实施例,所述候选页面抽取单元包括第一计算子单元,用于分别计算各个第二语言检索结果页面与所述第一语言页面的主题相似度;第五确定子单元,用于将主题相似度排名位于前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。根据本发明之一优选实施例,所述匹配句子抽取单元包括第二计算子单元,用于针对所述第一语言页面上的每个第一语言句子,分别计算该第一语言句子与所述第二语言候选页面中的各个第二语言句子之间的相似度,其中该第一语言句子与各个第二语言句子之间的相似度由该第一语言句子中的各个可译词的权重之和决定,所述可译词是在对应的第二语言句子中存在相应翻译词的词语;判断子单元,用于判断该第一语言句子与各个第 二语言句子之间的相似度中的最大值是否大于设定阈值,如果是,则将该最大值对应的第二语言句子确定为与该第一语言句子匹配的第二语言句子。 根据本发明之一优选实施例,所述第二计算子单元在计算包含表示命名实体、时间或数量的特定可译词的第一语言句子与各个第二语言句子之间的相似度时,对所述特定可译词的权重进行加权。根据本发明之一优选实施例,网页生成单元将提取的各个第二语言句子按照与该第二语言句子对应的第一语言句子在所述第一语言页面中出现的顺序排列以形成最终网页。由以上技术方案可以看出,通过本发明中从目标语言网站上提取与源语言网页主题相关的目标语言网页,并从目标语言网页中提取出与源语言网页中的句子含义一致的目标语言句子,可以在保留源语言网页的主要信息的基础上,根据源语言网页自动生成流畅性高、可读性强的目标语言网页。
图I为本发明中自动生成网页的方法的流程示意图;图2为本发明中第一语言网页的示意图;图3为本发明中数据标签的示意图;图4为本发明中自动生成网页的装置的结构示意框图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。请参考图1,图I为本发明中自动生成网页的方法的流程示意图。如图I所示,所述方法包括步骤SlOl :根据第一语言页面生成第一语言检索词。步骤S102 :将第一语言检索词翻译成第二语言检索词,使用第二语言检索词在第二语言页面集合中进行检索,从各个第二语言检索结果页面中提取第二语言候选页面。
步骤S103 :针对第一语言页面中的第一语言句子,从第二语言候选页面中提取与该第一语言句子匹配的第二语言句子,并利用提取的第二语言句子生成最终网页。下面对上述步骤进行具体说明。在本发明的实施例中,第一语言网页可以是百科类型的网页。百科类型的网页是指来源于百科网站或类似于百科网站中的网页结构的网页。本发明中的百科网站是指诸如百度百科、维基百科或互动百科一类的网站。请参考图2,图2为本发明中第一语言网页的示意图。图2中,“阿尔金山脉”是第一语言页面的标题,该标题表明了网页的主题,在本发明的一个实施例中,可以由第一语言页面的标题与各段落的标题名组合形成第一语言检索词。例如图2中,“地理概述”、“自然特征”及“主要资源”就是各段落的标题名,因此第一检索词可以是“阿尔金山脉+地理概述”、“阿尔金山脉+自然特征”或“阿尔金山脉+主要资源”。此外,在另一个实施例中,第一语言检索词也可以是第一语言页面的标题与页面上为半结构化数据设置的数据标签名称的组合。百科网站大多对词条数据进行了组织,对一个词条从各个不同角度进行介绍,这种在一个主题下形成的各个不同维度的数据就是半结构化的数据。通常百科页面上为这些半结构化的数据设置有数据标签,数据标签名称是对半结构化数据各个维度的介绍的概括。请参考图3,图3为本发明中数据标签的示意图。在图3中的右侧的词条目录就是数据标签,“制作方法”、“分辨方法”、“假钞危害”等等,是数据标签名称,因此将标题“假钞”与上述数据标签名称组合,也可以得到本发明中的第一语言检索词。此外,第一语言检索词也可以是第一语言页面中出现频率最高的N个词或出现频率最低的N个词,或者是第一语言页面中词频-反文档频率(TF-1DF,termfrequency-1nverse document frequency)值最高的N个词或词频-反文档频率值最低的N个词,或者是第一语言页面中的命名实体,其中N为正整数。假设第一语言页面是一个以歌星“Michael Jackson”为标题的英文页面,第一语言检索词包括“Michael Jackson+Life and career”、“Michael Jackson +Artistry”或“Michael Jackson+Honors and awards”等,那么如果第二语言是中文,则第二语言检索词包括“迈克尔杰克逊+生平”、“迈克尔杰克逊+艺术成就”或“迈克尔杰克逊+荣誉”等。利用上述的第二语言检索词在互联网上进行检索,可以得到包含上述第二语言检索词的检索结果页面。这些页面中,有些页面的内容是与希望获取的歌星“迈克尔杰克逊”的经历相关的,但是有些页面虽然包含了“迈克尔杰克逊”,却很可能只是为了介绍一场音乐演出,因此,本发明需要从这些检索结果页面中提取出与第一语言页面主题相关的页面作为第二语言候选页面。在本发明的一些实施例中,提取第二语言候选页面的方法首先包括将第一语言页面的标题翻译为第二语言标题,例如将“Michael Jackson”翻译为“迈克尔杰克逊”,然后在一个实施例中,提取第二语言候选页面的方法进一步包括从各个第二语言检索结果页面中选择标题与第二语言标题匹配的第二语言检索结果页面作为第二语言候选页面。例如从上述包含“迈克尔杰克逊”的检索结果页面中选择那些标题为“迈克尔杰克逊”的页面为第二语目候选页面。在本发明的另一个实施例中,提取第二语言候选页面的方法还可以是在将第一语言页面的标题翻译为第二语言标题后,分别统计第二语言标题在各个第二语言检索结果页面中出现的次数,将第二语言标题出现次数从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。在本发明的另一个实施例中,提取第二语言候选页面的方法还可以是在将第一语言页面的标题翻译为第二语言标题后,将第二语言标题作为搜索词进行搜索,得到搜索结果,并确定各个第二语言检索结果页面在该搜索结果中的排名,将排名位于前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。在该实施例中利用了搜索工具的排序功能,根据搜索工具返回的搜索结果的排序情况确定各个第二语言检索结果页面与第一语言页面的主题的相关度。在本发明的另一个实施例中,提取第二语言候选页面的方法还可以是将第一语言页面翻译为第二语言对比页面;分别统计各个第二语言检索结果页面包含的与第二语言对比页面相同的词语的数量,包含与第二语言对比页面相同的词语的数量最高的N个第二语言检索结果页面即为第二语言候选页面。此外,也可以考虑将第二语言检索结果页面包含的与第二语言对比页面相同的词语的数量占自身网页所有词语数量的比例作为选取第二语言候选页面的依据,因为这个比例越高,说明这个第二语言检索结果页面与第一语言页面越相关。在该实施例中,在统计各个第二语言检索结果页面包含的与第二语言对比页面相同的词语的数量之前还可以进一步对第二语言对比页面和各个第二语言检索结果页面进行预处理,包括分词、词形还原或去除停用词等。词形还原是指将一个语言中同一个词的各个时态转变为它的原形,而停用词指的是虚词一类的无意义词语,例如“啊”、“呜呼”等,或者一些常用词,例如代词“你”、“我”、“他”等。在本发明的另一个实施例中,提取第二语言候选页面的方法还可以是利用概率潜在语义分析(PLSA, Probabilistic latent semantic analysis)或 LDA(LatentDirichlet Allocation)的方法分别计算各个第二语言检索结果页面与第一语言页面的主题相似度,将主题相似度排名位于前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。PLSA和LDA是目前研究较多而且效果较好的两个主题模型(topic model)。这些模型旨在找出文档的主题(topic)。以PLSA方法为例,通过参考文献Duo ZhangjQiaozhuMei,ChengXiang Zhai. 2010. Cross-Lingual Latent Topic Extraction, Proceedings ofthe 48th Annual Meeting of the Association for Computational Linguistics,pages1128-1137,2010(下称参考文献I)介绍的方法从一个双语语料中找到N个跨语言的主题,因此对每个文档,可以用跨语言的主题表示为
权利要求
1.一种自动生成网页的方法,其特征在于,所述方法包括 根据第一语言页面生成第一语言检索词; 将所述第一语言检索词翻译成第二语言检索词,使用所述第二语言检索词在第二语言页面集合中进行检索,从各个第二语言检索结果页面中提取第二语言候选页面; 针对所述第一语言页面中的第一语言句子,从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子,并利用提取的第二语言句子生成最终网页。
2.根据权利要求I所述的方法,其特征在于,根据第一语言页面生成第一语言检索词的步骤包括将第一语言页面的标题与所述第一语言页面上各段落的标题名组合形成第一语言检索词;或者,将第一语言页面的标题与所述第一语言页面上为半结构化数据设置的数据标签名称组合形成第一语言检索词;或者,将第一语言页面中出现频率最高的N个词或出现频率最低的N个词作为第一语言检索词;或者,将第一语言页面中词频-反文档频率值最高的N个词或词频-反文档频率值最低的N个词作为第一语言检索词;或者,将第一语言页面中的命名实体作为第一语言检索词,其中N为正整数。
3.根据权利要求I所述的方法,其特征在于,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括 将所述第一语言页面的标题翻译为第二语言标题; 从各个第二语言检索结果页面中选择标题与所述第二语言标题匹配的第二语言检索结果页面作为第二语言候选页面。
4.根据权利要求I所述的方法,其特征在于,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括 将所述第一语言页面的标题翻译为第二语言标题; 分别统计所述第二语言标题在各个第二语言检索结果页面中出现的次数,将所述第二语言标题出现次数从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。
5.根据权利要求I所述的方法,其特征在于,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括 将所述第一语言页面的标题翻译为第二语言标题; 将所述第二语言标题作为搜索词进行搜索,得到搜索结果,并确定各个第二语言检索结果页面在所述搜索结果中的排名,将排名位于前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。
6.根据权利要求I所述的方法,其特征在于,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括 将所述第一语言页面翻译为第二语言对比页面; 分别统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量,并将包含的与所述第二语言对比页面相同的词语的数量从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,或者将包含的与所述第二语言对比页面相同的词语的数量占自身页面所有词语的数量的比例从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。
7.根据权利要求6所述的方法,其特征在于,在统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量之前进一步包括对所述第二语言对比页面和各个第二语言检索结果页面进行预处理,所述预处理包括分词、词形还原或去除停用词。
8.根据权利要求I所述的方法,其特征在于,从各个第二语言检索结果页面中提取第二语言候选页面的步骤包括分别计算各个第二语言检索结果页面与所述第一语言页面的主题相似度,将主题相似度排名位于前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。
9.根据权利要求I所述的方法,其特征在于,针对所述第一语言页面中的第一语言句子,从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子的步骤包括 针对所述第一语言页面中的每个第一语言句子,分别计算该第一语言句子与所述第二语言候选页面中的各个第二语言句子之间的相似度,并判断该第一语言句子与各个第二语言句子之间的相似度中的最大值是否大于设定阈值,如果是,则将该最大值对应的第二语言句子确定为与该第一语言句子匹配的第二语言句子,其中该第一语言句子与各个第二语言句子之间的相似度由该第一语言句子中的各个可译词的权重之和决定,所述可译词是在对应的第二语言句子中存在相应翻译词的词语。
10.根据权利要求9所述的方法,其特征在于,在计算包含表示命名实体、时间或数量的特定可译词的第一语言句子与各个第二语言句子之间的相似度时,对所述特定可译词的权重进行加权。
11.根据权利要求I所述的方法,其特征在于,在利用提取的第二语言句子形成最终网页的步骤中,将提取的各个第二语言句子按照与该第二语言句子对应的第一语言句子在所述第一语言页面中出现的顺序排列以形成最终网页。
12.一种自动生成网页的装置,其特征在于,所述装置包括 检索词生成单元,用于根据第一语言页面生成第一语言检索词; 检索单元,用于将所述第一语言检索词翻译成第二语言检索词,并使用所述第二语言检索词在第二语言页面集合中进行检索; 候选页面抽取单元,用于从各个第二语言检索结果页面中提取第二语言候选页面; 匹配句子抽取单元,用于针对所述第一语言页面中的第一语言句子,从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子; 网页生成单元,用于利用提取的第二语言句子生成最终网页。
13.根据权利要求12所述的装置,其特征在于,所述检索词生成单元将第一语言页面的标题与所述第一语言页面上各段落的标题名组合形成第一语言检索词;或者,所述检索词单元将第一语言页面的标题与所述第一语言页面上为半结构化数据设置的数据标签名称组合形成第一语言检索词;或者,所述检索词生成单元将第一语言页面中出现频率最高的N个词或出现频率最低的N个词作为第一语言检索词;或者,所述检索词生成单元将第一语言页面中词频-反文档频率值最高的N个词或词频-反文档频率值最低的N个词作为第一语言检索词;或者,所述检索词生成单元将第一语言页面中的命名实体作为第一语言检索词,其中N为正整数。
14.根据权利要求12所述的装置,其特征在于,所述候选页面抽取单元包括 第一翻译子单元,用于将所述第一语言页面的标题翻译为第二语言标题; 第一确定子单元,用于从各个第二语言检索结果页面中选择标题与所述第二语言标题匹配的第二语言检索结果页面作为第二语言候选页面。
15.根据权利要求12所述的装置,其特征在于,所述候选页面抽取单元包括 第二翻译子单元,用于将所述第一语言页面的标题翻译为第二语言标题; 第二确定子单元,用于分别统计所述第二语言标题在各个第二语言检索结果页面中出现的次数,将所述第二语言标题出现次数从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。
16.根据权利要求12所述的装置,其特征在于,所述候选页面抽取单元包括 第三翻译子单元,用于将所述第一语言页面的标题翻译为第二语言标题; 第三确定子单元,用于将所述第二语言标题作为搜索词进行搜索,得到搜索结果,并确定各个第二语言检索结果页面在所述搜索结果中的排名,将排名位于前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。
17.根据权利要求12所述的装置,其特征在于,所述候选页面抽取单元包括 第四翻译子单元,用于将所述第一语言页面翻译为第二语言对比页面; 第四确定子单元,用于分别统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量,并将包含的与所述第二语言对比页面相同的词语的数量从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,或者将包含的与所述第二语言对比页面相同的词语的数量占自身页面所有词语的数量的比例从大到小排列在前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。
18.根据权利要求17所述的装置,其特征在于,所述候选页面抽取单元进一步包括预处理单元,用于在统计各个第二语言检索结果页面包含的与所述第二语言对比页面相同的词语的数量之前对所述第二语言对比页面和各个第二语言检索结果页面进行预处理,所述预处理包括分词、词形还原或去除停用词。
19.根据权利要求12所述的装置,其特征在于,所述候选页面抽取单元包括 第一计算子单元,用于分别计算各个第二语言检索结果页面与所述第一语言页面的主题相似度; 第五确定子单元,用于将主题相似度排名位于前N位的第二语言检索结果页面确定为第二语言候选页面,其中N为正整数。
20.根据权利要求12所述的装置,其特征在于,所述匹配句子抽取单元包括 第二计算子单元,用于针对所述第一语言页面上的每个第一语言句子,分别计算该第一语言句子与所述第二语言候选页面中的各个第二语言句子之间的相似度,其中该第一语言句子与各个第二语言句子之间的相似度由该第一语言句子中的各个可译词的权重之和决定,所述可译词是在对应的第二语言句子中存在相应翻译词的词语; 判断子单元,用于判断该第一语言句子与各个第二语言句子之间的相似度中的最大值是否大于设定阈值,如果是,则将该最大值对应的第二语言句子确定为与该第一语言句子匹配的第二语言句子。
21.根据权利要求20所述的装置,其特征在于,所述第二计算子单元在计算包含表示命名实体、时间或数量的特定可译词的第一语言句子与各个第二语言句子之间的相似度时,对所述特定可译词的权重进行加权。
22.根据权利要求12所述的装置,其特征在于,网页生成单元将提取的各个第二语言句子按照与该第二语言句子对应的第一语言句子在所述第一语 言页面中出现的顺序排列以形成最终网页。
全文摘要
本发明提供了一种自动生成网页的方法及装置,其中自动生成网页的方法包括根据第一语言页面生成第一语言检索词;将所述第一语言检索词翻译成第二语言检索词,使用所述第二语言检索词在第二语言页面集合中进行检索,从各个第二语言检索结果页面中提取第二语言候选页面;针对所述第一语言页面中的第一语言句子,从所述第二语言候选页面中提取与该第一语言句子匹配的第二语言句子,并利用提取的第二语言句子生成最终网页。通过上述方式,可根据源语言网页自动生成流畅性高、可读性强的目标语言网页。
文档编号G06F17/30GK102982030SQ20111025932
公开日2013年3月20日 申请日期2011年9月2日 优先权日2011年9月2日
发明者蓝翔, 沈文竹, 吴甜, 吴华 申请人:北京百度网讯科技有限公司