页面中文本乱码的识别方法及装置的制造方法

文档序号：8430694阅读：565来源：国知局

页面中文本乱码的识别方法及装置的制造方法
【专利说明】
【技术领域】
[0001]本申请涉及万维网(World Wide Web,Web)页面处理技术,尤其涉及一种页面中文本乱码的识别方法及装置。
【【背景技术】】
[0002]万维网(World Wide Web, Web)页面可以包括由一个或者多个超文本标记语言(HyperText Markup Language, HTML)标签组成的一个显示区块,称为页面元素,例如，文本、标签、超链接、按钮、输入框、下拉框等。由于Web页面的解析等原因，Web页面中的文本会出现乱码现象。现有技术中，需要由操作人员逐一对Web页面进行查看，以发现该Web页面中的文本是否出现乱码现象。
[0003]然而，现有文本乱码的识别操作时间长，而且容易出错，从而导致了文本乱码的识别的效率和可靠性的降低。
【
【发明内容】
】
[0004]本申请的多个方面提供一种页面中文本乱码的识别方法及装置，用以提高文本乱码的识别的效率和可靠性。
[0005]本申请的一方面，提供一种页面中文本乱码的识别方法，包括:
[0006]获取页面中待识别的第一文本的第一编码格式；
[0007]根据第二编码格式所对应的字符与其他编码格式所对应的字符之间的对应关系，将所述第一文本转换为第二文本，所述第二文本的编码格式为所述第二编码格式；
[0008]根据所述第二编码格式所对应的字符与所述第一编码格式所对应的字符之间的对应关系，将所述第二文本转换为第三文本；
[0009]根据所述第三文本和所述第一文本，确定所述第一文本中是否存在乱码。
[0010]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述第二编码格式包括Unicode编码格式。
[0011]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述第三文本和所述第一文本，确定所述第一文本中是否存在乱码，包括:
[0012]对所述第三文本和所述第一文本进行比较；
[0013]若所述第三文本与所述第一文本不一致，确定所述第一文本中存在乱码；或者
[0014]若所述第三文本与所述第一文本一致，确定所述第一文本中不存在乱码。
[0015]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述对所述第三文本和所述第一文本进行比较，包括:
[0016]提取所述第三文本的特征信息和所述第一文本的特征信息；
[0017]对所述第三文本的特征信息和所述第一文本的特征信息进行比较；
[0018]若所述第三文本的特征信息与所述第一文本的特征信息不相同，说明所述第三文本与所述第一文本不一致；或者
[0019]若所述第三文本的特征信息与所述第一文本的特征信息相同，说明所述第三文本与所述第一文本一致。
[0020]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述特征信息包括MD5值。
[0021]本申请的另一方面，提供一种页面中文本乱码的识别装置，包括:
[0022]获取单元，用于获取页面中待识别的第一文本的第一编码格式；
[0023]转换单元，用于根据第二编码格式所对应的字符与其他编码格式所对应的字符之间的对应关系，将所述第一文本转换为第二文本，所述第二文本的编码格式为所述第二编码格式；
[0024]所述转换单元，还用于根据所述第二编码格式所对应的字符与所述第一编码格式所对应的字符之间的对应关系，将所述第二文本转换为第三文本；
[0025]确定单元，用于根据所述第三文本和所述第一文本，确定所述第一文本中是否存在乱码。
[0026]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述第二编码格式包括Unicode编码格式。
[0027]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述确定单元，具体用于
[0028]对所述第三文本和所述第一文本进行比较；
[0029]若所述第三文本与所述第一文本不一致，确定所述第一文本中存在乱码；或者
[0030]若所述第三文本与所述第一文本一致，确定所述第一文本中不存在乱码。
[0031]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述确定单元，具体用于
[0032]提取所述第三文本的特征信息和所述第一文本的特征信息；
[0033]对所述第三文本的特征信息和所述第一文本的特征信息进行比较；
[0034]若所述第三文本的特征信息与所述第一文本的特征信息不相同，说明所述第三文本与所述第一文本不一致；或者
[0035]若所述第三文本的特征信息与所述第一文本的特征信息相同，说明所述第三文本与所述第一文本一致。
[0036]如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述特征信息包括MD5值。
[0037]由上述技术方案可知，本申请实施例通过获取页面中待识别的第一文本的第一编码格式，进而根据第二编码格式所对应的字符与其他编码格式所对应的字符之间的对应关系，将所述第一文本转换为具有所述第二编码格式的第二文本，再根据所述第二编码格式所对应的字符与所述第一编码格式所对应的字符之间的对应关系，将所述第二文本转换为第三文本，使得能够根据所述第三文本和所述第一文本，确定所述第一文本中是否存在乱码，无需操作人员参与识别过程，操作简单，而且正确率高，从而提高了文本乱码的识别的效率和可靠性。
【【附图说明】】
[0038]为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0039]图1为本申请一实施例提供的页面中文本乱码的识别方法的流程示意图；
[0040]图2为本申请另一实施例提供的页面中文本乱码的识别装置的结构示意图。
【【具体实施方式】】
[0041 ]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本申请保护的范围。
[0042]可以理解的是，本申请所涉及的页面，可以是基于超文本标记语言(HyperTextMarkup Language, HTML)编写的网页(Web Page),也可以称为Web页面。
[0043]需要说明的是，本申请实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant, PDA)、无线手持装置、无线上网本、个人电脑、便携电脑、个人电脑(Personal Computer, PC)、MP3播放器、MP4播放器等。
[0044]另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示:单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。
[0045]图1为本申请一实施例提供的页面中文本乱码的识别方法的流程示意图，如图1所示。
[0046]101、获取页面中待识别的第一文本的第一编码格式。
[0047]其中，所述第一编码格式可以为现有技术中所有可选的文本编码方式，例如，GBK编码方式、UTF-8编码方式或GB2312编码方式等，本实施例对此不进行特别限定。
[0048]GBK是汉字编码标准之一，全称《汉字内码扩展规范》(GBK即“国标”、“扩展”汉语拼音的第一个字母，还可以称为汉字国际扩展码，英文名称为Chinese Internal CodeSpecificat1n)。
[0049]UTF是“UCS Transformat1n Format”的缩写，可以翻译成Unicode字符集转换格式。
[0050]可选地，在本实施例的一个可能的实现方式中，在101中，具体可以根据页面的相关信息，获取所述页面中待识别的第一文本的第一编码格式。
[0051]例如，可以根据页面的META 标签即 “〈meta http-equiv=〃Content_Type〃content=〃text/html; charset=gb2312〃>”,获取该页面中待识别的第一文本的第一编码格式为GB2312编码格式。
[0052]或者,再例如,可以根据页面的级联样式表(Cascading Style Sheet,CSS)文件中的定义即“@charset"UTF-8"”，获取该

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：丁世远;
技术所有人：阿里巴巴集团控股有限公司;
我是此专利的发明人

上一篇：漫画页面的计数系统和漫画页面的计数方法
上一篇：一种藏医药理论孤本古籍文献的抢救、整理与保护方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。