本发明涉及互联网,尤其涉及一种短网址生成方法及装置。
背景技术:
1、随着互联网的发展,为便于页面链接的分享和传播,通常需要将长链接转换成短链接。
2、传统的短链接生成方法中,短链接服务器需要将长链接的统一资源定位符(uniform resource locator,简称url)字符串转换成长度较短的url字符串,用户点击短链接时,则跳转到对应的长链接。
3、但上述方法生成的短链接中,例如http://s.wyyt.cc,其通常包含无特殊意义的数字或英文字母,用户无法确定该链接的具体内容是否是自身所关注的,同时不便于记忆和口头传播。
技术实现思路
1、为实现上述目的,本发明提供了一种短网址生成方法及装置,其可以将长链接文本内容对应的中文关键词与短链接域名进行拼接,使得最终生成的短链接中包含与长链接文本内容对应的中文关键词,便于用户记忆以及口头传播。
2、提供了如下的技术方案:
3、第一方面,提供了一种短链接生成方法,其包括如下步骤:
4、接收输入的长链接;
5、确定所述长链接是否存在与其对应的短链接域名;若存在,则直接调用与该长链接对应的短链接域名;若不存在,则生成与该长链接对应的短链接域名;
6、根据长链接文本内容确定对应的中文关键词;
7、以及将所述关键词与短链接域名进行拼接,以得到完整的短链接。
8、优选的,确定所述长链接是否存在与其对应的短链接域名,包括如下步骤:
9、建立短链接域名数据库,其中包含若干长链接以及与每一长链接对应的、至少一个短链接域名;
10、当接收到输入的长链接后,在该数据库中进行对比查询,以确认是否存在对应的短链接域名。
11、优选的,根据长链接文本内容确定对应的中文关键词,包括如下步骤:
12、获取长链接的md5值,并生成32位的md5签名串;
13、截取所述md5签名串的前6位,并将其以16进制的数据格式转换为二进制格式数据;
14、将所述二进制格式数据转换为10进制数据;
15、以及根据所述10进制数据确定是否存在与其对应的中文关键词;若存在,则直接调用该中文关键词。
16、优选的,根据所述10进制数据确定是否存在与其对应的中文关键词,包括如下步骤:
17、建立10进制数据与中文关键词的映射关系,且每一10进制数据均与至少一个中文关键词对应;
18、当接收到10进制数据后,根据该映射关系进行查询,以确认是否存在对应的中文关键词。
19、优选的,10进制数据与中文关键词的映射关系通过码点表进行体现。
20、优选的,若不存在与所述10进制数据对应的中文关键词,则根据长链接的文本内容确定中文关键词,并建立该中文关键词与10进制数据的映射关系。
21、优选的,根据长链接的文本内容确定中文关键词,并建立该中文关键词与10进制数据的映射关系,包括如下步骤:
22、根据公式(1)确定当前词语在长链接的文本内容中的词频tf:
23、tf=当前词语在文本内容中出现的次数/文本内容的总词数 (1)
24、根据公式(2)获取逆文档频率idf:
25、idf=log(语料库的文档总数/(包含当前词语的文档数+1))(2)
26、其中,包含当前词语的文档数是指语料库中,包含有当前词语的文档总数;
27、根据公式(3)获取当前词语的词位置权重w:
28、w=当前词语在标题中出现的次数*标题权重值+当前词语在总结段落中出现的次数*总结权重值+当前词语在其他位置中出现的次数*1(3)
29、其中,所述总结段落为具有关键词“总结”、“归纳”、“结论”、“综上所述”中的一项或几项的段落,所述其他位置为除标题、总结段落以外的其他段落;
30、根据公式(4)获取词频-逆文件频率tf-idf:
31、tf-idf=tf*idf*w (4)
32、根据词频-逆文件频率tf-idf确定中文关键词,建立该中文关键词与10进制数据的映射关系。
33、优选的,标题权重值取值范围为[1.0,1.5],总结权重值取值范围为[1.2,2.0]。
34、优选的,将词频-逆文件频率tf-idf按照从高到低的顺序进行排序,且将排名前三位的词频-逆文件频率tf-idf所对应的词语中的一个或几个确定为中文关键词。
35、第二方面,还提供一种用于实现上述短链接生成方法的短链接生成装置,其包括:
36、短链接域名数据库,其用于存储若干长链接以及与每一长链接对应的、至少一个短链接域名,且在接收输入的长链接后,确定所述长链接是否存在与其对应的短链接域名;
37、短链接域名生成单元,其用于当短链接域名数据库中不存在与输入的长链接对应的短链接域名时,生成与该长链接对应的短链接域名;
38、转换单元,其用于将长链接的md5值转换为10进制数据;
39、查询单元,其连接所述转换单元,用于存储10进制数据与中文关键词的映射关系,且根据所述10进制数据确定是否存在与其对应的中文关键词;
40、关键词生成单元,其用于当查询单元确定不存在与10进制数据对应的中文关键词时,根据长链接文本内容确定对应的中文关键词;
41、短链接生成单元,其用于将所述中文关键词与短链接域名进行拼接,以得到完整的短链接。
42、本发明可以将长链接文本内容对应的中文关键词与短链接域名进行拼接,使得最终生成的短链接中包含与长链接文本内容对应的中文关键词,由此,用户可快速知晓该短链接对应的长链接中包含的相关的文本内容,同时,用户可根据中文关键词快速记忆该短链接,便于其后续进行口头传播,提升用户体验。
43、本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
1.一种短链接生成方法,其特征在于,包括如下步骤:
2.如权利要求1所述的短链接生成方法,其特征在于,确定所述长链接是否存在与其对应的短链接域名,包括如下步骤:
3.如权利要求1所述的短链接生成方法,其特征在于,根据长链接文本内容确定对应的中文关键词,包括如下步骤:
4.如权利要求3所述的短链接生成方法,其特征在于,根据所述10进制数据确定是否存在与其对应的中文关键词,包括如下步骤:
5.如权利要求4所述的短链接生成方法,其特征在于,10进制数据与中文关键词的映射关系通过码点表进行体现。
6.如权利要求3所述的短链接生成方法,其特征在于,若不存在与所述10进制数据对应的中文关键词,则根据长链接的文本内容确定中文关键词,并建立该中文关键词与10进制数据的映射关系。
7.如权利要求6所述的短链接生成方法,其特征在于,根据长链接的文本内容确定中文关键词,并建立该中文关键词与10进制数据的映射关系,包括如下步骤:
8.如权利要求7所述的短链接生成方法,其特征在于,标题权重值取值范围为[1.0,1.5],总结权重值取值范围为[1.2,2.0]。
9.如权利要求7所述的短链接生成方法,其特征在于,将词频-逆文件频率tf-idf按照从高到低的顺序进行排序,且将排名前三位的词频-逆文件频率tf-idf所对应的词语中的一个或几个确定为中文关键词。
10.一种用于实现权利要求7所述短链接生成方法的短链接生成装置,其特征在于,包括: