一种相似度计算方法、终端及计算机可读存储介质与流程

文档序号:11276866阅读:250来源:国知局
本发明涉及信息处理
技术领域
:,尤其涉及一种相似度计算方法、终端及计算机可读存储介质。
背景技术
::当前,在众多领域、例如互联网行业等均涉及物品相似性计算,并基于各种已有的相似性计算方法进行相似性分析。例如在个性化推荐领域等,服务器收集并存储了用户及其操作对象的大量数据,需要根据用户已进行的操作向用户推荐用户可能感兴趣的相关操作对象,在推荐的过程中需要计算出要推荐的操作对象与用户进行操作的操作对象的相似度,以将相似度高的操作对象推荐给用户。这里,在相似性计算方法上,大体上包括基于物体属性向量已知条件下的相似性计算方法、基于关联关系的相似性计算方法、基于统计的相似性计算方法这三类。其中,基于物体属性向量已知条件下的相似性计算方法。该相似性计算方法,依据物体属性已知的情况,计算物体属性向量在某种意义下的距离,作为物体与物体之间的相似性计算。例如:欧几里得距离、马氏距离、米科夫斯基距离、汉明距离、jaccard系数、皮尔逊相关系数、余弦相似度等。例如:使用物品标签向量,计算两个物品标签之间的余弦相似度,将这些值按照方阵展开形成相似度矩阵,标签个数不一致时,用零补全矩阵为方阵,此时利用带权二部图最大匹配算法,将匹配值相加即为物品相似度。上述相似度计算方式的中采用穷举法、带权二部图最大匹配算法导致计算过程比较复杂,计算时间复杂度为o(nm),其中n为二部图中的顶点个数,m为边个数,在数据量较大时时间成本很高。技术实现要素:本发明的主要目的在于提出一种相似度计算方法、终端及计算机可读存储介质,旨在解决现有技术中,物品相似度计算过程复杂、计算量大、计算时间复杂度高而大量占用系统计算资源的问题。为实现上述目的,本发明一方面提供一种相似度计算方法,所述相似度计算方法包括:根据物品相似度标签获取相似度矩阵;提取所述相似度矩阵中不在同一行和同一列的元素组成无关项,计算所有无关项匹配值;根据所述无关项匹配值及所述相似度矩阵的综合权重确定物品相似度,以减小物品相似度计算的时间复杂度;其中,所述无关项匹配值是所述相似度矩阵所有无关项的平均值,代表所述相似度矩阵的关键相似信息。进一步地,所述根据物品相似度标签获取相似度矩阵包括:将相似度标签转换为相似度向量;将所述相似度向量点乘得到相似度矩阵:其中,n为物品相似度标签个数。进一步地,所述相似度矩阵的无关项匹配值为:其中,qij为所述相似度矩阵第i行第j列元素,为所述相似度矩阵重复项个数,为无关项个数。进一步地,所述物品相似度为:s=r/n;其中,r为无关项匹配值。本发明另一方面还提供一种相似度计算终端,所述相似度计算终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的相似度计算程序,所述相似度计算程序被所述处理器执行时实现以下步骤:根据物品相似度标签获取相似度矩阵;提取所述相似度矩阵中不在同一行和同一列的元素组成无关项,计算所有无关项匹配值;根据所述无关项匹配值及所述相似度矩阵的综合权重确定物品相似度,以减小物品相似度计算的时间复杂度;其中,所述无关项匹配值是所述相似度矩阵所有无关项的平均值,代表所述相似度矩阵的关键相似信息。进一步地,所述根据物品相似度标签获取相似度矩阵步骤中,所述处理器执行所述相似度计算程序,以实现以下步骤:将相似度标签转换为相似度向量;将所述相似度向量点乘得到相似度矩阵:其中,n为物品相似度标签个数。进一步地,所述提取所述相似度矩阵中不在同一行和同一列的元素组成无关项,计算所有无关项匹配值步骤中,所述处理器执行所述相似度计算程序,以实现以下步骤:通过计算所述所有无关项匹配值;其中,qij为所述相似度矩阵第i行第j列元素,为所述相似度矩阵重复项个数,为无关项个数。本发明另一方面还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现以下步骤:根据物品相似度标签获取相似度矩阵;提取所述相似度矩阵中不在同一行和同一列的元素组成无关项,计算所有无关项匹配值;根据所述无关项匹配值及所述相似度矩阵的综合权重确定物品相似度,以减小物品相似度计算的时间复杂度;其中,所述无关项匹配值是所述相似度矩阵所有无关项的平均值,代表所述相似度矩阵的关键相似信息。进一步地,所述根据物品相似度标签获取相似度矩阵步骤中,所述一个或者多个程序还可被所述一个或者多个处理器执行,以实现以下步骤:将相似度标签转换为相似度向量;将所述相似度向量点乘得到相似度矩阵:其中,n为物品相似度标签个数。进一步地,所述提取所述相似度矩阵中不在同一行和同一列的元素组成无关项,计算所有无关项匹配值步骤中,所述一个或者多个程序还可被所述一个或者多个处理器执行,以实现以下步骤:通过计算所述所有无关项匹配值;其中,qij为所述相似度矩阵第i行第j列元素,为所述相似度矩阵重复项个数,为无关项个数。本发明提供的相似度计算方法、终端及及计算机可读存储介质,通过查找相似度矩阵所有的无关项,计算无关项匹配值,根据无关项匹配值及相似度矩阵的综合权重确定物品相似度。相较于现有的带权二部图最大匹配算法,本发明在提取无关项匹配时结合相似度矩阵无关项匹配的特点直接用加法实现,无需使用穷举法,从而简化了物品相似度计算过程,将算法时间复杂度从o(nm)降低为o(1),在分布式计算平台下有着很好的计算性能,能有效的节约系统的计算资源。附图说明图1为为实现本发明各个实施例的一种移动终端的硬件结构示意图;图2为本发明实施例提供的一种通信网络系统架构图;图3为本发明实施例提供的一种相似度计算方法的流程图;图4为本发明实施例中用户通过相似度计算终端输入相似度标签的示意图;图5为本发明实施例中相似度计算终端输出相似度的示意图;图6为本发明实施例中相似度计算终端的组成结构示意图;本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。终端可以以各种形式来实施。例如,本发明中描述的终端可以包括诸如手机、平板电脑、移动电话、智能电话、笔记本电脑、掌上电脑、数字广播接收器、个人数字助理(personaldigitalassistant,pda)、便捷式媒体播放器(portablemediaplayer,pmp)、导航终端、可穿戴设备、智能手环、计步器等移动终端,以及诸如数字tv、台式计算机等固定终端。后续描述中将以移动终端为例进行说明,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。请参阅图1,其为实现本发明各个实施例的一种移动终端的硬件结构示意图,该移动终端100可以包括:rf(radiofrequency,射频)单元101、wifi模块102、音频输出单元103、a/v(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解,图1中示出的移动终端结构并不构成对移动终端的限定,移动终端可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。下面结合图1对移动终端的各个部件进行具体的介绍:射频单元101可用于收发信息或通话过程中,信号的接收和发送,具体的,将基站的下行信息接收后,给处理器110处理;另外,将上行的数据发送给基站。通常,射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于gsm(globalsystemofmobilecommunication,全球移动通讯系统)、gprs(generalpacketradioservice,通用分组无线服务)、cdma2000(codedivisionmultipleaccess2000,码分多址2000)、wcdma(widebandcodedivisionmultipleaccess,宽带码分多址)、td-scdma(timedivision-synchronouscodedivisionmultipleaccess,时分同步码分多址)、fdd-lte(frequencydivisionduplexing-longtermevolution,频分双工长期演进)和tdd-lte(timedivisionduplexing-longtermevolution,分时双工长期演进)等。wifi属于短距离无线传输技术,移动终端通过wifi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图1示出了wifi模块102,但是可以理解的是,其并不属于移动终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。音频输出单元103可以在移动终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将射频单元101或wifi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。a/v输入单元104用于接收音频或视频信号。a/v输入单元104可以包括图形处理器(graphicsprocessingunit,gpu)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获终端(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或wifi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据),并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。移动终端100还包括至少一种传感器105,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度,接近传感器可在移动终端100移动到耳边时,关闭显示面板1061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061,可以采用液晶显示器(liquidcrystaldisplay,lcd)、有机发光二极管(organiclight-emittingdiode,oled)等形式来配置显示面板1061。用户输入单元107可用于接收输入的数字或字符信息,以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作),并根据预先设定的程式驱动相应的连接终端。触控面板1071可包括触摸检测终端和触摸控制器两个部分。其中,触摸检测终端检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测终端上接收触摸信息,并将它转换成触点坐标,再送给处理器110,并能接收处理器110发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071,用户输入单元107还可以包括其他输入设备1072。具体地,其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种,具体此处不做限定。进一步的,触控面板1071可覆盖显示面板1061,当触控面板1071检测到在其上或附近的触摸操作后,传送给处理器110以确定触摸事件的类型,随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中,触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端的输入和输出功能,但是在某些实施例中,可以将触控面板1071与显示面板1061集成而实现移动终端的输入和输出功能,具体此处不做限定。接口单元108用作至少一个外部终端与移动终端100连接可以通过的接口。例如,外部终端可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的终端的端口、音频输入/输出(i/o)端口、视频i/o端口、耳机端口等等。接口单元108可以用于接收来自外部终端的输入(例如,数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部终端之间传输数据。存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器109可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。处理器110是移动终端的控制中心,利用各种接口和线路连接整个移动终端的各个部分,通过运行或执行存储在存储器109内的软件程序和/或模块,以及调用存储在存储器109内的数据,执行移动终端的各种功能和处理数据,从而对移动终端进行整体监控。处理器110可包括一个或多个处理单元;优选的,处理器110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。移动终端100还可以包括给各个部件供电的电源111(比如电池),优选的,电源111可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。尽管图1未示出,移动终端100还可以包括蓝牙模块等,在此不再赘述。为了便于理解本发明实施例,下面对本发明的移动终端所基于的通信网络系统进行描述。请参阅图2,图2为本发明实施例提供的一种通信网络系统架构图,该通信网络系统为通用移动通信技术的lte系统,该lte系统包括依次通讯连接的ue(userequipment,用户设备)201,e-utran(evolvedumtsterrestrialradioaccessnetwork,演进式umts陆地无线接入网)202,epc(evolvedpacketcore,演进式分组核心网)203和运营商的ip业务204。具体地,ue201可以是上述终端100,此处不再赘述。e-utran202包括enodeb2021和其它enodeb2022等。其中,enodeb2021可以通过回程(backhaul)(例如x2接口)与其它enodeb2022连接,enodeb2021连接到epc203,enodeb2021可以提供ue201到epc203的接入。epc203可以包括mme(mobilitymanagemententity,移动性管理实体)2031,hss(homesubscriberserver,归属用户服务器)2032,其它mme2033,sgw(servinggateway,服务网关)2034,pgw(pdngateway,分组数据网络网关)2035和pcrf(policyandchargingrulesfunction,政策和资费功能实体)2036等。其中,mme2031是处理ue201和epc203之间信令的控制节点,提供承载和连接管理。hss2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能,并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过sgw2034进行发送,pgw2035可以提供ue201的ip地址分配以及其它功能,pcrf2036是业务数据流和ip承载资源的策略与计费控制策略决策点,它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。ip业务204可以包括因特网、内联网、ims(ipmultimediasubsystem,ip多媒体子系统)或其它ip业务等。虽然上述以lte系统为例进行了介绍,但本领域技术人员应当知晓,本发明不仅仅适用于lte系统,也可以适用于其他无线通信系统,例如gsm、cdma2000、wcdma、td-scdma以及未来新的网络系统等,此处不做限定。基于上述移动终端硬件结构以及通信网络系统,提出本发明方法各个实施例。图3为本发明第一实施例提供的一种相似度计算方法,如图3所示,该相似度计算方法包括:s101、根据物品相似度标签获取相似度矩阵;本步骤中,先将物品的相似度标签转换为相似度向量。例如,以新闻作为物品,其相似度标签“舰载”使用word2vec向量化为100维的相似度向量为:例如,物品a包含n个相似度标签,则可以通过这n个相似度标签对应的相似度向量[a[1],a[2],a[3]……,a[n]]来描述,物品b包含n个相似度标签,则可以通过相似度向量[b[1],b[2],b[3],……,b[n]]来描述。通过使用物品相似度向量,计算两个物品相似度标签之间的余弦相似度,将这些余弦相似度值按照方阵展开就可以获得相似度矩阵。当物品相似度标签个数不一致时,例如,物品a有m个相似度标签,物品b有n个相似度标签,得到m×n维相似度矩阵,若物品a的相似度标签大于物品b的相似度标签,即:m>n,则可以用零将m×n维相似度矩阵补充为n×n维相似度矩阵。例如:新闻1相似度标签为[a[1],a[2],a[3]……,a[n]],新闻2的相似度标签为[b[1],b[2],b[3],……,b[n]],则将新闻1的第一个相似度标签a[1]分别与新闻2的每个相似度标签进行向量点乘得到相似度矩阵qn×n的第一行元素,将新闻1的第二个相似度标签a[2]分别与新闻2的每个相似度标签进行向量点乘得到相似度矩阵qn×n的第二行元素,以此类推,将新闻1的第n个相似度标签a[n]分别与新闻2的每个相似度标签进行向量点乘得到相似度矩阵qn×n的第n行元素,从而得到整个相似度矩阵qn×n,s102、提取所述相似度矩阵中不在同一行和同一列的元素组成无关项,计算所有无关项匹配值;其中,所述无关项匹配值是所述相似度矩阵所有无关项的平均值,代表所述相似度矩阵的关键相似信息。无关项可以通过提取相似度矩阵中不在同一行和同一列的元素组成,即在所述相似度矩阵中按照每行取一个元素,且每个元素不出现在同一列的所有匹配。例如,对于n维相似矩阵,其对角线上个n个元素组成一组无关项,n维相似矩阵无关项个数为在获取所述相似度矩阵的所有无关项时,可以根据上述概念采用穷举法一一获取。在一种较佳的实施方式中,这里可以直接对相似度矩阵中所有元素进行加和乘以重复项个数得到所有的无关项匹配的权值总和,再除以无关项个数得到无关项匹配值r;其中,qij表示所述相似度矩阵第i行第j列的元素,n为所述相似度矩阵的维数,为所述相似度矩阵重复项个数,为无关项个数。s103、根据所述无关项匹配值及所述相似度矩阵的综合权重确定物品相似度。本步骤中,根据无关项匹配值及所述无关项匹配个数的综合权重,得到相似度s。s=r/n;其中,r为步骤s102中的无关项匹配值,n为所述相似度矩阵的维数。本发明提供的相似度计算方法,通过查找相似度矩阵所有的无关项,计算无关项匹配值,根据无关项匹配值及相似度矩阵的综合权重确定物品相似度。相较于现有的带权二部图最大匹配算法,本发明在提取无关项匹配时结合相似度矩阵无关项匹配的特点直接用加法实现,无需使用穷举法,从而简化了物品相似度计算过程,将算法时间复杂度从o(nm)降低为o(1),在分布式计算平台下有着很好的计算性能,能有效的节约系统的计算资源。下面以物品a为新闻1,物品b为新闻2为例来具体描述本发明提供的相似度计算方法的具体实施过程。如图4所示,用户采用本发明提供的相似度计算终端100,针对四个不同项目,分别输入新闻1的相似度标签和新闻2的相似度标签。其具体输入内容如表1所示。表1新闻1的相似度标签和新闻2的相似度标签项目序号新闻1的相似度标签新闻2的相似度标签1舰载、喷气式、双座预警机、中国空军2政府、中央、改革推进、制度、战舰3舰载、喷气式、双座预警机、中国空军、飞行4舰载、喷气式、双座预警机、中国空军、飞行、辽宁终端100在接收到用户输入的上述相似度标签后,执行以下步骤:s201、根据物品相似度标签获取相似度矩阵;其中,相似度标签是相比较的两个物体的相似度标签,例如表1中新闻1的相似度标签和新闻2的相似度标签。以用户输入项目1的相似度标签为例,新闻作为物品,首先将其相似度标签使用word2vec向量化为100维的向量。其中,word2vec是一个将单个词语转换成向量形式的工具,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。具体的,将用户输入新闻1的相似度标签“舰载、喷气式、双座”及新闻2的相似度标签“预警机、中国空军”分别使用word2vec向量化为100维的向量。例如,对于相似度标签“舰载”这个词使用word2vec向量化为100维的向量为:其次,将新闻1的各个相似度标签对应的100维向量分别与新闻2的各个相似度标签对应的100维向量进行向量点乘,得到相似度矩阵。具体的,将新闻1第一个相似度标签“舰载”对应的100维向量分别与新闻2的每个相似度标签,即“预警机”和“中国空军”对应的100维向量分别进行向量点乘得到相似度矩阵第一行的元素。例如,对于新闻1第一个相似度标签“舰载”和新闻2的第一个相似度标签“预警机”,将“舰载”对应的100维向量中每个维度(一共一百个)对应的值与“预警机”对应的100维向量中每个维度对应的值分别相乘之后相加再除以预设的固定值,得到相似度矩阵第一行第一列的元素。按照上述方式将新闻1第一个相似度标签“舰载”和新闻2的第二个相似度标签“中国空军”进行向量点乘得到相似度矩阵第一行第二列的元素。按照上述方式,将新闻1第二个相似度标签“喷气式”对应的100维向量分别与新闻2的相似度标签“预警机”和“中国空军”对应的100维向量分别进行向量点乘得到相似度矩阵第二行的元素。将新闻1第三个相似度标签“双座”对应的100维向量分别与新闻2的相似度标签“预警机”和“中国空军”对应的100维向量分别进行向量点乘得到相似度矩阵第三行的元素。本实施例中,出现对比的两个物品相似度标签个数不同的情况,即新闻1包含3个相似度标签,新闻2包含2个相似度标签,通过上述向量点乘方式得到的初始相似度矩阵为3×2维矩阵,在这种情况下,将初始相似度矩阵的第三列元素以0补充,得到3×3维的相似度矩阵q5×5。s201、提取所述相似度矩阵中不在同一行和同一列的元素组成无关项,计算所有无关项匹配值;其中,所述无关项匹配值是所述相似度矩阵所有无关项的平均值,代表所述相似度矩阵的关键相似信息。无关项可以通过提取相似度矩阵中不在同一行和同一列的元素组成,即在所述相似度矩阵中按照每行取一个元素,且每个元素不出现在同一列的所有匹配。例如,对于n维相似矩阵,其对角线上个n个元素组成一组无关项,n维相似矩阵无关项个数为具体的,本步骤中,针对项目1中用户输入新闻1和新闻2的相似度标签得到的相似度矩阵q5×5,将相似度矩阵q5×5中所有元素进行加和乘以所述相似度矩阵重复项个数得到所有无关项匹配的权值总和。其中,重复项个数所有无关项匹配的权值总和再除以无关项个数得到无关项匹配值r;s203、根据所述无关项匹配值及所述相似度矩阵的综合权重确定物品相似度;本步骤中,根据无关项匹配值及所述无关项匹配个数的综合权重,得到相似度s。s=r/n;其中,r为步骤s202中的无关项匹配值,n为所述相似度矩阵的维数,即3。通过上述步骤可以根据表1项目1中用户向终端100输入新闻1的相似度标签和新闻2的相似度标签得到项目1中新闻1和新闻2的相似度s1。重复上述步骤s201~s203分别对表1项目2、项目3和项目4中用户向终端100输入新闻1的相似度标签和新闻2的相似度标签进行分析得到项目2中新闻1和新闻2的相似度s2、项目3中新闻1和新闻2的相似度s3、项目4中新闻1和新闻2的相似度s4。具体输出结果见参见图5及表2。表2新闻1和新闻2的相似度基于上述方法步骤,本发明实施例还提供一种相似度计算终端以执行本发明方法实施例中的各个步骤。所述相似度计算终端包括但不限于手机、智能电话、笔记本电脑、数字广播接收器、pda、pad、pmp、导航装置等等。其中,相似度计算终端如果具有操作系统,该操作系统可以为unix、linux、windows、安卓(android)、windowsphone等等。下面以移动终端是手机的情况为例进行说明。在本发明第一实施例中,该移动终端还具有便携性,具体地,移动终端可以实现单手握持,如此,在各种场景需要进行相似度计算时,可以利用移动终端的便携性实现相似度计算。如图6所示,所述相似度计算终端60包括:存储器61、处理器62及存储在所述存储器上并可在所述处理器上运行的相似度计算程序,所述相似度计算程序被所述处理器执行时实现以下步骤:步骤1:根据物品相似度标签获取相似度矩阵;其中,相似度矩阵可以根据物品的相似度标签来获取,物品可以用n维相似度标签描述。例如,物品a可以通过的相似度向量[a[1],a[2],a[3]……,a[n]]来描述,物品b可以通过相似度向量[b[1],b[2],b[3],……,b[n]]来描述。通过使用物品相似度向量,计算两个物品相似度标签之间的余弦相似度,将这些余弦相似度值按照方阵展开就可以获得相似度矩阵。步骤2:提取所述相似度矩阵中不在同一行和同一列的元素组成无关项,计算所有无关项匹配值;其中,所述无关项匹配值是所述相似度矩阵所有无关项的平均值,代表所述相似度矩阵的关键相似信息。无关项可以通过提取相似度矩阵中不在同一行和同一列的元素组成,即在所述相似度矩阵中按照每行取一个元素,且每个元素不出现在同一列的所有匹配。例如,对于n维相似矩阵,其对角线上个n个元素组成一组无关项,n维相似矩阵无关项个数为在获取所述相似度矩阵的所有无关项匹配时,可以根据上述概念采用穷举法一一获取。在一种较佳的实施方式中,这里可以直接对相似度矩阵中所有元素进行加和乘以重复项个数得到所有的无关项匹配的权值总和,再除以无关项个数得到无关项匹配值r;其中,qij表示所述相似度矩阵第i行第j列的元素,n为所述相似度矩阵的维数,为所述相似度矩阵重复项个数,为无关项个数。步骤3:根据所述无关项匹配值及所述相似度矩阵的综合权重确定物品相似度。其中,所述无关项匹配的个数可以根据排列组合规则确定,对于维数为n的相似度矩阵,无关项匹配的个数为本步骤中,根据无关项匹配值及所述无关项匹配个数的综合权重,得到相似度s。s=r/n;其中,r为步骤s102中的无关项匹配值,n为所述相似度矩阵的维数。基于上述各实施例,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现以下步骤:根据物品相似度标签获取相似度矩阵;提取所述相似度矩阵中不在同一行和同一列的元素组成无关项,计算所有无关项匹配值;根据所述无关项匹配值及所述相似度矩阵的综合权重确定物品相似度,以减小物品相似度计算的时间复杂度;其中,所述无关项匹配值是所述相似度矩阵所有无关项的平均值,代表所述相似度矩阵的关键相似信息。具体的,所述根据物品相似度标签获取相似度矩阵步骤中,所述一个或者多个程序还可被所述一个或者多个处理器执行,以实现以下步骤:将相似度标签转换为相似度向量;将所述相似度向量点乘得到相似度矩阵:其中,n为物品相似度标签个数。进一步的,所述提取所述相似度矩阵中不在同一行和同一列的元素组成无关项,计算所有无关项匹配值步骤中,所述一个或者多个程序还可被所述一个或者多个处理器执行,以实现以下步骤:通过计算所述所有无关项匹配值;其中,qij为所述相似度矩阵第i行第j列元素,为所述相似度矩阵重复项个数,为无关项个数。本发明提供的相似度计算方法、终端及及计算机可读存储介质,通过查找相似度矩阵所有的无关项,计算无关项匹配值,根据无关项匹配值及相似度矩阵的综合权重确定物品相似度。相较于现有的带权二部图最大匹配算法,本发明在提取无关项匹配时结合相似度矩阵无关项匹配的特点直接用加法实现,无需使用穷举法,从而简化了物品相似度计算过程,将算法时间复杂度从o(nm)降低为o(1),在分布式计算平台下有着很好的计算性能,能有效的节约系统的计算资源。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1