一种使用地点相似度和行程持续时间展示地点的方法与流程

文档序号:35964614发布日期:2023-11-09 03:46阅读:30来源:国知局
一种使用地点相似度和行程持续时间展示地点的方法与流程

相关申请的交叉引用本技术依据以下申请为基础并要求其优先权日期:并将其通过引用方式整体并入本文。


背景技术:

1、本发明涉及使用地点之间的相似度以及交通系统内的行程持续时间来展示地点搜索或比较的结果。

2、在向用户展示搜索请求的结果时,搜索引擎通常会对结果进行整理,以减少用户的信息过载并提高相关性。整理信息通常使用两种技术:聚类和评分。聚类的目的是对相似的搜索结果进行分组,以避免向用户提供重复的信息。评分的目的是对搜索结果进行排序,以便只呈现对用户最有用的信息。

3、相似度的概念具有直观的含义,即数据项之间有存在足够的相似度。本发明在广义上使用“相似度”一词,这与本领域普通技术人员对该词的解释是一致的。从形式上看,相似度可以被建模为一个数学函数,该函数为一对数据项赋予0到1范围内的一个数值。其中,数字0表示这两个数据项不相似,而数字1则表示它们相似,介于两者之间的数字代表不同程度的近似不相似或近似相似。在一个实施例中,当数字至少为一个阈值时,例如至少为0.9,则两个数据项被定义为相似。在本发明公开的内容中,任何数据项都被视为与自身相似。在具体语境中,相似度根据具体情况以各种方式被定义。在一个实施例中,使用文本进行定义:例如,当两个网页至少有90%的文本部分相匹配时,例如n-grams算法,其中n=5,则被定义为相似的网页。在一个实施例中,使用数值进行定义:例如,当两个房地产房源的价格相差在5%以内且它们位于相同地理位置时,则被定义为相似。在一个实施例中,使用计算机系统在数据项上执行的人工智能软件来定义相似度。人工智能软件的示例包括:神经网络、支持向量机、马尔可夫模型、贝叶斯网络等。例如,使用人工智能软件定义两个房地产房源之间的相似度,其中,该软件在与房地产房源相关的图像上执行,产生的相似度数值范围为0到1。在一个实施例中,在归一化数据项上定义相似度,例如:将数据项中包含的文本“san francisco,cali.”转换为文本“san francisco,ca”,将平方英尺为单位的面积转换为以平方米为单位的面积,或者重新调整图像的像素颜色以达到平均亮度50%。在一个实施例中,使用数学向量表示的数据项和向量之间的距离来定相似度,例如切比雪夫距离、闵科夫斯基距离等。在一个实施例中,相似度被定义为:余弦相似度、字符串相似度(例如:莱文斯坦距离(levenshtein distance))、语义相似度等。在一个实施例中,使向量的坐标归一化,例如,使其均值为0,方差为1。在一个实施例中,使用组合至少两种相似度来定义相似度,例如:对数据项中包含的文本进行匹配,但对数据项中包含的图像使用人工智能软件,并将两种结果结合起来,例如使用加权和。在一个实施例中,相似度只关注数据项的一部分,例如忽略房地产房源的抵押贷款信息。对于本领域的普通技术人员来说,显而易见的是,在不偏离本发明的范围和精神的前提下,许多其他定义相似度的方法也是显而易见的。

4、聚类问题已经被广泛研究。例如,请参考jain、murty和flynn的现有技术综述调查(“数据聚类综述(data clustering:a review)”,《acm computing surveys》,31卷,第3期,1999年9月)。简单来说,在给定一定数量的数据项和用于描述数据项间相似度的方法的情况下,目标是将这些数据项分配到相似数据项的组中。现有技术已发展出许多聚类方法,例如:基于连接的聚类,例如层次聚类;基于中心的聚类,例如k均值(k-means)聚类;基于分布的聚类,例如期望最大化算法;基于密度的聚类,例如dbscan;基于网格的聚类,例如sting或clique;预聚类,例如canopy聚类;子空间聚类,例如clique或subclu;投影聚类,例如predecon;等等。在一个实施方式中,聚类方法会计算出满足附加要求的聚类。示例包括如下要求:最小或最大的群集大小,一个群集内部的累积相似度的最小值或最大值等。附加要求是根据使用群集的上下文来确定的。

5、一种基础的聚类方法涉及计算每对数据项之间的相似度,并在两者相似度至少达到一定的阈值时将其分配到同一组。然而,当处理大量数据时,数据项对数呈二次方增长导致这种基础方法并不适用于实践。为了克服由数据项对数呈二次方增长带来的可扩展性问题,搜索引擎通常采用一种启发式方法来过滤不太可能具有相似度的数据项对。例如,现有技术us 6658423 b1就描述了这样一种启发式方法。在这种情况下,每个数据项是一个网页。该启发式方法为每个网页分配一个散列值,其中,散列值可以视为一个从可能非常长的网页文本中衍生出的非常短的文本。然后,根据散列值对网页进行分组(可简单地通过对散列值排序、分桶等方式实现),并且只在具有相同散列值的网页间计算相似度。以这样一种方式生成散列值,使得两个网页的散列值匹配,即等效于这两个网页具有相似度。例如,这可以通过使用n-gram实现。因此,与基础的二次方法相比,该启发式方法可以显著减少需要计算的相似度的数量。

6、为了能在特定应用领域实现实用聚类,现有技术已经发展出几种其他启发式方法。例如,其中数据项为房地产时,现有技术中的启发式方法包括以下文献:us20150012335a1、us 9858628 b2和us10776888 b1。而在数据项为招聘广告时,现有技术中的启发式方法包括以下文献:us10043157 b2和burk、javed与balaji的论文“apollo:near-duplicatedetection for job ads in the online recruitment domain”,《2017年国际数据挖掘研讨会(international conference on data mining workshops 2017)》。

7、现有技术已经发展出许多评分方法。例如,请参考现有技术us 7058628b1,该专利基于pagerank针对网页搜索引擎特定领域进行评分;以及请参考现有技术us 7974930 b2,该专利基于房地产特征针对房地产特定领域进行评分。

8、请参考现有技术wo 2019164727,导航技术的最新进展已经可以创建出一个使用使用通勤时间搜索或比较房地产的引擎。例如,如果一个用户请求指定一个工作地点,这些技术就能迅速确定大都市区内每个房地产与该工作地点之间的准确行程持续时间。这样就可以对房地产市场进行深度搜索。然而,现有的技术方法可能无法实现以更加实用的方式呈现搜索结果。这种呈现方式需要解决避免重复信息和提高搜索结果相关性的问题,但必须要以实用和可扩展的方式进行。本发明公开了一种实现该目标的方法。


技术实现思路

1、在此提出了一个简化本发明的概览,以便可以让读者对权利要求主题的某些方面有所了解。该概览并非是本发明的全面概括,其目的不是全面界定本发明的范围,也不是为了确定本发明的关键或重要组成部分。此概览的目的是以一种对本领域技术人员更易于阅读的形式来概括一些概念。读者应参阅本发明的公开内容了解详情。读者应参阅本发明公开的内容以获取详情。

2、本发明的具体实施例如下:

3、1.一种使用行程长度和相似度确定交通系统内多个地点的指示的方法,所述方法特征在于:

4、(a)接收包括在所述交通系统内至少一个地方的请求;

5、(b)确定包含在所述多个地点中的至少两个等时线地点,其中,每个等时线地点和所述至少一个地方之间于「所述交通系统内的行程长度」被包含在一个范围内;

6、(c)使用下列步骤之一确定所述

7、i.确定包含在所述至少两个等时线地点中的多个相似地点,并确定所述多个相似地点的所述指示;或者

8、ii.选择至少一个第一地点与至少一个第二地点不相似的,并且所述至少一个第一地点与所述至少一个第二地点都包含在所述至少两个等时线地点中,并确定所述至少一个第一地点和所述至少一个第二地点的指示;

9、以及

10、(d)用所述指示响应所述请求。

11、2.一种使用行程长度和数量确定交通系统内多个地点的概览的方法,所述方法特征在于:

12、(a)接收包括在所述交通系统内至少一个地方的请求;

13、(b)计算包含在所述中的两个或更多地点的序列,其中,

14、i.对于所述序列中包含的第一地点和第二地点,

15、所述第一地点和所述至少一个地方之间于「所述交通系统内的行程长度」

16、与

17、所述第二地点和所述至少一个地方之间于「所述交通系统内的行程长度」之间至少相隔一个范围,以及

18、ii.只要第四地点和所述至少一个地方之间于「所述交通系统内的行程长度」

19、包含在第三地点和所述至少一个地方之间于「所述交通系统内的行程长度」的邻近区域时,

20、则

21、包含在所述序列中的所述第三地点所关联的数量最多等于包含在所述多个地点中的所述第四地点所关联的数量;

22、(c)确定包含所述序列指示的所述概览;以及

23、(d)用所述概览响应所述请求。

24、3.一种确定一交通系统内多个兴趣点中的至少两个备选方案的指示的方法,所述方法特征在于:

25、(a)接收包括在所述交通系统内一个地点的请求;

26、(b)确定所述至少两个备选方案,其中,

27、每个备选方案和所述地点之间于「所述交通系统内的行程长度」,是在一个最短行程的一个阈值以内的;

28、(c)确定所述至少两个备选方案的所述指示,其中,所述指示是非单一的且非行程的描述的;以及

29、(d)用所述指示响应所述请求。

30、4.使用一段预估的行程长度和行程长度确定交通系统内至少两个地点的指示的方法,所述方法特征在于:

31、(a)接收包括在所述交通系统内至少一个地方的请求;

32、(b)确定至少两个预估的行程长度,其中,

33、「所述至少两个预估的行程长度」包括「所述至少一个地方」和「所述至少两个地点中包含的每个地点」之间于「所述交通系统内的预估的行程长度」;

34、(c)使用所述至少两个预估的行程长度选择所述至少两个地点中包含的一个或多个地点,其中,所述一个或多个地点的数量最多为一个预定界限;

35、(d)确定至少一个行程长度,所述至少一个行程长度包括「所述一个或多个地点中包含的每个地点」和「所述至少一个地方」之间于「所述交通系统内的行程长度」;

36、(e)使用所述至少一个行程长度确定所述一个或多个地点的所述指示;以及

37、(f)用所述指示响应所述请求。

38、本发明的实施例还包括实现上述任一方法的计算机系统和设备。

39、本发明公开内容中所描述的实施例仅仅用于说明目的,并不用以限制本发明。对于本领域的普通技术人员而言,显而易见的是,在不脱离本发明的范围或精神的前提下,可以对这些实施例进行多种修改和变化。

40、在本说明书中,所述术语“第一”,“第二”,“所述”,以及类似术语,不以任何限制意义使用,而是用于区分的目的,,除非从上下文另有明确表达。单数形式的表达包含复数,除非上下文另有明确表达。所述术语“具有”,“包括”,“包含”,以及类似术语,表示组件或特征的存在,并不排除其他组件或特征的存在或添加。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1