用于对具有数据集的数据库进行搜索的方法和系统与流程

文档序号：13950618阅读：349来源：国知局

本发明涉及用于对具有数据集的数据库进行搜索的方法，其中数据集包括属性。本发明还涉及计算机程序，其具有程序代码，该程序代码用于，在其由计算机执行时，执行根据本发明的方法。本发明还涉及用于对存储在数据存储单元上并且具有数据集的数据库进行搜索的搜索引擎，其中数据集包括属性。搜索引擎包括：捕获接口，其能够用于捕获搜索查询；关联性确定单元，其能够用于向数据集分配搜索查询的关联性数据；以及输出单元，其能够用于基于关联性数据，输出数据集的至少一个子集。本发明还涉及具有根据本发明的搜索引擎的系统。

对数据库进行搜索以得到特定信息是现代数据处理的中心任务。数据库越大，对响应于来自用户的搜索查询输出最关联的数据集的解决方案的需求就越大。只有以这种方式，才能使得存储在数据库中的信息可以被用户最优地使用。这尤其适用于目录功能，其中数据集例如与例如网络商店中的各个产品相对应。用户期望的是，响应于搜索查询，精确地向他展示与他关联的那些产品。反之亦然，向用户呈现最关联的产品是网络商店所有者的重要利益所在。其他的示例例如是图书馆目录、科学数据库、参考材料或文件。

然而，在一般的搜索方法中，会出现找到非关联的数据集的问题，例如，在模糊搜索词的情况下或者因为出现了由所使用的搜索方法引起的伪影(artefakte)。这例如导致在根据所确定的相关性而组织的列表中，实际关联的命中仅被显示在更下方，用户找不到这些命中或只能困难地找到这些命中。例如，在网络商店的情况下，这种低效的搜索功能导致用户的失落并导致所有者的营业额损失。

因此，本发明的目的是提供一种方法、计算机程序和搜索引擎，其能够用于改进对搜索查询的数据集的实际关联性的确定。

该目的是通过具有权利要求1的特征的方法、具有权利要求12的特征的计算机程序、具有权利要求13的特征的搜索引擎以及具有权利要求19的特征的系统来实现的。根据从属权利要求，能够得到有利的配置和改进。

在根据本发明的方法中，如果捕获到搜索查询，则向数据集分配针对搜索查询的关联性数据并且基于关联性数据输出数据集的至少一个子集。然后，通过与针对该搜索查询输出的数据集的用户交互来捕获交互数据。确定指示各个属性与针对搜索查询的交互数据之间的相关性的相关性数据。最后，利用相关性数据和数据集的属性，再次生成针对搜索查询的数据集的关联性数据。

因此，这是一种从用户与搜索结果的交互中学习的迭代方法。例如，被搜索的数据库包括能够被分配有产品的数据集。特别地，数据库由此能够包括产品目录。在本发明的意义上，术语“产品”在这种情况下表示由提供商提供给用户的客体，特别是商品和服务。这些例如可以是物理客体，或者是文件，例如音乐或视频文件、文本和图像或网站等。此外，在本申请中，产品还可以被理解为表示一组具有特定特性的各个产品或一组相同产品类别的各个产品。

被分配了产品的数据集可以包括与相应产品有关的不同属性。例如，这些属性可以是诸如描述文本、分类、产品类型、特征数据、制造商名称、产品特性和价格的信息。

在第一步中，在数据库中执行搜索，将关联性数据分配给各个数据集。根据本发明，术语“关联性数据”包括提供信息的那些数据，所述信息与是否已经找到与搜索查询关联的数据集和/或哪些数据集是关联的有关。此外，数据集的关联性可以被定量地确定，例如以便能够对不同数据集的关联性进行比较。因此，不一定要针对每个单独的数据集确定定量的关联性数据，而是能够确定整个数据集的关联性数据或数据集的子集的关联性数据，例如，在这样的情况下，通过根据关联度将数据集添加到命中列表，而不进行区分。由此，关联性数据也可以是命中列表。

由此确定了例如哪些数据集与搜索查询相关联，例如，哪些产品与搜索查询相匹配。基于关联性来输出搜索结果，例如，列表形式的搜索结果。例如，如果关联性数据包括与数据集的关联性有关的定量信息，则能够根据关联性来这样组织列表：数据集与搜索查询越相关，将数据集越向上排列。

进一步的步骤捕获用户如何与数据集交互。用户交互可以以各种方式实现。例如，用户可以通过激活网站上的链接来得到以详细形式输出的数据集。用户还可以购买被分配给数据集的产品、可以将其存储在提醒列表中、或者可以进行评价。在这样的情况下，针对搜索查询来考虑用户交互。由此，考虑与在利用该搜索查询进行搜索时呈现给用户的那些数据集的用户交互。例如，可以记录(即，例如存储)各个数据集的各个交互数据。在这样的情况下，针对数据集，可以记录例如在已经响应于特定的搜索查询输出数据集之后，用户已经与所述数据集进行了交互，例如，以购买的方式进行了交互。交互数据还可以以集合形式被记录，例如，被记录为在特定搜索查询后已经与用户进行交互的数据集的集合。参照其他信息(例如，参照与各个用户或进一步的搜索查询有关的信息)，能够进一步改进搜索。

被捕获的用户交互随后被用于得到关于搜索结果是否与用户关联以及多大程度上与用户关联的结论。例如，如果数据集被显示为非常关联并且用户没有检索到与所述数据集有关的任何的进一步信息，则这可能指示用户对该数据集没有任何兴趣。在另一个示例中，产品被显示为不太关联，但随后被购买。这暗示应该对在原始搜索中确定的关联性进行改进。

为了对搜索中的数据集的关联性数据进行优化，现在生成指示数据集的属性与用户交互之间的相关性的相关性数据。例如，如果基于捕获的交互数据确定出具有特定属性的数据集有特别高或特别低的关联性，则相关性数据反映该信息。因此，例如可以确定特别关联的或特别不关联的数据集具有哪些共同的属性。为此，可以使用机器学习和人工智能的各种方法，例如使用神经网络。相关性数据用于基于捕获的交互数据以更准确的方式确定搜索查询的数据集的关联性。为此，再次生成数据集的关联性数据，在这样的情况下，考虑相关性数据和数据集的属性。如果再次执行搜索查询，则由于本次搜索查询的新的关联性数据，能够找到更关联的结果。

在这样的情况下，可以以集合形式记录相关性数据，例如被记录为相关性矩阵。然而，也可以针对各个数据集来记录相关性数据，例如，通过将相关性数据分配给特定产品的数据集，该相关性数据包括用户和产品的交互与搜索查询之间的相关性。

在只有少量的交互数据可以用于评价数据集的关联性的应用中，例如，在新的网络商店、少量用户或小众产品的情况下，根据本发明的方法是特别有利的。例如，如果用户仅与一些数据集进行了交互，则对通过数据集的属性从这些交互中得到的交互数据的泛化还允许更准确地确定具有类似属性的其他数据集的关联性数据，针对这些其他数据集的关联性数据，还没有交互数据或者仅有很少的交互数据被捕获。

在本发明的一个实施例中，在确定相关性数据时，确定期望的交互数据与实际的交互数据之间的差别。这使得可以以特别精确的方式有利地确定相关性数据。

为此，首先确定期望的交互数据。例如，生成与已经输出的数据集的交互的分布，在该分布中，用户与具有最高关联性的搜索结果交互得最多。例如，能够期望的是，更关联的产品将比不太关联的产品被更频繁地购买。如果对实际的交互数据的捕获给出了不同的结果，则可以以根据该交互数据来修正关联性数据的方式来确定相关性数据。在这样的情况下，如上文描述的，考虑与数据集的属性的相关性。在这样的情况下，例如，期望的交互数据可以定义期望的分布，在该分布中，例如，将被捕获到具有特别大量的交互的那些产品评价为特别相关。

可以以各种方式确定针对相关性数据所考虑的属性。一方面，可以注意所有的属性，其结果是，在每个交互中考虑关联数据集的所有属性。此外，能够仅注意在数据库中很少出现的那些属性。为此，可以例如使用词加权，以便于识别产品描述中的允许可靠表征的词。此外，例如能够对不同属性(例如，特定词)对关联性的影响进行加权。此外，能够考虑各个属性或属性的特定组。例如，在合适的数据库中，可以将各个数据集的目录名称孤立地看作属性。还是在这种情况下，可以对各个属性进行加权。此外，仅特别考虑在多个交互中出现的那些属性，以便于避免伪影，在伪影下，由于缺少统计显著性，单个交互或几个交互的影响被不正确地评价。

在一种改进中，搜索查询包括至少一个搜索词。因此，用户能够以直观的方式有利地制定搜索查询。

在这种情况下，通过输入至少一个搜索词来进行搜索是用户所熟悉的，特别是对于基于计算机的应用而言，并且可以使用已知的以及能够用于基于搜索词来搜索数据库的方法。在这种情况下，例如，可以分析搜索词是否被包括在产品的属性中。

在一个实施例中，搜索查询包括对为用户预定义的至少一个搜索选项的选择。因此，搜索查询能够被快速和方便地有利捕获。

例如，导航标题能够用作预定义的搜索选项。例如，用户可以驱动网站上的按钮并且可以使得特定类别的产品被显示。这样的调用与搜索查询相对应，在这种情况下，已经为用户预定义搜索参数和搜索词并且用户仅调用它们。“特别优惠”标题也是可以利用的，例如，能够通过用户选择来调用该标题并且该标题与特定的产品关联。然后根据本发明确定针对相应搜索选项输出的数据集的关联性。

根据搜索词和预定搜索选项的上述搜索的组合也是可行的。例如，用户能够通过搜索词来搜索特定类别的数据集。在这样的情况下，通过由用户预定义的全部说明来定义搜索查询。

在一种改进中，基于推荐服务来生成针对搜索查询的数据集的关联性数据。因此，搜索有利地向用户提供特别关联的数据集。

推荐服务(推荐引擎)本身是已知的并且能够根据应用领域来选择和配置。就根据本发明的方法的最优性能而言，在基于搜索查询的第一次搜索操作已经产生了尽可能正确的数据集的关联性数据并且这些关联性数据之后要由本发明优化时，这是有利的。

在另一个实施例中，还基于进一步的交互数据来确定相关性数据，进一步的交互数据涉及与针对进一步的搜索查询而输出的数据集的用户交互。在这样的情况下，进一步的搜索查询与本次搜索查询至少具有预定的相似度。因此，与相似的搜索查询有关的信息被有利地考虑。

特别地，如果在搜索查询中使用了自由搜索词，或者如果使用了预定义的搜索选项，则多个搜索查询可能彼此相似，即使它们是不相同的。例如，多个搜索词可能以不同的顺序输入，可能出现打字错误或者多个搜索查询可能因为细微差别而不同。这可以通过相似度来量化，特别地，相似度确定两个搜索查询的语义相似度。此外，可以例如使用同义词库、翻译字典、诸如词干提取或词形还原等的词干方法、语音相似度、诸如levenshtein距离等的相似度方法或在ep2035965b1中描述的方法来确定相似词。由此，在确定相关性数据时，也考虑与相似搜索查询相关的被捕获的交互数据。特别地，在这种情况下，可以基于相似度对来自相似搜索查询的数据进行加权。

特别地，这使得能够针对其中没有交互数据项或很少交互数据项可用的搜索查询生成尽可能准确的关联性数据。例如，在很少出现并且由此针对其生成了很少的交互数据项的打字错误的情况下，这是重要的。然而，由于正确拼写和错误拼写的词语通常彼此相似，因此它们具有高的相似度。因此，相应的交互数据能够用于生成相关性数据并且能够通过更大量的数据来提高统计确定性。

相反地，针对具有错误拼写的词语的用户交互而已经捕获的交互数据也能够例如被考虑用于具有正确拼写的词语的搜索查询。因此，特别地，频繁的错误拼写，例如德语单词“standard”和“standart”不会导致基于减小的交互数据量来确定相应的相关性数据。在这两种情况下，数据集的关联性由此以更精确的方式被确定。

在一个实施例中，在输出期间，根据取决于关联性数据的排名来对子集中的数据集进行组织。用户由此有利地得到数据集的输出，从该数据集，用户可以读取到各个搜索结果的关联性。

例如，数据集可以以列表的形式输出，并且在这样的情况下，越关联的数据集在排名中被显示的越靠上。除了对上述数据集进行组织之外或者作为替代，还能够例如使用强调。例如，具有高排名的数据集能够被特别强调地显示。通过基于交互数据来形成关联性数据，还能够根据交互数据对排名进行调整。特别地，输出期间对搜素结果的排序由此取决于捕获的交互数据。

还能够根据其他标准，例如基于指定价格，对搜索结果进行排序。特别地，这允许在各个数据集的关联性还没有被量化而是关联性数据仅包括关于数据集是否相关联(换言之，特别地，其是否属于命中列表)的信息时进行排序。然而，在已经针对数据集确定了量化的关联性数据时，也能够根据其他标准来进行排序。

在一个实施例中，用户交互包括调用与数据集有关的信息和/或保存和/或购买被分配给数据集的产品。这有利地允许特别精确地确定各个数据集的关联性，特别是在网络商店或类似的应用领域中。

例如，在网站上的搜索查询中，可以将多个结果显示在列表中。用户可以通过选择搜索结果中的一个(例如，通过点击产品名称)来检索与数据集有关的进一步的信息。这样的选择被捕获。随后输出与产品有关的更详细的信息。用户还能够将数据集(特别是产品)存储在提醒列表中。用户还能够购买分配给数据集中的一个的产品。在这样的情况下，可以将交互的不同类型与交互数据一起存储。特别地，可以存储各个交互的细节，例如交互的时间或交互的持续时间。

在一个改进中，在确定相关性数据时，根据用户交互的类型对交互数据加权。因此，在确定相关性数据中有利地包括了交互的不同类型的不同重要性。

例如，可以区分用户对数据集(特别是产品)有多大的兴趣。例如，与保存产品相比，购买产品可以被给予更高的权重，与检索与产品有关的信息相比，保存产品又被给予更高的评级。由此进一步改进对关联性数据的确定。

在一个实施例中，在确定相关性数据时，基于用户交互的频率来对用户交互加权。由此，以特别可靠的方式有利地确定相关性数据。

在这样的情况下，考虑到，特定用户交互的频率通常被认为是数据集的关联性的度量。例如，在网络商店的情况下，在该搜索查询中分配给被特别频繁地购买的产品的那些数据集被认为是特别关联的。在另一个示例中，在图书馆的数据库中，能够认为被特别频繁地调用的数据集与相关联的搜索查询特别关联。

相反地，例如，在与产品有关的信息被特别频繁地检索而没有导致购买的情况下，也可能基于频率确定出低的关联性。

在根据本发明的方法的一个改进中，属性包括分配给数据集的产品的运行文本(flieβtexte)、数值信息和/或定义的形式。因此，属性有利地允许对产品进行全面描述。

能够例如出于描述产品的目的提供运行文本。例如，这样的运行文本可以包含产品名称、简短说明、广告文本、书名、作者或其他信息。还可以声明对产品的进一步解释，例如，酒的属性“适合于什么菜肴”，该属性可以包括运行文本形式的列表。如果有疑问，则属性必须被分类为运行文本。这要求对这些属性执行测试或标准化例程，以使得运行文本能够由计算机解释和处理。特别地，必须从运行文本中收集使得可以比较多个产品并且基于属性确定相关性数据的信息。可替代地，能够从运行文本中选择词。随后对词进行加权。与已经提到的测试和标准化例程相比，这是对运行文本的更简单的分析。

数值信息能够由数字表示。该信息例如可以是价格、可充电电池寿命、变焦范围、发行日期、功耗、体积或其他数据。

在具有定义的形式的属性的情况下，从列表中得到属性的相应值。这允许对产品的特别简单分类。例如，可以提供具有包括颜色、尺寸、制造商、产品类别、分辨率、能效等级、灯座等形式的列表。在这样的情况下，应该认识到，这些形式经常在数据库中多次出现，例如，一种颜色被分配给多个产品。

各个属性也可以为空，换言之，还没有分配值。

在一种改进中，可以结合用户交互来进行用户识别并且随后基于与用户有关的数据来执行搜索。因此，与相应用户有关的信息可以被有利地用于搜索。

在这样的情况下，根据本身已知的方法对用户进行识别。例如，用户可以登录到网络商店。例如，针对该搜索，可以随后使用已经由用户购买过、已经由用户保存过、或者在更早的时间被用户检索过信息的产品的列表。在这样的情况下，不同用户的交互能够被不同地加权。例如，与其他用户的情况相比，能够给予一个用户的交互(例如，购买)更多或更少的考虑。能够基于与相应地进行交互的用户有关的信息来对交互进行加权。因此，能够更好地确定不同用户集合的数据集的关联性，例如以便于输出与当前用户特别关联的那些搜索结果。

根据本发明的计算机程序包括程序代码，该程序代码在由计算机执行时执行根据本发明的方法。特别地，根据本发明的计算机程序被设计用于实现上文描述的根据本发明的方法。计算机程序由此与根据本发明的方法具有相同的优点。

根据上文提到类型的本发明的搜索引擎特征在于捕获接口能够用于通过与针对搜索查询输出的数据集的用户交互来捕获交互数据。关联性确定单元随后能够被用于确定指示各个属性与针对搜索查询的交互数据之间的相关性数据。最后，能够利用数据集的属性和相关性数据，再次生成针对搜索查询的数据集的关联性数据。

特别地，根据本发明的搜索引擎被设计用于实现上文描述的根据本发明的方法并且执行根据本发明的计算机程序。由此，其与根据本发明的方法具有相同的优点。

在一种改进中，在能够由捕获接口来捕获的用户交互期间，能够捕获用户与分配给数据集的产品之间的空间接近度。由此，例如在商店或展览空间中，与产品的物理用户交互能够被有利地捕获并且连接到数据集。

例如，能够通过例如定位用户的摄像机或跟踪系统来捕获用户的位置。例如，能够使用属于用户的移动电话或另一移动设备来执行跟踪。以这种方式，例如能够确定用户是否在产品附近，例如在特定的架子前。

在另一个实施例中，在能够由捕获接口来捕获的用户交互期间，能够捕获用户对分配给数据集的产品的查看和/或产品的移动。例如，如果用户从架上取下产品或者将其放到购物车中，则还能够由此捕获到仅空间接近度检测之外的用户交互。另外，例如，捕获系统能够检测用户正在特别查看某一商品。此外，例如，如果用户在结账设备处为商品付款，则能够间接地推断空间接近度和物理交互。此外，可以捕获用户何时购买了产品以及后来放回或交换产品。

在一种改进中，结账设备还能够用于执行用户识别并且还能够基于该用户识别来确定相关性数据。在这样的情况下，例如，在无现金支付操作期间，能够通过来自用户设备的登录数据来识别用户，或者通过消费卡来识别用户。因此，用户交互能够被分配给先前利用特定搜索查询执行了搜索的特定用户。用户交互由此能够被更容易地分配给先前执行过的搜索查询以及在过程中输出的数据集。

在一种改进中，在能够由捕获接口捕获的用户交互期间，信号通过至少一个应答器在分配给用户的设备和产品之间传送。这有利地使得可以检测用户进行的物理交互。在这样的情况下，具有有限范围的无线电系统能够检测用户是否在物理上接近产品。特别地，例如能够通过rfid(“射频识别”)或nfc(“近场通信”)来传送信号。

例如，产品可以包括应答器(特别地，在其包装上)，属于用户的移动设备例如能够从该应答器读取信号并且能够识别产品。相反地，能够基于例如在用户的消费卡中或购物车上的应答器来捕获用户的位置。此外，能够基于应答器，例如通过购物车上、结账设备上或展览空间中的特定位置处的合适的读取设备来识别产品和用户二者。以这种方式捕获的用户交互的特征可以例如包括产品的标识、传送的信号以及传送的时间和位置。

特别地，由捕获接口捕获的所有用户交互可以包括用户与产品之间的物理交互和虚拟交互二者。例如，用户在网站上的行为和用户在商店中的行为都能够用于确定或改变产品的关联性数据。例如，响应于搜索查询而在网站上输出的数据集的关联性可能依赖于被分配给数据集的产品随后在商店中被用户多频繁地购买。因此，能够以更精确的方式有利地确定产品与用户的关联性。

在根据本发明的搜索引擎的一个实施例中，能够由捕获接口捕获的用户交互包括调用与数据集有关的信息和/或保存和/或购买分配给数据集的产品。因此，可以有利地捕获用户已经以特别显著的方式与其进行了交互的产品。

根据本发明的系统包括上文描述的类型的搜索引擎以及交互捕获单元。在这样的情况下，交互捕获单元能够用于捕获用户与产品之间的交互。还能够在交互捕获单元与捕获接口之间建立数据连接，并且能够将与被捕获的交互有关的数据从交互捕获单元传送到搜索引擎的捕获接口。

特别地，交互捕获单元能够用于捕获物理和/或虚拟交互。

特别地，根据本发明的系统被设计用于操作上文描述的根据本发明的搜索引擎。因此，其与根据本发明的搜索引擎具有相同的优点。

现在参照附图基于示例性实施例来说明本发明。

图1示出了根据本发明的搜索引擎的示例性实施例，

图2示出了根据本发明的方法的示例性实施例，以及

图3示出了确定期望的交互数据与实际的交互数据之间的差别。

参照图1说明根据本发明的搜索引擎的示例性实施例。

根据本发明的计算机程序用于实现示例性实施例并且在包括搜索引擎1的计算机上被执行。搜索引擎1包括关联性确定单元8，其使用数据技术耦合到捕获接口4和输出单元6。关联性确定单元8还使用数据技术耦合到数据存储单元3。数据存储单元3存储具有数据集mi的数据库，数据集mi被分配给各个产品pi。在这样的情况下，数据集mi包括属性a¹i到aⁿi，这些属性例如描述相应产品pi的特性。搜索引擎1能够访问数据库中的数据并且能够对其进行搜索。

搜索引擎1也使用数据技术耦合到用户设备2。尽管图1仅示出了单个用户设备2，但多个用户设备2能够耦合到搜索引擎1。单个用户设备2包括输入单元5和交互捕获单元9，输入单元5和交互捕获单元9耦合到搜索引擎1的捕获接口4。用户设备2还包括显示单元7，其耦合到输出单元6。使用数据技术，特别地，使用诸如互联网或局域网的计算机网络来进行耦合。在所示出的情况下，用户设备2是个人计算机，但也可以是任何期望的合适设备，例如移动电话。

捕获单元5捕获来自用户的搜索查询s，例如通过用户借助键盘向网站上的输入区域输入搜索词。搜索查询s被传送到搜索引擎1的捕获接口4。搜索引擎1执行搜索，并且通过输出单元6将输出的搜索结果传送到用户设备2的显示单元7并且显示给用户。在这样的情况下，搜索结果是数据集mi的列表，数据集mi以根据针对搜索查询s确定的关联性组织的方式显示在网站上。

用户现在能够与搜索结果交互，例如通过借助于鼠标或触摸屏来选择各个结果、调用详细信息、将搜索结果存储在提醒列表中或者购买产品pi。这些交互被用户设备2的交互捕获单元9捕获作为交互数据i^si并且经由捕获接口4被传送到搜索引擎1。

在所示出的情况下，根据本发明的系统包括搜索引擎1和具有交互捕获单元9的用户设备2。在进一步的示例性实施例中，系统可以替代地或额外地包括结账设备作为交互捕获单元9，该设备例如具有用于识别用户的客户卡的读取器。

参照图2说明根据本发明的方法的示例性实施例。

由上文参照图1描述的搜索引擎1，使用根据本发明的计算机程序，执行该方法。在第一步骤101中，捕获来自用户的搜索查询s。基于搜索查询s，对具有数据集mi的数据库进行搜索，数据集mi被分配有属性a¹i到aⁿi。为了执行搜索，在该示例性实施例中使用根据本身已知的搜索方法的关键词搜索。然而，可以使用所有合适的搜索方法；例如，在其他示例性实施例中，能够使用推荐服务。

例如，搜索查询s包括搜索词，示出的示例中的搜索词“elegant”。用户能够自己选择该词，例如通过在网站上的搜索界面(suchmaske)中输入词。然而，搜索查询还可以包括为用户预定义的搜索选项。例如，在有导航功能的情况下，用户能够选择类别，在这样的情况下，搜索查询与对类别的声明相对应。此外，还可以提供例如能够由用户选择并且用于搜索季节性优惠或特别优惠的链接。还能够对多个提到类型的搜索查询进行组合，例如，凭借用户使用特定类别中的搜索词来搜索季节性优惠。

各个产品被分配给数据集mi。数据集包括若干属性a¹i到aⁿi，这些属性例如与产品属性表中的字段相对应。在这样的情况下，属性a¹i到aⁿi的形式是不同的。特别地，它们包括运行文本或数值信息；它们还包括定义的形式，即从定义的列表中收集各种形式，例如一定范围内的若干产品类别或预定义的颜色名称。

下表i表示具有数据集mi及其属性a¹i到aⁿi的数据库的示例：

表i

在第二步102中，数据集mi被分配有针对捕获的搜索查询s的关联性数据r^si，并且在输出步骤103中输出数据集mi。该过程例如与本身已知的搜索引擎的过程相对应。例如，在各个数据集mi的描述文本中识别搜索词。在该示例性实施例中，输出103以列表的形式实现，列表的排序取决于关联性数据r^si。针对数据集mi确定的关联性越高，数据集mi在列表中被显示得越靠上。特别地，仅显示数据集mi的被确定具有最高关联性的子集。然而，还可以显示所有的数据集mi或者输出103可以包括被不同地确定的数据集mi的子集，例如仅在库存中的产品。

针对示例性实施例，表2中的下列方案示出了对关联性数据r^si的分配102以及输出步骤103，其中数据集mi被显示为列表。在关联性数据r^si的情况下，较低的值表示所分配的数据集mi的较高的关联性并且由此表示在该简化示例的列表中的较高排名：

表ii

在该示例中，描述文本包含搜索词“elegant”的那些数据集mi被评价为具有高的关联性。在示例中，还考虑词语“elegant”(或其变形)在描述文本中出现的位置，这种情况下，词被越靠前地找到，这样的条目就被评价为越关联。在通常的搜索方法中，不是所有数据集都被频繁地输出，而是仅输出子集，例如，输出最好的四个结果。然而，为更好地说明，这里选择具有所有数据集mi的输出。

在输出步骤103之后，用户能够与显示的数据集mi进行交互，例如通过调用输出的数据集中的一个数据集的细节来进行交互。在步骤104中，捕获与这些用户交互有关的交互数据i^si。在这样的情况下，特别地，交互数据i^si和与响应于搜索查询s而输出的那些数据集mi的精确用户交互有关。在这样的情况下，用户交互是用户与能够由用户用来与数据库进行交互的技术设备之间的特别交互。

在示例中，数据mi被输出为网站上的链接列表。如果用户选择了链接，则调用与相应地分配的产品有关的进一步的信息。例如，显示包含产品描述、图像和进一步信息的网站。用户还能够通过将产品存储在提醒列表中来保存产品。用户还能够购买产品。除了所述的用户交互类型的示例，用户与输出数据集mi之间的任何交互也能够被捕获为交互数据i^si。特别地，这还包括用户是否忽略了数据集mi并且因此没有与其交互。

表iii中的以下方案表示在示例性实施例中对交互数据i^si的捕获。这里，用户通过点击输出列表中的条目并且由此调用与相应数据集mi有关的信息或者通过购买产品来与显示的结果进行交互。值0(没有交互)和1(执行了交互)被捕获为交互数据i^si。这里由此以简化的方式示出了用户交互的频率。例如，在利用搜索词“elegant”进行搜索后，用户仅点击了婚礼套装(hochzeitsanzug)m5和婚纱(hochzeitskleid)m6：

表iii

特别地，针对由多个用户执行的用户交互来捕获交互数据i^si。然而，在这些情况的每个中，相应用户与来自响应于相同的搜索查询s而向其输出的列表的数据集mi交互。交互数据i^si因此总是与搜索查询s有关。

在进一步的步骤105中，现在确定指示各个属性a¹i到aⁿi与针对搜索查询s的交互数据i^si之间的相关性的相关性数据k^s,1到k^s,n。特别地，该步骤确定特定形式的属性a¹i到aⁿi与交互数据i^si正相关还是负相关。

当评价交互数据i^si时，可以例如将用户交互的频率考虑为重要特征。在这样的情况下，能够以如下方式对交互数据i^si进行加权：已经被捕获到高交互频率的数据集mi被评价为更关联。相反地，低的交互频率指示低的关联性。此外，能够根据用户交互的类型来进行加权。例如，购买商品可以比仅调用信息对所分配的数据集mi的关联性有更大的影响。

以这样的方式，考虑各个属性a¹i到aⁿi对交互数据i^si的影响并且确定了相关性数据k^s,1到k^s,n，在本示例中，这样的相关性数据例如表示：“对于搜索查询‘elegant’，属性a²(描述)中的词‘hochzeit’与点击概率正相关；在字段a³(功耗)和a⁴(体积)中，空的条目与点击概率正相关”。在这样的情况下，这些相关性数据k^s,1到k^s,n被存储为矩阵。

由于点击概率被考虑为对针对搜索查询s的数据集mi的关联性的度量，因此现在可以以使得数据集mi的关联性数据r^si更好地对应于实际捕获的交互数据i^si的方式来确定数据集mi的关联性数据r^si。为此，在进一步的步骤106中，利用相关性数据k^s,1到k^s,n，再次生成针对数据集mi的关联性数据r^si。基于数据集mi的属性a¹i到aⁿi并且利用相关性数据k^s,1到k^s,n，确定新的关联性数据r^si——并且由此确定输出列表中的新的排名。

在示例性实施例中，如果现在使用搜索词“elegant”执行新的搜索，则搜索结果列表如下表iv所示：

表iv

在这样的情况下，先前被列举在更下方的“hochzeitsschuhe,eleganteform”向更上方移动，即使没有响应于该搜索查询与该产品进行的交互。发生这种情况是因为在描述文本中找到了词“hochzeit”并且字段“功耗”和“体积”为空，这与点击概率正相关。此外，产品“hochzeitsschuhe,schwarz”向上移动，即使其没有包含词语“elegant”并且因此最初被评价为不太相关。因此，数据集能够被评价为具有更高的关联性，而不需要与这些数据集的精确交互。已经捕获到与具有相似属性的其他产品的用户交互就足够了。然后对这些交互进行泛化。

在进一步的示例性实施例中，用户基于具有搜索词“beutel(袋子)”的新的搜索查询s来对在上文中示出的并且具有数据集mi的数据库进行搜索。在搜索期间，产品“staubsaugerohnebeutel”(m2)被显示在实际的袋子上方，这是因为描述文本中包括该搜索词。如果在搜索之后，越来越多地捕获到与产品“beutelf.staubsauger,elegantesgrau”(m3)的交互，则不仅数据集m3而且数据集m4(“beutelf.staubsauger,grün”)也在列表中向上移动。相关性数据包括例如与以下事实有关的信息：在搜索查询s“beutel”中，高交互概率与字段“体积”不为空而字段“功耗”为空的事实有关。

在进一步的示例性实施例中，利用进一步的搜索查询s’来执行进一步的搜索，搜索查询s’包括错误拼写的搜索词，这里为词“ellegant”。根据本发明，在这种情况下，针对该进一步搜索查询s’的交互数据i^s’i被分配给错误拼写的搜索词，即词“ellegant”。通常，错误拼写出现的频率显著低于正确拼写的词出现的频率。换言之，与正确拼写的词相比，针对错误拼写通常捕获到较少的交互数据项i^s’i。

然而，为了得到可用于确定针对进一步的搜索查询s’的进一步的关联性数据r^s’i的最大可能数据量，能够确定搜索查询s和进一步的搜索查询s’之间的相似度αs,s’。可以使用各种方法来确定相似度αs,s’。例如，能够考虑多个搜索词的顺序，能够识别出典型的错误拼写或者搜索查询可能具有细微差别。特别地，能够确定搜索查询s的语义相似性。可以例如使用同义词库、翻译字典、根据诸如词干提取或词形还原的词干方法、通过语音相似度、或者通过诸如levenshtein距离或在ep2035965b1中描述的方法的相似度方法来确定相似词。特别地，这允许量化搜索词彼此之间的相似度αs,s’。

利用足够的相似度αs,s’，针对进一步的搜索查询s’，现在还考虑针对搜索查询s的交互数据i^si。因此，针对数据集mi，能够以更精确的方式确定针对s’的关联性数据r^s’i。

相反地，如果有足够的相似度αs,s’，针对搜索查询s，也考虑针对具有错误拼写的搜索词的进一步的搜索查询s’的交互数据i^s’i。因此，利用针对进一步的搜索查询s’的交互数据i^s’i来补充针对搜索查询s的交互数据i^si，以便于确定关联性数据r^si。

特别地，基于相似度αs,s’来对针对搜索查询s的交互数据i^si和针对进一步的搜索查询s’的进一步的交互数据i^s’i进行加权，因此，与不太相似的搜索查询相比，彼此更相似的搜索查询s对彼此具有更大的影响。

以与该示例相似的方式，根据本发明的方法还能够处理其他搜索查询，特别是即使没有错误拼写也很少出现的搜索查询，例如，在多个词以不同的顺序出现或者使用了同义搜索词时。

在另一个示例性实施例中，在捕获到具有搜索词“elegant”的搜索查询s之后，首先确定命中列表。换言之，关联性数据r^si开始不指示量化的关联性，而是仅确定各个数据集是否是关联的。特别地，这里针对搜索词“elegant”来搜索数据库，在这样的情况下，考虑词的错误拼写和语法形式。

在这样的情况下，首先在根据价格组织的列表中输出命中列表中的数据集。还能够根据其他标准来进行排名。因此，排名不反映产品的关联性上的任何差别。下表v对此进行了说明，在这样的情况下，关联性数据r^si的值被显示为“关联”(1)或“不关联”(0)：

表v

命中列表中没有数据集m2、m4、和m7，这是因为它们不包含词语“elegant”。出于此原因，用户仅能够与显示的数据集mi交互。例如，如在表vi中示出的，在利用搜索词“elegant”进行搜索后，仅婚礼套装(hochzeitsanzug)m5和婚纱(hochzeitskleid)m6被点击：

表vi

如上文已经描述的，现在确定相关性数据k^s,1到k^s,n，并且相关性数据k^s,1到k^s,n揭露了词“hochzeit”与点击概率正相关。相应地调整关联性数据r^si。现在量化地确定关联性并且以根据关联性组织的顺序输出数据集mi。这在表vii中示出：

表vii

应该认识到，在这样的情况下，仅针对包含在命中列表(见表v)中的数据集mi确定量化的关联性数据。这限制了要处理的数据集mi的量，因此，降低了用于分配新的关联性数据r^si所需的计算能力。然而，与上文示出的实施例(见表iv)相比，没有考虑“hochzeitsschuhe,schwarz”m7，这是因为它们不包含搜索词“elegant”并且在确定表v中示出的命中列表时就没有被考虑。

参照图2和图3来说明对期望的交互数据与实际的交互数据之间的差别的确定。

以图2中示出的示例作为基础：在输出步骤103中，基于搜索查询s，向用户输出数据集mi。用户与这些数据集mi进行交互。在该示例中，用户通过在网站上点击来调用与各个数据集mi有关的详细信息。这在实际的交互数据i^si中被捕获，该实际的交互数据i^si在图3中被示出为“实际图表”201。在这样的情况下，沿纵轴绘制点击频率并且沿横轴绘制在步骤103中输出的列表中的相应数据集的布置。将实际的交互数据i^si与期望的交互数据<i^si>进行比较，期望的交互数据<i^si>以与实际图表201类似的方式被示出为“期望图表”202。

示出了，根据期望的交互数据<i^si>，期望的是，数据集在列表中位置越高，就会发生对数据集的更多点击。然而，与实际的交互数据i^si的比较示出了情况并非如此，而是第一条目被点击的次数少于后面的两个条目。能够在后续步骤105中使用这样的信息来确定相关性数据k^s,1到k^s,n。例如，对于期望的交互数据<i^si>，可以预先定义目标分布，在其中，例如，位置高的条目被更经常地点击。然后，生成数据集mi的新关联性数据r^si导致对搜索结果的相应重排序，该搜过结果能够在新的输出103’中被再次输出。

在另一个示例性实施例中，例如，通过对网络商店的网站的登录来识别用户。这样的用户识别被用于对用户交互进行补充并且用于搜索；例如，能够捕获到诸如年龄和性别的信息。这允许进一步调整关联性数据r^si，例如调整为打算输出特别关联的搜索结果的目标组。

在上文描述的示例性实施例中，输入单元5、显示单元7和交互捕获单元9被包括在单个的用户设备2中，例如个人计算机或移动电话中。在另一个实施例中，这些单元被独立地实现或者多个所述单元被实现在不同的设备中。在这样的情况下，特别地，能够例如在商店或商贸展中捕获物理用户交互。

例如，至少输入单元5和显示单元7被集成在设备中，例如，集成在移动电话上的应用中，并且交互捕获单元9与它们分开布置，例如布置在商店的收银机上。在该示例中，用户使用其移动电话利用搜索查询s进行搜索。例如，用户能够对搜索词进行搜索或者能够调用每日优惠。向用户显示产品pi的列表并且用户例如能够得到与各个产品pi有关的详细信息的输出或者能够得到到产品pi的路线的显示。如果用户购买显示的产品pi中的一个，则商店的收银机捕获该用户交互。如果在该操作中，例如通过登录、信用卡或客户卡识别出了用户，则能够将由收银机捕获的购买分配给在移动电话上查询的搜索查询s的交互数据i^si。在这样的情况下，交互数据i^si包括通过移动电话和通过购买过程二者与物理商品进行的交互。

除了移动电话，还可以使用例如商店中的终端计算机，或者用户可以向售货员询问信息。为了捕获物理用户交互，例如，可以在产品pi上装配应答器，特别是在它们的包装上装配应答器，但用户也能够随身携带应答器，例如合适的用户设备2形式的应答器或客户卡或信用卡中或购物车上的应答器。分配给用户的这种应答器可以例如被经营场所上的设备读取以便于捕获用户的位置(例如，在包含产品pi的架子前)或用户与产品pi的交互。

还能够通过其他设备(例如通过属于用户的数据眼镜或摄像机系统)捕获物理用户交互，该其他设备捕获例如用户位于何处、用户是否从架子上取下产品pi、将其放在购物车中或购买了该产品。这种系统也可以识别用户或捕获用户查看了什么产品pi。摄像机系统例如可以装配在商店中，或者可以是移动的，例如可以是属于用户的数据眼镜中摄像机的形式。此外，结账设备可以捕获购买操作作为用户交互并且可以将它们传送到捕获接口4。

在这样的情况下，重要的因素是能够将用户与产品pi的交互分配给利用搜索查询s的搜索结果。特别地，这能够通过用户登录来实现。

附图标记

mi数据集

pi产品

a¹i到aⁿi属性

s搜索查询

s’进一步的搜索查询

r^si关联性数据

r^s’i进一步的关联性数据

i^si交互数据

i^s’i进一步的交互数据

k^s,1到k^s,n相关性数据

k^s’,1到k^s’,n进一步的相关性数据

αs,s’相似度

1搜索引擎

2用户设备

3数据存储单元

4搜索引擎的捕获接口

5输入单元

6搜索引擎的输出单元

7显示单元

8关联性确定单元

9交互捕获单元

101捕获搜索查询

102分配关联性数据

103输出数据集

103’重新输出数据集

104捕获交互数据

105确定相关性数据

106重新生成关联性数据

201交互数据的实际图表

202交互数据的期望图表

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：卡斯滕·克劳斯
技术所有人：欧米克数据质量有限公司
我是此专利的发明人

上一篇：分层高速缓存填充的制作方法
上一篇：具有线活动检测器的UART的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。