文本信息验证方法、装置、计算机设备和存储介质与流程

文档序号：19418760发布日期：2019-12-14 01:12阅读：184来源：国知局

本申请涉及计算机技术领域，特别是涉及一种文本信息验证方法、装置、计算机设备和存储介质。

背景技术：

公司在招聘面试之前，会依据简历判定应聘者与应聘职位的匹配情况，由此筛选匹配度较高的应聘者进行后续的面试。目前，通常是由人力资源根据应聘者的简历信息和应聘岗位的要求之间的匹配度，来确定应聘者与应聘职位的匹配度。但是，由于简历可能存在造假情况，应聘者可能通过简历造假获得与能力不匹配的应聘职位的面试资格。由此，如何在面试之前或面试过程中验证简历文本的真实性是值得关注的问题。

目前，通常是将简历文本与简历库中的参考简历文本进行匹配，以根据匹配结果判断简历文本的文本信息的真实性。但是，该种验证方式受限于简历库中参考简历文本的全面性，存在验证准确性低的问题。

技术实现要素：

基于此，有必要针对上述技术问题，提供一种能够提高文本信息的验证准确性的文本信息验证方法、装置、计算机设备和存储介质。

一种文本信息验证方法，所述方法包括：

通过多个线程并行的从海量候选简历文本中选取预设的应聘岗位信息所对应的简历文本，作为待校验的简历文本；

从所述简历文本中提取关键字；

根据所述关键字和所述应聘岗位信息进行用户画像，得到用户画像标签；

根据所述用户画像标签确定用户所属的用户集群；

从对应于所述用户集群预配置的试题库中选取测试试题，并将选取的所述测试试题推送至所述用户相应的用户终端；

接收所述用户终端针对所述测试试题反馈的用户答案，根据所述用户答案和相应的标准答案对所述简历文本的文本信息进行验证。

在其中一个实施例中，所述根据所述关键字和所述应聘岗位信息进行用户画像，得到用户画像标签，包括：

根据所述关键字确定相应用户所对应的用户类型；

查询对应于所述用户类型预配置的标签；

根据所述关键字和所述应聘岗位信息，确定与查询的所述标签对应的用户画像标签。

在其中一个实施例中，所述用户画像标签包括用户技能画像标签和应聘岗位画像标签；所述从所述简历文本中提取关键字，包括：

根据所述应聘岗位信息从所述简历文本中提取相应的技能关键字；

所述根据所述关键字和所述应聘岗位信息进行用户画像，得到用户画像标签，包括：

根据所述技能关键字确定用户技能画像标签；

根据所述应聘岗位信息确定应聘岗位画像标签。

在其中一个实施例中，所述用户画像标签还包括用户技能等级画像标签；所述从所述简历文本中提取关键字，还包括：

根据所述技能关键字从所述简历文本中提取相应的技能等级关键字；

所述根据所述关键字和所述应聘岗位信息进行用户画像，得到用户画像标签，还包括：

根据所述技能等级关键字确定用户技能等级画像标签。

在其中一个实施例中，所述用户画像标签还包括用户职业等级画像标签；所述从所述简历文本中提取关键字，还包括：

从所述简历文本中提取职业等级关键字；

所述根据所述关键字和所述应聘岗位信息进行用户画像，得到用户画像标签，还包括：

当所述职业等级关键字中包括能够用于标识职业等级的关键字时，根据所述能够用于标识职业等级的关键字确定用户职业等级画像标签；

当所述职业等级关键字中未包括能够用于标识职业等级的关键字时，根据所述职业等级关键字确定工作年限信息和学历信息，并根据所述工作年限信息和所述学历信息确定用户职业等级画像标签。

在其中一个实施例中，所述用户技能画像标签多于一个；所述根据所述用户画像标签确定用户所属的用户集群，包括：

将每个用户技能画像标签分别与所述应聘岗位画像标签进行组合，得到多于一个的用户画像标签组；

根据所述多于一个的用户画像标签组分别查询各自匹配的集群画像标签，以确定相应用户所属的用户集群。

在其中一个实施例中，所述根据所述用户答案和相应的标准答案对所述简历文本的文本信息进行验证，包括：

将所述用户答案和相应标准答案比较，并根据比较结果确定第一答题分值；

将所述测试试题和相应的用户答案发送至审核终端，并接收所述审核终端对应反馈的第二答题分值；

根据所述第一答题分值和所述第二答题分值按照预设映射关系计算相应的答题分值，并根据所述答题分值对所述简历文本的文本信息进行验证。

一种文本信息验证装置，所述装置包括：

选取模块，用于通过多个线程并行的从海量候选简历文本中选取预设的应聘岗位信息所对应的简历文本，作为待校验的简历文本；

提取模块，用于从所述简历文本中提取关键字；

画像模块，用于根据所述关键字和所述应聘岗位信息进行用户画像，得到用户画像标签；

确定模块，用于根据所述用户画像标签确定用户所属的用户集群；

推送模块，用于从对应于所述用户集群预配置的试题库中选取测试试题，并将选取的所述测试试题推送至所述用户相应的用户终端；

验证模块，用于接收所述用户终端针对所述测试试题反馈的用户答案，根据所述用户答案和相应的标准答案对所述简历文本的文本信息进行验证。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述各个实施例中所述的文本信息验证方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述各个实施例中所述的文本信息验证方法的步骤。

上述文本信息验证方法、装置、计算机设备和存储介质，通过多个线程并行的从海量候选简历文本中选取待验证的简历文本，能够提高简历文本的获取效率，从而能够提高对待验证的简历文本的文本信息的验证效率。对于待验证的简历文本，根据应聘岗位信息和从简历文本中提取的关键字对用户进行用户画像，得到用户画像标签，并根据用户画像标签确定用户所属的用户集群，进而从该用户集群对应的试题库中选取与简历文本相匹配的测试试题，以防测试试题提前泄露，且选取的测试试题是与简历文本中所表征的用户能力相匹配的测试试题，从而能够提高测试试题的匹配度和简历文本的文本信息的验证准确性。进一步地，借助于用户终端基于测试试题与用户进行交互，并根据用户答案和相应标准答案对简历文本的文本信息进行验证，能够进一步提高简历文本的文本信息的验证准确性。

附图说明

图1为一个实施例中文本信息验证方法的应用场景图；

图2为一个实施例中文本信息验证方法的流程示意图；

图3为另一个实施例中文本信息验证方法的流程示意图；

图4为一个实施例中文本信息验证装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的文本信息验证方法，可以应用于如图1所示的应用环境中。其中，用户终端102通过网络与服务器104通过网络进行通信。服务器104通过多个线程并行的从海量候选简历文本中选取预设的应聘岗位信息所对应的简历文本，作为待校验的简历文本，根据应聘岗位信息和从待校验的简历文本中提取的关键字进行用户画像，得到用户画像标签，根据用户画像标签确定用户所属的用户集群，从该用户集群对应的试题库中选取测试试题，将测试试题推送至相应用户所对应的用户终端102，并根据用户终端102针对测试试题反馈的用户答案和相应标准答案对简历文本的文本信息进行验证。其中，用户终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种文本信息验证方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

s202，通过多个线程并行的从海量候选简历文本中选取预设的应聘岗位信息所对应的简历文本，作为待校验的简历文本。

其中，应聘岗位信息是用于标识应聘岗位的信息，具体可以是岗位标识，岗位标识可以是岗位的名称、编号或代码等，比如研发工程师。

具体地，服务器实时检测预设触发条件，在检测到预设触发条件时，通过多个线程并行的从本地或其他设备获取海量的候选简历文本和每个候选简历文本相应的应聘岗位信息，并通过该多个线程并行的从所获取到的海量候选简历文本中选取预设的应聘岗位信息所对应的简历文本，作为待验证的简历文本。预设触发条件比如接收到管理终端发送的文本信息验证指令，或者检测到当前系统时间与预设触发时间一致。其他设备比如用于存储简历文本的存储服务器或存储服务器集群，或者云服务器等。服务器可通过网络通信等方式从其他设备获取候选简历文本。

在一个实施例中，服务器以应聘岗位信息为维度，通过多个线程并行的从海量候选简历文本中筛选一个或多个应聘岗位信息所对应的简历文本，作为待验证的简历文本。

在一个实施例中，服务器将应聘机构标识、应聘区域标识、应聘岗位信息和简历文本更新时间等中的至少一种作为选取依据，通过多个线程并行的从海量候选简历文本中选取待校验的简历文本。

在一个实施例中，服务器在检测到预设触发条件时触发创建多个线程，或者从线程池中选取处于空闲状态的多个线程。服务器可根据候选简历文本的数量，或者，自身的当前负载量，或者，自身的最大线程负载量等确定线程数量，在此不作具体的限定。

在一个实施例中，服务器可通过多个线程并行的对多个待校验的简历文本执行下述步骤s204至步骤s212，以对简历文本的文本信息进行验证。服务器也可通过单个线程串行的对每个待校验的简历文本执行下述步骤s204至步骤s212，以对每个简历文本的文本信息进行验证。可以理解，服务器可根据待校验的简历文本的数量确定用于文本信息验证的线程，比如当待校验的简历文本的数量大于或等于数量阈值时，则通过多个线程以一定的并发度并行的对简历文本的文本信息进行验证，否则，通过单个线程进行文本信息的验证。

s204，从简历文本中提取关键字。

具体地，服务器按照预设关键字提取方式从接收到的简历文本中提取关键字。预设关键字提取方式是预先配置的用于从简历文本中提取关键字的方式，比如，基于关键字集和/或正则表达式的关键字匹配。

在一个实施例中，简历文本的文本格式可以是word或pdf等。当文本格式为word时，服务器采用关键字匹配的方式从简历文本中提取关键字。当文本格式为pdf时，服务器基于文字识别技术将简历文本识别为可编辑文本，并采用关键字匹配的方式从该可编辑文本中提取关键字。文字识别技术比如ocr技术(opticalcharacterrecognition，光学字符识别)。

在一个实施例中，服务器查询预配置的关键字集，将该关键字集中的各个候选关键字分别与简历文本进行匹配，并将匹配成功的候选关键字作为从简历文本中提取的关键字。关键字集比如包括java、python、shell、linux、jmeter和postman等候选关键字。服务器查询预配置的正则表达式，并基于正则表达式从简历文本中提取关键字。正则表达式比如“工作*年”、“高级*”、“学历*”和“*java”等，基于正则表达式提取出的关键字比如工作年限2年、高级工程师和掌握java。服务器可基于关键字集和正则表达式中的至少一种从简历文本中提取关键字。

在一个实施例中，服务器可借助于预先训练好的关键字提取模型从待验证的简历文本中提取关键字。

s206，根据关键字和应聘岗位信息进行用户画像，得到用户画像标签。

其中，用户画像标签是用于描述用户特征的标签值。用户画像标签与标签相对应，用户画像标签是根据关键字和/或应聘岗位信息等用户数据按照标签对用户进行用户画像得到的标签值。标签是对某类特征的抽象分类或概括，比如用户技能、用户技能等级、应聘岗位和用户职业等级等中的至少一种。举例说明，对java、python和shell这类特征进行抽象概括，得到的标签为用户技能，对应聘岗位信息这一特征抽象得到的标签为应聘岗位。若从简历文本中提取的关键字包括python、掌握java和高级工程师，则用户技能这一标签对应的用户画像标签为python和java，用户技能等级这一标签对应的用户画像标签为掌握，用户职业等级这一标签对应的用户画像标签为高级，若应聘岗位信息为研发工程师，则应聘岗位这一标签对应的用户画像标签为研发工程师。

具体地，服务器查询预配置的标签，根据应聘岗位信息和从简历文本中提取的关键字按照所查询到的标签对用户进行用户画像，得到各个标签所对应的用户画像标签，并将各标签对应的用户画像标签确定为用户的用户画像标签。

在一个实施例中，服务器根据应聘岗位信息确定应聘岗位这一标签对应的用户画像标签，并根据提取的关键字确定用户技能、用户技能等级和用户职业等级等标签中的至少一个标签所对应的用户画像标签。

在一个实施例中，步骤s206包括：根据关键字确定相应用户所对应的用户类型；查询对应于用户类型预配置的标签；根据关键字和应聘岗位信息，确定与查询的标签对应的用户画像标签。

其中，用户类型比如应届生和往届生(社会人员)。例如，用户类型为往届生时，预配置的标签包括用户技能、用户技能等级、应聘岗位和用户职业等级。用户类型为应届生时，由于应届生通常无工作经验，故预配置的标签中未包括用户职业等级，也就是预配置的标签包括用户技能、用户技能等级和应聘岗位。

具体地，服务器针对各个用户类型预配置有相应的标签。服务器从简历文本中提取出关键字后，根据提取出的关键字确定相应用户所对应的用户类型，也就是确定相应用户标识与用户类型的对应关系。服务器根据所确定的用户类型查询预配置的标签，并根据应聘岗位信息和从简历文本中提取的关键字按照预配置的标签对用户进行用户画像，得到用户相应的用户画像标签。服务器可分别查询各用户类型对应的至少一个的关键字，将查询到的关键字分别与从简历文本中提取的关键字进行匹配，以根据匹配结果确定用户的用户类型。用户类型对应的关键字是根据相应类型的用户特征确定的，比如应届生对应的关键字为应届、工作经验无或工作年限0年等。

在一个实施例中，服务器从简历文本中提取出关键字后，从提取出的关键字中选取与工作经验这一字段相应的关键字，并根据选取的关键字确定工作经验这一字段相应的字段值，比如5年。若字段值大于0，则判定用户所对应的用户类型为往届生。

在一个实施例中，服务器针对各应聘岗位信息预配置有相应的标签。服务器根据应聘岗位信息查询预配置的标签，并根据该应聘岗位信息和从简历文本中提取的关键字，分别确定所查询到的各个标签相应的用户画像标签。

在一个实施例中，对于下述的一个或多个实施例中提供的文本信息验证方法，服务器可根据从简历文本中提取出的关键字确定用户相应的用户类型，并根据用户类型确定预配置的标签，进而根据提取出的关键字和应聘岗位信息按照预配置的标签对用户进行用户画像，以确定用户画像标签。服务器也可首先根据用户相应的用户类型确定预配置的标签，并基于预配置的标签从简历文本中提取相应的关键字，进而根据提取的关键字和应聘岗位信息按照标签进行用户画像，以确定用户画像标签。

在上述实施例中，基于用户对应的用户类型确定预配置的标签，并按照预配置的标签对用户进行画像，能够得到匹配度较高的用户画像标签。

s208，根据用户画像标签确定用户所属的用户集群。

其中，用户集群是由具有相同特征的用户组成的用户组，具体可以是由对应有相同用户画像标签的用户组成的用户组。用户集群由用户集群标识唯一标识，用户由用户标识唯一标识。用户与用户集群的所属关系可通过相应用户标识与用户集群标识之间的对应关系来表征。

具体地，服务器查询对应于多于一个的候选用户集群分别预配置的集群画像标签，将查询到的各个集群画像标签分别与用户画像标签进行匹配，以根据匹配结果从该多于一个的候选用户集群中筛选用户所属的用户集群。服务器将集群画像标签与用户画像标签相匹配的候选用户集群确定为用户所属的用户集群。匹配包括完全匹配和部分匹配，完全匹配是指集群画像标签与用户画像标签一致，部分匹配是指集群画像标签为用户画像标签中的一部分。可以理解，服务器根据用户画像标签确定用户所属用户集群的过程，也就是根据用户画像标签确定用户标识所对应的用户集群标识的过程。集群画像标签

举例说明，假设用户画像标签包括python、shell和研发工程师，若集群画像标签为python、shell和研发工程师，则二者完全匹配，则可判定该集群画像标签相应的候选用户集群为用户所属的用户集群。若集群画像标签为python和研发工程师，则二者部分匹配，也可判定该集群画像标签相应的候选用户集群为用户所属的用户集群。

s210，从对应于用户集群预配置的试题库中选取测试试题，并将选取的测试试题推送至用户相应的用户终端。

其中，试题库是由多于一个的测试试题组成的试题集。试题库中可包括多于一个的测试试题各自相应的标准答案。

具体地，服务器根据用户画像标签确定用户所属的用户集群后，根据用户集群相应的用户集群标识查询预配置的试题库，按照预设选取方式从试题库中选取至少一个的测试试题，并将选取的测试试题推送至相应用户所对应的用户终端。用户终端通过文本展示、语音播报和虚拟动画等中的至少一种方式将测试试题展示给用户。预设选取方式比如随机选取、轮询或者按照各个测试试题的历史选取次数等。

在一个实施例中，对于从试题库中选取的测试试题数量，服务器可随机确定，也可将用户标识对试题库中的测试试题总数量计算哈希值，并根据哈希值确定，还可根据其他相适应的方式确定，在此不作具体的限定。

在一个实施中，试题库中包括多于一个的测试试题和各个测试试题对应的试题权重。试题权重可用于表征相应测试试题的重要程度，比如可将试题权重达到预设权重阈值的测试试题确定为必选题，若试题库中存在必选题，则选取的测试试题中至少包括必选题。

在一个实施例中，若用户集群对应的集群画像标签与用户画像标签为部分匹配，服务器根据从用户画像标签中剔除与集群画像标签一致的用户画像标签之后的用户画像标签，确定从试题库中所需选取的测试试题数量，并进行测试试题的选取。

s212，接收用户终端针对测试试题反馈的用户答案，根据用户答案和相应的标准答案对简历文本的文本信息进行验证。

具体地，用户终端实时采集用户针对展示的测试试题反馈的用户答案，并在检测到用户触发的答案提交指令时，将采集的用户答案反馈至服务器。服务器根据测试试题从试题库中查询相匹配的标准答案，并将查询到的标准答案和相应的用户答案进行比较，以根据比较结果对简历文本的文本信息进行验证。

在一个实施例中，用户答案可以是用户终端采集用户通过用户操作界面手动录入和选取的文本形式的答案，也可以是用户终端通过语音采集设备采集用户口头回答的语音形式的答案，还可以是视频形式的答案。服务器根据用户答案的类型，对接收到的用户答案进行分析及处理，以从用户答案中提取相应的答案内容，并基于答案内容和相应的标准答案对简历文本的文本信息进行验证。

上述文本信息验证方法，通过多个线程并行的从海量候选简历文本中选取待验证的简历文本，能够提高简历文本的获取效率，从而能够提高对待验证的简历文本的文本信息的验证效率。对于待验证的简历文本，根据应聘岗位信息和从简历文本中提取的关键字对用户进行用户画像，得到用户画像标签，并根据用户画像标签确定用户所属的用户集群，进而从该用户集群对应的试题库中选取与简历文本相匹配的测试试题，以防测试试题提前泄露，且选取的测试试题是与简历文本中所表征的用户能力相匹配的测试试题，从而能够提高测试试题的匹配度和简历文本的文本信息的验证准确性。进一步地，借助于用户终端基于测试试题与用户进行交互，并根据用户答案和相应标准答案对简历文本的文本信息进行验证，能够进一步提高简历文本的文本信息的验证准确性。

在一个实施例中，用户画像标签包括用户技能画像标签和应聘岗位画像标签；步骤s204包括：根据应聘岗位信息从简历文本中提取相应的技能关键字；步骤s206包括：根据技能关键字确定用户技能画像标签；根据应聘岗位信息确定应聘岗位画像标签。

其中，用户技能画像标签是用户技能这一标签对应的标签值，应聘岗位画像标签是应聘岗位这一标签对应的标签值。技能关键字是能够用于表征用户专业技能的关键字，用户专业技能可理解为用户专业能力，技能关键字比如python、shell和接口测试等。

具体地，服务器根据应聘岗位信息查询预配置的技能关键字集，将该技能关键字集中的各个候选技能关键字分别与简历文本进行匹配，并将匹配成功的候选技能关键字确定为从简历文本中提取的技能关键字。服务器将提取出的技能关键字确定为用户技能这一标签对应的用户技能画像标签，并根据应聘岗位信息确定应聘岗位这一标签对应的应聘岗位画像标签。应聘岗位信息为应聘岗位的标识或名称时，服务器将应聘岗位信息确定为应聘岗位这一标签对应的用户画像标签。

在一个实施例中，当从简历文本中提取出的多于一个的技能关键字时，服务器将该多于一个的技能关键字均确定为用户技能画像标签。由此，服务器可确定出多于一个的用户技能画像标签。

在一个实施例中，当从简历文本中提取出的多于一个的技能关键字时，服务器按照预设筛选方式从该多于一个的技能关键字中筛选出至少一个的技能关键字，并根据筛选出的技能关键字确定用户技能画像标签。预设筛选方式比如按照各个技能关键字的权重或优先级进行筛选，或者，按照应聘岗位的用户技能要求进行筛选。服务器可按照预设筛选方式从提取出的技能关键字中筛选出预设数量的技能关键字，也可筛选出权重达到权重阈值的技能关键字。

上述实施例中，根据应聘岗位信息确定应聘岗位画像标签，根据简历文本中的技能关键字确定用户技能画像标签，以得到多维度的用户画像标签，基于该多维度的用户画像标签进行简历文本的验证，能够提高验证的准确性。

在一个实施例中，用户画像标签还包括用户技能等级画像标签；步骤s204还包括：根据技能关键字从简历文本中提取相应的技能等级关键字；步骤s206还包括：根据技能等级关键字确定用户技能等级画像标签。

其中，用户技能等级画像标签是用户技能等级这一标签对应的标签值。用户技能等级是对用户对专业技能的掌握程度的抽象概括。技能等级关键字是用于表征用户对专业技能的掌握程度的关键字，比如掌握java、熟练掌握java和了解java。相应的，根据技能等级关键字确定的用户技能等级画像标签可是掌握、熟练掌握和了解，也可以是初级、中级和高级，还可以是其他能够用于表征专业技能掌握程度的表示方式，比如a、b和c，在此不一一列举。

具体地，服务器从简历文本中提取出技能关键字后，根据提取出的技能关键字从简历文本中提取相应的技能等级关键字，并根据提取出的技能等级关键字确定用户技能等级这一标签对应的用户技能等级画像标签，进而将用户技能画像标签、用户技能等级画像标签和应聘岗位画像标签确定为相应用户的用户画像标签。服务器可将技能关键字相应的正则表达式与简历文本进行匹配，以从简历文本中提取出相应的技能等级关键字。技能关键字相应的正则表达式可以是预先配置好的，也可以是根据技能关键字实时生成的，正则表达式比如“*java”。

在一个实施例中，服务器基于用户技能等级相应的技能等级关键字集从简历文本中提取相匹配的目标关键字及该目标关键字的在简历文本中的位置，并根据位置确定该目标关键字与技能关键字之间的词间距，若词间距小于预设词间距，则根据该目标关键字和相应技能关键字确定相应的技能等级关键字。对于分词后的简历文本，词间距是指目标关键字与技能关键字之间相隔的词数量，可自定义。技能等级关键字集包括掌握、熟练掌握和了解等关键字。若目标关键字为“掌握”，与该目标关键字之间的词间距小于预设词间距的技能关键字包括java和python，则可确定的技能等级关键字为“掌握java”和“掌握python”。

在一个实施例中，服务器基于预配置的通用正则表达式从简历文本中提取目标技能等级关键字，将提取的目标技能等级关键字与技能关键字进行匹配，并将匹配成功的目标技能等级关键字确定为从简历文本中提取出的、且与相应技能关键字相应的技能等级关键字。

在一个实施例中，按照上述方式确定的用户所属的用户集群相应的集群画像标签中不包括与用户技能等级画像标签相匹配的画像标签，也就是集群画像标签与用户画像标签为部分匹配。针对用户集群预配置的试题库包括多于一个的测试试题和各测试试题相应的难度等级，难度等级比如低难度、中等难度和高难度等。由此，服务器根据用户技能等级画像标签从试题库中选取难度等级相匹配的测试试题。比如当用户技能等级画像标签为掌握或中级时，服务器从试题库中选取难度等级为中等难度的测试试题。

上述实施例中，基于技能关键字相应的技能等级关键字确定用户技能等级画像标签，以增加用户画像标签的维度，能够文本信息验证的准确性。

在一个实施例中，用户画像标签还包括用户职业等级画像标签；步骤s204还包括：从简历文本中提取职业等级关键字；步骤s206还包括：当职业等级关键字中包括能够用于标识职业等级的关键字时，根据能够用于标识职业等级的关键字确定用户职业等级画像标签；当职业等级关键字中未包括能够用于标识职业等级的关键字时，根据职业等级关键字确定工作年限信息和学历信息，并根据工作年限信息和学历信息确定用户职业等级画像标签。

其中，用户职业等级画像标签是与用户职业等级这一标签对应的标签值。用户职业等级可理解为职业资格等级，是对用户所具备的职业资格的抽象概括。职业等级关键字是能够用于确定用户所具备的职业资格的关键字，具体可以是能够用于标识职业等级的关键字，比如高级工程师、中级工程师或初级工程师等，也可以是能够用于确定工作年限信息和学历信息的关键字，比如工作年限2年和学历研究生。

具体地，服务器在接收到待验证的简历文本后，通过关键字匹配的方式从简历文本中提取职业等级关键字。服务器可基于用户职业等级相应的正则表达式和/或预配置的职业等级关键字集进行关键字匹配，以提取职业等级关键字。职业等级关键字集比如包括高级工程师和工作年限2年等。用户职业等级相应的正则表达式比如“工作*年”、“学历*”和“高级*”等。服务器从简历文本中提取出职业等级关键字后，判断提取出的职业等级关键字中是否包括能够用于标识职业等级的关键字。当提取出的职业等级关键字包括能够用于标识职业等级的关键字时，服务器根据该能够用于标识职业等级的关键字确定用户职业等级这一标签相应的用户职业等级画像标签。否则，服务器根据提取出的职业等级关键字分别确定能够用于表征工作年限信息和学历信息的关键字，并根据所确定的关键字分别确定相应的工作年限信息和学历信息，进而根据工作年限信息和学历信息按照预设条件确定用户职业等级这一标签相应的用户职业等级画像标签。

预设条件是预先设定的用于根据工作年限信息和学历信息确定相应用户职业等级画像标签的条件。例如，对于学历为本科的用户，当工作年限为2年以下时确定相应用户职业等级画像标签为初级，当工作年限为2至4年时确定相应用户职业等级画像标签为中级，当工作年限为4年以上时确定相应用户职业等级画像标签为高级。对于学历为研究生的用户，当工作年限为2年以下时确定相应用户职业等级画像标签为中级，当工作年限为2年以上时确定相应用户职业等级画像标签为高级。

在一个实施例中，当用户所属的用户集群相应的集群画像标签未包括与用户职业等级画像标签相应的画像标签时，该用户集群相应的试题库中包括多于一个的测试试题和至少一个的测试试题相应的职业等级标签。职业等级标签比如高级、中级和初级。服务器可从试题库中选取职业等级标签与用户职业等级画像标签相匹配的测试试题。

在一个实施例中，服务器按照上述方式分别从待验证的简历文本提取技能关键字、技能等级关键字和职业等级关键字，基于提取出的技能关键字、技能等级关键字和职业等级关键字，分别确定各自相应的用户技能画像标签、用户技能等级画像标签和用户职业等级画像标签，并基于应聘岗位信息确定应聘岗位画像标签，进而将所确定的用户技能画像标签、用户技能等级画像标签、用户职业等级画像标签和应聘岗位画像标签确定为相应用户的用户画像标签。

上述实施例中，基于从简历文本中提取出的职业等级关键字确定用户职业等级画像标签，以增加用户画像标签的维度，能够提高测试试题选取的匹配度，从而能够提高文本信息验证的准确性。

在一个实施例中，用户技能画像标签多于一个；步骤s208包括：将每个用户技能画像标签分别与应聘岗位画像标签进行组合，得到多于一个的用户画像标签组；根据多于一个的用户画像标签组分别查询各自匹配的集群画像标签，以确定相应用户所属的用户集群。

具体地，服务器根据从简历文本中提取出的多于一个的技能关键字，按照上述方式能够确定多于一个的用户技能画像标签。用户技能画像标签的数量小于或等于提取出的技能关键字的数量。服务器将该多于一个的用户技能画像标签中的每个用户技能画像标签分别与应聘岗位画像标签进行组合，得到相应的用户画像标签组。服务器将每个用户画像标签组分别与预配置的集群画像标签进行匹配，以分别筛选出与每个用户画像标签组相匹配的集群画像标签，并将筛选出的每个集群画像标签各自的用户集群确定为用户所属的用户集群。

在一个实施例中，服务器在确定用户所属的多于一个的用户集群后，按照上述测试试题选取方式分别从每个用户集群相应的试题库中选取测试试题，并将选取的测试试题一并推送至用户终端。

在一个实施例中，用户画像标签组中还包括用户技能等级画像标签和用户职业等级画像标签中的至少一种。

上述实施例中，当用户技能画像标签多于一个时，基于组合得到的用户画像标签组确定用户所属的多于一个的用户集群，以便于分别从各用户集群相应的试题库中选取测试试题，能够提高测试试题的匹配度，从而能够提高文本信息验证的准确性。

在一个实施例中，根据用户答案和相应的标准答案对简历文本的文本信息进行验证，包括：将用户答案和相应标准答案比较，并根据比较结果确定第一答题分值；将测试试题和相应的用户答案发送至审核终端，并接收审核终端对应反馈的第二答题分值；根据第一答题分值和第二答题分值按照预设映射关系计算相应的答题分值，并根据答题分值对简历文本的文本信息进行验证。

其中，第一答题分值是用于表征用户答案与相应预配置的标准答案之间的匹配程度的数值。第二答题分值是借助于审核终端进行人工审核时所确定的表征用户答题准确程度的数值。预设映射关系用于表征第一答题分值、第二答题分值和相应答题分值之间的关联关系，例如，答题分值＝第一答题分值*a+第二答题分值*b，a和b是预设的权重值。

具体地，服务器在接收到用户终端针对测试试题反馈的用户答案时，根据测试试题查询相应的标准答案，并将标准答案与测试试题进行比较，以根据比较结果确定第一答题分值。相应的，服务器将接收到的用户答案和相应的测试试题发送至审核终端进行审核，并接收审核终端对应反馈的第二答题分值。进一步地，服务器根据第一答题分值和第二答题分值，按照预设映射关系计算得到相应的答题分值，并将答题分值与预设分值进行比较，以根据比较结果对简历文本的文本信息进行验证。比如，当答题分值达到预设分值时，则判定简历文本的文本信息验证结果为验证通过，也就是判定简历文本的验证结果为验证通过。

在一个实施例中，当选取的测试试题多于一个时，服务器分别确定每个测试试题相应的第一答题分值和第二答题分值，并分别确定每个测试试题相应的答题分值，进而基于每个测试试题相应的权值和答题分值计算相应用户所对应综合的答题分值，并根据该综合的答题分值对简历文本的文本信息进行验证。

在一个实施例中，用户答案可以是文本形式、语音形式或视频形式的答案。当用户答案为语音形式时，服务器可从用户答案中识别出语音文本，并根据语音文本进行验证。当用户答案为视频形式时，服务器可基于用户答案进行微表情识别和视频文本，并基于微表情识别结果和视频文本进行双重验证。

上述实施例中，基于自动审核与人工审核相结合的方式确定用户相应的答题分值，并基于该答题分值对简历文本的文本信息进行验证，能够提高验证准确性。

在一个实例中，服务器根据从简历文本中提取出的关键字确定用户的身份信息，并对身份信息进行验证，若验证通过则继续执行根据关键字和应聘岗位信息进行用户画像，得到用户画像标签的步骤。具体地，服务器可借助于公安部信息系统对身份信息进行验证。身份信息比如用户的姓名、性别和身份证等。可以理解，服务器可基于提取出的关键字确定用户的学历信息，并借助于学信网系统对学历信息进行验证。服务器还可对简历文本进行人脸识别，并借助于用户终端实时采用用户的图像信息，进而基于识别出的人脸信息和采集的图像信息对用户身份验证，以根据身份验证结果确定是否继续执行文本信息验证的相关步骤。

在一个实施例中，如图3所示，提供了一种文本信息验证方法，该方法具体包括以下步骤：

s302，通过多个线程并行的从海量候选简历文本中选取预设的应聘岗位信息所对应的简历文本，作为待校验的简历文本。

s304，根据应聘岗位信息从简历文本中提取相应的技能关键字。

s306，根据技能关键字从简历文本中提取相应的技能等级关键字。

s308，根据技能关键字确定用户技能画像标签。

s310，根据应聘岗位信息确定应聘岗位画像标签。

s312，根据技能等级关键字确定用户技能等级画像标签。

s314，从简历文本中提取职业等级关键字。

s316，当职业等级关键字中包括能够用于标识职业等级的关键字时，根据能够用于标识职业等级的关键字确定用户职业等级画像标签。

s318，当职业等级关键字中未包括能够用于标识职业等级的关键字时，根据职业等级关键字确定工作年限信息和学历信息，并根据工作年限信息和学历信息确定用户职业等级画像标签。

s320，根据用户画像标签确定用户所属的用户集群；用户画像标签包括用户技能画像标签、应聘岗位画像标签、用户技能等级画像标签和用户职业等级画像标签。

s322，从对应于用户集群预配置的试题库中选取测试试题，并将选取的测试试题推送至用户相应的用户终端。

s324，接收用户终端针对测试试题反馈的用户答案，将用户答案和相应标准答案比较，并根据比较结果确定第一答题分值。

s326，将测试试题和相应的用户答案发送至审核终端，并接收审核终端对应反馈的第二答题分值。

s328，根据第一答题分值和第二答题分值按照预设映射关系计算相应的答题分值，并根据答题分值对简历文本的文本信息进行验证。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种文本信息验证装置400，包括：选取模块402、提取模块404、画像模块406、确定模块408、推送模块410和验证模块412，其中：

选取模块402，用于通过多个线程并行的从海量候选简历文本中选取预设的应聘岗位信息所对应的简历文本，作为待校验的简历文本。

提取模块404，用于从简历文本中提取关键字。

画像模块406，用于根据关键字和应聘岗位信息进行用户画像，得到用户画像标签。

确定模块408，用于根据用户画像标签确定用户所属的用户集群。

推送模块410，用于从对应于用户集群预配置的试题库中选取测试试题，并将选取的测试试题推送至用户相应的用户终端。

验证模块412，用于接收用户终端针对测试试题反馈的用户答案，根据用户答案和相应的标准答案对简历文本的文本信息进行验证。

在一个实施例中，画像模块406，还用于根据关键字确定相应用户所对应的用户类型；查询对应于用户类型预配置的标签；根据关键字和应聘岗位信息，确定与查询的标签对应的用户画像标签。

在一个实施例中，用户画像标签包括用户技能画像标签和应聘岗位画像标签；提取模块404，还用于根据应聘岗位信息从简历文本中提取相应的技能关键字；画像模块406，还用于根据技能关键字确定用户技能画像标签；根据应聘岗位信息确定应聘岗位画像标签。

在一个实施例中，用户画像标签还包括用户技能等级画像标签；提取模块404，还用于根据技能关键字从简历文本中提取相应的技能等级关键字；画像模块406，还用于根据技能等级关键字确定用户技能等级画像标签。

在一个实施例中，用户画像标签还包括用户职业等级画像标签；提取模块404，还用于从简历文本中提取职业等级关键字；画像模块406，还用于当职业等级关键字中包括能够用于标识职业等级的关键字时，根据能够用于标识职业等级的关键字确定用户职业等级画像标签；当职业等级关键字中未包括能够用于标识职业等级的关键字时，根据职业等级关键字确定工作年限信息和学历信息，并根据工作年限信息和学历信息确定用户职业等级画像标签。

在一个实施例中，用户技能画像标签多于一个；确定模块408，还用于将每个用户技能画像标签分别与应聘岗位画像标签进行组合，得到多于一个的用户画像标签组；根据多于一个的用户画像标签组分别查询各自匹配的集群画像标签，以确定相应用户所属的用户集群。

在一个实施例中，验证模块412，还用于将用户答案和相应标准答案比较，并根据比较结果确定第一答题分值；将测试试题和相应的用户答案发送至审核终端，并接收审核终端对应反馈的第二答题分值；根据第一答题分值和第二答题分值按照预设映射关系计算相应的答题分值，并根据答题分值对简历文本的文本信息进行验证。

关于文本信息验证装置的具体限定可以参见上文中对于文本信息验证方法的限定，在此不再赘述。上述文本信息验证装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预配置的试题库。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本信息验证方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述各个实施例中的文本信息验证方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个实施例中的文本信息验证方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：龚春燕
技术所有人：深圳壹账通智能科技有限公司
我是此专利的发明人

上一篇：一种培养表达重组人表皮生长因子的工程菌的方法与流程
上一篇：用于对齐3D数据集的设备，方法和系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。