一种贷款中介的识别方法、系统、设备及存储介质与流程

文档序号：20113349发布日期：2020-03-17 19:28阅读：286来源：国知局

本发明实施例涉及互联网信息技术，尤其涉及一种贷款黑中介的识别方法、系统、设备及存储介质。

背景技术：

随着互联网金融的快速发展，基于互联网开展的借贷业务越来越多，由于信息上的不对称，出现越来越多的中介代办行为，随着中介高额返利的吸引出现越来越多的黑中介团伙骗贷行为。有报导指出当前金融科技领域坏账率约在10％-15％，其中60％-70％的坏账就是由黑中介“创造”；甚至多家金融科技平台借款申请人里，10％-15％都由黑中介“幕后操纵”。360金融发布的《2018智能反欺诈洞察报告》指出，黑中介存在以推荐贷款口子为由，骗取用户信息、购买用户信息进行骗贷，而信用意识相对薄弱的三四线城市人群以及偏远地区，如农村的用户往往成为黑中介骗贷受害者。

现有技术中，中介的识别方法大多来源于人工标识，主要来源有客服，公开的网络数据爬虫等。上述方法都属于已知用户是中介，主要动作是采集人工标注结合传统朴素贝叶斯等有监督分类模型训练人工标注数据来识别黑中介，有监督学习方法只能学习到样本知识，无法学习样本以外的知识，这对训练样本提出了较高要求，训练样本直接决定模型泛化效果，实际操作较复杂，且识别的准确率较低。

技术实现要素：

本发明实施例提供一种贷款黑中介的识别方法、系统、设备及存储介质，以实现提高贷款中介的识别准确率。

为达此目的，本发明实施例提供了一种贷款黑中介的识别方法，该识别方法包括：

构建第一记账数据的文本特征向量；

基于k-means算法从所述文本特征向量中聚类出第一中介用户集；

通过lda模型从所述第一中介用户集中提取第二中介用户集。

进一步的，所述构建第一记账数据的文本特征向量包括：

获取中介用户的记账行为模式和第一记账数据；

通过结巴分词方法和关键词过滤技术过滤所述第一记账数据中的混淆语义脏数据以得到第一文本数据；

根据所述记账行为模式通过结巴分词方法构建所述第一文本数据的文本特征向量。

进一步的，所述通过lda模型从所述第一中介用户集中提取第二中介用户集包括：

通过lda模型对第一中介用户集的记账数据进行文本主题识别；

从所述第一中介用户集中提取所述文本主题为中介主题的概率高于预设值的用户作为第二中介用户集。

进一步的，所述通过lda模型从所述第一中介用户集中提取第二中介用户集之后包括：

从所述第二中介用户集中识别出黑中介用户。

进一步的，所述从所述第二中介用户集中识别出黑中介用户包括：

建立用户团伙信息；

根据所述用户团伙信息对全部用户进行团伙划分；

获取每个团伙内用户的贷后数据并根据所述贷后数据计算出每个团伙的欺诈率；

将所述欺诈率大于预设值的团伙作为黑中介团伙，将所述黑中介团伙内属于所述第二中介用户集的用户作为黑中介用户。

进一步的，所述建立用户团伙信息包括：

获取全部用户的个人信息；

根据所述个人信息通过社群划分算法建立用户团伙信息。

进一步的，所述将所述欺诈率大于预设值的团伙作为黑中介团伙之后包括：

根据所述黑中介团伙的欺诈率对所述黑中介团伙划分风险等级。

一方面，本发明实施例还提供了一种贷款黑中介的识别系统，该识别系统包括：

向量构建模块，用于构建第一记账数据的文本特征向量；

用户集聚类模块，用于基于k-means算法从所述文本特征向量中聚类出第一中介用户集；

用户集提取模块，用于通过lda模型从所述第一中介用户集中提取第二中介用户集。

另一方面，本发明实施例还提供了一种贷款黑中介的识别设备，该识别设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任一实施例提供的识别方法。

又一方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例提供的识别方法。

本发明实施例通过构建第一记账数据的文本特征向量；基于k-means算法从所述文本特征向量中聚类出第一中介用户集；通过lda模型从所述第一中介用户集中提取第二中介用户集，解决了现有的贷款中介识别准确率不高的问题，实现了提高贷款中介的识别准确率的效果。

附图说明

图1是本发明实施例一提供的一种贷款中介的识别方法的流程示意图；

图2是本发明实施例二提供的一种贷款中介的识别方法的流程示意图；

图3是本发明实施例三提供的一种贷款中介的识别系统的结构示意图；

图4为本发明实施例四提供的一种贷款中介的识别设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

此外，术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等，但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一模块称为第二模块，且类似地，可将第二模块称为第一模块。第一模块和第二模块两者都是模块，但其不是同一模块。术语“第一”、“第二”等不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明实施例的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

实施例一

如图1所示，本发明实施例一提供了一种贷款中介的识别方法，该识别方法包括：

s110、构建第一记账数据的文本特征向量。

本实施例中，第一记账数据可以包括多个用户的记账数据。

示例性的，用户a的第一文本数据包括“甲宇友信批款9万返点”、“乙放款5万丙返点”和“丁放款5千1千费用250中介费”，通过结巴分词方法可以得到用户a的词语“甲”、“宇友信”、“批款”、“9万”、“返点”、“乙”、“放款”、“5万”、“丙”、“返点”、“丁”、“放款”、“5千”、“1千”、“费用”、“250”和“中介费”，可构建例如“中文姓名个数”和“贷款中介词个数”两个不同维度的特征向量，其中中文姓名个数有4个，贷款中介词个数有6个，那么用户a的文本特征向量就是【4,6】。

s120、基于k-means算法从所述文本特征向量中聚类出第一中介用户集。

本实施例中，k-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。k-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量v最优分类，使得评价指标j最小。算法采用误差平方和准则函数作为聚类准则函数。可以基于k-means算法将文本特征向量聚类得到最接近中介用户的多个文本特征向量，并将这些文本特征向量对应的用户作为第一中介用户集。

示例性的，从n个文本特征向量中随机选取k个文本特征向量作为质心，然后对剩余的每个文本特征向量测量其到每个质心的距离，并把它归到最近的质心的类，然后重新计算已经得到的各个类的质心，最后重复迭代直至新的质心与原质心相等或小于预设阈值，通过该方法对文本特征向量聚类后可以直接观察得到最接近中介用户的一类，将这一类中的文本特征向量对应的用户作为第一中介用户集。

s130、通过lda模型从所述第一中介用户集中提取第二中介用户集。

本实施例中，lda(latentdirichletallocation)是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。经过多次试验，基于k-means算法从所述文本特征向量中聚类出第一中介用户集的准确率只有70％左右，为此还可以通过lda模型对第一中介用户集的记账数据进行文本主题识别，可以选取与中介最为相关的文本作为文本主题，通过lda模型提取文本主题为中介主题的概率高于预设值的用户作为第二中介用户集。经过多次试验，第二中介用户集中的用户为中介用户的概率在96％以上。

实施例二

如图2所示，本发明实施例二提供了一种贷款中介的识别方法，本发明实施例二是在本发明实施例一的基础上进一步的优化，该识别方法包括：

s210、获取中介用户的记账行为模式和第一记账数据。

本实施例中，首先需要分析获取中介用户的记账行为模式和第一记账数据，中介用户的记账行为模式与一般用户的记账行为模式具有显著区别，主要表现在中介用户的记账数据中的名词词性出现人名的权重较高，且记账数据中的记账内容结构单一，出现中介相关的关键词，例如“空放”之类的词频明显高于一般用户。可以据此分析获取中介用户的记账行为模式，第一记账数据为所有可获取的记账数据。

s220、通过结巴分词方法和关键词过滤技术过滤所述第一记账数据中的混淆语义脏数据以得到第一文本数据。

本实施例中，第一记账数据还可能包括很多脏数据，具体如从短信中直接导入的记账数据，该记账数据中出现涉及贷款相关词汇，但却是官方短信。

示例性的，用户a的第一记账数据为“【手机贷】您已还款成功2252.00元(现金分期)，信用额度同时提升至5800元！再次借款更享受极速下款特权哦！”,该类记账数据属于短信直接导入记账软件的数据。通过结巴分词方法将该记账数据进行分词，可以得到多个词语，该记账数据含有贷款中介相关词“下款”，但该条记账数据虽然含有贷款中介词但非中介记账文本。因此还需要通过关键词过滤技术，分析由结巴分词方法得到的“【手机贷】”这一关键词，通过关键词规律技术中的正则的正向使用和非正向使用的结合，过滤掉该条第一记账数据，保证了第一记账数据特征区分度和鲁棒性。

s230、根据所述记账行为模式通过结巴分词方法构建所述第一文本数据的文本特征向量。

本实施例中，基于分析得到的中介用户的记账行为模式，可以通过结巴分词方法构建得到第一文本数据的不同维度的文本特征向量。具体为通过结巴分词方法将第一文本数据分词后，根据不同的维度标签构建出文本特征向量。

s240、基于k-means算法从所述文本特征向量中聚类出第一中介用户集。

s250、通过lda模型对第一中介用户集的记账数据进行文本主题识别。

s260、从所述第一中介用户集中提取所述文本主题为中介主题的概率高于预设值的用户作为第二中介用户集。

本实施例中步骤s240-步骤s260的实现方法和本发明实施例一相同。

s270、获取全部用户的个人信息。

s280、根据所述个人信息通过社群划分算法建立用户团伙信息。

s290、根据所述用户团伙信息对全部用户进行团伙划分。

本实施例中，可以将所有用户的个人信息作为数据源，其中个人信息包括联系方式、公司信息和用户之间的关联信息等，可以将联系方式作为网络节点，用户之间的关联信息作为边，采用社群划分算法建立用户团伙信息，并根据该用户团伙信息对全部用户进行团伙划分，将全部用户的整个关系网络划分为多个小的团伙网络，即将全部用户划分为多个团伙。

s300、获取每个团伙内用户的贷后数据并根据所述贷后数据计算出每个团伙的欺诈率。

s310、将所述欺诈率大于预设值的团伙作为黑中介团伙，将所述黑中介团伙内属于所述第二中介用户集的用户作为黑中介用户。

s320、根据所述黑中介团伙的欺诈率对所述黑中介团伙划分风险等级。

本实施例中，获取每个团伙内用户的贷后数据，其中，贷后数据包括失联、按时还款等，作为优选的，不获取团伙内只有一个用户的贷后数据。获取每个团伙内用户的贷后数据后，若一个用户的贷后数据包括失联，则判断该用户欺诈，据此计算出每个团伙的欺诈率，具体可以为将欺诈人数除以团伙内总人数作为欺诈率。将所述欺诈率大于预设值的团伙作为黑中介团伙，将所述黑中介团伙内属于所述第二中介用户集的用户作为黑中介用户。

进一步的，可以将欺诈率大于20％的团伙判定为黑中介团伙，设置欺诈率在20％-40％的黑中介团伙的风险等级为d，欺诈率在40％-60％的黑中介团伙的风险等级为c，欺诈率在60％-80％的黑中介团伙的风险等级为b，欺诈率在80％-100％黑中介团伙的风险等级为a，示例性的，可以同时设置银行贷款系统默认不接受风险等级大于等于b的黑中介团伙内用户的任何请求，默认不接受风险等级大于等于d的黑中介团伙内黑中介用户的大金额操作请求等等。

在一替代实施例中，从所述第二中介用户集中识别出黑中介用户的方法还可以是直接获取第二中介用户集的贷后数据，根据第二中介用户集中的用户的贷后数据中失联在全部贷后数据中占的比例识别出黑中介用户。

实施例三

如图3所示，本发明实施例三提供了一种贷款中介的识别系统100，本发明实施例三所提供的贷款中介的识别系统100可执行本发明任意实施例所提供的贷款中介的识别方法，具备执行方法相应的功能模块和有益效果。该识别系统100包括向量构建模块200、用户集聚类模块300和用户集提取模块400。

具体的，向量构建模块200用于构建第一记账数据的文本特征向量；用户集聚类模块300用于基于k-means算法从所述文本特征向量中聚类出第一中介用户集；用户集提取模块400用于通过lda模型从所述第一中介用户集中提取第二中介用户集。

本实施例中，向量构建模块200具体用于获取中介用户的记账行为模式和第一记账数据；通过结巴分词方法和关键词过滤技术过滤所述第一记账数据中的混淆语义脏数据以得到第一文本数据；根据所述记账行为模式通过结巴分词方法构建所述第一文本数据的文本特征向量。用户集提取模块400具体用于通过lda模型对第一中介用户集的记账数据进行文本主题识别；从所述第一中介用户集中提取所述文本主题为中介主题的概率高于预设值的用户作为第二中介用户集。

进一步的，该贷款中介的识别系统100还包括黑中介识别模块500和风险划分模块600。

黑中介识别模块500用于从所述第二中介用户集中识别出黑中介用户。黑中介识别模块500具体用于建立用户团伙信息；根据所述用户团伙信息对全部用户进行团伙划分；获取每个团伙内用户的贷后数据并根据所述贷后数据计算出每个团伙的欺诈率；将所述欺诈率大于预设值的团伙作为黑中介团伙，将所述黑中介团伙内属于所述第二中介用户集的用户作为黑中介用户。黑中介识别模块500具体还用于获取全部用户的个人信息；根据所述个人信息通过社群划分算法建立用户团伙信息。风险划分模块600用于根据所述黑中介团伙的欺诈率对所述黑中介团伙划分风险等级。

实施例四

图4为本发明实施例四提供的一种贷款黑中介的识别设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图4显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(isa)总线，微通道体系结构(mac)总线，增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(ram)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的识别方法：

构建第一记账数据的文本特征向量；

基于k-means算法从所述文本特征向量中聚类出第一中介用户集；

通过lda模型从所述第一中介用户集中提取第二中介用户集；

从所述第二中介用户集中识别出黑中介用户。

实施例五

本发明实施例五还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有发明实施例提供的识别方法：

构建第一记账数据的文本特征向量；

基于k-means算法从所述文本特征向量中聚类出第一中介用户集；

通过lda模型从所述第一中介用户集中提取第二中介用户集；

从所述第二中介用户集中识别出黑中介用户。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、rf等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韦雪碧
技术所有人：随手(北京)信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。