1.本发明涉及数据处理技术领域,具体涉并购事件数据真伪验证方法和装置。
背景技术:2.在需要对企业进行投资时,需要提前了解企业的控股情况,其中包括了并购企业以及相关的控制股份等情况。在实际的交易情况中,有些公司先与企业签订了并购合约后,再在工商局进行登记,登记后,工商管理系统还会走一定的流程,整个过程下来,可能要耗费一定时间才能出官方通知,此时若直接在工商管理系统中查看企业股份变更数据,可能会存在延迟的情况,查看的数据为未更新的数据,因此,需要建立一种能够判断需要查询的企业的并购数据是否真实的方法。
技术实现要素:3.本发明的目的在于提供并购事件数据真伪验证方法和装置,官方数据的登记会耗费一定时间,导致公布的数据有延迟,因此,当用户在查询相关并购信息时,需要利用从互联网发布的数据进行辅助判断,使用户能得到最真实的企业并购信息。
4.一方面,本技术提供并购事件数据真伪验证方法,具体包括以下步骤:
5.接收用户查询企业并购事件的请求;
6.分别向工商管理系统和自建并购事件库发出查询企业并购事件的请求;其中所述自建并购事件库为利用数据爬虫技术从网络新闻资讯中爬取的数据;
7.分别接收从工商管理系统和自建并购事件库中查询到的查询企业的并购事件;
8.将从工商管理系统中得到的查询企业的并购事件按照并购事件模板进行处理,生成第一数据库;
9.将从自建并购事件库中查得到的查询企业的并购事件按照并购事件模板进行处理,生成第二数据库;
10.以第一数据库为条件遍历第二数据库,对比第一数据库与第二数据库的数据是否一致;
11.若不一致则利用第二数据库的数据替换第一数据库中不一致的数据,得到并购事件真实数据。
12.企业在实际换资控股的情况中,大多数会与待并购企业签订并购合约,再去工商局进行股权变更,并且,一般企业股权进行变更时,往往相关网络消息或企业推文会先行发布消息,另一方面,在工商局登记后,工商局的认定、系统流程、公布等流程时间较长,若直接在工商局系统中查询,可能存在延误的情况,不利于企业投资人的判断。因此,本技术通过在网络中抓取大量数据,将工商局的数据和网络大数据按照相同的模板进行规范统一,再将从工商管理系统获取的数据与网络大数据获取的数据进行对比,一般网络数据的时间会比官方发布的消息更早,因此,利用网络数据去更新工商管理系统中获得的数据,为用户提供最真实的数据,使用户对查询企业的并购情况有了真实的判断依据。
13.进一步地,所述并购事件模板均为实体一-关系-实体二的文本结构。
14.进一步地,生成第一数据库的过程为:
15.信息提取:对每个查询企业的并购事件进行信息提取,得到若干条具有三元组结构的语料文本,三元组结构为:实体一-关系-实体二;
16.文本筛选:对若干条具有三元组结构的语料文本分别打上时间标签;在若干条具有三元组结构的语料文本中查询实体一和实体二相同的语料文本;
17.根据时间标签对实体一和实体二相同的语料文本进行对比,保留时间最接近当前时间的语料文本并存入第一并购事件文本库中;
18.模板填入:将第一并购事件文本库中的语料文本依次填入到并购事件模板中,得到第一数据库。
19.进一步地,对每个查询企业的并购事件进行信息提取的过程为:
20.对并购事件文本信息进行分词并进行词性标注预处理,构成主语-宾语-句子其他内容的结构,抽取主语作为实体一、宾语作为实体二、句子其他内容作为关系,组成实体一-关系-实体二的三元组结构的语料文本。
21.进一步地,生成第二数据库的过程为:
22.信息提取:对每个查询企业的并购事件进行信息提取,得到若干条具有三元组结构的语料文本,三元组结构为:实体一-关系-实体二;
23.文本筛选:对若干条具有三元组结构的语料文本分别打上时间标签;在若干条具有三元组结构的语料文本中查询实体一和实体二相同的语料文本;
24.根据时间标签对实体一和实体二相同的语料文本进行对比,保留时间最接近当前时间的语料文本并存入第二并购事件文本库中;
25.模板填入:将第二并购事件文本库中的语料文本依次填入到并购事件模板中,得到第二数据库。
26.进一步地,对每个查询企业的并购事件进行信息提取的过程为:
27.对并购事件文本信息进行分词,同时去除重复词、去停用词、象声词和拟声词,并进行词性标注预处理,构成主语-宾语-句子其他内容的结构,抽取主语作为实体一、宾语作为实体二、句子其他内容作为关系,组成实体一-关系-实体二的三元组结构的语料文本。
28.进一步地,得到并购事件真实数据的方法为:
29.对于第一数据库中的每条数据,记为第一数据,在第二数据库中查询与第一数据的实体一和实体二均相同的数据,记为第二数据;
30.对比第一数据和第二数据的关系是否一致,若不一致,则利用第二数据的关系替换第一数据的关系,更新第一数据库,得到并购事件真实数据。
31.另一方面,本技术提供并购事件数据真伪验证装置,包括:
32.一个或多个处理器;
33.存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现上述的并购事件数据真伪验证方法。
34.本发明具有的有益效果:
35.本技术通过在网络中抓取大量数据,将工商局的数据和网络大数据按照相同的模板进行规范统一,再将从工商管理系统获取的数据与网络大数据获取的数据进行对比,一
般网络数据的时间会比官方发布的消息更早,因此,利用网络数据去更新工商管理系统中获得的数据,为用户提供最真实的数据,使用户对查询企业的并购情况有了真实的判断依据。
附图说明
36.图1为本发明的方法流程示意图;
37.图2为本发明的并购事件数据真伪验证装置。
具体实施方式
38.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
39.除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
40.同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
41.另外,为了清楚和简洁起见,可能省略了对公知的结构、功能和配置的描述。本领域普通技术人员将认识到,在不脱离本公开的精神和范围的情况下,可以对本文描述的示例进行各种改变和修改。
42.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
43.在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
44.实施例1
45.如图1所示,本实施例提供并购事件数据真伪验证方法,具体包括以下步骤:
46.s1、接收用户查询企业并购事件的请求;
47.s2、分别向工商管理系统和自建并购事件库发出查询企业并购事件的请求;其中所述自建并购事件库为利用数据爬虫技术从网络新闻资讯中爬取的数据;
48.s3、分别接收从工商管理系统和自建并购事件库中查询到的查询企业的并购事件;
49.s4、将从工商管理系统中得到的查询企业的并购事件按照并购事件模板进行处理,生成第一数据库;所述并购事件模板均为实体一-关系-实体二的文本结构;
50.示例性地,生成第一数据库的过程为:
51.s41、信息提取:对每个查询企业的并购事件进行信息提取,得到若干条具有三元组结构的语料文本,三元组结构为:实体一-关系-实体二;
52.具体地,对每个查询企业的并购事件进行信息提取的过程为:
53.对并购事件文本信息进行分词并进行词性标注预处理,构成主语-宾语-句子其他
内容的结构,抽取主语作为实体一、宾语作为实体二、句子其他内容作为关系,组成实体一-关系-实体二的三元组结构的语料文本。由于工商管理系统的数据本身就具有一定规范性,具有一定的语句格式和特征,因此可以直接进行分词和词性标注,很容易得到具有规范结构的文本结构。
54.s42、文本筛选:对若干条具有三元组结构的语料文本分别打上时间标签;在若干条具有三元组结构的语料文本中查询实体一和实体二相同的语料文本;
55.根据时间标签对实体一和实体二相同的语料文本进行对比,保留时间最接近当前时间的语料文本并存入第一并购事件文本库中;
56.对于同一个企业和其并购企业,可能出现多次并购情况,因此,需要得到最新的数据,在从工商管理系统获取查询企业的并购事件时,每条事件中包含有对应的时间属性,只需在对该条查询企业的并购事件的文本结构化后,再将该事件自带的时间属性为该条语料文本打上该时间标签即可,这样,筛选出查询企业和并购企业(实体一和实体二)均相同的情况下,只需挑选最新的那个语料文本即可。
57.s43、模板填入:将第一并购事件文本库中的语料文本依次填入到并购事件模板中,得到第一数据库。文本标准化,并进行规范化存储,统一了文本结构,方便查询和对比。
58.s5、将从自建并购事件库中查得到的查询企业的并购事件按照并购事件模板进行处理,生成第二数据库;所述并购事件模板均为实体一-关系-实体二的文本结构。
59.示例性地,生成第二数据库的过程为:
60.s51、信息提取:对每个查询企业的并购事件进行信息提取,得到若干条具有三元组结构的语料文本,三元组结构为:实体一-关系-实体二;
61.具体地,对每个查询企业的并购事件进行信息提取的过程为:
62.对并购事件文本信息进行分词,同时去除重复词、去停用词、象声词和拟声词,并进行词性标注预处理,构成主语-宾语-句子其他内容的结构,抽取主语作为实体一、宾语作为实体二、句子其他内容作为关系,组成实体一-关系-实体二的三元组结构的语料文本。
63.从网络中获取的数据往往包含了许多描述的语句,不像工商管理系统发布的数据一样具有规范性,因此,对于网络获取的数据需要进行更多的数据处理,去除一些不规范用词,然后提取需要的实体以及实体之间的关系(即查询企业和并购企业以及他们之间的控股关系)。
64.s52、文本筛选:对若干条具有三元组结构的语料文本分别打上时间标签;在若干条具有三元组结构的语料文本中查询实体一和实体二相同的语料文本;
65.根据时间标签对实体一和实体二相同的语料文本进行对比,保留时间最接近当前时间的语料文本并存入第二并购事件文本库中;
66.同样地,网络发布出的数据中,也同样存在时间差异,可能企业推文早于财经类新闻,也可能晚于财经类新闻,因此,需要从网络中获取最新的查询企业的并购事件,使得数据更加准确。数据爬虫技术在爬取数据时,得到的数据也会自带时间属性,因此,只需在查询企业和并购企业(实体一和实体二)均相同的情况下,挑选时间最新的那个语料文本即可。一般网络数据发布时间早于工商管理系统公布时间,因此在后续对比企业和并购企业(实体一和实体二)均相同时,不利用时间进行比对,因为他们均为各自系统的最新数据。
67.s53、模板填入:将第二并购事件文本库中的语料文本依次填入到并购事件模板
中,得到第二数据库。
68.s6、以第一数据库为条件遍历第二数据库,对比第一数据库与第二数据库的数据是否一致;
69.若不一致则利用第二数据库的数据替换第一数据库中不一致的数据,得到并购事件真实数据。
70.具体地,对于第一数据库中的每条数据,记为第一数据,在第二数据库中查询与第一数据的实体一和实体二均相同的数据,记为第二数据;
71.对比第一数据和第二数据的关系是否一致,若不一致,则利用第二数据的关系替换第一数据的关系,更新第一数据库,得到并购事件真实数据。
72.实施例2
73.本实施例提供并购事件数据真伪验证装置,包括:
74.一个或多个处理器;
75.存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现上述的并购事件数据真伪验证方法。
76.示例性,如图2所示,包括:
77.请求接发器,用于接收用户查询企业并购事件的请求;并分别向工商管理系统和自建并购事件库发出查询企业并购事件的请求;同时接收从工商管理系统和自建并购事件库中查询到的查询企业的并购事件
78.第一数据库,用于存储按照并购事件模板进行处理后的从工商管理系统中得到的查询企业的并购事件;
79.第二数据库,用于存储按照并购事件模板进行处理后的从自建并购事件库中查得到的查询企业的并购事件;
80.数据比较器,用于以第一数据库为条件遍历第二数据库,查询第一数据库与第二数据库的数据是否一致;
81.数据更新器,若比较结果为不一致则利用第二数据库的数据替换第一数据库中不一致的数据,得到并购事件真实数据。
82.以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。