一种调查问卷的分析方法、设备、芯片及存储介质与流程

文档序号:29314188发布日期:2022-03-19 21:10阅读:118来源:国知局
一种调查问卷的分析方法、设备、芯片及存储介质与流程

1.本技术涉及问卷分析领域,尤其涉及一种调查问卷的分析方法、设备、芯片及存储介质。


背景技术:

2.近年来,每年都会开展面向全国范围的问卷调查活动,一般是单选、多选或者打分题,这种调查问卷题目,其中好多都是历年重复出现,但因为每年社会热点都不一样,所以每年也会不断设置新的调查问题。在问卷调查结果数据分析过程中,有一种重要分析方法叫时序分析法。其实现原理是,根据选定的某个问卷题目,按指定的时间维度去分析调查受众对该题目的答题样本数据分布情况。但是,从历史数据上发现,同样的问卷题目并没有做到文字上的完全一致,并且也没有对问卷题目进行统一编号管理。所以,想要实现时序分析,必须依赖人工来进行数据整理和调整,不但工作量大,耗时长,效率低,而且还特别容易出错,最终导致时序分析结果不精确。


技术实现要素:

3.为解决上述技术问题,本技术实施例提供了一种调查问卷的分析方法、设备、芯片及存储介质。
4.本技术实施例的技术方案是这样实现的:
5.本技术实施例提供了一种调查问卷的分析方法,包括:
6.从索引数据库中查找与目标问卷题目相匹配的问卷题目,得到第一问卷题目列表;
7.对所述第一问卷题目列表中的各个问卷题目进行标准化处理,得到第二问卷题目列表;
8.对所述第二问卷题目列表中的至少部分问卷题目进行时序分析,得到分析结果。
9.本技术实施例提供一种调查问卷的分析工具,包括:
10.查找单元,用于从索引数据库中查找与目标问卷题目相匹配的问卷题目,得到第一问卷题目列表;
11.标准化处理单元,用于对所述第一问卷题目列表中的各个问卷题目进行标准化处理,得到第二问卷题目列表;
12.分析单元,用于对所述第二问卷题目列表中的至少部分问卷题目进行时序分析,得到分析结果。
13.本技术提供一种电子设备,包括:处理器和存储器,该存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,执行上述调查问卷的分析方法。
14.本技术提供一种芯片,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行上述任意调查问卷的分析方法。
15.本技术提供一种计算机可读存储介质,用于存储计算机程序,所述计算机程序使得计算机执行上述调查问卷的分析方法。
16.本技术实施例的技术方案,通过从索引数据库中查找与目标问卷题目相匹配的问卷题目,得到第一问卷题目列表,对所述第一问卷题目列表中的各个问卷题目进行标准化处理,得到第二问卷题目列表,对所述第二问卷题目列表中的至少部分问卷题目进行时序分析,得到分析结果。利用了索引数据库和标准化处理手段,对历史数据自动进行识别与标注,大大减少了人工识别和判断的工作量及工作误差,最终确保了时序分析结果的精确度。
附图说明
17.图1是本技术实施例调查问卷分析方法的流程示意图;
18.图2是本技术实施例lucene的写流程和读流程示意图
19.图3是本技术实施例分析结果展示示意图;
20.图4是本技术实施例的分析工具的结构组成示意图;
21.图5是本技术实施例提供的一种电子设备示意性结构图;
22.图6是本技术实施例的芯片的示意性结构图。
具体实施方式
23.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
24.需要说明的是,本技术实施例中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本技术实施例中,字符“/”,一般表示前后关联对象是一种“或”的关系。
25.在本技术实施例的描述中,术语“对应”可表示两者之间具有直接对应或间接对应的关系,也可以表示两者之间具有关联关系,也可以是指示与被指示、配置与被配置等关系。
26.为便于理解本技术实施例的技术方案,以下对本技术实施例的相关技术进行说明,以下相关技术作为可选方案与本技术实施例的技术方案可以进行任意结合,其均属于本技术实施例的保护范围。
27.为了能够更加详尽地了解本技术的特点与技术内容,下面结合附图对本技术的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本技术。
28.图1为本技术实施例提供的一种调查问卷分析方法的实现流程示意图,如图1所示,本技术实施例提供一种调查问卷的分析方法,所述方法包括:
29.步骤101:从索引数据库中查找与目标问卷题目相匹配的问卷题目,得到第一问卷题目列表。
30.步骤102:对所述第一问卷题目列表中的各个问卷题目进行标准化处理,得到第二问卷题目列表。
31.步骤103:对所述第二问卷题目列表中的至少部分问卷题目进行时序分析,得到分析结果。
32.在步骤101之前,可以将历史问卷按照调查时间导入所述索引数据库,以用于后续查找与分析。
33.基于此,在一实施例中,所述方法还包括:
34.采集历史问卷题目,将采集到的所述历史问卷题目导入索引数据库。
35.这里,所述将采集到的所述历史问卷题目导入索引数据库可以是按照调查年份将每个问卷问题导入索引数据库,也可以是按照月份或者其他定义的时间将每个问卷问题导入索引数据库,此处不做限定。
36.在步骤101中,所述从索引数据库中查找与目标问卷题目相匹配的问卷题目,其中:
37.目标问卷题目,即用户需要确定进行分析的问卷题目,该问卷题目可以从从历史问卷题目中选择,用户也可以根据自己所要进行数据分析的方向,自行定义问卷题目,确定为目标问卷题目。
38.进一步地,索引数据库可以基于elasticsearch创建,elasticsearch是一款功能强大的基于lucene的分布式搜索引擎。它提供了一个分布式,多租户,能够支持全文搜索与http接口协议和json数据格式。lucene是一套用于全文检索和搜寻的开源程序库,它提供了一个简单却强大的应用程序接口(application programming interface,api),能够做全文索引和搜寻。
39.图2是lucene的写流程和读流程示意图,如图所示,虚线箭头(a,b,c,d)表示写索引的主要过程,实线箭头(1-9)表示查询的主要过程。
40.具体地,写索引过程主要包括:将数据从数据源中导入分析单元,分析单元将从数据源导入的数据进行分析解释后将分析结果导入索引单元,索引单元根据分析结果将数据进行分解建立索引,将建立索引导入索引数据库。
41.读索引过程主要包括:将查询语句导入分析单元,分析单元将查询语句进行分析后得到分析结果,查询解析单元根据分析结果进行查询解析后导入搜索单元,从索引数据库中查找与查询语句相匹配的索引,根据索引再次经过搜索单元得到与查询语句相似的数据,得到搜索结果。
42.基于此,在本技术另一实施例中,所述从索引数据库中查找与目标问卷题目相匹配的问卷题目,得到第一问卷题目列表。包括:
43.获得查询操作,所述查询操作用于请求查询与目标问卷题目相匹配的问卷题目;
44.响应所述查询操作,将所述目标问卷题目与索引数据库中的各个问卷题目进行相似度比对,将相似度大于等于指定阈值的问卷题目确定为与所述目标问卷题目相匹配的问卷题目,其中,与所述目标问卷题目相匹配的一个或多个问卷题目形成第一问卷题目列表。
45.具体地,预先设置阈值,经过查询操作后,通过将各个问卷题目得到的相似分与预先设定的阈值进行比较,将相似分大于等于指定阈值的问卷题目确定为与所述目标问卷题目相匹配的问卷题目,将这些确定的与所述目标问卷题目相匹配的问题题目,组成第一问卷题目列表。
46.进一步地,通过查询操作,将所述目标问卷题目与索引数据库中的各个问卷题目
进行相似度比对,其中,所述相似度可以通过文本匹配算法确定,文本匹配算法主要用于搜索引擎,问答系统等,是为了找到与目标文本最相关的文本。例如信息检索可以归结成查询项和文档的匹配,问答系统可以归结为问题和候选答案的匹配,对话系统可以归结为对话和回复的匹配,可以通过基于向量空间模型(vector space model,vsm)算法或者基于概率(best match 25,bm25)算法确定。
47.以bm25算法为例,对查询句子q进行分词,每个词看为qi,然后,对于搜索到的句子d,计算每个词qi与d的相关度得分,最后,将qi与d的相关性得分进行加权求和,从而得到查询句子与检索句子的相关性得分。
48.bm25算法的公式为其中,q表示query,qi表示q解析之后的一个语素(对中文而言,可以把对query的分词作为语素分析,每个词看成语素qi。);d表示一个搜索到的语句;wi表示语素qi的权重;r(qi,d)表示语素qi与搜索到的语句d的相关性得分。
49.wi表示语素qi的权重,判断一个词与一个语句的相关性的权重,方法有多种,较常用的是词频—逆文本频率(term frequency-inverse document frequency,tf-idf)算法。
50.这里以tf-idf算法为例,计算公式为其中,n是语句总数,n(qi)是含有qi的语句数,根据tf-idf的定义可以看出来,对于给定的语句集合,包含了qi的语句数越多,qi的权重越低,也就是说,当很多语句都包含qi时,qi的区分度就不高,因此用qi来判断相关性的重要度就比较低。
51.r(qi,d)表示语素qi与搜索到的语句d的相关性得分,计算公式为其中k1,k2,b为调节因子,fi为qi在d中的出现频率,qfi为qi在q中的出现频率。dl为语句d的长度,avgdl为所有语句的平均长度。
52.基于此,在本技术另一实施例中,所述将所述目标问卷题目与索引数据库中的各个问卷题目进行相似度比对,将相似度大于等于指定阈值的问卷题目确定为与所述目标问卷题目相匹配的问卷题目,包括:
53.对所述目标问卷题目进行分词,得到n个词,n为正整数;
54.对于索引数据库中的一个问卷题目,计算所述n个词中的每个词与该问卷题目的相关度得分,得到n个相关度得分;对所述n个相关度得分进行加权求和,得到该问卷题目与所述目标问卷题目的相似度值;遍历所述索引数据库中的每个问卷题目,得到每个问卷题目与所述目标问卷题目的相似度值;
55.将所述索引数据库中的相似度值大于等于指定阈值的问卷题目确定为与所述目标问卷题目相匹配的问卷题目。
56.对于得到的第一问卷题目列表,可能会存在与目标问卷题目的相似度得分大于或者等于预先设定的阈值,但是与目标问卷题目并不相似的问卷题目,这时,为了保证最后时序分析结果的准确性,就需要将第一问卷题目列表进一步过滤,得到准确的目标问卷题目列表。
57.具体地,用户对所述第一问卷题目列表进行逐一确认,删除用户确定的与所述目标问卷题目不相似的问卷题目,保留与目标问卷题目相似的问卷题目,使第一问卷题目列表精确。
58.基于此,在本技术的另一实施例中,所述对所述第一问卷题目列表中的各个问卷题目进行标准化处理之前,还包括:
59.获得用户操作,所述用户操作用于删除所述第一问卷题目列表中的一个或多个问卷题目;
60.响应所述用户操作,从所述第一问卷题目列表中删除指定的一个或多个问卷题目;
61.其中,被删除的一个或多个问卷题目为用户确定的与所述目标问卷题目不相似的问卷题目。
62.进一步地,可以从第一问卷题目列表中选中一个问卷题目作为第一问卷题目列表的代表题目,经过标准化操作统一处理,即将第一问卷题目列表中的各个问卷题目的文本内容替换为所述代表题目的文本内容,并对各个问卷题目进行统一编号。
63.这里,对各个问卷题目进行统一编号,即将第一问卷题目列表中的各个问卷题目进行统一编号,达到对相同问题的问卷问题题目进行统一分组的目的,方便后续数据的分析和索引数据库完善。
64.其中标准化处理操作可以通过触发按钮触发,通过计算机程序实现所述标准化处理。
65.基于此,本技术另一实施例中,上述步骤102中所述对所述第一问卷题目列表中的各个问卷题目进行标准化处理,包括:
66.获得选中操作,所述选中操作用于从所述第一问卷题目列表中选择一道问卷题目;
67.响应所述选中操作,从所述第一问卷题目列表中选择一道问卷题目,作为代表题目;
68.获得标准化操作,所述标准化操作用于触发对所述第一问卷题目列表中的各个问卷题目进行标准化处理;
69.响应所述标准化操作,将所述第一问卷题目列表中的各个问卷题目的文本内容替换为所述代表题目的文本内容,并对具有相同文本内容的各个问卷题目进行统一编号。
70.对于上述步骤103中所述分析结果的展示,本技术并不做限定,示意性的,图3为本技术另一实施例的展示方式,如图3所示,对于您对目前生活感受的幸福度的历年得分及其占比按照年份通过曲线图展示。
71.以下给出一个具体应用实例对本技术实施例的上述技术方案进行举例说明。
72.1)用户向索引数据库输入题目a0,作为目标问卷题目;索引数据库查询与题目a相匹配的问卷题目,得到题目a1、题目a2、题目a3、题目a4、题目a5,这5个题目形成第一问卷题目列表。
73.2)用户删除其中的题目a4,a4是用户确认与a0不相似的题目。
74.3)对剩下的题目进行标准化处理,选定题目a0作为代表题目,将题目a1、a2、a3、a5的题目内容都替换为题目a0的内容,并进行统一化编号,经过标准化处理的题目a1、a2、a3、
a5形成第二问卷题目列表。
75.4)对第二问卷题目列表具有相同题目内容的题目a1、a2、a3、a5,进行时序分析,得到分析结果。
76.本技术另又一实施例提供的一种调查问卷的分析工具400,如图4,包括:
77.查找单元420,用于从索引数据库中查找与目标问卷题目相匹配的问卷题目,得到第一问卷题目列表;
78.标准化处理单元440,用于对所述第一问卷题目列表中的各个问卷题目进行标准化处理,得到第二问卷题目列表;
79.分析单元450,用于对所述第二问卷题目列表中的至少部分问卷题目进行时序分析,得到分析结果。
80.在一些可选实施方式中,所述分析工具400还包括采集导入单元410,用于采集历史问卷题目,将采集到的所述历史问卷题目导入索引数据库。
81.在一些可选实施方式中,所述查找单元420,还用于获得查询操作,所述查询操作用于请求查询与目标问卷题目相匹配的问卷题目;响应所述查询操作,将所述目标问卷题目与索引数据库中的各个问卷题目进行相似度比对,将相似度大于等于指定阈值的问卷题目确定为与所述目标问卷题目相匹配的问卷题目,其中,与所述目标问卷题目相匹配的一个或多个问卷题目形成第一问卷题目列表。
82.在一些可选实施方式中,所述查找单元420,还用于对所述目标问卷题目进行分词,得到n个词,n为正整数;对于索引数据库中的一个问卷题目,计算所述n个词中的每个词与该问卷题目的相关度得分,得到n个相关度得分;对所述n个相关度得分进行加权求和,得到该问卷题目与所述目标问卷题目的相似度值;遍历所述索引数据库中的每个问卷题目,得到每个问卷题目与所述目标问卷题目的相似度值;将所述索引数据库中的相似度值大于等于指定阈值的问卷题目确定为与所述目标问卷题目相匹配的问卷题目。
83.在一些可选实施方式中,所述分析工具400还包括确认单元430,用于获得用户操作,所述用户操作用于删除所述第一问卷题目列表中的一个或多个问卷题目;响应所述用户操作,从所述第一问卷题目列表中删除指定的一个或多个问卷题目;其中,被删除的一个或多个问卷题目为用户确定的与所述目标问卷题目不相似的问卷题目。
84.在一些可选实施方式中,所述标准化单元440,还用于获得选中操作,所述选中操作用于从所述第一问卷题目列表中选择一道问卷题目;响应所述选中操作,从所述第一问卷题目列表中选择一道问卷题目,作为代表题目;获得标准化操作,所述标准化操作用于触发对所述第一问卷题目列表中的各个问卷题目进行标准化处理;响应所述标准化操作,将所述第一问卷题目列表中的各个问卷题目的文本内容替换为所述代表题目的文本内容,并对具有相同文本内容的各个问卷题目进行统一编号。
85.本领域技术人员应当理解,图4所示的分析工具中的各单元的实现功能可参照前述方法的相关描述而理解。图4所示的分析工具中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
86.图5是本技术实施例提供的一种电子设备500示意性结构图。图5所示的电子设备500包括处理器510,处理器510可以从存储器中调用并运行计算机程序,以实现本技术实施例中的方法。
only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddr sdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synchlink dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,dr ram)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
101.应理解,上述存储器为示例性但不是限制性说明,例如,本技术实施例中的存储器还可以是静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddr sdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synch link dram,sldram)以及直接内存总线随机存取存储器(direct rambus ram,dr ram)等等。也就是说,本技术实施例中的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
102.本技术实施例还提供了一种计算机可读存储介质,用于存储计算机程序。该计算机可读存储介质可应用于本技术实施例中的分析工具,并且该计算机程序使得计算机执行本技术实施例的各个方法中由分析工具实现的相应流程,为了简洁,在此不再赘述。
103.本技术实施例还提供了一种计算机程序产品,包括计算机程序指令。该计算机程序产品可应用于本技术实施例中的分析工具,并且该计算机程序指令使得计算机执行本技术实施例的各个方法中由分析工具实现的相应流程,为了简洁,在此不再赘述。
104.本技术实施例还提供了一种计算机程序。该计算机程序可应用于本技术实施例中的分析工具,当该计算机程序在计算机上运行时,使得计算机执行本技术实施例的各个方法中由分析工具实现的相应流程,为了简洁,在此不再赘述。
105.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
106.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
107.在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
108.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
109.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
110.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
111.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应所述以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1