基于自然语言处理技术的可定制软件测试评价方法及系统

文档序号：35194506发布日期：2023-08-21 13:00阅读：27来源：国知局

本发明涉及自然语言处理，尤其涉及一种基于自然语言处理技术的可定制软件测试评价方法及系统。

背景技术：

1、自然语言处理（natural language processing，nlp）技术是一门研究如何使计算机能够理解、处理和生成人类自然语言的技术领域。它涉及了语言学、计算机科学和人工智能的多个学科的交叉，并致力于开发算法和模型，使计算机能够识别、理解和生成人类语言的各种表达形式，包括文本、语音和对话等。可定制软件测试评价方法是一种针对特定软件项目和测试需求进行定制的评价方法。它结合了软件测试和评价的理论与方法，通过使用自然语言处理技术对软件测试数据进行处理和分析，生成可定制的评价报告和指标，以评估和改进软件的质量和性能。传统的软件测试评价方法通常依赖于人工标注和主观判断，评价结果可能受评价者主观意见和标注误差的影响，导致评价结果的不一致性和不准确性。

技术实现思路

1、本发明为解决上述技术问题，提出了一种基于自然语言处理技术的可定制软件测试评价方法及系统，以解决至少一个上述技术问题。

2、本技术提供了一种基于自然语言处理技术的可定制软件测试评价方法，包括以下步骤：

3、步骤s1：通过网络爬虫技术进行数据采集并通过自然语言处理对抓取的数据进行文本抽取，从而获取软件测试评价语料数据；

4、步骤s2：对软件测试评价语料数据进行特征提取，从而获取软件测试评价语料特征数据；

5、步骤s3：对软件测试评价语料特征数据进行深度自然语言模型构建，从而获取软件测试自然语言处理模型；

6、步骤s4：获取软件测试数据，并利用软件测试自然语言处理模型对软件测试数据进行处理，从而获取软件分析测试报告；

7、步骤s5：对软件分析测试报告进行软件指标评价，从而获取软件评价指标反馈数据。

8、本发明中通过网络爬虫技术进行数据采集，自动抓取软件测试评价数据，避免了手动收集的繁琐过程，提高了数据采集的效率。通过自然语言处理对抓取的数据进行文本抽取，有效地从原始数据中提取出有用的文本内容，提供了更加精确和可靠的软件测试评价语料数据。利用深度自然语言模型对软件测试评价语料数据进行建模和学习，能够捕捉到更丰富的语义信息和上下文关系，提高了对软件测试数据的理解和处理能力。利用软件测试自然语言处理模型对软件测试数据进行处理，生成软件分析测试报告，该报告基于对软件测试数据的深入分析和理解，能够提供准确、全面的测试结果和评估。通过软件测试自然语言处理模型对软件测试数据进行处理，自动提取出重要的信息和特征，实现了对软件测试数据的智能化处理，减少了人工干预的工作量和错误率。

9、优选地，步骤s1具体为：

10、步骤s11：利用预设的网络爬虫引擎从互联网采集软件测试评价原始数据；

11、步骤s12：对软件测试评价原始数据进行评价数据清洗并评价数据降噪，从而获取软件测试评价清洗数据；

12、步骤s13：对软件测试评价清洗数据进行评价数据标注，从而获取软件测试评价标注数据；

13、步骤s14：对软件测试评价标注数据进行文本特征提取以及偏好特征提取，从而获取软件测试评价文本特征数据以及软件测试评价偏向特征数据；

14、步骤s15：对软件测试评价文本特征数据以及软件测试评价偏向特征数据进行特征数据划分，从而获取软件测试评价训练数据集、软件测试评价验证数据集以及软件测试评价测试数据集；

15、步骤s16：对软件测试评价训练数据集、软件测试评价验证数据集以及软件测试评价测试数据集进行数据规范化处理，从而获取软件测试评价语料数据。

16、本发明中利用网络爬虫引擎从互联网采集软件测试评价原始数据，实现了对数据采集过程的自动化，提高了效率和准确性。对采集到的软件测试评价原始数据进行清洗和降噪处理，去除无效数据和噪声，提高了数据的质量和可用性。对清洗后的软件测试评价数据进行标注，为后续的特征提取和模型训练提供了有标签的数据集。通过对标注数据进行文本特征提取和偏好特征提取，提取了软件测试评价数据中的关键特征，为后续的数据分析和模型训练提供了有用的信息。将提取的特征数据划分为训练数据集、验证数据集和测试数据集，为模型的训练、优化和评估提供了合理的数据划分。对划分的数据集进行规范化处理，统一数据格式和表示方式，提高了数据的一致性和可处理性。

17、优选地，步骤s13的步骤具体为：

18、步骤s131：确定软件测试评价清洗数据对应的软件测试评价原始数据包括软件测试标注数据时，则利用软件测试标注数据对软件测试评价清洗数据进行评价数据标注，从而获取软件测试评价标注数据；

19、步骤s132：确定软件测试评价清洗数据对应的软件测试评价原始数据不包括软件测试标注数据时，则对软件测试评价清洗数据对应的软件测试评价原始数据进行关键词捕捉，从而获取软件测试关键词数据；

20、步骤s133：利用预设的软件测试关键词偏向数据对软件测试关键词数据进行软件测试标注偏向计算，从而获取软件测试评价标注数据；

21、步骤s134：利用软件测试评价标注数据对软件测试评价清洗数据进行评价数据标注，从而获取软件测试评价标注数据。

22、本发明中通过对软件测试评价清洗数据进行评价数据标注，利用软件测试标注数据或软件测试关键词数据进行标注，实现了对数据的自动化标注，减少了人工标注的工作量和时间消耗。通过利用软件测试标注数据或软件测试关键词数据进行标注，可以提高标注数据的准确性和一致性，减少了标注过程中的主观误差和不一致性。通过利用预设的软件测试关键词偏向数据对软件测试关键词数据进行软件测试标注偏向计算，可以更加准确地确定标注数据中的偏向特征，提高了标注数据的可靠性。通过软件测试评价标注数据，为后续的特征提取和模型训练提供了有标签的评价数据集，可以用于监督学习和模型训练的任务。

23、优选地，软件测试标注偏向计算通过软件测试标注偏向计算公式进行计算，其中软件测试标注偏向计算公式具体为：

24、；

25、为软件测试标注偏向数据，为软件测试关键词数据，为软件测试底数常数项，为软件测试关键词的数量数据，为软件测试关键词序次项，为缩放指数，为第个软件测试关键词，为第个软件测试评价标注数据。

26、本发明构造了一种软件测试标注偏向计算公式，该计算公式通过比较软件测试关键词数据和对应的标注数据之间的平方差项，计算软件测试标注偏向程度。它可以量化软件测试关键词与标注数据之间的偏离程度，帮助确定关键词的标注偏向程度。通过计算软件测试标注偏向数据，可以为软件测试提供定量的指标，帮助分析和评估软件测试中的关键词和标注数据之间的关系。在计算公式中，不同的参数相互作用，影响着计算结果。例如，缩放指数可以调整平方差项的权重，可以改变对数函数的底数。通过调整这些参数的取值，可以改变计算结果，从而探索不同的标注偏向度量方法和分析角度。软件测试标注偏向数据表示通过计算得到的软件测试关键词数据对应的标注偏向程度。软件测试关键词数据是软件测试中的关键词集合，用于表示软件测试的特征和属性。软件测试关键词的数量数据表示软件测试关键词的数量，用于进行平均值的计算。软件测试关键词序次项表示软件测试关键词的序号，用于指定某个关键词的位置。该计算公式通过数学运算和参数调整，提供了一种衡量软件测试关键词数据与标注数据之间偏向程度的定量指标，有助于分析和评估软件测试中的关键词与标注数据的关系，进而提升软件测试的质量和准确性。

27、优选地，软件测试评价语料特征数据包括文本摘要表示数据以及情感特征提取数据，步骤s2具体为：

28、步骤s21对软件测试评价语料数据进行词袋矩阵转化，从而获取软件测试评价词袋矩阵数据；

29、步骤s22对软件测试评价词袋矩阵数据进行优化tf-idf权重计算，从而获取tf-idf词袋矩阵数据；

30、步骤s23：对tf-idf词袋矩阵数据进行词嵌入训练，从而获取tf-idf词袋词嵌入模型；

31、步骤s24：对tf-idf词袋词嵌入模型进行向量转换，从而获取句子嵌入向量数据；

32、步骤s25：对句子嵌入向量数据进行主题模型构建，从而构建软件测试评价主题模型；

33、步骤s26：对软件测试评价主题模型进行文本摘要提取以及情感特征提取，从而获取文本摘要表示数据以及情感特征提取数据。

34、本发明中通过步骤s21到步骤s26，从原始的软件测试评价语料数据中提取了丰富的特征，包括词袋矩阵数据、tf-idf权重、词嵌入模型、句子嵌入向量、主题模型以及文本摘要表示数据和情感特征提取数据。这些特征能够更全面、准确地描述和表达软件测试评价的内容和特点。通过步骤s23和步骤s24，将词袋矩阵数据转化为词嵌入模型和句子嵌入向量，实现了对软件测试评价语料数据的语义表示。这种表示方式能够捕捉到单词和句子之间的语义关联，更好地表达文本的含义和语境。通过步骤s25，构建了软件测试评价主题模型。主题模型能够自动地从大量的文本数据中抽取主题信息，帮助理解和归纳软件测试评价的核心内容和主题分布。通过步骤s26，对软件测试评价主题模型进行文本摘要提取和情感特征提取。这有助于从大量的评价数据中提取出关键信息和情感倾向，帮助用户快速了解评价的要点和情感色彩。

35、优选地，优化tf-idf权重计算通过优化tf-idf权重计算公式进行计算，其中优化tf-idf权重计算公式具体为：

36、；

37、为词语在文档中的优化tf-idf权重，为tf-idf底数常数项，为词语在文档中的词频，为包含词语的文档数，为文档数量数据，为词语在文档中的位置，为文档的长度，为词语在文档中的词频，为词语序次项，为文档中的词语总数，为包含词语的文档数。

38、本发明构造了一种优化tf-idf权重计算公式，该计算公式有助于提升词语的权重计算准确性和灵活性，更好地反映词语在文档中的重要性，从而在特征提取过程中提供更有意义的特征数据。词语在文档中的优化tf-idf权重。它表示了词语在文档中的重要性程度，结合了词频和文档频率的信息。词语在文档中的词频表示了词语在文档中的出现次数，用于衡量词语在文档中的重要程度。包含词语的文档数表示了包含特定词语的文档数量，用于计算文档频率。词语在文档中的位置表示了词语在文档中的出现位置，用于考虑词语位置信息的影响。文档的长度表示了文档的总词数，用于进行归一化操作。在该计算公式中，不同的参数相互作用，影响着权重的计算结果。例如，词频、文档频率和在计算tf-idf权重时起到了重要作用。、和则在归一化过程中起到了调节作用。是一个正弦函数，用于考虑词语位置在权重计算中的影响。

39、优选地，步骤s3具体为：

40、步骤s31：对软件测试评价语料特征数据进行位置编码，从而获取特征位置编码数据；

41、步骤s32：根据特征位置编码数据进行注意力机制构建，从而获取注意力机制参数数据；

42、步骤s33：利用注意力机制参数数据对特征位置编码数据进行自注意力计算，从而获取特征自注意力表述数据；

43、步骤s34：根据特征位置编码数据以及特征自注意力表述数据进行编码器构建，从而获取软件测试评价编码器数据；

44、步骤s35：根据软件测试评价语料特征数据进行解码器构建，从而获取软件测试评价解码器数据；

45、步骤s36：利用预设的软件测试评价损失计算公式对软件测试评价编码器数据以及软件测试评价解码器数据进行模型训练，从而获取软件测试自然语言处理模型。

46、本发明中通过步骤s31，对软件测试评价语料特征数据进行位置编码，将特征与位置信息相结合，提供了更丰富的特征表示，有助于捕捉特征之间的相互关系和上下文信息。通过步骤s32和步骤s33，利用注意力机制参数对特征位置编码数据进行自注意力计算。这种机制能够让模型自动学习和关注输入序列中不同位置的重要性，提升模型的表达能力和表示效果。通过步骤s34和步骤s35，根据特征位置编码数据和自注意力表述数据构建软件测试评价编码器和解码器。这样的构建方式能够结合特征表示和上下文信息，实现对软件测试评价数据的深度处理和理解。通过步骤s36，利用预设的软件测试评价损失计算公式对编码器和解码器数据进行模型训练。通过最小化损失函数，优化模型参数，使得模型能够更准确地进行软件测试评价任务，提高模型的性能和预测能力。

47、优选地，其中预设的软件测试评价损失计算公式具体为：

48、；

49、为软件测试评价损失值，为软件测试评价语料数据的样本数量，为软件测试评价语料数据的样本序次项，为软件测试评价损失常数项，为软件测试评价编码器数据，为第个样本的真实标签，为第个样本的真实标签对应的软件测试评价编码器数据，为软件测试评价编码器数据的序次项，为软件测试评价编码器数据的数量数据，为软件测试评价编码器数据的第个元素，为正则化系数，为特征位置编码数据，为非线性权重项，为特征自注意力表述数据，为均方根误差系数，为软件测试评价解码器数据的维度，为软件测试评价解码器数据的序次项，为第个类别的真实标签，为第个类别的模型输出概率。

50、本发明构造了一种软件测试评价损失计算公式，该计算公式的第一项是交叉熵损失项，用于衡量模型的输出与真实标签之间的差异。通过最小化该损失，可以使模型能够更准确地预测软件测试评价的类别。公式中的第二项是正则化项，通过惩罚模型参数的大小，有助于控制模型的复杂度，避免过拟合问题。公式中的第三项是非线性权重项，通过对模型输出进行非线性变换，可以增加模型对于关键样本的重要性，提高对关键样本的预测准确性。公式中的第四项是均方根误差项，用于衡量模型输出与真实标签之间的差异。通过最小化该项，可以使模型的输出更接近真实标签。是特征位置编码数据，它影响着自注意力计算项的结果。是特征自注意力表述数据，它与正则化项中的极限运算相互作用。和是软件测试评价解码器数据的真实标签和模型输出概率，它们用于计算均方根误差项。通过调整和优化这些参数，可以影响损失函数的值，从而指导模型的训练过程，使得模型更好地适应软件测试评价任务，提高模型的准确性和泛化能力。

51、优选地，步骤s4具体为：

52、步骤s41：获取软件测试数据；

53、步骤s42：对软件测试数据进行测试数据提取，从而获取软件测试指标数据；

54、步骤s43：利用软件测试自然语言处理模型对软件测试指标数据进行处理，从而获取软件分析测试报告。

55、本发明中通过自然语言处理技术和数据处理方法，实现对大量软件测试数据的自动处理和分析，提高效率和准确性。通过获取软件测试指标数据并应用自然语言处理模型，可以得出更全面、客观的软件测试评估结果，为软件开发和改进提供依据。软件分析测试报告提供了对测试结果的解释和评估，为项目管理人员、开发人员和决策者提供有关软件质量和改进措施的重要信息，支持决策制定和问题解决。通过自动化处理和分析软件测试数据，减少人工工作量和人为误差，提高软件测试的效率和质量。

56、优选地，一种基于自然语言处理技术的可定制软件测试评价系统，包括：

57、软件测试评价语料数据采集模块，用于通过网络爬虫技术进行数据采集并通过自然语言处理提取，从而获取软件测试评价语料数据；

58、特征提取模块，用于对软件测试评价语料数据进行特征提取，从而获取软件测试评价语料特征数据；

59、深度自然语言模型构建模块，用于对软件测试评价语料特征数据进行深度自然语言模型构建，从而获取软件测试自然语言处理模型；

60、软件分析测试报告获取模块，用于获取软件测试数据，并利用软件测试自然语言处理模型对软件测试数据进行处理，从而获取软件分析测试报告；

61、软件指标评价模块，用于对软件分析测试报告进行软件指标评价，从而获取软件评价指标反馈数据。

62、本发明的有益效果在于：通过网络爬虫技术，抓取大量软件测试评价数据，并通过自然语言处理技术对这些数据进行文本抽取。这使得我们能够获取丰富的软件测试评价语料数据，从而提供了充分的信息基础。对软件测试评价语料数据进行特征提取，提取出与评价目标相关的特征信息。这些特征可以包括词袋矩阵、tf-idf权重、词嵌入等，能够捕捉到不同级别的语义和语用信息。通过构建软件测试评价语料特征数据，能够更加全面地描述和表示软件测试评价的特征。利用深度学习技术，构建自然语言处理模型，例如transformer等。这些模型能够通过自注意力机制和编码-解码架构，对软件测试评价语料特征数据进行建模和处理。深度自然语言模型能够捕捉到句子和文本之间的复杂关系，提高对软件测试数据的理解和表达能力。利用软件测试自然语言处理模型，对获取的软件测试数据进行处理和分析，从而生成软件分析测试报告。这些报告可以包括关键问题的识别、异常行为的分析、性能评估等。通过自然语言处理技术，报告能够以易于理解的自然语言形式呈现，提供详尽的软件测试分析结果。对软件分析测试报告进行软件指标评价，计算软件性能指标、错误率、可靠性等方面的指标。这些评价指标能够提供对软件质量和性能的定量分析，并作为反馈数据提供给软件开发团队，用于改进软件质量和迭代开发。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙天岳彭鑫
技术所有人：青岛大学
我是此专利的发明人

上一篇：一种路灯安装用垂直测量装置的制作方法
上一篇：一种料仓的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。