一种基于图形数据库的bug知识建模方法

文档序号:9844175阅读:373来源:国知局
一种基于图形数据库的bug知识建模方法
【技术领域】
[0001] 本发明属于软件调试领域,特别涉及一种基于图形数据库的bug知识建模方法。
【背景技术】
[0002] 对于软件bug的维护是贯穿于软件生命周期始终的。当一个软件从业人员遇到一 个棘手的软件bug时,一个高效的、知识多维度的bug搜索引擎对于帮助其更好地理解和解 决遇到的bug就显得十分的重要。当他进行搜索时,搜索引擎不仅能返回与搜索内容相关的 bug,同时还能返回与其所搜索的bug存在联系的其他bug。
[0003] 本发明作出之前,到目前为止,还没有结合知识图谱的bug搜索引擎,而大部分的 搜索还过于表面,返回的只是一级关联内容,并不深入,不利于开发人员解决问题。现有的 以关系数据库为支撑的搜索,在处理大量复杂、互链接、低结构化的数据变化和查询时会导 致大量的表连接,使搜索陷入超链接表的泥沼,降低了搜索效率;其次,随着数据集大小不 断增大,数据之间关联的可信度会不断降低,从而导致性能上的问题,而且在设计使用上也 很不方便,一旦数据模式发生变化,相应的维护成本会很高昂。

【发明内容】

[0004] 本发明的目的就在于克服上述缺陷,研制一种基于图形数据库的bug知识建模方 法。
[0005] 本发明的技术方案是:
[0006] -种基于图形数据库的bug知识建模方法,其主要技术特征在于如下步骤:
[0007] (1)从历史bug信息中抽取bug的关键文本内容,包括简述信息-bugMSG、描述信息-description、评论信息-comment;再从历史bug信息中抽取关键属性;
[0008] (2)将抽取的bug信息中的关键文本内容做基于内容的文本分析,采用TF-IDF标准 抽取重要概念,作为关键词;对抽取的关键属性建立结构化数据模型;
[0009] (3)考虑用户的应用场景,人工建立词典,并将步骤(2)中识别的关键词,bugzilla 中提供的keywords列表信息一起加入到构建的bug词典中;将建立的结构化数据模型导入 到关系数据库中;
[0010] (4)根据词典构建特征向量,采用基于K-Medoids优化的KNN算法对简述信息- bugMSG、描述信息-descript ion、评论信息-comment这三种文本进行分类,根据文本与bug 之间的对应关系实现其对应bug分类;
[0011 ] (5)建立实体关系,基于属性中的status、component和product对bug进行标签;基 于bug属性中的duplicate、depends0n和blocks,建立bug与bug之间的关系;基于reporter、 assigned to和CClist建立bug与人员之间的关系;最后,基于之前的分类,建立分类的层次 关系及人员的领域关系;
[0012] (6)将关系数据库中的数据以及建立的实体关系以CVS文件的形式导入到Ne〇4J图 形数据库中。
[0013] 本发明是为了对bug知识的数据库做一个优化,帮助开发人员更好地了解bug更快 的加深对软件的理解。对bug信息的短文本内容做术语抽取,采用TF-IDF标准选取在文档中 相对重要的词汇。综合抽取的到的术语,bugz i 1 la提供的keywords和人工建立的词典构建 特征向量,采用基于K-Medo i ds优化的KNN算法对简述信息(bugMSG )、描述信息 (description)、评论信息(comment)这三种文本分别分类,从而实现对应bug的分类。
[0014] 本发明的优点和效果在于从图形数据库入手为bug信息的数据库做优化。有利于 软件从业人员通过遇到的bug来加深对整个软件的理解从而更好的解决问题提高自己。主 要由如下一些优点:
[0015] (1)本发明可以为软件开发人员在对一个bug的查询时,不仅仅局限于单个问题的 解决,而是可以提供多角度的关联。
[0016] (2)我们的方法基于图数据库,图数据库是一种高性能的用于存储数据的数据结 构方式。
【附图说明】
[0017] 图1一一本发明建模流程示意图。
[0018]图2--本发明爬取的bug在mysql中的截图。
[0019] ?3--本发明bug信息的ER模型示意图。
[0020]图4--本发明图数据库模型不例图。
[0021]图5-一本发明图数据库逻辑模型示意图。
[0022] 图6--本发明基于K-Medoids优化的KNN分类算法流程示意图。
[0023] 图7--本发明bug100 4833的历史bug report截图。
[0024] 图8--本发明bug100 4833相关的部分图数据库示意图。
【具体实施方式】
[0025] 本发明的技术思路是:
[0026] 本发明的方法是为了对bug知识的数据库做一个优化,帮助开发人员更好地了解 bug更快的加深对软件的理解。对bug信息的短文本内容做术语抽取,采用TF-1DF标准选取 在文档中相对重要的词汇。综合抽取的到的术语,bugz ilia提供的keywords和人工建立的 词典构建特征向量,采用基于K-Medo i ds优化的KNN算法对简述信息(bugMSG )、描述信息 (description)、评论信息(comment)这三种文本分别分类,从而实现对应bug的分类。
[0027] -个以知识图谱为依托的搜索系统,能带给用户全新的搜索体验,为用户提供知 识而不仅仅是信息,这就需要一个基于图形数据库的bug知识图谱来为整个系统做数据支 撑。
[0028] 术语抽取,在本体构建过程中,术语是知识图谱中概念、实体或属性的语言学上的 标识形式,术语抽取的目标是找到用于表示概念、实体或属性的相关术语或标记集合。术语 抽取通常采用基于语言学规则的方法和使用统计的方法,常用的模式有"形容词-名词"短 语、"名词-名词"短语和"名词-介词-名词"短语等;最后使用统计学方法比较分析语料中术 语的分布特征。统计学基准有TF_IDF(Term Frequency-Inverse Document Frequency)、卡 方分布(Chi-Square)和互信息(Mutual Information)等。本发明采用TF-IDF标准。TF-IDF 标准,一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的 重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料 库中出现的频率成反比下降
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1