一种基于公平加权因子的教育感知聚类方法及系统

文档序号：37645026发布日期：2024-04-18 18:11阅读：11来源：国知局

本发明属于教育数据科学领域，尤其涉及一种基于公平加权因子的教育感知聚类方法及系统。

背景技术：

1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

2、教育感知系统中常常存在着因地域、经济状况或其他社会因素所导致的发展不平衡现象，此类现象可能导致学生群体在获取教育资源方面处于有待加强的地位，限制了其发展与成长的机会；为了解决这一问题，教育感知系统采用数据驱动的方法，通过收集和分析学生各种行为信息，以便更好地理解学生的需求、潜力和背景。

3、在教育感知系统中确保公平是至关重要的，随着机器学习在教育系统和教育数据科学领域的应用越来越多，从决策公平到教育活动和学习分析，都涉及机器学习；聚类是此领域中常用的机器学习技术，通过挖掘数据隐含的信息来生成结果，聚类在教育数据科学中的应用包括分析学生行为表现、成绩预测、分析心理健康等方面；学生的数据可以来自传统课堂和学生管理系统等多种来源，最终教育者可以针对学生的不同群体制定相应的教学策略和辅助措施。

4、现有教育感知系统中的聚类算法，尽管使用聚类技术来分析学生行为、监督任务执行有着较好的归纳总结作用，但现有的聚类可能会忽视公平性这一问题，导致对学生评估的偏见；例如某算法会受到特定特征的影响，将学生划分到不符合实际情况的群体，影响资源的合理分配。

5、公平性约束始于dwork等人的早期开创工作，也是一种对机器学习算法添加的约束，chierichetti基于disparate impact原则首次提出公平聚类的概念，使用fairlets将数据预处理为多个较小的多个平衡聚类子集，然后再使用k-center方法聚类，从而保证公平性约束，是快速处理聚类结果的常用方法之一，然而此类方法寻找公平子集的时间代价很高，而且存在着方法单一和保护属性较少的缺陷；实验评估公平聚类的指标可以使用多个度量方法来评估公平性，例如平衡度、欧氏距离、wasserstein距离等。

6、因此，现有教育感知系统中的聚类算法，尽管涉及公平聚类技术，但不能准确保护敏感属性，而且性能与实用性不高。

技术实现思路

1、为克服上述现有技术的不足，本发明提供了一种基于公平加权因子的教育感知聚类方法及系统，引入公平加权因子，使用上下界保护每个元素被公平的权衡，更好地强化公平保护效果，解决了现有公平聚类技术的不够准确保护敏感对象的问题，提高了系统的性能与实用性。

2、为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

3、本发明第一方面提供了一种基于公平加权因子的教育感知聚类方法。

4、一种基于公平加权因子的教育感知聚类方法，包括：

5、获取待聚类的班级学生数据集，统计班级学生数据集在受公平性约束的属性上的数据分布比例；

6、基于最短路径算法的聚类算法，迭代更新聚类中心和聚类簇，直到聚类簇满足第一公平性约束，得到初级聚类结果；

7、使用引入公平加权因子的第二公平性约束，对初级聚类结果进行评估，评估结果不满足要求则迭代更新聚类中心和聚类簇，直到聚类簇满足第二公平性约束，得到最终的聚类结果；

8、其中，所述第一公平性约束是聚类簇中在受公平性约束的属性上的数据分布比例与班级学生数据集在受公平性约束的属性上的数据分布比例的差值小于阈值，所述第二公平性约束是聚类簇中在受公平性约束的属性上的数据分布比例与班级学生数据集在受公平性约束的属性上的数据分布比例的差值在公平加权因子限定的上下界中。

9、进一步的，所述统计班级学生数据集在受公平性约束的属性上的数据分布比例，是根据受公平性约束的属性，将班级学生分为几个分组，同一个分组的学生在受公平性约束的属性上具有相同的属性值。

10、进一步的，所述受公平性约束的属性，是在聚类算法执行时保持公平对象；

11、所述公平性约束的理想状态是聚类簇中在受公平性约束的属性上的数据分布比例与班级学生数据集在受公平性约束的属性上的数据分布比例保持一致。

12、进一步的，所述初级聚类结果的计算过程，包括：

13、随机选取学生初始化聚类中心，将其他学生分配到距离聚类中心最近的簇，首次生成初始聚类簇；

14、迭代更新聚类中心和聚类簇。

15、进一步的，所述迭代更新聚类中心和聚类簇，具体为：

16、每一轮分配检查是否符合第一公平性约束的要求；当聚类结果满足第一公平性约束的要求时，结束聚类的操作；不满足时选取与聚类中心距离最大的学生数据点作为新的聚类中心，交换不平衡分布的敏感对象数据点。

17、进一步的，所述交换不平衡分布的敏感对象数据点，是将聚类簇划分为多个簇子集，在簇子集之间进行分组交换。

18、进一步的，所述迭代更新聚类中心和聚类簇，是通过图拉普拉斯矩阵和指示矩阵，对班级学生数据集构建的无向图进行迭代的顶点划分，得到最终的聚类结果。

19、本发明第二方面提供了一种基于公平加权因子的教育感知聚类系统。

20、一种基于公平加权因子的教育感知聚类系统，包括数据获取模块、初级聚类模块和终极模块：

21、数据获取模块，被配置为：获取待聚类的班级学生数据集，统计班级学生数据集在受公平性约束的属性上的数据分布比例；

22、初级聚类模块，被配置为：基于最短路径算法的聚类算法，迭代更新聚类中心和聚类簇，直到聚类簇满足第一公平性约束，得到初级聚类结果；

23、终极模块，被配置为：使用引入公平加权因子的第二公平性约束，对初级聚类结果进行评估，评估结果不满足要求则迭代更新聚类中心和聚类簇，直到聚类簇满足第二公平性约束，得到最终的聚类结果；

24、其中，所述第一公平性约束是聚类簇中在受公平性约束的属性上的数据分布比例与班级学生数据集在受公平性约束的属性上的数据分布比例的差值小于阈值，所述第二公平性约束是聚类簇中在受公平性约束的属性上的数据分布比例与班级学生数据集在受公平性约束的属性上的数据分布比例的差值在公平加权因子限定的上下界中。

25、本发明第三方面提供了计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的一种基于公平加权因子的教育感知聚类方法中的步骤。

26、本发明第四方面提供了电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的一种基于公平加权因子的教育感知聚类方法中的步骤。

27、以上一个或多个技术方案存在以下有益效果：

28、本发明在保护数据可用性的基础上，基于公平子集分组交换的公平性约束策略，添加带上下界的公平加权因子，在保持较小开销的前提下，获得了更具精确度的公平性保护效果，解决现有算法对公平性约束的限制主要由公平子集簇来实现导致的开销过大问题。

29、本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：潘奕霖,郭龙坤
技术所有人：齐鲁工业大学（山东省科学院）
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。