专利名称:一种有效的学术合作关系网络协作构建与自适应进化方法
技术领域:
本发明属于网状数据挖掘与知识服务领域,涉及学术合作关系网络协作构建、数据内在关联智能进化、数据组织存储与服务,特别涉及一种开放式、智能化的学术合作关系网络协作构建与自适应进化方法。
现有技术知识日新月异,信息技术的发展为知识的传播提供了便捷的手段,学术主页作为一种自主创建、自我管理、低廉高效的研究成果汇聚地,高度浓缩了用户的研究兴趣、研究成果、甚至个人爱好等信息,成为知识传播与共享的有效平台。虽然IEEE、SC1、EI等专业文献库更有体系,但这些数据库从论文发表到入库归档需要相当长的时间周期,与最新研究进展之间存在一定的延迟;另外这些文献库一般需要付费后才能使用和下载资源,增加了知识传播的成本。而学术主页中资源免费开放,且自我管理,最新成果和得意之作可由用户自主更新和推送,并能加注各种评论和建议,比冰冷古板的专业文献库更为灵活和人性化。学术主页对个人学术影响力的提升及论文引用率的提高具有重要的推动作用,其效果得到了广泛的认可,据初步统计,目前75%的研究者都建有自己的学术主页。但目前学术主页主要以自建自管为主,互不相连,处于信息孤岛的原始状态,虽然也有部分通过人工编制超链接的方式与他人进行关联,但不具备自动发现和维护的能力,总体呈现出封闭、隔离、冗余的离散状态,大大制约了知识的深度挖掘与可用性的提升。
发明内容
本发明实现一种向用户透明的合作关系智能化协作构建方法,解决目前自建主页存在的冗余离散问题,构建以学术主页为节点,以合作关系为边的学术合作关系网络。其贡献在于首先,实现一种自动化、协作式的学术主页生成与内在关联智能化识别方法;其次,针对原始关联中存在的错误,实现一种自适应调整和进化方法,对关联进行切分、挪移、合并;最后,通过多用户协作和迭代,使网络不断进化,逐步形成一幅连接正确、动态演化的学术合作关系生态网络。本发明所提出的协作构建方法从网络初建到后期进化均以智能方式自动进行,用户只需按照用户注册、增删论文等日常操作维护自己的主页,系统便可自动学习,自动处理同名混淆、关联错误等问题,逐步向正确状态收敛。
附图1协作注册阶段的接口 ;附图2合作关系网络可视化呈现;下面结合附图对本发明的内容作进一步详细说明。
具体实施方案
1.协作注册协作注册接口如图1所示,输入信息包括有效的email、真实姓名、密码以及备选论文。备选论文作为主要输入源于两种途径:已经被录入的论文(系统内)Sin和外部文献(如DBLP、CiteSeer等)Sout,这两部分论文互为补集,即Sin ^ Sout = Φ ,图1展示的注册者“Lin Chen”的相关论文列表片段。协作注册正是通过作者对论文的选择情况,为作者分配合适的ID,并为论文找到合适的归属。注册的本质是为用户分配合适的账号ID。在电子邮箱、电子商务、实时通信等应用中,账号由自己给定或由系统产生,处理流程非常简单,但在学术合作关系网络构建过程中,账户注册以创建学术主页、并与他人正确关联为目的,与上述账号创建过程截然不同:I) 一个用户注册,将带入很多合作者,需要同时考虑注册者及合作者的ID产生问题;2)很多人已经被“被动的”带入系统,当再次被其他注册者带入或自己注册时,必须从系统中正确识别出该人,但系统中存在无法预知的同名现象,正确识别很有挑战;3)用户选择论文时可能出现多选、少选、错选等失误,系统必须能够自我修复,具有一定容错纠错性。4)整个进化过程对用户透明,用户只需进行普通的增删操作,无需费时费力的人工沟通与确认,这种低参与度的进化方式大大增加了网络构建的难度。协作注册根据注册者选择论文的情况通过“直接新建”、“粘合度计算”等方法为注册者分配合适的ID,并确定论文合适的归属。注册过程基于以下前提:前提I 后来注册者为准”,意味着如果某篇论文第一次被某个作者划入自己名下,但是,后来又有注册者认为该论文属于自己,并进行了选择,那么系统将判定该论文属于后者。前提2 保留现有”,是指如果Sin中已经有了某作者的姓名,那么将用该作者的ID去表示Srat中对应的作者。前提3 粘合度大者优先”,是指如有账号不同的两个同名者,那么选择与本次录入论文作者集合的粘合度大的作者ID作为该用户的ID。所谓粘合度是指某个作者的合作者全集与另一作者集合的交集占合作者全集的比例,计算公式可表示为:μ ,)=' , y,
I C( ,)l其中C(Ui)表示作者Ui的合作者集合,A(Srat)表示Srat中的作者集合。具体步骤如下:Stepl:以“直接新建”的方式为注册者创建ID,并将选中的论文归入注册者名下,即以新建ID表示Sin和Srat作者列表中的注册者姓名;“直接新建”在进化过程中发挥着“切分”与“合并”的双重作用,用来吸纳遗漏论文,分离错分论文,是关联关系是否需要调整的最终仲裁。“后来注册者为准”是协作构建的一个重要前提,正是这种通过这种“争执”使得论文逐步趋于正确状态。Step2:为合作者分配ID。从Swt中获得新带入的合作者集合,并判断这些合作者在Sin中是否存在,若不存在,至直接新建ID ;St印3:若存在一个,只直接采用现有ID ;Step4:若有多个,则采用如下“粘合度”判定方法进行ID生成;
St印5:“粘合度”算法。设系统中有m个同名者# = { ,.}=;
a)计算获得每个同名者的合作者集合C(Ui);b)计算Swt的作者集合A(Swt);c)计算作者U1与A(Stjut)的粘合度:
权利要求
1.一种有效的学术合作关系网络协作构建与自适应进化方法,其特征在于:利用用户潜在的协作关系,建立一种无需用户人为沟通确认、参与度低的合作关系构建方法,其次,针对数据录入中存在人为失误及系统失误,实现一种可自我修复、自动进化的数据关联修正方法,最后,通过多用户协作,构建一种以学术主页为节点,以合作关系为边、可动态进化的学术合作关系网络。
2.根据权利要求1所述的协作注册方法,其特征在于:首先,借助DBLP等公开文献库,通过论文认领的方式协助论文条目信息录入,实现学术主页的快速建立;其次,根据注册者在系统内部以及系统外部文献库的论文选择情况,基于“后来者为准”的原则采用“直接新建”的方法为注册者新建ID ;最后,基于“尽量保留”与“粘合度”算法为合作者分配ID,并调整论文归属。
3.根据权利要求1所述的后期进化方法,针对初建关联时可能存在的错位、论文归属错误等问题,实现一种自动关联修正和论文归属调整方法。其特征在于,首先,针对关联错位问题,通过后续用户注册,基于“后来者为准”原则,对关联关系不断切分、合并、挪移;其次,针对论文错分问题,通过用户移除操作,释放论文,使其重回模糊待领状态;最后,通过开放式的自由协作,使得关联关系不断进化,形成一幅正确、可动态演化的合作关系网络。
全文摘要
本发明属于数据挖掘与知识服务领域,涉及学术合作关系网络协作构建、网络结构自适应进化、网络存储与分析等技术,公开了一种无障碍、少干预的学术合作关系协作构建与自适应进化方法,用来构建一张以学术主页为节点、以合作关系为连接的学术合作网络,为后续网状数据挖掘、社区发现与个性化推荐、全景式协作学习等知识服务奠定基础。
文档编号G06F17/30GK103077175SQ20121000950
公开日2013年5月1日 申请日期2012年1月12日 优先权日2012年1月12日
发明者邓万宇, 陈琳 申请人:西安邮电学院