一种在Kubernetes集群内的跨节点RDMA高性能通信的方法与流程

文档序号:40835801发布日期:2025-02-06 17:11阅读:9来源:国知局
本发明涉及一种在kubernetes集群内的跨节点rdma高性能通信的方法,属于计算网络。
背景技术
::1、随着云原生技术发展,企业用云成本的不断加深,为了提高资源的利用率,降低增效为核心构建的云成本体系将贯穿整个云计算行业。kubernetes作为容器编排的事实标准,可以提高应用程序的可用性,缩短部署周期,提高资源利用率,为分布式系统提供统一的管理平台。在kubernetes集群中,每个节点都有多个容器运行,这些容器可能需要通过网络互相通信,通常是通过集群级别的网络解决方案来实现,比如flannel、calico等,但是这些网路插件不能满足高性能要求。技术实现思路1、本发明的目的在于克服现有技术中的不足,提供一种在kubernetes集群内的跨节点rdma高性能通信的方法,可以在集群中实现多通道的rdma通信,打破了物理网卡数量的限制,降低了成本。2、为达到上述目的,本发明是采用下述技术方案实现的:3、第一方面,本发明提供了一种在kubernetes集群内的跨节点rdma高性能通信的方法,包括:4、根据预先确定的master服务器的个数和node子节点的个数,搭建kubernetes集群系统;5、根据目标cpu架构,使用rdma shared模式,暴露预先绑定在master服务器和node子节点上的物理网卡给pod容器使用;6、在kubernetes集群系统中部署multus cni插件,为pod容器提供额外的网络接口;7、在kubernetes集群系统的master服务器和node子节点中部署用于rdma高速通信的ring-pod插件;8、通过ring-pod插件以及multus插件提供的额外网络接口,启动rdma的ib通信功能,通过物理网卡实现pod容器间的通信。9、进一步的,所述方法还包括:在kubernetes集群系统中部署canal网络插件,作为pod容器间的默认网络插件,通过修改每个节点上的iptables与路由实现容器间数据的路由和访问控制,并通过etcd协调节点配置信息,用于pod间的基本通信。10、进一步的,所述canal网络插件的访问控制部分由calico实现,配置成bgp模式,网络部分由flannel实现,flannel后端采用vxlan模式。11、进一步的,所述服务器节点包括master服务器节点1个和node子节点至少1个。12、进一步的,所述搭建kubernetes集群系统包括部署docker服务、kubectl软件、kubelet软件、kubeadm软件,初始化集群环境,并将node子节点添加到kubernetes集群中。13、进一步的,所述使用rdma shared模式,暴露预先绑定在master服务器和node子节点上的roce网卡给pod容器使用,包括:14、部署shared device plugin完成rdma网卡资源的暴露和pod的调度,并自定义rdma-dev-plug插件的docker容器镜像以适应国产服务器架构,确保kubernetes集群能检测识别到网卡设备,并设置一定数量的可用rdma通讯接口。15、进一步的,所述自定义rdma-dev-plug插件的docker容器镜像以适应国产服务器架构,包括:16、通过自定义rdma-dev-plug插件的docker容器镜像,设置export go111modul=on,利用go.mod进行依赖包的管理安装,下载依赖至给定路径的vendor目录,对已支持的模块进行移植以适配国产服务器架构,构建新的镜像,并根据服务器的物理网卡配置configmap文件,包括自定义resourcename,配置网卡的vendors和deviceids。17、进一步的,所述在kubernetes集群系统中部署multus cni插件,为pod容器提供额外的网络接口,包括:18、通过更改yaml文件中的配置信息,将kubernetes的默认网络改为canal后,用daemonset自动安装的方法部署multus cni插件,为集群中的pod提供额外的网络接口。19、进一步的,所述方法还包括:设计c/s模式的监控通知模块,利用docker-client和docker-server之间的通信功能,实现多pod容器之间的内存资源隔离,其中docker-client位于rdma通信的pod容器中,docker-server位于master服务器节点和node子节点上。20、进一步的,所述利用docker-client和docker-server之间的通信功能,实现多pod容器之间的内存资源隔离,包括:21、通过设置环境变量ld_preload来管理通信时的动态链接库libixml.so,当需要rdma的pod提交令牌申请时,docker_clinent将此令牌注册到docker_server中,进行令牌排队;如果没有有效的令牌,则docker_server阻止cuda程序调用,此时无法进行rdma通信,直到获取有效的令牌为止;如果此pod容器申请到令牌,docker_clinent将实际用到的通信信息,通过协议发送给docker_server,用于docker_server的实时监控;docker_server将令牌信息和pod信息的关系表,存放在节点的本地内存中,两张表通过pod_name字段唯一确定一条记录。22、与现有技术相比,本发明所达到的有益效果:23、本发明提供一种在kubernetes集群内的跨节点rdma高性能通信的方法,基于国产gpu架构平台,为了能够使kubernetes集群中的节点通信满足多通道的rdma高性能通信要求,针对虚拟机和容器的rdma虚拟化进行了研究,用基于硬件辅助的全虚拟化技术使用rdma shared 模式将rdma网卡部署到kubernetes集群中,可以在集群中实现多通道的rdma通信,打破了物理网卡数量的限制,降低了成本,并且利用资源隔离方法,避免了性能干扰。技术特征:1.一种在kubernetes集群内的跨节点rdma高性能通信的方法,其特征在于,包括:2.根据权利要求1所述的在kubernetes集群内的跨节点rdma高性能通信的方法,其特征在于,所述方法还包括:在kubernetes集群系统中部署canal网络插件,作为pod容器间的默认网络插件,通过修改每个节点上的iptables与路由实现容器间数据的路由和访问控制,并通过etcd协调节点配置信息,用于pod间的基本通信。3.根据权利要求2所述的在kubernetes集群内的跨节点rdma高性能通信的方法,其特征在于,所述canal网络插件的访问控制部分由calico实现,配置成bgp模式,网络部分由flannel实现,flannel后端采用vxlan模式。4.根据权利要求1所述的在kubernetes集群内的跨节点rdma高性能通信的方法,其特征在于,所述服务器节点包括master服务器节点1个和node子节点至少1个。5.根据权利要求1所述的在kubernetes集群内的跨节点rdma高性能通信的方法,其特征在于,所述搭建kubernetes集群系统包括部署docker服务、kubectl软件、kubelet软件、kubeadm软件,初始化集群环境,并将node子节点添加到kubernetes集群中。6.根据权利要求1所述的在kubernetes集群内的跨节点rdma高性能通信的方法,其特征在于,所述使用rdma shared模式,暴露预先绑定在master服务器和node子节点上的roce网卡给pod容器使用,包括:7.根据权利要求6所述的在kubernetes集群内的跨节点rdma高性能通信的方法,其特征在于,所述自定义rdma-dev-plug插件的docker容器镜像以适应国产服务器架构,包括:8.根据权利要求1所述的在kubernetes集群内的跨节点rdma高性能通信的方法,其特征在于,所述在kubernetes集群系统中部署multus cni插件,为pod容器提供额外的网络接口,包括:9.根据权利要求1所述的在kubernetes集群内的跨节点rdma高性能通信的方法,其特征在于,所述方法还包括:设计c/s模式的监控通知模块,利用docker-client和docker-server之间的通信功能,实现多pod容器之间的内存资源隔离,其中docker-client位于rdma通信的pod容器中,docker-server位于master服务器节点和node子节点上。10.根据权利要求9所述的在kubernetes集群内的跨节点rdma高性能通信的方法,其特征在于,所述利用docker-client和docker-server之间的通信功能,实现多pod容器之间的内存资源隔离,包括:技术总结本发明公开了一种在Kubernetes集群内的跨节点RDMA高性能通信的方法,属于计算网络
技术领域
:,所述方法包括:根据预先确定的Master服务器的个数和Node子节点的个数,搭建Kubernetes集群系统;根据目标CPU架构,使用RDMA Shared模式,暴露预先绑定在Master服务器和Node子节点上的物理网卡给Pod容器使用;在Kubernetes集群系统中部署Multus CNI插件,为Pod容器提供额外的网络接口;在Kubernetes集群系统的Master服务器和Node子节点中部署用于RDMA高速通信的ring‑pod插件;通过ring‑pod插件以及Multus插件提供的额外网络接口,启动RDMA的IB通信功能,通过物理网卡实现pod容器间的通信;本发明可以在集群中实现多通道的RDMA通信,打破了物理网卡数量的限制,降低了成本。技术研发人员:杨露,锁强,岳晨阳,郭燕,奚智雯受保护的技术使用者:无锡先进技术研究院技术研发日:技术公布日:2025/2/5
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1