基于NVMEOF的存储方法、系统、装置及可存储介质与流程

文档序号:17396212发布日期:2019-04-13 00:50阅读:409来源:国知局
基于NVMEOF的存储方法、系统、装置及可存储介质与流程

本发明涉及数据处理技术领域,更为具体地,涉及一种基于nvmeof(non-volatilememoryexpress–overfabrics)的存储方法、系统、装置及可存储介质。



背景技术:

随着信息化程度的提高,需要传输的数据信息越来越多,在数据传输过程中,数据存储起到了重要作用,因此海量的数据信息应用对数据存储方式提出了更高的要求。

由于存储数据的庞杂性,在数据传输的过程中,元数据需要先进行分类成pg(placementgroup,放置策略组),pg负责将数据复制多副本到osd(objectstoragedevice)上,当收到所有osd的回复之后,将回收客户端的请求。一次数据传输,要经过pg逻辑的处理,多次osd的处理,多次网络传输,多副本复制是当前系统中数据存储的最大的瓶颈。

其中,pg负责进行多副本复制,复制速度太低;同时pg复制需多次重复确认主机信息和数据复制成功信息,严重影响了数据传输速度,没有很好的发挥nvmeof(non-volatilememoryexpress–overfabrics)磁盘的性能。

为解决上述问题,本发明提供一种基于nvmeof的存储方法、系统、装置及可存储介质。



技术实现要素:

鉴于上述问题,本发明的目的是提供一种基于nvmeof的存储方法、系统、装置及可存储介质,以解决目前在数据存储过程中pg复制速度太低、并需要多次重复确认复制成功的信息从而导致数据传输速度太慢的问题。

第一方面,本发明提供一种基于nvmeof的存储方法,应用于电子装置,包括如下步骤:

s110:设置一个配置策略的机头和一个分类写入pg的pggroup;

s120:在所述机头中写入分发策略;

s130:根据所述分发策略将元数据分类写入pg;

s140:将写入元数据的pg存储到nvmeof。

第二方面,本发明还提供一种基于nvmeof的存储系统,包括:

机头设置单元,用于设置一个配置策略的机头;

pggroup设置单元,用于设置一个分类写入pg的pggroup;

写入单元,用于在所述机头中写入分发策略,将元数据根据分发策略分类写入所述pg;

存储单元,用于将写入元数据的pg存储到nvmeof。

第三方面,本发明还提供一种电子装置,该电子装置包括:存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现如上述基于nvmeof的存储方法的步骤。

第四方面,本发明还提供一种计算机可读存储介质,计算机可读存储介质中包括计算机程序,计算机程序被处理器执行时,实现如上述基于nvmeof的存储方法的步骤。

从上面的技术方案可知,本发明提供的基于nvmeof的存储方法、系统、装置及存储介质,设置一个可以配置策略的机头和一个可以分类写入pg的pggroup,通过在机头中写入策略,可以快速将元数据分类写入pg,pg收到数据后,直接写挂载的nvmeof盘。本发明的这种基于nvmeof的存储方法,能够节省多副本复制的时间,同时能够简化pg的逻辑,有助于提升操作系统的可靠性,pg之间不会传输数据,将远程数据操作简化成本地操作,从而简化了后续开发的难度。

为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。

附图说明

通过参考以下结合附图的说明,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:

图1为根据本发明实施例的基于nvmeof的存储方法流程图;

图2为根据本发明实施例的根据策略将元数据分类写入pg的流程示意图;

图3为根据本发明实施例的基于nvmeof的存储系统逻辑结构框图;

图4为根据本发明实施例的电子装置逻辑结构示意图。

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。

本发明实施例可以应用于计算机系统/服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器等电子设备一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。

计算机系统/服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器等电子设备可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。

以下将结合附图对本发明的具体实施例进行详细描述。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

实施例1

为了说明本发明提供的基于nvmeof的存储方法,图1示出了根据本发明实施例的基于nvmeof的存储方法流程。本发明中涉及的数据写入请求包含一些元数据信息及数据,其中的元数据包括要写入的对象名称、偏移量、长度等数据。

如图1所示,本发明提供的基于nvmeof的存储方法,可以包括如下步骤:

s110:设置一个配置策略的机头和一个分类写入pg的pggroup;

s120:在所述机头中写入分发策略;

s130:根据分发策略将元数据分类写入pg;

s140:将写入元数据的pg存储到nvmeof。

在本发明涉及到的osd和pg做如下解释:

osd的英文全称是objectstoragedevice,它的主要功能是存储数据、复制数据、平衡数据、恢复数据等,与其它osd间进行心跳检查等,并将一些变化情况上报给cephmonitor。一般情况下一块硬盘对应一个osd,由osd来对硬盘存储进行管理,当然一个分区也可以成为一个osd。osd是负责物理存储的进程,一般配置成和磁盘一一对应,一块磁盘启动一个osd进程。

pg是一个放置策略组,它是对象的集合,该集合里的所有对象都具有相同的放置策略;简单点说就是相同pg内的对象都会放到相同的硬盘上;pg是ceph的核心概念,服务端数据均衡和恢复的最小粒度就是pg;一个pool里有很多pg,一个pg里包含一堆对象;一个对象只能属于一个pg;pg有主从之分,一个pg分布在不同的osd上。

vmeof(non-volatilememoryexpress–overfabrics),其中,nvme(non-volatilememoryexpress,非易失性存储器接口),是一种host与ssd(solidstatedrives,固态硬盘)之间通讯的协议,它在协议栈中隶属高层;nvme制定host与ssd之间通讯的命令,以及命令如何执行的。nvme有两种命令,一种叫admincommand,用以host管理和控制ssd;另外一种就是i/ocommand,用以host和ssd之间数据的传输,pg可以通过整合对同属于一个对象的i/o(i/o,input/output,输入输出)操作,来避免诸多重复性i/o操作。

在本发明的实施例中,由于存储数据的庞杂性,在数据传输的过程中,元数据需要先进行分类成pg(placementgroup,放置策略组),pg负责将数据复制多副本到osd(objectstoragedevice)上,当收到所有osd的回复之后,将回收客户端的请求。一次数据传输,要经过pg逻辑的处理,多次osd的处理,多次网络传输,如果解决多副本复制是当前系统中数据存储的最大的瓶颈,则会提高数据传输速度。

在此,可以把步骤s110中设置一个可以配置策略的机头和一个可以分类写入pg的pggroup。其中,机头可以采用普通的host,操作系统是linux并且内核支持nvmeof,机头应配置支持roce的网卡。

也就是说,设置机头作为nvmeof的host,可以挂载多个nvmeof的盘,上面运行pggroup,pggroup负责一组pg的数据的操作,可以根据策略进行配置pggroup管理哪些pg。

在机头中写入元数据的分发策略,将元数据如何在pg以pggroup中进行分发的路线,按照预设的分发规则写在机头中,在后续实际的分发过程中,均按照设定的此策略将元数据写入到相对应的pg中。

为了详细说明将元数据分类写入pg的流程,示例性,如图2示出了根据本发明实施例的根据策略将元数据分类写入pg的流程。

如图2所示:pggroup介于元数据和pg之间,根据策略将元数据分类写入pg的流程包括如下步骤:

s210:预先设定分发策略,根据分发策略将元数据映射到相应的pg,再映射到相应的pggroup;

s220:根据映射关系将元数据发送到相应的pggroup,其中,pggroup在写入元数据时标注所属的pg编号。

在本发明的实施例中,pg和pggroup是为了和ceph架构兼容,在控制元数据分发到各个pg的过程中,需要预先设定分发策略,一般是元数据通过预设规则映射到特定的pg,再通过预设规则映射到特定的pggroup,然后将元数据发送到特定pggroup即可,pggroup在写入元数据时带上所属的pg编号。

需要说明的是,可以分类写入pg的pggroup,指的是pggroup中的元数据具有与pg编号相等同的nvmeof盘份。

例如:如果pggroup1包含pg编号从1到100的数据,写入pggroup的所有的pg都写到相同多份nvmeof盘中。即:pggroup中的元数据的编号与nvmeof盘的编号一一对应。

在本发明的实施例中,pggroup需要自己管理元数据,client发送数据到pggroup,pggroup收到数据后分发给相应的pg,pg收到数据后,直接写挂载的nvmeof盘(如步骤s140所述)。

pg收到数据后写到直接挂载的nvme-of盘时不需要osd处理,这是由于,在新的架构下已经没有osd了,之前的在数据储存的过程中osd就是为了实现多副本,现在nvmeof可以将不同机器的盘挂到同一个机器上,pggroup进程可以直接写入多副本,进程间不需要通信及交互,大大提高效率,同时所有数据一致性检查也可以在pggroup中完成,osd所有的功能都已经被pggroup所代替。

通过以上实施例的表述可以看出,本发明提供的基于nvmeof的存储方法,设置一个可以配置策略的机头和一个可以分类写入pg的pggroup,通过在机头中写入策略,可以快速将元数据分类写入pg,pg收到数据后,直接写挂载的nvmeof盘。本发明的这种nvmeof的存储方法,能够节省多副本复制的时间,同时能够简化pg的逻辑,有助于提升操作系统的可靠性,pg之间不会传输数据,将远程数据操作简化成本地操作,从而简化了后续开发的难度。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

实施例2

与上述方法相对应,本发明还提供一种基于nvmeof的存储系统,图3示出了根据本发明实施例的基于nvmeof的存储系统逻辑结构。

如图3所示,本发明提供一种基于nvmeof的存储系统300,包括:机头设置单元310、pggroup设置单元320、写入单元330和存储单元340。其中,机头设置单元310、pggroup设置单元320、写入单元330和存储单元340的实现功能与实施例中基于nvmeof的存储方法的对应的步骤一一对应,本实施例不一一详述。

其中,机头设置单元310,用于设置一个配置策略的机头;

pggroup设置单元320,用于设置一个分类写入pg的pggroup;

写入单元330,用于在机头中写入分发策略,根据分发策略将元数据分类写入pg;

存储单元340,用于将写入元数据的pg存储到nvmeof。

优选地,机头设置单元310中的机头采用host,操作系统为linux并且内核支持nvmeof。

优选地,写入单元340包括:策略设定模块341和元数据写入模块342。

策略设定模块341,用于预先设定分发策略,元数据映射到相应的pg,再映射到相应的pggroup;

元数据写入模块342,用于根据映射关系将元数据发送到相应的pggroup,其中,pggroup在写入元数据时标注所属的pg编号。

优选地,pggroup中的元数据具有与pg编号相等同的nvmeof盘份。

本发明实施例提供的基于nvmeof的存储系统,机头设置单元310,用于设置一个配置策略的机头;pggroup设置单元320,用于设置一个分类写入pg的pggroup;写入单元330,用于在机头中写入分发策略,根据分发策略将元数据分类写入pg;存储单元340,用于将写入元数据的pg存储到nvmeof。本发明设置一个可以配置策略的机头和一个可以分类写入pg的pggroup,通过在机头中写入策略,可以快速将元数据分类写入pg,pg收到数据后,直接写挂载的nvmeof盘。本发明的这种nvmeof的存储系统,能够节省多副本复制的时间,同时能够简化pg的逻辑,有助于提升操作系统的可靠性,pg之间不会传输数据,将远程数据操作简化成本地操作,从而简化了后续开发的难度。

实施例3

图4是本发明一实施例提供的电子装置逻辑结构的示意图。如图4所示,该实施例的电子装置40包括处理器41、存储器42以及存储在存储器42中并可在处理器41上运行的计算机程序43。处理器41执行计算机程序43时实现实施例1中基于nvmeof的存储方法的各个步骤,例如图1所示的步骤s110至s140。或者,处理器41执行基于nvmeof的存储方法时实现上述各装置实施例中各模块/单元的功能,例如图3所示的机头设置单元310、pggroup设置单元320、写入单元330和存储单元340。

示例性的,计算机程序43可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器42中,并由处理器41执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序43在电子装置40中的执行过程。例如,计算机程序43可以被分割成实施例2中的机头设置单元310、pggroup设置单元320、写入单元330和存储单元340,其功能作用在实施例2中有详细描述,在此不一一赘述。

电子装置40可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。电子装置40可包括,但不仅限于,处理器41、存储器42。本领域技术人员可以理解,图4仅仅是电子装置40的示例,并不构成对电子装置40的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子装置还可以包括输入输出设备、网络接入设备、总线等。

所称处理器41可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器42可以是电子装置40的内部存储单元,例如电子装置40的硬盘或内存。存储器42也可以是电子装置40的外部存储设备,例如电子装置40上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,存储器42还可以既包括电子装置40的内部存储单元也包括外部存储设备。存储器42用于存储计算机程序以及电子设备所需的其他程序和数据。存储器42还可以用于暂时地存储已经输出或者将要输出的数据。

实施例4

本实施例提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现实施例1中基于nvmeof的存储方法,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现实施例2中基于nvmeof的存储系统中各模块/单元的功能,为避免重复,这里不再赘述。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1