一种基于图形处理器gpu的分词方法和装置的制造方法_4

文档序号:9887621阅读:来源:国知局
器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0155]本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0156]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0157]这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0158]尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
[0159]最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0160]以上对本申请所提供的一种基于图形处理器GPU的分词方法和一种基于图形处理器GPU的分词装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
【主权项】
1.一种基于图形处理器GHJ的分词方法,其特征在于,所述的图形处理器GHJ包括:内存、多个线程集合;所述的方法包括: 将预设的分词词典以及预先获取的待分词文本加载到图形处理器GHJ的内存中; 确定当前GHJ中的可用的线程集合; 将所述分词词典,分配到一个或多个可用的线程集合中; 采用所述一个或多个可用的线程集合对所述待分词文本进行分词。2.根据权利要求1所述的方法,其特征在于,所述线程集合包括:多个线程单元;所述采用所述一个或多个可用的线程集合对所述待分词文本进行分词的步骤包括: 在所述一个或多个可用的线程集合中加载所述待分词文本; 确定所述一个或多个线程集合中可用的线程单元; 将所述一个或多个线程集合中加载的待分词文本拆分为多个子段落; 在所述一个或多个线程集合中,将对应的分词文本拆分得到的子段落分配到线程集合内的各个可用的线程单元中进行分词。3.根据权利要求1或2所述的方法,其特征在于,所述将所述分词词典分配到一个或多个可用的线程集合中的步骤包括: 将所述分词词典拆分为多个子词典; 将各个子词典分配到多个可用的线程集合。4.根据权利要求3所述的方法,其特征在于,所述将各个子词典分配到多个可用的线程集合的步骤包括: 按照可用线程集合的数目,将分词词典平均拆分为多个子词典; 或,按照分词词典内各个词条预设的权重,将分词词典拆分为多个子词典。5.根据权利要求4所述的方法,其特征在于,还包括: 当采用多个线程集合进行分词时,将线程集合内各个线程单元分词后得到已分词段落进行合并,得到单集合分词文本; 从所述一个或多个线程集合的单集合分词文本中,选取分词得到的词条进行合并,得到多集合分词文本。6.根据权利要求1或2或3或4或5所述的方法,其特征在于,所述确定当前GPU中的可用的线程集合的步骤包括: 通过GRJ预设的API接口,确定当前GRJ中的可用的线程集合。7.根据权利要求2或3或4或5所述的方法,其特征在于,所述确定所述一个或多个可用的线程集合中可用的线程单元的步骤包括: 通过GRJ预设的API接口,确定所述一个或多个可用的线程集合中可用的线程单元。8.—种基于图形处理器GHJ的分词装置,其特征在于,所述的图形处理器GHJ包括:内存、多个线程集合;所述的装置包括: GPU加载模块,用于将预设的分词词典以及预先获取的待分词文本加载到图形处理器GHJ的内存中; 线程集合确定模块,用于确定当前GRJ中的可用的线程集合; 词典分配模块,用于将所述分词词典,分配到一个或多个可用的线程集合中; 线程集合分词模块,用于采用所述一个或多个可用的线程集合对所述待分词文本进行分词。9.根据权利要求8所述的装置,其特征在于,所述线程集合包括:多个线程单元;所述线程集合分词模块进一步包括: 分词文本加载子模块,用于在所述一个或多个可用的线程集合中加载所述待分词文本; 线程单元确定子模块,用于确定所述一个或多个线程集合中可用的线程单元; 文本拆分子模块,用于将所述一个或多个线程集合中加载的待分词文本拆分为多个子段落; 子段落分配子模块,用于在所述一个或多个线程集合中,将对应的分词文本拆分得到的子段落分配到线程集合内的各个可用的线程单元中进行分词。10.根据权利要求8或9所述的装置,其特征在于,所述将所述分词词典分配到一个或多个可用的线程集合中的步骤包括: 词典拆分子模块,用于将所述分词词典拆分为多个子词典; 子词典分配子模块,用于将各个子词典分配到多个可用的线程集合。11.根据权利要求10所述的装置,其特征在于,所述子词典分配子模块进一步包括: 平均分配子模块,用于按照可用线程集合的数目,将分词词典平均拆分为多个子词典; 或, 权重分配子模块,用于按照分词词典内各个词条预设的权重,将分词词典拆分为多个子词典。12.根据权利要求11所述的装置,其特征在于,还包括: 段落合并模块,用于当采用多个线程集合进行分词时,将线程集合内各个线程单元分词后得到已分词段落进行合并,得到单集合分词文本; 选取合并模块,用于从所述一个或多个线程集合的单集合分词文本中,选取分词得到的词条进行合并,得到多集合分词文本。13.根据权利要求8或9或10或11或12所述的装置,其特征在于,所述线程集合确定模块进一步包括: 第一API确定子模块,用于通过GRJ预设的API接口,确定当前GRJ中的可用的线程集合。14.根据权利要求9或10或11或12所述的装置,其特征在于,所述线程单元确定子模块进一步包括: 第二 API确定子模块,用于通过GPU预设的API接口,确定所述一个或多个可用的线程集合中可用的线程单元。
【专利摘要】本申请实施例提供了一种基于图形处理器GPU的分词方法,其中,所述的图形处理器GPU包括:内存、多个线程集合;所述的方法包括:将预设的分词词典以及预先获取的待分词文本加载到图形处理器GPU的内存中;确定当前GPU中的可用的线程集合;将所述分词词典,分配到一个或多个可用的线程集合中;采用所述一个或多个可用的线程集合对所述待分词文本进行分词。本申请实施例通过将分词词典加载到GPU中的多个线程集合中,采用多个线程集合对待分词文本进行分词;在每一个线程集合中通过多个可用的线程单元对待分词文本的一部分进行分词;有效利用GPU内存的高带宽以及并行计算能力,提高分词速度。
【IPC分类】G06F17/27
【公开号】CN105653520
【申请号】
【发明人】潘昊
【申请人】北京奇艺世纪科技有限公司
【公开日】2016年6月8日
【申请日】2015年12月30日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1