本发明属于计算机技术领域,尤其涉及一种添加自定义分词的方法及装置。
背景技术:
随着互联网数据规模的爆炸式增长,如何从海量的历史、实时数据中快速获取有用信息,变得越来越具有挑战性。搜索是获取信息最高效的途径之一,因此也是各类网站或者应用的基础标配功能。然而仅有强大的搜索引擎是不够的,还需要制订满足个人需要的个性化词库,而往往有些标准词库无法完美的达到预期效果,因此需要建立自定义分词库。
目前大部分中文分词插件包括bigdesk、head、inquisitor、marvel、kopf都是对索引进行浏览、查看或分析等,而ikanalyzer(轻量级的中文分词插件)作为比较流行的中文分词插件却没有对添加自定义分词做很好的支持。现有的ikanalyzer需要在添加自定义分词后重启整个elasticsearch服务器才能加载到刚刚加入到自定义分词库的词。如果是在一个非常庞大的elasticsearch集群环境,节点数可能达到几十甚至上百个节点,那么每个提供索引服务的节点都需要编辑更新下自定义分词库然后重启,然而elasticsearch服务器重启的过程需要一段时间的等待,这将浪费时间。
综上可知,目前添加自定义分词的方法存在操作效率低的问题。
技术实现要素:
有鉴于此,本发明实施例提供了添加自定义分词的方法及装置,以解决现有技术中添加自定义分词的方法存在操作效率低的问题。
本发明实施例的第一方面提供了一种添加自定义分词的方法,包括:
监听自定义录入请求;所述自定义录入请求至少包括自定义分词录入表单,所述自定义分词录入表单至少包括自定义分词;
在监听到自定义录入请求时,通过自定义分词追加函数将所述自定义分词写入自定义分词库中。
本发明实施例的第二方面提供了一种添加自定义分词的装置,包括:
监听单元,用于监听自定义录入请求;所述自定义录入请求至少包括自定义分词录入表单,所述自定义分词录入表单至少包括自定义分词;
写入单元,用于在监听到自定义录入请求时,通过自定义分词追加函数将所述自定义分词写入自定义分词库中。
本发明实施例的第三方面提供了一种终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
监听自定义录入请求;所述自定义录入请求至少包括自定义分词录入表单,所述自定义分词录入表单至少包括自定义分词;
在监听到自定义录入请求时,通过自定义分词追加函数将所述自定义分词写入自定义分词库中。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现以下步骤:
监听自定义录入请求;所述自定义录入请求至少包括自定义分词录入表单,所述自定义分词录入表单至少包括自定义分词;
在监听到自定义录入请求时,通过自定义分词追加函数将所述自定义分词写入自定义分词库中。
本发明实施例通过监听自定义录入请求,在监听到自定义录入请求时,通过自定义分词追加函数将所述自定义分词写入自定义分词库中,新添加到自定义分词库中的词立即生效,因此无需重启服务器,节省了时间,提高了操作效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的添加自定义分词的方法的实现流程示意图;
图2是本发明实施例二提供的添加自定义分词的方法的实现流程示意图;
图3是本发明实施例二中步骤s205的具体实现流程示意图;
图4是本发明实施例四提供的添加自定义分词的方法的实现流程示意图;
图5是本发明实施例提供的添加自定义分词的装置的示意图;
图6是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
图1示出了本发明实施例一提供的添加自定义分词的方法的实现流程示意图。如图1所示,该添加自定义分词的方法具体包括如下步骤s101至步骤s102。
步骤s101:监听自定义录入请求;所述自定义录入请求至少包括自定义分词录入表单,所述自定义分词录入表单至少包括自定义分词。
其中,自定义分词可以是用户为建立自定义分词库需要添加的词语。例如,原来词库中存在以下词语:王、某、名、研究、动态、追加、自定义、自定、定义、分词、词、方法。在增加自定义分词:“王某名”和“动态追加自定义分词”后,原来词库中存在的词语被覆盖为:王某名、研究、动态追加自定义分词、方法。自定义分词录入表单至少包括自定义分词,还可以包括服务器ip地址。所述服务器ip地址作为“目的地”,用于将自定义分词录入表中的自定义分词发送到对应的服务器端口。可以理解的是,所述服务器ip地址可以是用户手动输入,也可以是默认使用某一个服务器ip地址,即自定义分词录入表单中有一个默认的服务器ip地址。
所述自定义录入请求至少包括自定义分词录入表单,自定义录入请求的目标地址即为所述服务器ip地址。在所述服务器监听自定义录入请求,所述自定义录入请求的输入可以是在所述服务器的前端完成,所述自定义录入请求可以还是多个。可以理解的是,所述服务器也可以是多个。某一个服务器对应一个或者多个前端。
步骤s102:在监听到自定义录入请求时,通过自定义分词追加函数将所述自定义分词写入自定义分词库中。
在服务器监听到自定义录入请求时,通过自定义分词追加函数,以singleton._maindict.fillsegment(word)方式,将所自定义录入请求中的自定义分词录入表单中包含的自定义分词加载到singleton._maindict内存自定义分词库中,即完成在自定义分词库中写入所述自定义分词。例如,在上述例子中,添加自定义分词后,用户可以快速输出的例句为:王某名在研究动态追加自定义分词方法。显然,用户只需要将以下五个词语:王某名、在、研究、动态追加自定义分词、方法连起来即可组成一个完整的句子。
综上所述,本发明实施例提供的添加自定义分词的方法,通过监听自定义录入请求,在监听到自定义录入请求时,通过自定义分词追加函数将所述自定义分词写入自定义分词库中,新添加到自定义分词库中的词立即生效,因此无需重启服务器,节省了时间,提高了操作效率。
实施例二
图2示出了本发明实施例二提供的添加自定义分词的方法的实现流程示意图。如图2所示,所述添加自定义分词的方法包括如下步骤s201至步骤s205:
步骤s201:监听自定义录入请求;所述自定义录入请求至少包括自定义分词录入表单,所述自定义分词录入表单至少包括自定义分词。
步骤s201的执行过程与图1所示的步骤s101的执行过程类似,此处不再赘。
步骤s202:监听到自定义录入请求。
步骤s202的执行过程与图1所示的步骤s102的执行过程类似,此处不再赘。
步骤s203:接收所述自定义录入请求中的自定义分词录入表单。
在服务器接收所述自定义录入请求中的自定义分词录入表单,获取自定义分词录入表单中包含的自定义分词。
步骤s204:对自定义分词录入表单的自定义分词进行筛选与去重,获取不重复的自定义分词。
可以理解的是,自定义分词录入表单中可能包含因笔误而与用户原本想输入的自定义分词不匹配的错误自定义分词。因此,需要对对自定义分词录入表单的自定义分词进行筛选,避免将错误自定义分词写入自定义分词库中。
还可以理解的是,用户在添加了某一个或者几个自定义分词的一段时间后,可能忘记了之前已经添加过该自定义分词,为了避免重复添加,对自定义分词录入表单的自定义分词进行去重。此外,这也减小了内存自定义分词库的存储空间。
在对自定义分词录入表单中的自定义分词进行了筛选与去重后,获取不重复的自定义分词,且这些自定义分词均是用户真正想添加的自定义分词,不存在笔误等情况。
步骤s205:通过自定义分词追加函数将所述自定义分词写入自定义分词库中。
步骤s205的执行过程与图1所示的步骤s102的执行过程类似,此处不再赘。
综上所述,本发明实施例提供的添加自定义分词的方法,通过对对自定义分词录入表单中的自定义分词进行了筛选与去重,获取到准确且不重复的自定义分词,提高了添加到自定义分词库中自定义分词的准确性。
实施例三
在实施例二的基础上,图3示出了本发明实施例二中步骤s205的具体实现流程示意图。如图3所示,步骤s205的具体实现流程包括如下步骤s301至步骤s302。
步骤s301:调用自定义分词追加函数,将所述不重复的自定义分词添加到自定义分词库中。
步骤s302:更新所述自定义分词库。
具体地,在本发明实施例中,在获取到不重复的自定义分词后,调用自定义分词追加函数,将所述不重复的自定义分词写入到自定义分词库,即成功添加到自定义分词库中,并动态更新所述自定义分词库为添加了自定义分词的自定义分词库。因此,本发明实施例避免了更新滞后的状况,且保证了更新的自定义分词库的简洁性。
本发明实施例提供的添加自定义分词的方法,通过调用自定义分词追加函数,添加不重复的自定义分词到自定义分词库中并动态更新,保证了自定义分词库处于动态最新的状态以及自定义分词库的简洁性。
实施例四
在实施例一的基础上,图3示出本发明实施例四提供的添加自定义分词的方法的实现流程示意图。如图3所示,所述添加自定义分词的方法还包括如下步骤s401。
步骤s401:在可视化页面输入所述自定义分词录入表单中的内容,所述内容至少包括自定义分词。
为了便于用户在使用词语比较频繁的场景中及时有效地发现需要添加的自定义分词,可以是在可视化页面输入所述自定义分词录入表单中的内容。可视化页面所属的设备可以是任何带有显示屏的设备,例如手机、笔记本等。
本发明实施例提供的添加自定义分词的方法,通过在可视化页面输入所述自定义分词录入表单中的内容,只需要将整理好的自定义词从可视化的页面进行提交就生效了,进一步简化了操作。
实施例五
请参考图5,其示出了本发明实施例提供的添加自定义分词的装置的示意图。所述添加自定义分词的装置,包括:监听单元51,写入单元52。其中,各单元的具体功能如下:
监听单元51,用于监听自定义录入请求;所述自定义录入请求至少包括自定义分词录入表单,所述自定义分词录入表单至少包括自定义分词;
写入单元52,用于在监听到自定义录入请求时,通过自定义分词追加函数将所述自定义分词写入自定义分词库中。
可选地,所述添加自定义分词的装置还包括:
接收单元,用于接收所述自定义录入请求中的自定义分词录入表单;
处理单元,用于对自定义分词录入表单的自定义分词进行筛选与去重,获取不重复的自定义分词。
可选地,所述写入单元包括:
调用子单元,用于调用自定义分词追加函数,将所述不重复的自定义分词添加到自定义分词库中;
更新子单元,用于更新所述自定义分词库。
可选地,所述添加自定义分词的装置还包括:
输入单元,用于在可视化页面输入所述自定义分词录入表单中的内容,所述内容至少包括自定义分词。
本发明实施例提供的添加自定义分词的装置,通过监听自定义录入请求,在监听到自定义录入请求时,通过自定义分词追加函数将所述自定义分词写入自定义分词库中,新添加到自定义分词库中的词立即生效,因此无需重启服务器,节省了时间,提高了操作效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图6是本发明一实施例提供的终端设备的示意图。如图6所示,该实施例的终端设备6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62,例如添加自定义分词的方法程序。所述处理器60执行所述计算机程序62时实现上述各个添加自定义分词的方法实施例中的步骤,例如图1所示的步骤s101至s102。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各单元的功能,例如图5所示单元51至52的功能。
示例性的,所述计算机程序62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述终端设备6中的执行过程。例如,所述计算机程序62可以被分割成监听单元和写入单元,,各单元具体功能如下:
监听单元,用于监听自定义录入请求;所述自定义录入请求至少包括自定义分词录入表单,所述自定义分词录入表单至少包括自定义分词;
写入单元,用于在监听到自定义录入请求时,通过自定义分词追加函数将所述自定义分词写入自定义分词库中。
所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。