一种基于Spark框架进行全文检索的实现方法与流程

文档序号：14249570阅读：来源：国知局

技术特征：

技术总结
本发明公开了一种基于Spark框架进行全文检索的实现方法，属于大数据处理领域。该方法首先接收待执行SQL语句，生成语法树并转换成相应的逻辑计划；然后，从Hive中获取检索所有表的元数据，寻找支持全文检索的字段，并通过字段哈希索引对数据块进行初步裁剪；继而，根据查询条件从文件元数据中获取数据块所具体存放的磁盘位置；最后，将逻辑执行计划转换为可分布式执行的任务集合，通过各个数据块位置来确定任务具体执行的目标节点和任务所具体执行的目标进程；对任务进行分发执行，并汇总执行结果，迭代获取最终结果。该方法具有较高的效率，可以快速的完成海量数据的全文检索，在大数据处理领域具有很强的实用性和应用范围，具有很广泛的应用前景。

技术研发人员：强倩;孙昊良;张慧琳;周渊;张晨;李斌斌;刘庆良
受保护的技术使用者：北京赛思信安技术股份有限公司;国家计算机网络与信息安全管理中心
技术研发日：2017.11.24
技术公布日：2018.04.20

完整全部详细技术资料下载

当前第2页1 2