一种训练数据的处理方法及装置的制造方法_5

文档序号：9288422阅读：来源：国知局

实际特征空间的长度设定实际特征空间的特征序号；获取原始特征空间中预设的特征序号，建立所述原始特征空间中预设的特征序号与实际特征空间的特征序号的映射关系，得到全局索引。
[0152] 优选的，所述处理器401还可以用于，根据全局索引，将预置的稀疏逻辑回归模型转换为稠密逻辑回归模型；基于稠密逻辑回归模型，利用实际特征空间的训练数据进行模型迭代训练，得到迭代后的稠密逻辑回归模型。
[0153] 优选的，所述处理器401还可以用于，根据全局索引，将迭代后的稠密逻辑回归模型转换为对应的迭代后的稀疏逻辑回归模型；基于迭代后的稀疏逻辑回归模型对推广信息的点击率进行预估。
[0154] 由上述可知，本实施例提供的服务器中，通过全局索引，将原始特征空间的训练数据，映射到实际特征空间，其中实际特征空间是根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构，其后利用实际特征空间的训练数据进行模型训练；本发明实施例，通过全局索引将训练数据做一次映射，将稀疏的存储结构转换为稠密的存储结构，不仅大大的减少了存储空间的消耗，还提升了模型的网络传输速度和模型训练更新的速度。
[0155] 在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对训练数据的处理方法的详细描述，此处不再赘述。
[0156] 本发明实施例提供的所述训练数据的处理装置，譬如为计算机、平板电脑、具有触摸功能的手机等等，所述训练数据的处理装置与上文实施例中的训练数据的处理方法属于同一构思，在所述训练数据的处理装置上可以运行所述训练数据的处理方法实施例中提供的任一方法，其具体实现过程详见所述训练数据的处理方法实施例，此处不再赘述。
[0157] 需要说明的是，对本发明所述训练数据的处理方法而言，本领域普通测试人员可以理解实现本发明实施例所述训练数据的处理方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在终端的存储器中，并被该终端内的至少一个处理器执行，在执行过程中可包括如所述训练数据的处理方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器（ROM，ReadOnlyMemory)、随机存取记忆体（RAM，RandomAccessMemory)等。
[0158] 对本发明实施例的所述训练数据的处理装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。
[0159] 以上对本发明实施例所提供的一种训练数据的处理方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在【具体实施方式】及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。
【主权项】
1. 一种训练数据的处理方法，其特征在于，包括：获取训练数据，并确定所述训练数据的原始特征空间，所述原始特征空间为训练数据原始的特征数据存储结构；对所述原始特征空间进行扫描统计，并根据统计结果建立全局索引；根据所述全局索引将所述训练数据映射到实际特征空间，所述实际特征空间为根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构；利用实际特征空间的训练数据进行模型训练。2. 根据权利要求1所述的训练数据的处理方法，其特征在于，所述对所述原始特征空间进行扫描统计，并根据统计结果建立全局索引，包括：对所述原始特征空间进行扫描统计，以确定在原始特征空间内实际存储有特征数据的位置；根据所述位置构建实际特征空间；建立所述原始特征空间与所述实际特征空间的映射关系，得到全局索引。3. 根据权利要求2所述的训练数据的处理方法，其特征在于，所述根据所述位置构建实际特征空间，包括：统计所述位置的数量，并根据所述数量确定实际特征空间的长度；根据所述实际特征空间的长度设定实际特征空间的特征序号；所述建立所述原始特征空间与所述实际特征空间的映射关系，得到全局索引，包括：获取原始特征空间中预设的特征序号，建立所述原始特征空间中预设的特征序号与实际特征空间的特征序号的映射关系，得到全局索引。4. 根据权利要求1至3任一项所述的训练数据的处理方法，其特征在于，所述利用实际特征空间的训练数据进行模型训练，包括：根据所述全局索引，将预置的稀疏逻辑回归模型转换为稠密逻辑回归模型；基于所述稠密逻辑回归模型，利用实际特征空间的训练数据进行模型迭代训练，得到迭代后的稠密逻辑回归模型。5. 根据权利要求4所述的训练数据的处理方法，其特征在于，所述基于所述稠密逻辑回归模型，利用实际特征空间的训练数据进行模型迭代训练，得到迭代后的稠密逻辑回归模型之后，还包括：根据所述全局索引，将所述迭代后的稠密逻辑回归模型转换为对应的迭代后的稀疏逻辑回归模型；基于所述迭代后的稀疏逻辑回归模型对推广信息的点击率进行预估。6. -种训练数据的处理装置，其特征在于，包括：获取单元，用于获取训练数据，并确定所述训练数据的原始特征空间，所述原始特征空间为训练数据原始的特征数据存储结构；索引建立单元，用于对所述原始特征空间进行扫描统计，并根据统计结果建立全局索引；映射单元，用于根据所述全局索引将所述训练数据映射到实际特征空间，所述实际特征空间为根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构；训练单元，用于利用实际特征空间的训练数据进行模型训练。7. 根据权利要求6所述的训练数据的处理装置，其特征在于，所述索引建立单元包括：确定子单元，用于对所述原始特征空间进行扫描统计，以确定在原始特征空间内实际存储有特征数据的位置；构建子单元，用于根据所述位置构建实际特征空间；建立子单元，用于建立所述原始特征空间与所述实际特征空间的映射关系，得到全局索引。8. 根据权利要求7所述的训练数据的处理装置，其特征在于，所述构建子单元，具体用于统计所述位置的数量，并根据所述数量确定实际特征空间的长度，根据所述实际特征空间的长度设定实际特征空间的特征序号；所述建立子单元，具体用于获取原始特征空间中预设的特征序号，建立所述原始特征空间中预设的特征序号与实际特征空间的特征序号的映射关系，得到全局索引。9. 根据权利要求6至8任一项所述的训练数据的处理装置，其特征在于，所述训练单元，包括：转换子单元，用于根据所述全局索引，将预置的稀疏逻辑回归模型转换为稠密逻辑回归模型；模型训练子单元，用于基于所述稠密逻辑回归模型，利用实际特征空间的训练数据进行模型迭代训练，得到迭代后的稠密逻辑回归模型。10. 根据权利要求9所述的训练数据的处理装置，其特征在于，所述装置还包括：转换单元，用于根据所述全局索引，将所述迭代后的稠密逻辑回归模型转换为对应的迭代后的稀疏逻辑回归模型；点击率预估单元，用于基于所述迭代后的稀疏逻辑回归模型对推广信息的点击率进行预估。
【专利摘要】本发明公开了一种训练数据的处理方法及装置，其中该方法包括:获取训练数据，并确定训练数据的原始特征空间，原始特征空间为训练数据原始的特征数据存储结构；对原始特征空间进行扫描统计，并根据统计结果建立全局索引；根据全局索引将训练数据映射到实际特征空间，实际特征空间为根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构；利用实际特征空间的训练数据进行模型训练。本发明实施例通过全局索引将训练数据做一次映射，将稀疏的存储结构转换为稠密的存储结构，不仅大大的减少了存储空间的消耗，还提升了模型的网络传输速度和模型训练更新的速度。
【IPC分类】G06F17/30
【公开号】CN105005588
【申请号】CN201510362416
【发明人】李超
【申请人】深圳市腾讯计算机系统有限公司
【公开日】2015年10月28日
【申请日】2015年6月26日

完整全部详细技术资料下载

当前第5页1 2 3 4 5