1.本发明涉及机器学习技术领域,特别是涉及一种基于傅里叶变换的拉曼光谱曲线数据增强方法。
背景技术:2.在进行物质检测的时候,通常会使用各种物质检测方法,例如电子鼻法、色谱法、拉曼光谱检测法等。其中,拉曼光谱检测法作为一种非侵入检测手段,具有检测方便、测试速度快等优势,目前已经在生物医学、矿石分类等领域有了较为广泛的应用。研究者们使用不同波长的激光获取到待测样本的拉曼光谱,将采集到的拉曼光谱进行屏蔽背景荧光和归一化等操作后输入随机森林(rf)、支持向量机(svm)等简单机器学习模型进行分类,取得了较为不错的效果。在多数情况下,由于拉曼光谱获取难度和获取成本的问题,样本数量较少,与深度学习模型相结合后的效果一般,不能满足实际应用的需求。且拉曼光谱与机器学习方法相结合的分类模型无一例外,全部需要有标签的训练数据集来进行机器学习模型的分类训练,即有监督学习,对于人工数据标注来说是极大的工作量。
3.因此,传统的利用拉曼光谱曲线进行物质分类存在样本数据少、样本数据类型单一的问题。
技术实现要素:4.基于此,为了解决上述技术问题,提供一种基于傅里叶变换的拉曼光谱曲线数据增强方法,可以扩充现有拉曼光谱曲线数据集,提升机器学习模型分类效果。
5.一种基于傅里叶变换的拉曼光谱曲线数据增强方法,所述方法包括:
6.获取待处理拉曼光谱曲线,对所述待处理拉曼光谱曲线进行快速傅里叶变换,得到与所述待处理拉曼光谱曲线对应的拉曼光谱曲线频域图;
7.确定所述拉曼光谱曲线频域图中的两端极端频率曲线峰,并将所述极端频率曲线峰屏蔽,得到目标拉曼光谱曲线频域图;
8.获取屏蔽参考参数,根据所述屏蔽参考参数确定频域掩模起始位置与宽度,根据所述频域掩模起始位置与宽度对所述目标拉曼光谱曲线频域图执行频域屏蔽操作,并判断所述频域屏蔽操作是否合法;
9.当所述频域屏蔽操作合法时,对所述目标拉曼光谱曲线频域图进行逆傅里叶变换,得到数据增强的拉曼光谱曲线。
10.在其中一个实施例中,所述获取待处理拉曼光谱曲线,包括:
11.基于拉曼光谱仪器ccd相机获取到待测样品的拉曼光谱;
12.根据所述拉曼光谱计算得到所述待处理拉曼光谱曲线。
13.在其中一个实施例中,所述根据所述拉曼光谱计算得到所述待处理拉曼光谱曲线,包括:
14.将所述拉曼光谱中同波长的散射光子数量按照同纵向一列累加求和,得到所述待
处理拉曼光谱曲线。
15.在其中一个实施例中,所述确定所述拉曼光谱曲线频域图中的两端极端频率曲线峰,并将所述极端频率曲线峰屏蔽,得到目标拉曼光谱曲线频域图,包括:
16.查找所述拉曼光谱曲线频域图中两端的异常坐标点作为极端频率曲线峰;
17.屏蔽两端指定数量的所述异常坐标点,得到目标拉曼光谱曲线频域图。
18.在其中一个实施例中,所述获取屏蔽参考参数,根据所述屏蔽参考参数确定频域掩模起始位置与宽度,根据所述频域掩模起始位置与宽度对所述目标拉曼光谱曲线频域图执行频域屏蔽操作,并判断所述频域屏蔽操作是否合法,包括:
19.获取屏蔽参考参数,通过所述屏蔽参考参数的均匀分布中得到随机的频域掩模宽度,并确定频域掩模起始位置;
20.根据所述频域掩模宽度以及所述频域掩模起始位置,在所述目标拉曼光谱曲线频域图中生成屏蔽矩形框执行频域屏蔽操作;
21.计算所述屏蔽矩形框中的频域图点数量,当所述频域图点数量大于或等于所述屏蔽参考参数中的数量阈值时,对所述目标拉曼光谱曲线频域图执行的频域屏蔽操作合法。
22.在其中一个实施例中,所述确定频域掩模起始位置,包括:
23.获取所述目标拉曼光谱曲线频域图的最小值以及最大值;
24.计算所述最大值与所述频域掩模宽度之间的差值;
25.根据所述最小值与所述差值建立坐标区间,并将所述坐标区间内的随机数作为所述频域掩模起始位置。
26.在其中一个实施例中,所述屏蔽矩形框的长度为所述待处理拉曼光谱曲线的长度;宽度为所述频域掩模宽度;起始位置为所述频域掩模起始位置。
27.在其中一个实施例中,所述屏蔽参考参数包括每个频域掩模屏蔽的最少点数量、屏蔽操作次数、频域掩模的最大宽度。
28.上述基于傅里叶变换的拉曼光谱曲线数据增强方法,通过获取待处理拉曼光谱曲线,对所述待处理拉曼光谱曲线进行快速傅里叶变换,得到与所述待处理拉曼光谱曲线对应的拉曼光谱曲线频域图;确定所述拉曼光谱曲线频域图中的两端极端频率曲线峰,并将所述极端频率曲线峰屏蔽,得到目标拉曼光谱曲线频域图;获取屏蔽参考参数,根据所述屏蔽参考参数确定频域掩模起始位置与宽度,根据所述频域掩模起始位置与宽度对所述目标拉曼光谱曲线频域图执行频域屏蔽操作,并判断所述频域屏蔽操作是否合法;当对所述目标拉曼光谱曲线频域图执行的频域屏蔽操作合法时,对所述目标拉曼光谱曲线频域图进行逆傅里叶变换,得到数据增强的拉曼光谱曲线。通过利用快速傅里叶变换获得的拉曼光谱曲线对应的频域图进行屏蔽操作,尽可能的保留原有拉曼光谱曲线数据的基本框架,在部分频率点进行轻微扰动,以达到合理数据扩充的目的,使其能够在一定程度上满足无监督的机器学习模型训练的需求,对拉曼光谱曲线进行合理的数据增强与扩充,提升机器学习模型分类效果。
附图说明
29.图1为一个实施例中基于傅里叶变换的拉曼光谱曲线数据增强方法的流程示意图;
30.图2为一个实施例中屏蔽拉曼光谱曲线频域图中两端极端频率曲线峰示意图;
31.图3为一个实施例中对拉曼光谱曲线频域图执行屏蔽操作并判断合法性的流程图;
32.图4为一个实施例中确定频域掩模的示意图。
具体实施方式
33.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
34.在一个实施例中,如图1所示,提供了一种基于傅里叶变换的拉曼光谱曲线数据增强方法,包括以下步骤:
35.步骤102,获取待处理拉曼光谱曲线,对待处理拉曼光谱曲线进行快速傅里叶变换,得到与待处理拉曼光谱曲线对应的拉曼光谱曲线频域图。
36.其中,获取到的待处理拉曼光谱曲线可以是未经过处理的拉曼光谱曲线。例如,需要检测的样品为白酒时,获取到的待处理拉曼光谱曲线可以是白酒的拉曼光谱计算得到的拉曼光谱曲线。
37.通过对待处理拉曼光谱曲线进行快速傅里叶变换fft处理,可以得到对应的拉曼光谱曲线频域图。
38.步骤104,确定拉曼光谱曲线频域图中的两端极端频率曲线峰,并将极端频率曲线峰屏蔽,得到目标拉曼光谱曲线频域图。
39.拉曼光谱曲线频域图中的两端存在有极端异常大的曲线坐标点,即极端频率曲线峰。通过将极端频率曲线峰屏蔽,使其无法参与后续的处理,得到目标拉曼光谱曲线频域图。
40.步骤106,获取屏蔽参考参数,根据屏蔽参考参数确定频域掩模起始位置与宽度,根据频域掩模起始位置与宽度对目标拉曼光谱曲线频域图执行频域屏蔽操作,并判断频域屏蔽操作是否合法。
41.屏蔽参考参数可以是预先给定的变量,用于确定频域掩模起始位置和频域掩模的宽度,从而对目标拉曼光谱曲线频域图执行频域屏蔽操作,并判断频域屏蔽操作的合法性。
42.步骤108,当对目标拉曼光谱曲线频域图执行的频域屏蔽操作合法时,对目标拉曼光谱曲线频域图进行逆傅里叶变换,得到数据增强的拉曼光谱曲线。
43.在本实施例中,通过获取待处理拉曼光谱曲线,对待处理拉曼光谱曲线进行快速傅里叶变换,得到与待处理拉曼光谱曲线对应的拉曼光谱曲线频域图;确定拉曼光谱曲线频域图中的两端极端频率曲线峰,并将极端频率曲线峰屏蔽,得到目标拉曼光谱曲线频域图;获取屏蔽参考参数,根据屏蔽参考参数确定频域掩模起始位置与宽度,根据频域掩模起始位置与宽度对目标拉曼光谱曲线频域图执行频域屏蔽操作,并判断频域屏蔽操作是否合法;当对目标拉曼光谱曲线频域图执行的频域屏蔽操作合法时,对目标拉曼光谱曲线频域图进行逆傅里叶变换,得到数据增强的拉曼光谱曲线。通过利用快速傅里叶变换获得的拉曼光谱曲线对应的频域图进行屏蔽操作,尽可能的保留原有拉曼光谱曲线数据的基本框架,在部分频率点进行轻微扰动,以达到合理数据扩充的目的,使其能够在一定程度上满足
无监督的机器学习模型训练的需求,对拉曼光谱曲线进行合理的数据增强与扩充,提升机器学习模型分类效果。
44.在一个实施例中,提供的一种基于傅里叶变换的拉曼光谱曲线数据增强方法还可以包括获取拉曼光谱曲线的过程,具体过程包括:基于拉曼光谱仪器ccd相机获取到待测样品的拉曼光谱;根据拉曼光谱计算得到待处理拉曼光谱曲线。
45.在另一个实施例中,提供的一种基于傅里叶变换的拉曼光谱曲线数据增强方法还包括求和得到曲线的过程,具体过程包括:将拉曼光谱中同波长的散射光子数量按照同纵向一列累加求和,得到待处理拉曼光谱曲线。
46.获取到的未经处理的原始拉曼光谱曲线是将原始光谱图像中同波长的散射光子数量累加得到,即将ccd相机拍摄到的拉曼光谱图按照同纵向一列累加求和得到对应的待处理拉曼光谱曲线。
47.在一个实施例中,提供的一种基于傅里叶变换的拉曼光谱曲线数据增强方法还包括得到频域图的过程,具体过程包括:查找拉曼光谱曲线频域图中两端的异常坐标点作为极端频率曲线峰;屏蔽两端指定数量的异常坐标点,得到目标拉曼光谱曲线频域图。
48.将获得的拉曼光谱曲线频域图中两端的极端异常大的曲线坐标点屏蔽,使其无法参与后续的处理步骤。其中,在拉曼光谱曲线频域图的左端和右端各屏蔽5个点,既可以满足消除拉曼光谱曲线频域图中极端异常尖刺的需求,又不会过度影响拉曼光谱曲线频域图中的原有信息。如图2所示,左侧图中位于拉曼光谱曲线频域图两端的矩形框表示待屏蔽的区域,右侧图表示完成屏蔽拉曼光谱曲线频域图中两端极端频率曲线峰操作后绘制的拉曼光谱曲线频域图,可以看出该操作极大的削弱了拉曼光谱曲线频域图中存在的极端异常尖刺。
49.在一个实施例中,提供的一种基于傅里叶变换的拉曼光谱曲线数据增强方法还可以包括判断对目标拉曼光谱曲线频域图执行的频域屏蔽操作是否合法的过程,具体过程包括:获取屏蔽参考参数,通过屏蔽参考参数的均匀分布中得到随机的频域掩模宽度,并确定频域掩模起始位置;根据频域掩模宽度以及频域掩模起始位置,在拉曼光谱曲线频域图中生成屏蔽矩形框执行频域屏蔽操作;计算屏蔽矩形框中的频域图点数量,当频域图点数量大于或等于屏蔽参考参数中的数量阈值时,对目标拉曼光谱曲线频域图执行的频域屏蔽操作合法。
50.如图3所示,在判断对目标拉曼光谱曲线频域图执行的频域屏蔽操作是否合法前,需要先确定频域掩模宽度f;再确定频域掩模起始位置,具体为起始y轴坐标f0;确定好的频域掩模为覆盖在拉曼光谱曲线频域图上的大小与位置确定的矩形框,将该框内部的拉曼光谱曲线频域图点置零即可完成频域屏蔽操作,进而判断频域屏蔽操作合法性。当得到的判断结果表明对目标拉曼光谱曲线频域图执行的频域屏蔽操作不合法时,可以重新进行判断。
51.其中,最大值可以是预先给定的变量值,通过一个一个最小值为0,最大值为frequency_masking_width的均匀分布中得到随机的频域掩模宽度f,即f∈u[0,frequency_masking_width]。
[0052]
使用预先给定的参数masked_point_num判断屏蔽操作的合法性时,可以通过屏蔽矩形框中屏蔽的频域图点数量来判断,频域图点数量大于或等于masked_point_num,即合
法;若屏蔽矩形框中屏蔽的频域图点数量小于masked_point_num,即不合法,则重新计算频域掩模宽度和频域掩模起始位置,再次判断。
[0053]
在一个实施例中,提供的一种基于傅里叶变换的拉曼光谱曲线数据增强方法还可以包括确定频域掩模起始位置的过程,具体过程包括:获取拉曼光谱曲线频域图的最小值以及最大值;计算最大值与频域掩模宽度之间的差值;根据最小值与差值建立坐标区间,并将坐标区间内的随机数作为频域掩模起始位置。
[0054]
确定频域掩模的起始y轴坐标位置时,频域掩模起始y轴坐标f0是[abs_fft_curve_min,abs_fft_curve_max]区间内的随机数,其中,abs_fft_curve_min为完成端点屏蔽后拉曼光谱曲线频域图的最小值,abs_fft_curve_max为完成端点屏蔽后拉曼光谱曲线频域图的最大值curve_max_after_mask与确定的频域掩模宽度f的差,即abs_fft_curve_max=curve_max_after_mask-f。
[0055]
接着,可以使用确定好的频域掩模对完成端点屏蔽后拉曼光谱曲线频域图执行掩模屏蔽操作。
[0056]
在一个实施例中,屏蔽矩形框的长度为待处理拉曼光谱曲线的长度;宽度为频域掩模宽度;起始位置为频域掩模起始位置。
[0057]
如图4所示,确定好的频域掩模为覆盖在拉曼光谱曲线频域图上的大小与位置确定的矩形框,该矩形长为获取到的待处理拉曼光谱曲线,矩形宽为频域掩模宽度f,矩形长边起始位置为y轴坐标f0。
[0058]
在一个实施例中,屏蔽参考参数包括每个频域掩模屏蔽的最少点数量、屏蔽操作次数、频域掩模的最大宽度。即执行屏蔽操作与合法性判断操作的预先改定参数可以包括masked_point_num(默认为1),frequency_mask_num(默认为1)和frequency_masking_width(默认为200)。其中:masked_point_num表示每个频域掩模至少应该屏蔽的拉曼光谱曲线频域图中点的数量;frequency_mask_num表示对每个拉曼光谱曲线频域图进行频域屏蔽操作的次数;frequency_masking_width表示每个频域掩模的最大宽度。
[0059]
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0060]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0061]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。