本发明涉及对由光谱分析装置等各种分析装置收集到的数据进行处理的分析数据处理方法和分析数据处理装置,该光谱分析装置例如为液相色谱仪、气相色谱仪、红外光谱仪、荧光x射线分析装置等。
背景技术:
1、在将液相色谱仪或气相色谱仪等成分分离装置与检测器组合而成的色谱仪中,在按时间顺序分离试样中包含的多种成分后利用检测器来测定该成分,由此得到由表示某个时间(保持时间)的信号强度的点数据的集合构成的分析数据(色谱数据)。另外,在使用质谱仪(ms)来作为检测器的色谱质谱仪(lc/ms、gc/ms等)中,在按时间顺序分离试样中包含的成分之后,利用质谱仪来测定各成分,由此能够获取由表示某个质荷比m/z下的信号强度的点数据的集合构成的分析数据(色谱数据、质谱数据)。
2、并且,在红外光谱仪、荧光x射线分析装置等光谱分析装置中,利用检测器来测定通过对作为试样的物质照射规定波长范围的光而从该物质放射出的光,由此得到由表示某个波长(波数)或能量下的信号强度的点数据的集合构成的分析数据(光谱数据)。构成这些分析数据的点数据的数量与分析装置所具备的检测器的通道的数量相当。
3、在任意的分析装置中都能够根据分析数据生成将以时间、质荷比(m/z)、波长或能量作为横轴且将检测器的通道的输出(信号强度值)作为纵轴的曲线图(色谱、质谱、光谱)。在这些曲线图中,在与试样中包含的成分的种类相应的位置(保持时间、波长/能量、质荷比m/z)出现峰值。因而,通过对关于试样得到的分析数据进行解析,能够识别该试样的种类、该试样所属的组等。
4、当将想要根据由分析装置收集到的分析数据进行调查的内容、也就是对分析数据进行解析的目的设为变量(目的变量)y、将检测器的各通道的输出设为变量(说明变量)x1、x2、x3……时,能够使用变量x1、x2、x3……来表示变量y。变量x1、x2、x3……为彼此独立的变量,因此在统计学上,能够将上述分析数据作为具有与变量x1、x2、x3……的数量相应的维度的多维数据来进行处理。
5、在关于由多种化合物的混合物构成的试样得到的分析数据的情况下,在曲线图中出现多个峰值,但关于全部的峰值对其位置、大小进行解析的操作的效率差。通过着眼于特定的峰值,能够实现操作的高效化,但难以判断应该着眼于哪个峰值。因此,作为解决这样的问题的解析方法,利用主成分分析(principal component analysis:pca,非专利文献1)、非负矩阵分解(nonnegative matrix factorization:nmf,非专利文献2)、聚类分析等多变量解析。
6、在多变量解析中,在关于多组试样得到的分析数据之间,将曲线图中出现的峰值的位置、峰值形状进行比较,基于该结果从分析数据中删除不需要的点数据或者进行合并,由此将分析数据映射成低维度。之后,通过回归分析、判别分析的方法对被映射成低维度的分析数据进行模型化。
7、在说明变量的数量少的二维数据、三维数据等相对简单的数据的情况下,应用线性回归分析、线性判别分析的方法。另一方面,在如利用分析装置得到的分析数据这样的多维数据的情况下,难以应用线性回归、线性判别的分析方法,应用基于神经网络、支持向量机(svm)等学习机器的非线性回归分析、非线性判别分析的方法。
8、在pca、nmf中,在将分析数据模型化时,以能够将信号强度发生变动的维度全部进行反映的方式映射为低维度。
9、例如,在基于荧光x射线分析装置的检测结果来判别塑料的种类的情况下,预先关于塑料的种类已知的多个组获取光谱数据,在这多个组的数据间进行多变量解析。光谱中除了包含由作为塑料的基础的材料产生的峰值以外,还包含由涂料、增塑剂/阻燃剂等添加物产生的峰值。一般来讲,当塑料的种类不同时添加物的种类也不同,因此在多个组的数据间发生变动的不仅有由基础材料产生的峰值,也有由添加物产生的峰值。因而,在该情况下,以能够再现由基础材料产生的峰值和由添加物产生的峰值这两者的方式将分析数据映射为低维度。
10、另外,例如在使用关于健康者组的生物体样本得到的质谱数据和关于癌症患者组的生物体样本得到的质谱数据来进行多变量解析以探索癌症患者的病理标志物的情况下,有时由作为病理标志物的成分以外的成分产生的峰值发生变动。这是因为大多数癌症患者具有共同的生活习惯(吸烟、饮酒等),在健康者组与癌症患者组的数据间,由因该生活习惯引起的成分产生的峰值也存在差异。因而,在该情况下,以使由作为癌症患者的病理标志物的成分产生的峰值和由因生活习惯引起的成分产生的峰值也能够再现的方式将分析数据映射为低维度。
11、非专利文献1:“利用多变量解析(主成分分析)的色谱数据解析”,株式会社岛津制作所hp,[平成28年7月25日检索],网址<url:http://www.an.shimadzu.co.jp/hplc/support/lib/lctalk/82/82tec.htm>
12、非专利文献2:ngoc-diep ho,“nonnegative matrix factorizationalgorithmsand applications”网址<url:https://www.researchgate.net/profile/ngoc_diep_ho/publication/262258846_no nnegative_matrix_factorization_algorithms_and_applications/links/02e7e537226cb7e59b000000.pdf>
13、非专利文献3:tomoo aoyama and hiroshi ichikawa,“obtaining thecorrelation indices between drug activity and structural parameters using aneural networl”,chem.pharm.bull.39(2)372-378,(1991)
14、非专利文献4:karen simonyan et al.,“deep inside convolutionalnetworks:visualising image classification models and saliency maps”,网址<url:http://arxiv.org/pdf/1312.6034v2.pdf>
技术实现思路
1、发明要解决的问题
2、当如上述那样将被映射为低维度后的分析数据输入神经网络、svm等学习机器中并使用非线性回归分析、非线性判别分析的方法进行模型化时,发生如下的问题。
3、上述的由添加物产生的峰值、由因生活习惯引起的成分产生的峰值不表示塑料的种类、癌症患者的特征,峰值的大小与塑料的种类或者是否为癌症患者(疾病的状态)之间不存在因果关系。也就是说,两者之间本来就没有相关性,即使发现了相关性也是假的相关性(伪相关性)。因此,在将关于塑料的种类、疾病的状态已知的多个试样得到的分析数据作为用于进行模型化的学习数据的情况下,即使在该学习数据中在由添加物产生的峰值与塑料的种类之间发现相关性、或者在由因生活习惯引起的成分产生的峰值与疾病的状态之间发现了相关性,在解析对象的分析数据中也未必发现同样的相关性。其结果是,成为与学习数据相同的方法不适于解析对象的分析数据的所谓的过拟合状态。
4、为了防止过拟合,需要将多种参数的分析数据作为学习数据来进行非线性回归分析、非线性判别分析使得由示出伪相关性的成分产生的峰值成为不会变为随机噪声的存在而能被忽略,因此需要准备大量的试样,并不现实。
5、本发明要解决的课题在于,在基于由分析装置关于多个试样收集到的多维数据、即分析数据,利用使用统计机器学习的解析方法对所述分析数据进行处理时,留下所述分析数据中包含的表示试样的特征的维度并且排除噪声。
6、用于解决问题的方案
7、一般来讲,对回归分析或判别分析有贡献的维度与回归分析或判别分析中使用的函数的输出值的相关性高,因此考虑在分析中仅利用相关性高的维度,删除相关性不高的维度。当然,由于完全不具有相关性的维度为噪声的可能性高,因此将其删除。
8、在线性回归分析、线性判别分析中,能够通过计算来求出相关系数,但在基于神经网络、支持向量机等机器学习利用非线性函数进行的回归分析、判别分析中,无法求出相关系数。其中,在利用神经网络的回归/判别分析中,能够使用偏微分法来计算输入的各维度相对于输出的贡献度(非专利文献4)。此外,在非专利文献4中记载了在基于神经网络的非线性回归/判别分析中使用s形函数(sigmoid function),但不限于s形函数,作为利用神经网络的学习法,一般为梯度法,因此能够计算回归函数或判别函数的各数据点的偏微分(或二阶偏微分)。另外,在基于利用支持向量机的机器学习进行的回归/判别分析中也是,只要为输入和输出均取连续的值的机器学习方法,就能够同样地计算偏微分值、或者计算使输入微小地变化的情况下的差来作为与偏微分相当的值。如果能够计算分析数据的各数据点的偏微分值或与其相当的值,则能够根据该值来计算贡献度。
9、因此,本发明为一种对分析数据进行处理方法,该分析数据是由分析装置关于多个试样中的各个试样收集到的、由该分析装置所具备的多通道检测器的多个通道的输出值构成的多维的分析数据,在该方法中,通过对该分析数据应用使用统计机器学习的解析方法来对该分析数据进行处理,所述方法的特征在于,
10、计算表示关于已知试样得到的分析数据的非线性回归函数或非线性判别函数,
11、根据计算出的所述非线性回归函数或非线性判别函数的微分值,来计算构成所述已知试样的分析数据的多个通道的输出值各自的对于该非线性回归函数或所述非线性判别函数的贡献度,
12、基于该贡献度,从所述检测器的多个通道中决定在关于未知试样得到的分析数据的处理中使用的通道。
13、在上述分析数据处理方法中,分析装置只要具备多通道检测器即可,可以为任何分析装置,作为代表性的分析装置,列举质谱仪、液相色谱仪、气相色谱仪、红外光谱仪、荧光x射线分析装置等光谱分析装置。
14、另外,已知试样是指成分已知的试样,如塑料的种类已知的试样、是癌症患者还是健康者这样的所属的组已知的试样等。反之,未知试样是指所含成分未知的试样、所属的组为未知的试样。
15、在统计机器学习中能够使用神经网络、支持向量机等学习机器。
16、利用表示检测器的各通道的输出值的变量(说明变量)对回归函数或判别函数进行偏微分,由此能够计算表示已知试样的分析数据的非线性回归函数或非线性判别函数的微分值,但为了减少计算所花费的时间,也可以选取分析数据的一部分数据、或者对分析数据进行聚类分析来用各个类的代表点进行代替、或者对根据经验求出的标准的数据模式求出微分值。
17、在上述分析数据处理方法中,能够根据经验设定基于贡献度来决定通道的基准。作为代表性的基准,例如列举按照贡献度从高到低的顺序选择前n个通道的方法。
18、在该情况下,以不产生过拟合的方式决定所选择的通道的数量n为宜。
19、过拟合状态是指该回归函数或判别函数与求出回归函数或判别函数时使用的分析数据本身拟合但不与除此以外的分析数据拟合的状态。例如,将成分已知的分析数据分为用于求出回归函数或判别函数的学习数据以及用于验证关于学习数据得到的回归函数或判别函数的测试数据,求出将关于学习数据得到的回归函数或判别函数应用于学习数据本身的情况下的匹配率和将所述回归函数或判别函数应用于测试数据的情况下的匹配率,两者之差越大,则判断为越处于过拟合状态。
20、根据以上内容,在上述分析数据处理方法中,优选的是,将关于已知试样得到的分析数据分为学习数据和测试数据,使用学习数据临时决定在关于未知试样得到的分析数据的处理中使用的通道,在使用所述临时决定的通道对所述学习数据和所述测试数据进行处理时该学习数据的匹配率与该测试数据的匹配率之差处于规定范围内时,将所述临时决定的通道正式地决定为在关于未知试样得到的分析数据的处理中使用的通道。
21、另外,在上述分析数据处理方法中,优选的是,根据检测器的各通道的贡献度,对构成已知试样的分析数据的多个通道的每个通道进行加权,
22、针对加权后的多个通道再次计算贡献度,重复地更新权重。基于该权重或贡献度来决定在关于未知试样得到的分析数据的处理中使用的通道。
23、关于加权,优选强调贡献度这样的处理,也就是使大的贡献度变得更大这样的处理,例如列举对贡献度进行乘方、取贡献度的对数之类的处理。另外,也可以根据试样的种类、分析装置的种类等,通过实验求出权重的大小。在像这样进行加权的情况下、根据贡献度来直接决定通道的情况下,也可以通过对利用所决定的通道的输出值得到的机器学习结果再次重复进行同样的通道决定,来阶段性地减少通道的数量。
24、此外,在基于进行加权之前的贡献度来决定通道的情况下、基于进行加权之后的贡献度来决定通道的情况下都是,在机器学习的结果取决于成为机器学习对象的系数的初始值的情况下,贡献度也受到该初始值的影响。因而,在这样的情况下,可以求出针对多次执行机器学习所得的结果得到的多个贡献度或者与贡献度对应的权重的最小值、最大值、平均值并用于决定通道。执行多次的结果是,将被决定为要使用的通道的次数作为基准来决定正式使用的通道。
25、另外,本发明的其它方式为一种装置,通过对由分析装置关于多个试样中的各个试样分别收集到的、由该分析装置所具备的多通道检测器的多个通道的输出值构成的多维的分析数据应用使用统计机器学习的解析方法,来对该分析数据进行处理,所述装置的特征在于,具备:
26、a)函数计算部,其计算表示关于已知试样得到的分析数据的非线性回归函数或非线性判别函数;
27、b)贡献度计算部,其根据由所述函数计算部计算出的非线性回归函数或非线性判别函数的微分值,来计算构成所述已知试样的分析数据的多个通道的输出值各自的对于所述非线性回归函数或所述非线性判别函数的贡献度;以及
28、c)通道决定部,其基于所述贡献度,从所述检测器的多个通道中决定在关于未知试样得到的分析数据的处理中使用的通道。
29、发明的效果
30、根据本发明所涉及的分析数据处理方法和分析数据处理装置,能够排除分析数据中包含的多个通道的输出值中的成为噪声的通道的输出值,且能够使用对回归分析/判别分析有贡献的通道的输出值、即表示试样的特征的通道的输出值对未知试样的分析数据进行解析。