• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 9
    • 下载费用:30 金币  

    重庆时时彩实战选号: 污染物定量结构活性相关模型结构描述符筛选终止的方法.pdf

    关 键 词:
    污染物 定量 结构 活性 相关 模型 描述 筛选 终止 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201110110058.8

    申请日:

    2011.04.29

    公开号:

    CN102156791A

    公开日:

    2011.08.17

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/50申请日:20110429|||公开
    IPC分类号: G06F17/50 主分类号: G06F17/50
    申请人: 南京大学
    发明人: 张爱茜; 易忠胜; 穆云松; 蔺远; 高常安; 李富华
    地址: 210093 江苏省南京市鼓楼区汉口路22号
    优先权:
    专利代理机构: 南京知识律师事务所 32207 代理人: 蒋海军
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201110110058.8

    授权公告号:

    102156791B||||||

    法律状态公告日:

    2012.10.17|||2011.09.28|||2011.08.17

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了污染物定量结构活性相关模型结构描述符筛选终止的方法。本发明将交叉验证相关系数q2和模型修正相关系数R2adj进行整合;对某一变量子集建立统计模型,获得观测值与模型估计值之间的相关系数r2、修正相关系数R2adj;对上述过程中的变量子集进行交叉验证,获得模型的交叉验证相关系数q2,所用的交叉验证方法有两种:留一法交互验证和留多法交互验证;根据上述过程得到的统计参数构造新参数QRadj;对同一系统新参数QRadj的数值越大,说明模型的稳定性越高,预测能力越强。本发明中的新标准QRadj不仅能够保证所获模型具有较高的交叉验证相关系数q2,而且可以避免过拟合现象的出现,杜绝筛选出低r2值高q2值的QSAR模型变量组合,科学描述模型的稳定性和预测能力。

    权利要求书

    1.污染物定量结构活性相关模型结构描述符筛选终止的方法,包括以下步骤:(1)将交叉验证相关系数q2和模型修正相关系数R2adj进行整合,提供污染物定量结构活性相关模型结构描述符筛选终止的方法;(2)对某一变量子集建立统计模型,获得观测值与模型估计值之间的相关系数r2、修正相关系数R2adj,各参数的计算公式如下:其中,yi为第i个观测值,为第i个观测值的模型估计值,为观测值的平均值,n为模型的样本数,m为模型的变量数;(3)对(2)中的变量子集进行交叉验证,获得模型的交叉验证相关系数q2,所用的交叉验证方法有两种类型:留一法交互验证(Leave-One-Out?Cross?Validation,?LOOCV)和留多法交互验证(Leave-Multiple-Out?Cross?Validation,?LMOCV),各参数的计算公式如下:其中为模型进行LOOCV的相关系数,为模型进行LMOCV的相关系数,?N为模型进行LMOCV的重复次数,为模型进行LOOCV时的模型对第i样本的预测值,为模型进行LMOCV时的模型对第i样本的预测值,除了特别说明,LMOCV和LOOCV的统计参数都采用相同的符号;(4)根据(2)和(3)得到的统计参数构造新参数QRadj,计算公式如下:;(5)对同一系统新参数QRadj的数值越大,说明模型的稳定性越高,预测能力越强。2.根据权利要求1中所述的污染物定量结构活性相关模型结构描述符筛选终止的方法,其特征在于将交叉验证相关系数q2和模型修正相关系数R2adj进行整合构建新标准,新参数QRadj不仅能够保证所获模型具有较高的交叉验证相关系数q2,而且可以避免过拟合现象的出现,杜绝筛选出低r2值高q2值的QSAR模型变量组合,科学描述模型的稳定性和预测能力。3.根据权利要求1中所述的污染物定量结构活性相关模型结构描述符筛选终止的方法,其特征在于步骤(1)中将交叉验证相关系数q2和模型修正相关系数R2adj进行整合,提供污染物定量结构活性相关模型结构描述符筛选终止的方法。4.根据权利要求1中所述的污染物定量结构活性相关模型结构描述符筛选终止的方法,其特征在于步骤(2)中观测值与模型估计值之间的相关系数r2、修正相关系数R2adj由以下计算公式获得:其中,yi为第i个观测值,为第i个观测值的模型估计值,为观测值的平均值,n为模型的样本数,m为模型的变量数。5.根据权利要求1中所述的污染物定量结构活性相关模型结构描述符筛选终止的方法,其特征在于步骤(3)中由LOOCV或LMOCV进行模型内部验证,获得交叉验证相关系数q2。6.根据权利要求1中所述的污染物定量结构活性相关模型结构描述符筛选终止的方法,其特征在于步骤(3)中交叉验证相关系数q2由以下计算公式获得:其中为模型进行LOOCV的相关系数,为模型进行LMOCV的相关系数,?N为模型进行LMOCV的重复次数,为模型进行LOOCV时的模型对第i样本的预测值,为模型进行LMOCV时的模型对第i样本的预测值,除了特别说明,LMOCV和LOOCV的统计参数都采用相同的符号。7.根据权利要求1中所述的污染物定量结构活性相关模型结构描述符筛选终止的方法,其特征在于步骤(4)中新参数QRadj由交叉验证相关系数q2和模型修正相关系数R2adj的乘积表达,一方面保证所获描述符子集构建的QSAR模型具有较高的交叉验证相关系数q2,另一方面避免筛选出低r2值高q2值的QSAR模型变量组合,科学描述模型的稳定性和预测能力,计算公式如下:。8.根据权利要求1中所述的污染物定量结构活性相关模型结构描述符筛选终止的方法,其特征在于步骤(5)中新参数QRadj的数值越大,说明QSAR模型的稳定性越高,预测能力越强,目前QSAR研究采用交互验证的相关系数为模型结构描述符筛选终止标准,但是高q2仅仅是模型预测性能的必要非充分条件,单独使用q2并不能说明模型的稳定性和预测能力,本发明通过QRadj最大化,达到q2和R2adj的平衡,实现模型的拟合与预测能力的平衡。9.根据权利要求1~8中任一项所述的污染物定量结构活性相关模型结构描述符筛选终止的方法,其特征在于采用交互验证相关系数q2和模型修正相关系数R2adj对QSAR模型优劣进行合理判断。

    说明书

    污染物定量结构活性相关模型结构描述符筛选终止的方法

    技术领域

    本发明涉及污染物定量结构活性相关模型结构描述符筛选终止的方法,即在建立定量结构活性相关模型时,采用交叉验证的方法对模型进行内部样本验证,构建交叉验证相关系数q2和模型修正相关系数R2adj的乘积QRadj作为模型结构描述符筛选的终止表征,用以描述模型的稳定性和预测能力,判断模型预测性能的优劣。

    背景技术

    污染物的定量结构活性相关(Quantitative?Structure?and?Activity?Relationship,QSAR)模型已经被广泛应用于成为污染物环境生态风险评价和人体健康风险评价中(王连生,韩朔睽.?有机污染物的定量结构-活性相关.?1993,北京:中国环境科学出版社)。随着QSAR研究的深入,分子结构表征技术已经越来越成熟,开发的分子结构描述符越来越多(Todeschini?R.,?Consonni?V.?Molecular?Descriptors?for?Chemoinformatics.?New?York:?Wiley?VCH,?2009.)。然而结构描述符之间因为计算原理不一致,相互之间包含的信息重叠相当严重,导致严重的共线性关系。虽然通过变量的预筛选可去除大量的冗余信息和部分共线性变量,但是描述符的数量还是太多。奥卡姆剃刀原则要求模型应该尽可能简单的原则,一般模型参数越多模型越复杂,过拟合的可能性越大,即QSAR模型的结构描述符不能太多(Bell?D.,?Wang?H.?A?Formalism?for?Relevance?and?Its?Application?in?Feature?Subset?Selection.?Machine?Learning,?2000,?41(2),?175-195.?Wolpert?D.?The?Relationship?between?Occam’s?Razor?and?Convergent?Guessing.?Complex?systems,?1990,?4(2),?319-368.)。同时研究结果表明随着模型复杂程度的增加,过拟合的概率和模型预测误差随之增大(Brown?S.,?Tauler?R.,?Walczak?B.?Comprehensive?Chemometrics:?Chemical?and?Biochemical?Data?Analysis.?Elsevier?Amsterdam,?2009.)。González等和Tsygankova等曾分析评价了QSAR研究中的变量筛选方法,不可否认,污染物QSAR结构描述符筛选面临全回归方法可获得全局最优子集但不能处理大变量集,而随机型筛选方法理论上可达此目的但其算法原理决定了其无法保证找到最优子集的困境(Kapetanios?G.?Variable?Selection?in?Regression?Models?Using?Nonstandard?Optimisation?of?Information?Criteria.?Comput.?Stat.?Data?Anal.,?2007,?52(1),?4-15.?González?M.?P.,?Terán?C.,?Saíz-Urra?L.,?Teijeir?M.?Variable?Selection?Methods?in?QSAR:?An?Overview.?Curr.?Top.?Med.?Chem.,?2008,?8(18),?1606-1627.?Tsygankova?I.?G.?Variable?Selection?in?QSAR?Models?for?Drug?Design.?Curr.?Comput.-Aided.?Drug?Des.,?2008,?4(2),?132-142.?)??杉?,结构描述符筛选已经成为QSAR研究中一个重要的技术难题。

    QSAR模型结构描述符筛选终止标准是描述符筛选时描述模型性能优劣的指标,但目前对统计模型优劣的描述并没有一个统一的标准。研究者提出了很多确定模型优劣的统计参数标准,如修正复相关系数R2adj、均方根差RMSE、预测偏差的方差JJp、平均预测均方差Sp、Cp统计量、预测平方和PRESS、AIC准则等基于建模样本的统计参数(方开泰;?全辉;?陈庆云,?实用回归分析.?科学出版社:?北京,?1988.),以及近年来常用的交叉验证(或刀切法)相关系数q2或者均方根差RMSEV等(Ronchetti?E.,?Field?C.,?Blanchard?W.?Robust?Linear?Model?Selection?by?Cross-Validation.?J.?Am.?Stat.?Assoc.?1997,?92?(439),?1017-1023.)。这些参数或多或少地存在一些问题,如Sp和Cp等参数都是基于模型对响应值的估计而得到的,并不能说明模型对外部样本的预测能力;通常采用的交叉验证相关系数q2或者均方根差RMSEV等统计参数,因其是通过采用其中的一部分样本建模,再预测另外的一部分样本,并且每个样本都预测过一次,所以成为污染物QSAR研究领域比较得到公认的能够说明模型预测能力的统计参数。但是目前已经发现q2与RMSEV存在诸多问题,如Golbraikh等中指出q2仅仅是模型是否具有预测的能力的必要条件,而不是充分条件(Golbraikh?A.,?Tropsha?A.?Beware?of?q2!?J.?Mol.?Graph.?Mod.?2002,?20?(4),?269-276.);Hawkins则明确指出变量筛选时对q2的不当使用会导致过拟合现象的出现;实际上,很多变量子集具有很高的q2值,但模型自身的相关系数r2值很低,甚至接近0,即单独使用q2或RMSEV并不能说明模型的稳定性和预测能力(Hawkins?D.?The?problem?of?overfitting.?J.?Chem.?Inf.?Comput.?Sci.?2004,?44?(1),?1-12.)。因此,提出并建立能够用于描述污染物QSAR模型优劣的新标准并将之作为污染物定量结构活性相关模型结构描述符筛选终止的方法对突破结构描述符筛选这一瓶颈问题具有重要意义。

    文献检索结果表明,在本发明完成之前,未发现在建立定量结构活性相关模型时,采用交叉验证的方法对模型进行内部样本验证,构建交叉验证相关系数q2和模型修正相关系数R2adj的乘积QRadj作为模型结构描述符筛选的终止表征,用以描述模型的稳定性和预测能力,判断模型预测性能的优劣。

    发明内容

    1、发明要解决的技术问题

    目前QSAR研究采用交互验证的相关系数为模型结构描述符筛选终止标准,但是高q2仅仅是模型预测性能的必要非充分条件,单独使用q2并不能说明模型的稳定性和预测能力,如何构建合理的污染物定量结构活性相关模型结构描述符筛选终止的方法是目前QSAR研究亟待解决的难题。本发明针对以上技术难题,提供污染物定量结构活性相关模型结构描述符筛选终止的方法,不仅能够保证所获模型具有较高的交叉验证相关系数q2,而且可以避免过拟合现象的出现,杜绝筛选出低r2值高q2值的QSAR模型变量组合,科学描述模型的稳定性和预测能力。

    2、技术方案

    本发明的原理是将交叉验证相关系数q2和模型修正相关系数R2adj进行整合,提供污染物定量结构活性相关模型结构描述符筛选终止的方法。即在建立定量结构活性相关模型时,采用交叉验证的方法对模型进行内部样本验证,构建交叉验证相关系数q2和模型修正相关系数R2adj的乘积QRadj作为模型结构描述符筛选的终止表征,用以描述模型的稳定性和预测能力,判断模型预测性能的优劣。

    采用的技术方案如下:

    污染物定量结构活性相关模型结构描述符筛选终止的方法,其获取步骤包括:

    (1)将交叉验证相关系数q2和模型修正相关系数R2adj进行整合,提供污染物定量结构活性相关模型结构描述符筛选终止的方法;

    (2)对某一变量子集建立统计模型,获得观测值与模型估计值之间的相关系数r2、修正相关系数R2adj,各参数的计算公式如下:

    ???????????????????????????????????????????????????????????????????????(1)

    ???????????????????????????????????????????????????????????????????(2)

    其中,yi为第i个观测值,为第i个观测值的模型估计值,为观测值的平均值,n为模型的样本数,m为模型的变量数;

    (3)对(2)中的变量子集进行交叉验证,获得模型的交叉验证相关系数q2。所用的交叉验证方法有两种类型:留一法交互验证(Leave-One-Out?Cross?Validation,?LOOCV)和留多法交互验证(Leave-Multiple-Out?Cross?Validation,?LMOCV)。各参数的计算公式如下:

    ?????????????????????????????????????????????????????(3)

    ?????????????????????????????????????????(4)

    其中为模型进行LOOCV的相关系数,为模型进行LMOCV的相关系数,?N为模型进行LMOCV的重复次数,为模型进行LOOCV时的模型对第i样本的预测值,为模型进行LMOCV时的模型对第i样本的预测值。除了特别说明,LMOCV和LOOCV的统计参数都采用相同的符号;

    (4)根据(2)和(3)得到的统计参数构造新结构描述符终止参数QRadj,计算公式如下:

    ??????????????????????????????????????????????????????????????????????(5)

    (5)对同一系统新参数QRadj的数值越大,说明模型的稳定性越高,预测能力越强。

    3、有益效果

    本发明将交叉验证相关系数q2和模型修正相关系数R2adj进行整合,提供污染物定量结构活性相关模型结构描述符筛选终止的方法。新标准QRadj不仅能够保证所获模型具有较高的交叉验证相关系数q2,而且可以避免过拟合现象的出现,杜绝筛选出低r2值高q2值的QSAR模型变量组合,科学描述模型的稳定性和预测能力。

    具体实施方式

    以下通过实施例进一步说明本发明。

    文献(Selwood?D.?L.,?Livingstone?D.?J.,?Comley?J.?C.?W.,?O'Dowd?A.?B.,?Hudson?A.?T.,?Jackson?P.,?Jandu?K.?S.,?Rose?V.?S.,?Stables,?J.?N.?Structure-Activity?Relationships?of?Antifilarial?Antimycin?Analogues:?A?Multivariate?Pattern?Recognition?Study.?J.?Med.?Chem.?1990,33?(1),?136-142.)中给出了31种的53个结构描述符,被QSAR建模方法研究领域称为Selwood数据集,可作为结构描述符筛选的“标准”测试集,刘树深等提出基于预测的变量筛选与建模方法(variable?selection?and?modeling?method?based?on?the?prediction,?VSMP)对(Liu?S.?S.,?Liu?H.?L.,?Yin?C.?S.,?Wang?L.?S.?VSMP:?A?Novel?Variable?Selection?and?Modeling?Method?Based?on?the?Prediction.?J.?Chem.?Inf.?Comput.?Sci.?2003,43,?964-969.)对Selwood数据进行建模研究,获得由结构描述符x13、x14、x38、x50和x52建立的五参数模型,模型相关系数r2=0.7909,LOOCV的q2=0.7035。

    使用本发明构建的的QRadj为结构描述符筛选终止标准重新筛选模型变量:为方便比对,变量筛选沿用基于预测的变量筛选与建模方法,只是用QRadj为变量筛选终止标准,获得不同变量数下的最优子集如表1所示。表2是采用q2作为终止标准(VSMP筛选方法中设置了变量子集的r2必须大于q2才能进入筛选程序)得到的最终变量子集。对比两种标准所的结果可以看到,采用QRadj为终止标准与采用q2作为终止标准得到的最终变量子集存在差异。从变量数大于4开始,二者所得的变量子集有些不一样了。因为q2终止标准只是考虑了q2值,也就是说,在VSMP方法中在r2大于q2的所有变量子集中选择q2最大的子集作为最优变量子集。而QRadj终止标准是选择q2值与的乘积最大的变量子集作为最优子集,也就是说该标准综合考虑了q2与的影响而选择变量子集,因而相对q2终止标准来说更为合理。

    表1基于QRadj为终止标准的结构描述符筛选结果

    表2基于q2为终止标准的结构描述符筛选结果

    关于本文
    本文标题:污染物定量结构活性相关模型结构描述符筛选终止的方法.pdf
    链接地址://www.4mum.com.cn/p-5867947.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 贵州十一选五开奖结果查询结果 云南11选5开奘结果31期 体彩专家杀号技巧 内蒙古11选5专家预测 腾讯分分彩是合法的吗 七乐彩走势图带坐标标准版 多乐彩开奖查询 青海十一选五开奖图 二分彩殺号 广东十一选五遗漏数据彩乐乐 海南环岛赛彩票攻略 幸运飞艇计划专业版 北京11选5 3d杀组选复式投注技巧 青海11选5走势图和策略 3d胆两码拖其它数含组三吗