• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 8
    • 下载费用:30 金币  

    重庆时时彩赚钱的技巧: 基于可变边界支撑向量机的重要信息获取方法.pdf

    关 键 词:
    基于 可变 边界 支撑 向量 重要 信息 获取 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN200910219450.9

    申请日:

    2009.12.11

    公开号:

    CN101710392A

    公开日:

    2010.05.19

    当前法律状态:

    终止

    有效性:

    无权

    法律详情: 未缴年费专利权终止IPC(主分类):G06N 5/00申请日:20091211授权公告日:20110921终止日期:20161211|||专利权的转移IPC(主分类):G06N 5/00变更事项:专利权人变更前权利人:西安电子科技大学变更后权利人:陕西北斗康鑫信息科技股份有限公司变更事项:地址变更前权利人:710071 陕西省西安市太白南路2号变更后权利人:710100 陕西省西安市航天基地神舟四路航创国际广场C座7层登记生效日:20150722|||专利实施许可合同备案的注销IPC(主分类):G06N 5/00合同备案号:2014610000064让与人:西安电子科技大学受让人:陕西北斗康鑫信息科技股份有限公司解除日:20150330|||专利实施许可合同备案的生效IPC(主分类):G06N 5/00合同备案号:2014610000064让与人:西安电子科技大学受让人:陕西北斗康鑫信息科技股份有限公司发明名称:基于可变边界支持向量机的重要信息获取方法申请日:20091211申请公布日:20100519授权公告日:20110921许可种类:独占许可备案日期:20140409|||授权|||实质审查的生效IPC(主分类):G06N 5/00申请日:20091211|||公开
    IPC分类号: G06N5/00; G06F17/30 主分类号: G06N5/00
    申请人: 西安电子科技大学
    发明人: 张莉; 郑小皇; 王婷; 冯骁; 焦李成
    地址: 710071 陕西省西安市太白南路2号
    优先权:
    专利代理机构: 陕西电子工业专利中心 61205 代理人: 王品华;朱红星
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN200910219450.9

    授权公告号:

    ||||||||||||101710392B||||||

    法律状态公告日:

    2018.01.26|||2015.08.12|||2015.05.27|||2014.05.28|||2011.09.21|||2010.07.07|||2010.05.19

    法律状态类型:

    专利权的终止|||专利申请权、专利权的转移|||专利实施许可合同备案的生效、变更及注销|||专利实施许可合同备案的生效、变更及注销|||授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种基于可变边界支持向量机的重要信息获取方法,主要克服现有技术中忽视对式样本重要度差异性信息的不足。其实施步骤为:针对待评价信息对象,通过smart搜索引擎,搜集需求信息,并将这些信息进行预处理,得到原始训练集;在原始训练集上,构造新的训练集,引入可变边界因子,这个因子为原始训练集中两两样本的样本标识之差的绝对值;输入新训练集,将这个因子作为支持向量机每个约束中的边界,对信息评价模型进行训练,得到信息评价函数;输入待评价信息的样本特征矢量,根据这些特征矢量的函数值大小,就可以获得重要信息。本发明具有获取重要信息的平均准确率高的优点,可用于信息重要度评级,产品质量评价。

    权利要求书

    1: 一种基于可变边界支撑向量机的重要信息获取方法,包括: 搜集需求信息步骤;针对待评价信息对象,通过smart搜索引擎,按照查询需求,将需收集的信息提取成一个文本集合; 信息预处理步骤:利用文本集合的词频和逆向文件频率的t维原始特征t>44,对文本集合进行特征提取,将这些提取的特征转换为45维数值特征向量,对这些特征向量进行降维,得到样本集(x i ,y i ),i=1.......n,x 1 ,…x n 是二维样本特征矢量,y i 为样本重要度标识,n为样本数; 信息评价模型的训练步骤: 将上步得到的样本集中的r个样本作为原始训练集r<n,在原始训练集((x 1 ,y 1 ),…,(x r ,y r ))中,由任意两个二维样本特征矢量形成对式样本(x i (1) ,x i (2) ),若第一样本特征矢量x i (1) 的重要度标识大于第二样本特征矢量x i (2) 的重要度标识,则将对式样本(x i (1) ,x i (2) )标识为z i =1,反之z i =-1,构造出新的训练集:{(x i (1) ,x i (2) ),z i ,d i },i=1,2,…m,m=O(n 2 ),m为新训练集样本数, d i = | y i ( 1 ) - y i ( 2 ) | , ]]> 为可变边界因子,体现了对式样本信息重要度的差异; 利用可变边界的支撑向量机信息评价方法,对新的训练集进行训练,得到信息评价函数f(x)=w·x,w为训练得到的权值参数,x为输入的二维样本特征矢量; 重要信息的获取步骤:在信息评价函数f(x)=w·x中输入待评价信息的样本特征矢量,按照这些特征矢量的函数值大小,进行降序排列,将排在前面的样本,作为要获取的重要信息。
    2: 根据权利要求1所述的重要信息获取方法,其中信息评价模型的训练步骤中所述的利用可变边界的支撑向量机信息评价方法,对新的训练集进行训练,按如下步骤进行: (2a)输入训练样本集{(x i (1) ,x i (2) ),z i ,d i },i=1,2,…m; (2b)根据支撑向量机理论,通过下式计算输入训练集的权值参数: w = Σ i = 1 m d i z i α i ( x i ( 1 ) - x i ( 2 ) ) , ]]> 式中,z i 为第i个样本的标识,d i 为可变边界因子, α i 为未知的拉格朗日因子,0≤α i ?≤C,C是折中系数,该拉格朗日因子通过如下二次规划公式求解: Σ i = 1 m d i α i - 1 2 Σ i = 1 m Σ j = 1 m α i α j z i z j x i ( 1 ) - x i ( 2 ) , x j ( 1 ) - x j ( 2 ) > ]]> x i (1) 为第i个对式样本的第一样本特征矢量,x i (2) 为第i个对式样本的第一样本特征矢量,x j (1) 为第j个对式样本的第一样本特征矢量,x j (2) 为第j个对式样本的第一样本特征矢量,z j 为第j个样本的标识。

    说明书


    基于可变边界支撑向量机的重要信息获取方法

        【技术领域】

        本发明属于信息的获取技术领域,特别是一种重要信息获取方法,该方法可应用于信息重要度评级,及产品质量的评价。

        背景技术

        目前,随着科技的发展,互联网提供了海量信息资源,所以是否能够得到我们想要的重要信息,变得越来越重要。在信息获取的方法中,信息检索及搜索引擎的应用是一个重要的途径。在搜索引擎中,核心是如何按人们的需求来提供信息,及对所获得的信息如何进行评级。

        在信息获取方法中,首先要确定信息需求,即给定我们感兴趣的查询,其次,针对查询对信息进行收集,然后对信息进行评价,信息评价系统是信息的获取至关重要的一步,是对每个返回样本进行评级,给它们相应的评价分数,这些分数反映了各个样本所含信息的重要度信息评价系统的优劣,决定着我们最后能否获取想要的信息。该信息评价系统是通过机器学习的方法,在训练样本集训练得到的。

        在信息评级过程中,对式比较是比较常用的方法。在返回的信息文本样本中,通过对两两样本的对比,来确定信息的重要程度,是有监督的方法。两个样本组成一个样本对,把这对样本看成一个对式样本,并给定标签,这就可以用有监督分类的方法来解决这类问题。

        1998年,谷歌的创始人布林与谢奇提出了Pagerank的方法,用于网页信息的评级。但只是对单一特征进行处理,不能够全部反映信息的重要度。在信息评级中,支持向量机是一个重要评价方法,可处理多种特征,更能反映信息的全部内容。2000年,Herbrich提出将支持向量机理论应用于有序回归,首次提出排序支撑向量机,从对式样本的训练中,得到信息评价系统,来用于评价信息的重要性。2002年,Joachims从另一个角度推出通过对式样本训练得到支持向量机评价模型,应用于信息评分。虽然二者的采样模型有所不同,但都是用分类的方法来研究信息的评级,即通过对式样本的分类训练,得到信息评价模型。

        以上两种支持向量机信息评价方法,虽然可处理多维的特征,但在训练过程中,都没有考虑信息重要程度之间的差异性。因为当训练集的重要程度判断多于两种时,对式样本的所含信息,是有差异的。假设训练集的样本重要度标签有Y={1,2,3,4,5},重要度值为5的样本重要度值为1的样本,组成的对式样本和重要度值为3的样本与重要度值为2的样本组成的对式样本,其标签都是1,被同等的对待了。而上述的支持向量机信息评价方法中,其支撑向量机优化过程中约束条件的边界都是不变的,因此不能体现对式样本的信息差异性,这样就损失了很重要的信息,使信息评级的结果不准确。

        【发明内容】

        本发明的目的在于克服上述方法中的不足,提供一种基于可变边界的支撑向量机信息获取方法,将对式样本之间的差异性信息引入支撑向量机的优化中,使样本的训练更为有效,保证对重要信息的获取,提高信息评级结果的准确性。

        为实现上述目的,本发明包括如下:

        搜集需求信息步骤;针对待评价信息对象,通过smart搜索引擎,按照查询需求,将需收集的信息提取成一个文本集合;

        信息预处理步骤:利用文本集合的词频和逆向文件频率地t维原始特征t>44,对文本集合进行特征提取,将这些提取的特征转换为45维数值特征向量,对这些特征向量进行降维,得到样本集(xi,yi),i=1.......n,x1,…xn是二维样本特征矢量,yi为样本重要度标识,n为样本数;

        信息评价模型的训练步骤:

        将上步得到的样本集中的r个样本作为原始训练集r<n,在原始训练集((x1,y1),…,(xr,yr))中,由任意两个二维样本特征矢量形成对式样本(xi(1),xi(2)),若第一样本特征矢量xi(1)的重要度标识大于第二样本特征矢量xi(2)的重要度标识,则将对式样本(xi(1),xi(2))标识为zi=1,反之zi=-1,构造出新的训练集:{(xi(1),xi(2)),zi,di},i=1,2,…m,m=O(n2),m为新训练集样本数,di=|yi(1)-yi(2)|,]]>为可变边界因子,体现了对式样本信息重要度的差异;

        利用可变边界的支撑向量机信息评价方法,对新的训练集进行训练,得到信息评价函数f(x)=w·x,w为训练得到的权值参数,x为输入的二维样本特征矢量;

        重要信息的获取步骤:在信息评价函数f(x)=w·x中输入待评价信息的样本特征矢量,按照这些特征矢量的函数值大小,进行降序排列,将排在前面的样本,作为要获取的重要信息。

        本发明由于在信息评价模型的训练步骤中引入可变边界因子,将对式样本之间的差异性信息引入支撑向量机的优化中,能够体现每个对式样本的重要程度差异,使样本的训练更为有效,提高了信息评级结果的准确性,从而保证了获取重要信息的平均准确率。

        【附图说明】

        图1是本发明的实现流程图;

        图2是本发明的信息评价模型的训练过程流程图;

        【具体实施方式】

        参照图1,本发明的具体实现步骤如下:

        步骤1,针对待评价信息对象,通过smart搜索引擎,按照查询需求,将需收集的信息提取成一个文本集合;

        步骤2,利用文本集合的词频和逆向文件频率的t维原始特征t>44,对文本集合进行特征提取,将这些提取的特征转换为45维数值特征向量,对这些特征向量进行降维,得到样本集(xi,yi),i=1.......n,n为样本数,x1,…xn是二维样本特征矢量,yi为样本重要度标识,yi∈{2,1,0},‘2’代表该样本所含信息是最重要,‘1’代表部分重要,‘0’代表完全不重要;

        步骤3,构造新的训练集。

        将步骤2得到的样本集中的r个样本作为原始训练集r<n,在原始训练集((x1,y1),…,(xr,yr))中,由任意两个二维样本特征矢量形成对式样本(xi(1),xi(2)),若第一样本特征矢量xi(1)的重要度标识大于第二样本特征矢量xi(2)的重要度标识,则将对式样本(xi(1),xi(2))标识为zi=1,反之zi=-1,构造出新的训练集:{(xi(1),xi(2)),zi,di},i=1,2,…m,m=O(n2),m为新训练集样本数,di=|yi(1)-yi(2)|,]]>为可变边界因子,体现了对式样本信息重要度的差异。

        步骤4,信息评价模型的训练。

        参照图2,利用可变边界的支撑向量机信息评价方法,对新的训练集进行如下训练:

        (4a)输入训练样本集{(xi(1),xi(2)),zi,di},i=1,2,…m;

        (4b)根据支撑向量机理论,通过下式计算输入训练集的权值参数w:

        w=Σi=1mdiziαi(xi(1)-xi(2)),]]>

        式中,zi为第i个样本的标识,di为可变边界因子,

        αi为未知的拉格朗日因子,0≤αi≤C,该拉格朗日因子通过如下二次规划公式求解:

        Σi=1mdiαi-12Σi=1mΣj=1mαiαjzizj<xi(1)-xi(2),xj(1)-xj(2)>]]>

        xi(1)为第i个对式样本的第一样本特征矢量,xi(2)为第i个对式样本的第一样本特征矢量,xj(1)为第j个对式样本的第一样本特征矢量,xj(2)为第j个对式样本的第一样本特征矢量,zj为第j个样本的标识。

        步骤5,将输入训练集的权值参数w和待评价信息的样本特征矢量x,输入到信息评价函数f(x)=w·x中,按照这些特征矢量的函数值大小,对待评价样本进行降序排列,这些样本就形成一个有序列表,将排在列表前面的样本,作为要获取的重要信息。

        本发明的效果可以通过以下仿真实验进一步说明:

        本发明对OHSUMED数据集进行实验,并将本发明与现有的ranksvm方法比较。

        OHSUMED数据集来源于美国医疗信息数据库MEDLINE。它包含了106组医疗类信息样本,每组样本数量不等,样本有45维原始特征,其样本重要度标识y∈{2,1,0},‘2’代表该样本所含信息是最重要,‘1’代表部分重要,‘0’代表完全不重要。

        每组样本应用PCA方法对原始45维特征进行降维,得到样本集(xi,yi),x1,…xn是二维样本特征矢量,i=1.......n,n为每组样本的样本数。

        PCA(principal?component?analysis),即主成分分析,是一种寻找均方意义下最能够代表原始数据的投影方法。PCA通过提取云团散布最大方向的方法,达到了对特征空间进行降维的目的。

        我们采用了最普遍的评价标准:平均准确率(Mean?Average?Precision),简称为MAP它衡量获取重要信息的平均准确率。

        MAP只能评价两种标识的数据集。因此在计算MAP值时,我们将数据集中原来标识‘2’和标识‘1’的样本都标识为‘1’,其余的样本不变。第i组实验中,平均准确率计算公式如下:

        APi=Σj=1N(P(j)*pos(j))h,]]>P(j)=hjj]]>

        在输出的有序列表中,当第j个位置的样本的标识为‘1’时,pos(i)=1;反之,pos(i)=0。

        h表示有序列表中样本标识为‘1’的样本个数,hj表示在有序列表的前j个样本中标识为‘1’的样本个数,N表示有序列表的样本个数。

        1、仿真条件与内容

        实验选取OHSUMED数据集106组数据中的8组样本,进行8组实验,实验的运行环境都是Matlab7.0.1。8组数据分别为OHSUMED数据集中的第1组,第5组,第6组,第7组,第9组,第10组,第11组,第13组数据。第1组样本数为130,第5组样本数为56,第6组样本数为153,第7组样本数为54,第9组样本数为139,第10组样本数为34,第11组样本数为95,第13组样本数为95。在每组实验中,把每组样本分为不相交的4份,每份有n/4个样本。每组样本进行4次实验,每次实验时,三份样本作为训练集,一份样本作为测试集。

        2、仿真实验结果

        每组样本进行4次实验,记录每次实验得到的平均准确率,4次的平均准确率取平均。实验结果如表1所示,C表示支撑向量机的折中系数,实验中从{1,10,100,1000}选择。

        表1.平均准确率比较

        查询第1组?第5组?第6组?第7组?第9组?第10组?第11组?第13组C10?100?1000?1?1000?1000?1000?100ranksvm0.4453?0.6277?0.7457?0.1823?0.5180?0.3092?0.4592?0.4330本发明0.4458?0.6324?0.7498?0.1948?0.5226?0.5379?0.4686?0.4458

        从表1的仿真结果可以看出,在8组数据的仿真中,本发明方法获取重要信息的平均准确率都要高于现有ranksvm方法?!  ∧谌堇醋宰ɡ鴚ww.www.4mum.com.cn转载请标明出处

    关于本文
    本文标题:基于可变边界支撑向量机的重要信息获取方法.pdf
    链接地址://www.4mum.com.cn/p-5781993.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 辽宁快乐12选5预测 个人在抖音如何赚钱 pk10牛牛公式解析 伊甸园红球 皇家88苹果 极速快乐十分计划软件手机版 扑克魔术把牌变没 微信好友四人麻将在线玩 贵州茅台股票分析结论 贵州十一选五开奖结果查询结果 捕鱼大亨系统txt下载 昨天新疆25选7的开奖号码 贵州十一选五历史开奖查询结果 扑克游戏平台 王者捕鱼器视频 黑龙江22选5走势图2008年