• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 10
    • 下载费用:30 金币  

    重庆时时彩优博官方: 一种面向知识管理的自定义知识分类方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201410003685.5

    申请日:

    2014.01.04

    公开号:

    CN103793474A

    公开日:

    2014.05.14

    当前法律状态:

    终止

    有效性:

    无权

    法律详情: 未缴年费专利权终止IPC(主分类):G06F 17/30申请日:20140104授权公告日:20170111终止日期:20180104|||授权|||著录事项变更IPC(主分类):G06F 17/30变更事项:发明人变更前:黄河燕 史树敏 陈振钊 冯冲 李侃变更后:史树敏 黄河燕 陈振钊 冯冲 李侃|||实质审查的生效IPC(主分类):G06F 17/30申请日:20140104|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 北京理工大学
    发明人: 黄河燕; 史树敏; 陈振钊; 冯冲; 李侃
    地址: 100081 北京市海淀区中关村南大街5号
    优先权:
    专利代理机构: 代理人:
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410003685.5

    授权公告号:

    ||||||||||||

    法律状态公告日:

    2018.12.21|||2017.01.11|||2014.06.18|||2014.06.11|||2014.05.14

    法律状态类型:

    专利权的终止|||授权|||著录事项变更|||实质审查的生效|||公开

    摘要

    本发明属于计算机应用技术领域,涉及应用于知识管理系统的一种自定义知识分类方法。本发明的目的是为了解决知识管理系统中,在缺乏标注文本集合的条件下,实现用户自定义分类管理知识的问题,提出了一种基于词匹配的用户自定义的知识分类方法。本方法绕过了训练文本集合标注的难题,通过用《同义词词林》扩展用户自定义关键词,利用Wu-Manber多模式匹配算法来快速匹配关键词,根据关键词在文档中的命中率来判断分类类别。本方法有适应缺乏标注文本的条件,且速度快的特点。

    权利要求书

    权利要求书
    1.  一种面向知识管理的自定义知识分类方法,其特征在于:
    步骤一、对知识管理系统中相关定义进行说明,具体如下:
    定义1:知识管理系统中每个具体分类称为子类,记为c;
    定义2:用户为每个子类制定的专属一系列词组称为子类关键词,记为keys,单个词记为key;关键词集和记为KEYS;
    定义3:通过《同义词词林》对子类关键词keyi(i=0,1,2…n)进行同义词扩展,得到keyi(i=0,1,2…n)的同义词集合E{keyi}(i=0,1,2…n),所有子类关键词E{keyi}(i=0,1,2…n)的合并称为子类扩展关键词,记为E(keys)。其中,i表示关键的下标,n表示子类中关键词的个数;
    定义4:若干个包含关键词的子类组成一套完整的分类标准,称为一个类组,记为C;要求文档集合中的所有文档按不同类组进行分类,因此在一个类组中文档集合中每个文档只能属于至多一个子类,但是可以属于其他类组中的子类;
    定义5:在给定文档集合D{d1,d2…di…dm},其中,i代表文档下标,m代表文档集合总数量;
    步骤二、用户自定义一个类组C{c1,c2…ci…cn},其中,i表示子类的下标,n表示类组包含的子类数;
    步骤三、为每个子类ci添加自定义的子类关键词keysi;
    步骤四、用《同义词词林》对每个子类关键词keysi进行扩展,得到子类ci扩展子类关键词E{keysi};
    步骤五、把类组C所有子类ci的扩展子类关键词E{keysi}合并为关键词集合其中代表关键词集合中下标为h的关键词项,Kh代表关键词,其后面()中的c表示关键词Kh包含在子类c中,sh代表包含关键词Kh的子类数;t代表关键词集合元素数;
    步骤六、应用Wu-Manber多模式匹配算法统计一组关键词keys在文档d中出现次数;首先要对模式串的集合进行预处理,预处理阶段将建立三个表格:SHIFT表,HASH表,SHIFT表中存储字符串集合中所有字符在文本中出现时转移距离,HASH表用来存储匹配窗口内尾字符散列值相同的模式串,PREFIX表用来存储匹配窗口内首字符散列值相同的模式串;
    步骤七、把关键词集合KEYS看做多模式匹配中的模式串,把文档di看做多模式匹配中的文本串,利用Wu-Manber多模式匹配算法进行关键词匹配,记录匹配成功的关键词来自的子类ci和匹配的位置,每个文档包括标题Title、摘要Abstract和正文Text,统计每个扩展子类关键词E{keysi}在文档di各个位置中出现的次数,分别记为counti{Title}、counti{Abstract}和counti{Text};
    步骤八、确定文档的类别:
    假设在一个文档d中关键词命中率最高的子类为文档最终所属的类别。
    c^=argmax1<i<n{Counti}]]>
    其中,代表最佳分类标号,i代表自定义子类的下标,Counti表示子类ci在文档d中的命中率;
    最终子类ci在一个文档d中的命中率定义如下式:
    Counti=α·counti{Title}+β·counti{Abstract}+γ·counti{Text}其中α,β,γ(α>β>λ)分别为关键词出现在文档d标题、摘要和正文的权重,counti{Title}、counti{Abstract}、counti{Text}分别代表文档d标题、摘要和正文出现关键词的个数。

    说明书

    说明书一种面向知识管理的自定义知识分类方法
    技术领域
    本发明涉及一种面向知识管理的自定义知识分类方法,属于计算机应用技术领域。 
    背景技术
    随着企业规模的不断扩大,企业内部的历史记录不断积累,业务流程日益复杂化,知识管理系统软件应运而生。知识管理的实质是对知识进行管理,通过对知识分类、检索、智能推送等手段已达到企业内部知识在运动中不断增值的目的。其中,知识的分类是知识管理系统中的重要组成???,通过分类可以高效地管理和检索知识,便于相关知识的寻找,提高知识的利用价值。为了满足知识多维度展示的要求,我们提出了自定义知识分类。有价值的知识主要来自网络和企业内部的历史积累,通常以文本格式存储在数据库中,因此知识分类就转化成了文本分类。 
    空间向量模型(SVM)是当前比较流行的分类方法,理论基础是通过将文本转换成空间向量,向量的分类结果,就是文本的分类结果??占湎蛄糠掷喙贪ㄔご?、特征提取、分类器训练、分类器评测。此类方法的必要前提条件是具备大量标注文本集,集合中的文本都带有经过专家人工标注生成的分类标签。生成分类器时,标注集合被分成两部分,一部分用于分类器训练,另一部分用于分类器评测。此类方法的优点是处理速度快,分类精度高,缺点是类别固定,需要大量的标注文本,以及分类器训练复杂?;褂泻芏嗬嗨芐VM的分类器例如感知机、贝叶斯、神经网络等分类方法都有依赖标大量注语料、参数学习和动态更新不及时等缺陷,因此,此类方法不适合知识管理系统中缺乏训练集和自定义分类的要求。 
    词匹配法是最早被提出的分类算法,这种方法根据文档中是否出现了某些固定的词来判断文档是否属于某个类别。这种方法的缺点是通过简单机械的匹配会影响分类效果,优点是不需要标注集,类别中关键词的可以由用户自定义添加,比较适合知识管理系统中缺乏标注集、自定义的条件。针对本系统特殊 应用需求,我们采用了改进的次匹配方法,通过《同义词词林》扩展关键词同义词,以改善分类效果。 
    发明内容
    本发明的目的是为了解决知识管理系统中,在缺乏标注文本集合的条件下,实现用户自定义分类管理知识的问题,提出了一种基于词匹配的用户自定义的知识分类方法。本方法绕过了训练文本集合标注的难题,通过用《同义词词林》扩展用户自定义关键词,利用Wu-Manber多模式匹配算法来快速匹配关键词,根据关键词在文档中的命中率来判断分类类别。 
    为实现上述目的,本发明所采用的技术方案如下: 
    步骤一、对知识管理系统中相关定义进行说明,具体如下: 
    定义1:知识管理系统中每个具体分类称为子类,记为c; 
    定义2:用户为每个子类制定的专属一系列词组称为子类关键词,记为keys,单个词记为key;关键词集和记为KEYS; 
    定义3:通过《同义词词林》对子类关键词keyi(i=0,1,2…n)进行同义词扩展,得到keyi(i=0,1,2…n)的同义词集合E{keyi}(i=0,1,2…n),所有子类关键词E{keyi}(i=0,1,2…n)的合并称为子类扩展关键词,记为E(keys)。其中,i表示关键词的下标,n表示子类中关键词的个数; 
    定义4:若干个包含关键词的子类组成一套完整的分类标准,称为一个类组,记为C;要求文档集合中的所有文档按不同类组进行分类,因此在一个类组中文档集合中每个文档只能属于至多一个子类,但是可以属于其他类组中的子类; 
    例如,C1{c11,c12,c13}和C2{c21,c22,c23}是系统中的两个类组,文档dj(j=0,1,2…m)只能同时属于子类或者属于子类 二者之一;其中,j表示文档的下标,m表示文档集合中的文档数; 
    定义5:在给定文档集合D{d1,d2…di…dm},其中,i代表文档下标,m代表文档集合总数量; 
    步骤二、用户自定义一个类组C{c1,c2…ci…cn},其中,i表示子类的下标,n表示类组包含的子类数; 
    步骤三、为每个子类ci添加自定义的子类关键词keysi; 
    步骤四、用《同义词词林》对每个子类关键词keysi进行扩展,得到子类ci扩展子类关键词E{keysi}; 
    步骤五、把类组C所有子类ci的扩展子类关键词E{keysi}合并为关键词集合 其中代表关键词集合中下标为h的关键词项,Kh代表关键词,其后面()中的c表示关键词Kh包含在子类c中,sh代表包含关键词Kh的子类数;t代表关键词集合元素数; 
    步骤六、应用Wu-Manber多模式匹配算法统计一组关键词keys在文档d中出现次数;首先要对模式串的集合进行预处理,预处理阶段将建立三个表格:SHIFT表,HASH表,SHIFT表中存储字符串集合中所有字符在文本中出现时转移距离,HASH表用来存储匹配窗口内尾字符散列值相同的模式串,PREFIX表用来存储匹配窗口内首字符散列值相同的模式串; 
    步骤七、把关键词集合KEYS看做多模式匹配中的模式串,把文档di看做多模式匹配中的文本串,利用Wu-Manber多模式匹配算法进行关键词匹配,记录匹配成功的关键词来自的子类ci和匹配的位置,每个文档包括标题Title、摘要Abstract和正文Text,统计每个扩展子类关键词E{keysi}在文档di各个位置中出现的次数,分别记为counti{Title}、counti{Abstract}和counti{Text}; 
    Wu-Manber多模式匹配算法原理如下: 
    假设B=1,S是我们当前正在处理的文本中单个字,并且S映射到SHIFT表。m为最短模式串的长度,从文本串的第m-1个位置开始匹配时??悸橇街智榭? 
    (1)S不在任何一个模式串中出现,即不可能有候选模式串可以匹配成功,将考察的位置向后移动m个字符的距离,于是我们在SHIFT[h(S)]中存放m,其中h(S)代表字符S的散列值。 
    (2)S在某些模式串中出现,这种情况下,考察那些模式串中S出现的最右位置。假设,S在模式串P1中的q位置出现,且在其他的出现S的模式串中S的位置都不大于q。那么我们应该在SHIFT[h(S)]中存放m-q。 
    下面描述算法匹配的主要过程: 
    (1)计算所有模式串中最短的模式串的长度,记为m,并且我们只考虑每一个模式串的前m个字符,即m为匹配窗口的大小。 
    (2)根据文本当前正考察的m个字符计算其尾字符c散列值h。 
    (3)检查SHIFT[h(c)]的值,如果SHIFT[h(c)]>0,那么将窗口向右移动SHIFT[h(c)]大小位置,返回第(2)步,否则,进入第(4)步。 
    (4)从HASH[h(c)]得到以位置为m-1为c的模式串列表,逐个比较直到找到匹配模式串。若文本串匹配结束,则停止。否则,将窗口向右移动1位,返回第(2)步。 
    步骤八、确定最合适的分类: 
    假设:在一个文档d中关键词命中率最高的子类为文档最终所属的类别。 
    c^=argmax1<i<n{Counti}---(1)]]>
    其中,代表最佳分类标号,i代表自定义子类的下标,Counti表示子类ci在文档d中的命中率。 
    由于关键词出现的位置不同会带来不同的效果,应该区分对待。通常知识管理系统中知识文档包含三个部分,分别是标题、摘要和正文。因此,同一个关键词出现在标题中比出现在摘要中要重要,而出现在摘要中要比出现在正文中的关键词要重要。命中率不能仅仅通过文档中关键词出现的总数来衡量,而是出现在不同的位置赋予不同的权重,最终子类ci在一个文档d中的命中率定义如下式。 
    Counti=α·counti{Title}+β·counti{Abstract}+γ·counti{Text}    (2) 
    其中α,β,γ(α>β>λ)分别为关键词出现在文档d标题、摘要和正文的权重,counti{Title}、counti{Abstract}、counti{Text}分别代表文档d标题、摘要和正文出现关键词的个数。 
    有益效果 
    本发明是对针对知识管理系统中特殊条件下的特殊用户需求提出的,是其他现有方法难以实现的,并且取得了较好的效果。特殊的条件是缺乏标注语料,特殊的需求是多维度的用户自定义分类。 
    附图说明
    图1为本发明方法的结构图 
    具体实施方式
    下面结合实施例对本发明做进一步说明。 
    假设要对文档d(来自凤凰网)进行自定义分类,文档d结构如下。 

    根据步骤一,进行相关定义; 
    根据步骤二、假设用户定义类组C{c1,c2,c3},其中,子类c1为交通、子类c2为医药、子类c3为教育; 
    根据步骤三、为每个子类ci添加自定义的子类关键词keysi,每个子类关键词如下: 
    子类 关键词 c1运输;铁路;公路;车辆; c2治疗;病人;医院;疾??;
     c3教育;教师;学生;教学;
    根据步骤四、用《同义词词林》对每个子类关键词keysi进行扩展,得到子类ci扩展子类关键词E{keysi}。 
    合并同义词后得到如下子类扩展关键词。 

    根据步骤五、合并所有子类的关键形成以个总的关键词集合。 

    根据步骤六、生成SHIFT表、HASH表和PREFIX表。 
    根据步骤七、利用步骤六的三个散列表,采用Wu-Manber多模式匹配算法,分别对文档d的标题、摘要和正文进行关键词匹配,结果如下。 
      c1c2c3
     count{Title} 0 0 2(老师:2) count{Abstract} 0 2(治疗:1医疗:1) 2(老师:2) count{Text} 0 4(医疗:3医院:1) 18(老师:13学生:5)
    步骤八、根据公式(2)(其中,α=2,β=1.5,γ=1)计算三个子类的命中率如下, 
    Count1=α·count1{Title}+β·count1{Abstract}+γ·count1{Text}=2×0+1.5×0+0=0 
    Count2=α·count2{Title}+β·count2{Abstract}+γ·count2{Text}=2×0+1.5×2+4=7 
    Count3=α·count3{Title}+β·count3{Abstract}+γ·count3{Text}=2×2+1.5×2+18=25 
    根据公式(2)可知,文档d属于子类c3。 

    关 键 词:
    一种 面向 知识 管理 自定义 分类 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:一种面向知识管理的自定义知识分类方法.pdf
    链接地址://www.4mum.com.cn/p-6156956.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03