• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 10
    • 下载费用:30 金币  

    重庆时时彩后三位杀码: 基于病例库的疾病症状及其权重知识的获取和处理方法.pdf

    关 键 词:
    基于 病例 疾病 症状 及其 权重 知识 获取 处理 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201610836533.2

    申请日:

    2016.09.21

    公开号:

    CN106372439A

    公开日:

    2017.02.01

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 19/00申请日:20160921|||公开
    IPC分类号: G06F19/00(2011.01)I; G06F17/27 主分类号: G06F19/00
    申请人: 北京大学
    发明人: 金芝; 李戈; 陆军
    地址: 100871 北京市海淀区颐和园路5号
    优先权:
    专利代理机构: 北京万象新悦知识产权代理事务所(普通合伙) 11360 代理人: 黄凤茹
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201610836533.2

    授权公告号:

    |||

    法律状态公告日:

    2017.03.01|||2017.02.01

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明公布了一种基于病例库的疾病症状及其权重知识的获取和处理方法,以互联网上的海量病例库作为信息源,通过对信息源原始数据进行处理,自动获取疾病症状及其权重知识;包括:采取正则表达式进行HTML标签匹配,通过网络爬虫策略获取疾病症状原始数据;进行词语相似度计算和同义词识别获取医学词语相似度表和医学词语同义词表;进行分类、TF?IDF词频统计、无量纲化处理,获取疾病症状及其权重等多个参数,用于整体评价疾病与症状关系。采用本发明提供的技术方案,能够节省大量人力、财力和时间;得出的疾病症状及其权重结果更加合理;适用于导医系统和基于互联网的疾病自我预诊系统等场景。

    权利要求书

    1.一种基于病例库的疾病症状及其权重知识的获取和处理方法,以互联网上的海量病
    例库作为信息源,通过对信息源原始数据进行处理,自动获取疾病症状及其权重知识;包括
    如下步骤:
    1)获取疾病症状原始数据,包括疾病名称和对应的症状信息;
    2)对原始数据进行词语相似度计算,获取医学词语相似度表;对医学词语相似度表进
    行同义词人工识别,获取医学词语同义词表;
    3)对原始数据进行分类和统计处理,获取疾病名称与其症状的对应关系及分布情况;
    4)获取疾病中各症状的权重;
    5)进行无量纲化处理;
    由此获取疾病症状的多个参数,包括:某症状在某疾病中出现的频率、某症状在疾病集
    中出现的概率、无量纲化处理前某疾病中某症状的权重和无量纲化处理后某疾病中某症状
    的权重,用于整体评价疾病与症状关系。
    2.如权利要求1所述基于病例库的疾病症状及其权重知识的获取和处理方法,其特征
    是,步骤1)通过分析互联网上的疾病病例网页源代码的html标签,采用正则表达式进行标
    签匹配,通过网络爬虫策略获取疾病症状原始数据。
    3.如权利要求1所述基于病例库的疾病症状及其权重知识的获取和处理方法,其特征
    是,步骤2)采用基于重心后移的单汉字字面相似度算法计算获取医学词语相似度表。
    4.如权利要求1所述基于病例库的疾病症状及其权重知识的获取和处理方法,其特征
    是,步骤2)通过人工筛选识别获取医学词语同义词表。
    5.如权利要求4所述基于病例库的疾病症状及其权重知识的获取和处理方法,其特征
    是,还可根据领域专家识别方法来完善所述医学词语同义词表。
    6.如权利要求1所述基于病例库的疾病症状及其权重知识的获取和处理方法,其特征
    是,步骤4)采用基于文本挖掘TF-IDF词频统计模型计算获取疾病中症状的权重。
    7.如权利要求1所述基于病例库的疾病症状及其权重知识的获取和处理方法,其特征
    是,步骤5)以疾病中症状的权重之和作为基本量度单位,对疾病中症状的权重进行无量纲
    化处理。

    说明书

    基于病例库的疾病症状及其权重知识的获取和处理方法

    技术领域

    本发明涉及互联网数据获取和处理方法,尤其涉及一种基于病例库的疾病症状及
    其权重知识的获取和处理方法。

    背景技术

    症状是疾病过程中机体内的一系列机能、代谢和形态结构异常变化所引起的病人
    主观上的异常感觉或某些客观病态改变。症状是医生向患者进行疾病调查的第一步,是问
    诊的主要内容,是诊断、鉴别诊断疾病的重要线索和主要依据。

    在疾病的自我诊断和导医专家系统中,通常不能通过专业的医学辅助检查设备获
    取患者信息,只能依靠患者的症状进行初步诊断,因此需要构建疾病症状相关知识库。一般
    情况下,在系统开发过程中,疾病症状及其权重知识库构建的传统方法是汇同知识工程师
    从领域专家或有关的技术文献中获取相关的知识,这种方法经验性因素大,而且消耗人力、
    财力多,周期长,是系统开发的瓶颈问题。

    发明内容

    为了克服上述现有方法的不足,本发明提供一种基于病例库的疾病症状及其权重
    知识的获取和处理方法,主要以互联网上的海量病例库作为信息源,通过对信息源原始数
    据进行处理,自动获取疾病症状及其权重知识,为疾病的辅助诊断提供医学知识库。

    本发明的原理是:不同的症状在疾病诊断标准中所起到的作用(权重)是不同的。
    例如在中风的诊断标准中半身不遂、口角歪斜、吐词不清、头痛、头昏等症状的重要性就不
    同,如果患者具有半身不遂、口角歪斜、吐词不清等症状,则患中风的可能性就很大;而仅仅
    具有头痛、头昏等症状则不然。因此定量地、科学地核定症状的权重在制定疾病诊断标准方
    面有着十分重要的意义。本发明主要以互联网上的海量病例库作为信息源,采取正则表达
    式进行HTML标签匹配,通过网络爬虫策略获取疾病症状原始数据,然后对原始数据经过词
    语相似度计算、同义词识别与匹配、分类、TF-IDF词频统计和无量纲化等处理后获取疾病症
    状及其权重医学知识。

    本发明提供的技术方案是:

    一种基于病例库的疾病症状及其权重知识的获取和处理方法,以互联网上的海量
    病例库作为信息源,通过对信息源原始数据进行处理,自动获取疾病症状及其权重知识;包
    括如下步骤:

    1)获取疾病症状原始数据,包括疾病名称和对应的症状信息;

    2)对原始数据进行词语相似度计算,获取医学词语相似度表;对医学词语相似度
    表进行同义词人工识别,获取医学词语同义词表;

    3)对原始数据进行分类和统计处理,获取疾病名称与其症状的对应关系及分布情
    况;

    4)采用TF-IDF词频统计模型获取疾病中各症状的权重;

    5)进行无量纲化处理;

    由此获取疾病症状的多个参数,包括:某症状在某疾病中出现的频率、某症状在疾
    病集中出现的概率、无量纲化处理前某疾病中某症状的权重和无量纲化处理后某疾病中某
    症状的权重,用于整体评价疾病与症状关系。

    针对上述基于病例库的疾病症状及其权重知识的获取和处理方法,进一步地,步
    骤1)通过分析互联网上的疾病病例网页源代码的html标签,采用正则表达式进行标签匹
    配,通过网络爬虫策略获取疾病症状原始数据。

    针对上述基于病例库的疾病症状及其权重知识的获取和处理方法,进一步地,步
    骤2)采用基于重心后移的单汉字字面相似度算法计算获取医学词语相似度表。

    针对上述基于病例库的疾病症状及其权重知识的获取和处理方法,进一步地,步
    骤3)通过人工筛选识别获取医学词语同义词表。更进一步地,还可根据领域专家识别方法
    来完善所述同义词表。在本发明一实施例中,所述同义词表中的同义词关系为多对一。

    针对上述基于病例库的疾病症状及其权重知识的获取和处理方法,进一步地,步
    骤4)采用基于文本挖掘TF-IDF词频统计模型计算获取疾病中症状的权重。

    针对上述基于病例库的疾病症状及其权重知识的获取和处理方法,进一步地,步
    骤5)以疾病中症状的权重之和作为基本量度单位对疾病中症状的权重进行无量纲化处理。

    与现有技术相比,本发明的有益效果是:

    本发明提供一种基于病例库的疾病症状及其权重知识的获取和处理方法,主要以
    互联网上的海量病例库作为信息源,通过对信息源原始数据进行处理,自动获取疾病症状
    及其权重知识,为疾病的诊断提供医学知识库。采用本发明提供的技术方案,节省了大量人
    力、财力和时间,并且通过对海量的、真实的病例采用统计等方法定量获得的疾病症状的权
    重,比从领域专家那里获得的经验性的疾病症状的权重更加合理。其数据结果可进一步应
    用于以下两个方面:

    一是用于导医系统的知识库,得到疾病的初步诊断后引导患者到相应的科室进行
    确诊;

    二是用于基于互联网的疾病自我预诊系统的知识库,其目标人群是普通的居民而
    不是特定的医生群体,使用该系统可使患者根据自己的症状信息进行初步诊断,使之预先
    了解疾病相关情况以供参考。

    附图说明

    图1是本发明提供的基于病例库的疾病症状及其权重知识的获取和处理方法的流
    程框图。

    图2是本发明实施例中部分医学词语相似度表范例和部分医学词语同义词表范
    例。

    图3是本发明实施例中2型糖尿病范例中症状的参数情况。

    具体实施方式

    下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范
    围。

    本发明提供一种基于病例库的疾病症状及其权重知识的获取和处理方法,主要以
    互联网上的海量病例库作为信息源,通过对信息源原始数据进行处理,自动获取疾病症状
    及其权重知识,为疾病的诊断提供医学知识库。

    本发明主要以互联网上的海量病例库作为信息源,采取正则表达式进行HTML标签
    匹配,通过网络爬虫策略获得疾病症状原始数据,然后对原始数据经过词语相似度计算、同
    义词识别与匹配、分类、TF-IDF词频统计和无量纲化等处理后获取疾病症状及其权重医学
    知识。这种方式节省了大量人力、财力和时间,并且通过对海量的、真实的病例采用统计等
    方法定量获得的疾病症状的权重,比从领域专家那里获得的经验性的疾病症状的权重更加
    合理。

    图1是本发明提供的基于病例库的疾病症状信息获取方法的流程框图,包括如下
    步骤:

    1)疾病症状原始数据获取

    本发明实施例中,通过分析互联网某网站社区获得性肺炎病例网页源代码的html
    标签,采用正则表达式进行标签匹配,通过网络爬虫策略获取疾病症状原始数据。本实施例
    中部分疾病症状原始数据如下:

    2型糖尿?。憾嘁?多食 体重减轻

    高血压:高血压 头昏 胸闷

    冠心?。盒那扒仆?气促

    高血压:高血压 气促

    高血压:高血压 肥胖 乏力

    肺结核:低热 盗汗

    糖尿病末梢神经炎:四肢末端麻木 肢体疼痛

    2型糖尿?。憾嘁?多食 尿频

    慢性阻塞性肺疾?。嚎人?咳白痰

    病毒性心肌炎:发烧 咽喉疼痛

    慢性阻塞性肺疾?。嚎人?气喘

    2型糖尿?。憾嘁?多食 尿频

    甲状腺功能亢进症:畏热 多汗 消瘦

    系统性红斑狼疮:面部蝶形红斑 关节痛

    类风湿性关节炎:关节肿胀 关节僵直

    1型糖尿?。憾嘁?尿频

    痛风:尿酸增高 关节肿胀

    缺铁性贫血:头昏 疲乏

    .....

    2)疾病症状原始数据处理

    21)对原始数据进行词语相似度计算和同义词识别

    211)采用基于重心后移的单汉字字面相似度算法计算医学词语相似度

    从互联网上获取的原始数据中有相当部分的医学词语具有相同或相似的含义,是
    同义词或近义词,经过分析得到如下结论:含有部分相同汉字的医学词语,在字面上具有较
    强的相似性,其表达的意义也相同或相似,如“腹部不适”和“上腹不适”、“胸痛”和“胸部疼
    痛”、“慢性阻塞性肺疾病”和“慢性肺栓塞”、“胆总管结石”和“胆总管下段结石”等,因此采
    用基于重心后移的单汉字字面相似度算法计算医学词语相似度。

    基于重心后移的单汉字字面相似度算法描述如下:

    设词语w1和w2的相似度为sim(w1,w2);|w1|与|w2|分别表示w1与w2所包含的字符个
    数;Same(w1,w2)表示w1与w2中都含有的相同语素的集合,|Same(w1,w2)|表示含有相同语素
    的个数;w1(i)表示w1中的第i个语素,weight(w1,i)表示w1中的第i个语素的权值,如果w1(i)
    ∈Same(w1,w2)则weight(w1,i)=i,否则Weight(w1,i)=0;表示w1中的所有语
    素之和;w2(j)与w1(i)同理;位置系数d取|w1|与|w2|之比中较小的值,即:


    影响词语相似度的因素有两个:两个词之间含有的相同语素的个数和相同语素在
    各个词中的位置权重。从而词语相似度可按以下公式计算:


    上述公式中,α和β分别表示相同语素个数相似度和相同语素位置关系相似度的权
    重系数,并且满足α+β=1。

    本实施例中,α取0.4,β取0.6,经过计算,“腹部不适”和“上腹不适”的相似度为
    0.81、“胸痛”和“胸部疼痛”的相似度为0.525、“慢性阻塞性肺疾病”和“慢性肺栓塞”的相似
    度为0.4652、“胆总管结石”和“胆总管下段结石”的相似度为0.703。

    212)医学词语同义词识别

    在信息检索领域,同义词的概念并不等同于语言学和日常生活中的同义词,它不
    考虑感情色彩和语气,是指一个或多个能够相互替换、表达相同或相近概念的词语。

    设定sim(w1,w2)的阈值,对获取的原始数据采用基于重心后移的单汉字字面相似
    度算法得到医学词语相似度表,然后人工筛选识别出同义词,保存在同义词表中。当然此算
    法存在不足,有部分词语之间表达的意义相同或相似,如“高烧”和“发热”、“拉稀”和“腹
    泻”,但是不包含相同汉字,用此算法得出的词语相似度为0,因此还需要依靠领域专家来完
    善同义词表。

    部分医学词语相似度表及人工筛选识别出的部分医学词语同义词表如图2所示。

    22)

    对获取的疾病症状原始数据经过同义词匹配后进行分类和统计处理,以“冠心
    病”、“高血压”、“2型糖尿病”、“社区获得性肺炎”、“原发性肝癌”为例,处理后得到疾病中症
    状的分布情况;分类和统计处理采用现有的数据处理方法。

    23)采用基于文本挖掘TF-IDF词频统计模型计算疾病中症状的权重

    对获得的疾病症状原始数据进行分类和统计处理后,采用基于文本挖掘TF-IDF词
    频统计模型计算疾病中症状的权重。TF-IDF词频统计模型数学公式如式3:

    W=TF×IDF=(i/m)×log(N/n) (式3)

    其中,TF表示某症状在某疾病中出现的频率,由该症状在该疾病中出现的次数i除
    以该疾病中全部症状总次数m得到;IDF表示某症状在疾病集中出现的概率,由疾病集数目N
    除以包含该症状之疾病的数目n,再将得到的商取对数得到;用TF和IDF的乘积来表示该症
    状的权重。

    实际计算时为防止出现n=1的情况,可将n加上修正系数进行处理,取n=n+0.1,
    即W=TF×IDF=(i/m)×log(N/(n+0.1))。

    24)无量纲化处理

    在多指标综合评价中由于各指标所代表的物理涵义不同,因此存在量纲上的差
    异,这种异量纲性会影响对事物的整体评价。指标的无量纲化处理是解决这一问题的主要
    手段。

    由于各物理量以一定的关系联系着,取其中一些独立的物理量作为“基本量度单
    位”,其它物理量的量度单位以“基本量度单位”为基础进行计算。在本系统中,对症状权重
    做无量纲化处理,以该疾病中症状权重之和作为“基本量度单位”,则


    其中,Wi表示无量纲化处理前该疾病中症状i的权重,表示无量纲化处理前该
    疾病症状权重之和,wi表示无量纲化处理后该疾病中症状i的权重,无量纲化处理后,

    疾病症状原始数据经过处理后得到疾病症状的参数,以2型糖尿病为例,其症状的
    参数如表1所示:

    表1 2型糖尿病症状的TF/IDF/Wi值/wi值





    需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技
    术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是
    可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求?;さ姆段б匀ɡ?br />书界定的范围为准。

    关于本文
    本文标题:基于病例库的疾病症状及其权重知识的获取和处理方法.pdf
    链接地址://www.4mum.com.cn/p-6014177.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 七星彩前四位秘密公式 彩票稳定计划软件 3分pk10技巧 稳赚买法 赛车大小单双怎么看 上海时时票开奖结果查询 任九胆拖投注计算器 极速时时基本走势图 北京pk10是开奖结果 pc蛋蛋有赢的吗 极速pk10单双技巧 新时时彩完美计划软件 双色球最新开奖结 pk106码翻倍公式 足彩2串1稳赚不赔 黑龙江时时号码 12选五技巧