• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 19
    • 下载费用:30 金币  

    重庆时时彩组6杀码专家: 一种基于LDA的学术资源获取方法.pdf

    关 键 词:
    一种 基于 LDA 学术 资源 获取 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201611128684.9

    申请日:

    2016.12.09

    公开号:

    CN106777043A

    公开日:

    2017.05.31

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20161209|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 宁波大学
    发明人: 刘柏嵩; 费晨杰; 王洋洋; 尹丽玲; 高元
    地址: 315211 浙江省宁波市江北区风华路818号
    优先权:
    专利代理机构: 宁波奥圣专利代理事务所(普通合伙) 33226 代理人: 程晓明
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201611128684.9

    授权公告号:

    |||

    法律状态公告日:

    2017.06.23|||2017.05.31

    法律状态类型:

    实质审查的生效|||公开

    摘要

    提供一种基于LDA的学术资源获取方法,使用主题爬虫,同时使用LDA主题模型,先提供训练语料库供LDA主题模型训练得到主题文档,主题爬虫在普通网络爬虫的基础上进一步包括主题确定???、相似度计算???、URL优先级排序???;主题爬虫爬行过程中,用主题文档指导主题相似度的计算,选取主题相似度大于设定阈值的URL,由主题爬虫维护一个未访问网页的URL队列,主题爬虫按URL队列的排列顺序先后不断地访问各URL的网页,爬取相应学术资源,并不断地将所爬取的学术资源分类标签后存入数据库,直至未访问队列URL为空;并提供学术资源数据库开放的API供展示调用;将机器学习融入到学术资源的获取方法中,提高学术资源获取的质量和效率。

    权利要求书

    1.一种基于LDA的学术资源获取方法,所述学术资源为公布在互联网上的电子文献,使
    用由电脑运行的主题爬虫,实现从互联网上获取归属于目标学术主题的电子文献,其特征
    在于,同时使用由电脑运行的LDA主题模型,为所述LDA主题模型配置一个语料库,语料库的
    语料供所述LDA主题模型训练使用,通过LDA主题模型计算得到主题爬虫本次爬行的主题文
    档,主题文档为主题关联词的集合;所述主题爬虫在普通网络爬虫的基础上进一步包括主
    题确定???、相似度计算???、URL优先级排序???;主题爬虫爬行过程中,主题爬虫的主题
    确定??槿范勘曛魈饧捌渲魈馕牡?,用所述主题文档指导主题相似度的计算,相似度计
    算??槎运廊〉囊趁嫔厦扛雒谋静⒔岷细靡趁婺谌萁兄魈庀嗨贫燃扑慵芭卸?,剔除
    锚文本结合该页面的主题相似度小于设定阈值的超链接,选取锚文本结合该页面的主题相
    似度大于设定阈值的URL,由主题爬虫维护一个由已访问网页的超链接所指的未访问网页
    的URL队列,该URL队列根据相似度高低降序排列,主题爬虫按URL队列的排列顺序先后不断
    地访问各URL的网页,爬取相应学术资源,并不断地将所爬取的学术资源分类标签后存入数
    据库,针对本次爬行的主题文档,直至未访问队列URL为空;并提供学术资源数据库开放的
    API供展示调用。
    2.如权利要求1所述的学术资源获取方法,将所述主题爬虫每次所爬取的学术资源作
    为LDA主题模型训练用的新的语料;不断重复如权利要求1所述的主题爬虫爬行过程;使得
    各主题文档的所集合的主题关联词不断得以补充更新,所爬取的学术资源不断得以补充更
    新,为目标学术主题所获取学术资源的查准率与查全率不断提升。
    3.如权利要求1所述的学术资源获取方法,实现同时从互联网上为多个关注不同学术
    主题的学术资源需求者分别获取相关学术资源,其特征在于,所述学术主题为人为设定的
    多个学术主题,根据知识经验人为给定各学术主题该学术主题的关健词在互联网上的相关
    网站搜集其相关学术资源,以所搜集到的相关学术资源作为供所述LDA主题模型训练的初
    始语料库;所述主题爬虫为按学术主题数分布的多个分布式爬虫,每个分布式爬虫对应一
    个学术主题,各分布式爬虫同时获得多个学术主题的学术资源。
    4.如权利要求1所述的学术资源获取方法,其特征在于,所述学术主题为经过LDA主题
    模型训练而成的涵盖所有学科的多个学术主题,根据对所有学术领域的分类细化程度的具
    体需要人为确定一个对所有学术领域的分类数,该分类数作为学术主题数,根据操作者的
    知识经验在互联网上的相关网站随机搜集足够数量的文本资源,作为供所述LDA主题模型
    训练的初始语料库,所述LDA主题模型训练后得到经LDA主题模型归类的涵盖所有学科的与
    所述学术主题数相对应的多个学术主题的主题文档,阅读各主题文档的关联词栏目,根据
    知识经验人为命名主题名;所述主题爬虫为按学术主题数分布的多个分布式爬虫,每个分
    布式爬虫对应一个学术主题,各分布式爬虫同时获得多个学术主题的学术资源。
    5.如权利要求1至4任一项所述的学术资源获取方法,所述公布在互联网上的电子文献
    包括论文、期刊、新闻、专利文献,其特征在于,将学术资源的摘要作为训练语料库,通过LDA
    主题模型计算得到主题及主题文档,主题文档指导主题爬虫爬行过程中主题相似度的计
    算,后将爬取的内容分类标签后存储到数据库中,作为LDA训练模型新的语料,最后提供学
    术资源数据库开放的API供展示调用;具体步骤如下:
    步骤一、下载并预处理现有的多个领域的学术资源的摘要,根据学术领域人为分成不
    同类别,分别作为LDA多个主题的训练语料;
    步骤二、输入LDA主题模型参数,LDA主题模型参数包括K,α,β,其中K的值表示主题数,α
    的值表示各个主题在取样之前的权重分布,β的值表示各个主题对词的先验分布,训练得到
    多个主题更细分的主题及主题文档,每个主题文档用于指导一个爬虫;
    步骤三、每个爬虫从选取的优质的种子URL开始,维护一个未访问网页的超链接队列,
    通过不断计算网页中的文本与网页中锚文本链接所指的文本与主题的相似度,根据相似度
    排序更新URL队列,并抓取与主题最相关的网页内容;
    步骤四、主题爬虫获取的学术资源,打上对应主题标签后,存储到数据库中,并作为训
    练LDA的新语料,用于主题文档更新;
    步骤五、提供学术资源数据库开放的API,供展示调用。
    6.如权利要求5所述的学术资源获取方法,其特征在于,所述步骤一包括如下具体子步
    骤:
    (a)语料搜集:下载现有多个领域的学术资源的摘要,作为训练语料;
    (b)文本预处理:提取摘要,中文分词,去除停用词;
    (c)分类入语料库:根据学术领域人为分成不同类别,分别作为LDA多个主题的训练语
    料。
    7.如权利要求5所述的学术资源获取方法,其特征在于,所述步骤三包括如下具体子步
    骤:
    (a)初始种子URL选取面向特定主题的较好的种子站点;
    (b)提取网页内容:下载优先级高的URL所指向的页面,根据HTML标签抽取所需内容和
    URL信息;
    (c)计算网页内容的主题相关度,并判定决定页面的取舍;
    (d)对未访问网页URL的重要程度进行排序;
    (e)不断重复(b)~(d)过程,直至未访问队列URL为空。
    8.如权利要求7所述的学术资源获取方法,其特征在于,所述子步骤(c)中,所述主题爬
    虫在爬经每篇电子文献进行主题相关度分析判定时,采用将VSM和SSRM两种主题相似度计
    算算法相结合的广义向量空间模型GVSM,来计算经爬页面的主题相关度,决定页面的取舍。
    9.如权利要求1所述的学术资源获取方法,其特征在于,所述学术主题是由一组语义上
    相关的词及表示该词与所述学术主题相关的权重来表示,即学术主题Z={(w1,p1),(w2,
    p2),…,((wi,pi),…,wn,pn)},其中w1,w2,…,wn表示与学术主题Z相关的词,p1,p2…,pn分别
    为词w1,w2,…,wn与学术主题Z的相关度值,设wi为与学术主题Z相关的第i个词,1≤i≤n,在
    LDA中表示为学术主题Z={(w1,p(w1|zj)),(w2,p(w2|zj)),…,(wn,p(wn|zj))},任意第j个学
    术主题表示为Zj,其中,p(wi|zj)表示词wi的选择学术主题Zj的概率。
    10.如权利要求1所述的学术资源获取方法,其特征在于,所述主题文档生成过程为模
    型的一种概率取样的过程,包括如下具体子步骤:
    (a)对文集中的任一文档d,生成文档长度N,N~Poisson(ε),即N服从泊松分布;
    (b)对文集中的任一文档d,生成主题向量θ,主题向量θ~Dirichlet(α),即主题向量θ
    服从狄利克雷分布;
    (c)文档d中的第i个词wi的生成:首先,生成一个主题zj,zj~Multinomial(θ),即zj服从
    多项式分布;然后,对主题zj,生成一个离散变量即服从
    狄利克雷分布;最后生成使得概率最大的一个词。

    说明书

    一种基于LDA的学术资源获取方法

    技术领域

    本发明涉及机器学习、信息检索和web网页数据挖掘,尤其涉及一种基于LDA的学
    术资源获取方法。

    背景技术

    随着学术资源的电子化,从海量的学术资源中发现和挖掘研究者感兴趣领域的学
    术资源渐渐成为一个研究的热点。为了适应数字化的学术资源海量、多源异构的的特点,区
    别于传统基于关键字词频的主题发现方法如共词分析、引文分析等,一些基于机器学习和
    数据挖掘的新方法和模型不断被应用到学术资源分类领域,比较典型的如潜在狄利克雷分
    配模型(latent Dirichlet allocation,LDA)、社会网络分析(SNA)等,实践发现这方法在
    学术资源主题发现方面取得了良好的效果。

    网络爬虫是按照一定的规则,自动地抓取互联网信息的程序或者脚本。主题爬虫:
    是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。主题是指某个定义好的
    专业领域或者兴趣领域,例如航天航空,生物医学,信息技术等,具体指一系列相关的词所
    组成的集合。

    LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层
    贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章
    的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词
    语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。LDA是一种
    非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库
    (corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文
    档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有
    考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇
    文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一
    个概率分布。LDA主题模型是自然语言处理中主题挖掘的典型模型,可以从文本语料中抽取
    潜在的主题,提供一个量化研究主题的方法,已经被广泛的应用到学术资源的主题发现中,
    如研究热点挖掘、研究主题演化、研究趋势预测等,从而设计成基于LDA主题模型的网页主
    题爬虫。从LDA目前应用的情况来看,目前各种获取数字化学术资源(期刊论文、专利、硕博
    论文)的现有技术手段均存在一定局限性。

    学术研究、技术开发需要获取现有学术资源、技术信息,一般都是由各学术研究团
    队或技术开发团队的相关人员各自搜取,大量的重复搜取现象严重,搜取工作往往占用相
    关人员的大量时间精力。随着互联网的快速发展,网页数量快速增长,但由于计算资源、网
    络工具资源和存储资源的有限,传统搜索技术已经很难覆盖大众用户的不同需求了。因此,
    智能化、个性化、领域化的搜索引擎技术应运而生,垂直搜索引擎的研究成为了时下的热点
    研究方向。在搭建垂直搜索引擎之前,最重要的环节是如何利用主题爬虫从浩瀚的互联网
    中抓取到相关主题领域的信息内容,获取目标主题领域准确而全面的学术资源信息?;チ?br />网信息是在快速更新的,各学科也不断出现新名词、新概念、新思想;如何使主题爬虫具有
    自学习功能,以适应互联网信息的快速更新呢。

    对文献信息服务机构来说,如大学的图书馆、科技情报站等,获取网上文献信息为
    相关人员推送对应专业相关的资源成为重要工作。目前利用基于LDA的主题爬虫获取资源
    的方法,都是针对某个学术研究团队或技术开发团队的需求,设计的主题爬虫被定义只对
    某个学术领域或技术领域,或者说针对单一主题进行抓取。在主题爬虫一次爬行的时间段
    内只能提供单一领域或者说单一主题的学术或技术资源。那么,如何使主题爬虫一次爬行
    同时获取多个学术领域或技术领域或者说多个主题的学术或技术资源,以同时为多个学术
    研究团队或技术开发团队提供各自所需的学术或技术资源,同时又能保证学术或技术资源
    的对应性与资源范围广度满足多个学术研究团队或技术开发团队提供各自所需。

    本发明正是为了解决上述技术问题。

    发明内容

    本发明所要解决的技术问题是针对上述技术现状,提供一种基于LDA的学术资源
    获取方法。本发明针对现有技术存在的不足,在学术资源获取方法方面提出基于LDA的学术
    资源主题爬虫,爬虫主题相似度计算采用VSM和SSRM相结合的方法,以更精准有效地在海量
    学术资源中获取科研用户最感兴趣主题的相关资料。

    本发明解决上述技术问题所采用的技术方案为:

    一种基于LDA的学术资源获取方法,所述学术资源为公布在互联网上的电子文献,
    使用由电脑运行的主题爬虫,实现从互联网上获取归属于目标学术主题的电子文献,其特
    征在于,同时使用由电脑运行的LDA主题模型,为所述LDA主题模型配置一个语料库,语料库
    的语料供所述LDA主题模型训练使用,通过LDA主题模型计算得到主题爬虫本次爬行的主题
    文档,主题文档为主题关联词的集合;所述主题爬虫在普通网络爬虫的基础上进一步包括
    主题确定???、相似度计算???、URL优先级排序???;主题爬虫爬行过程中,主题爬虫的主
    题确定??槿范勘曛魈饧捌渲魈馕牡?,用所述主题文档指导主题相似度的计算,相似度
    计算??槎运廊〉囊趁嫔厦扛雒谋静⒔岷细靡趁婺谌萁兄魈庀嗨贫燃扑慵芭卸?,剔
    除锚文本结合该页面的主题相似度小于设定阈值的超链接,选取锚文本结合该页面的主题
    相似度大于设定阈值的URL,由主题爬虫维护一个由已访问网页的超链接所指的未访问网
    页的URL队列,该URL队列根据相似度高低降序排列,主题爬虫按URL队列的排列顺序先后不
    断地访问各URL的网页,爬取相应学术资源,并不断地将所爬取的学术资源分类标签后存入
    数据库,针对本次爬行的主题文档,直至未访问队列URL为空;并提供学术资源数据库开放
    的API供展示调用。

    将所述主题爬虫每次所爬取的学术资源作为LDA主题模型训练用的新的语料;不
    断重复如权利要求1所述的主题爬虫爬行过程;使得各主题文档的所集合的主题关联词不
    断得以补充更新,所爬取的学术资源不断得以补充更新,为目标学术主题所获取学术资源
    的查准率与查全率不断提升。

    为实现同时从互联网上为多个关注不同学术主题的学术资源需求者分别获取相
    关学术资源,所述学术主题为人为设定的多个学术主题,根据知识经验人为给定各学术主
    题该学术主题的关健词在互联网上的相关网站搜集其相关学术资源,以所搜集到的相关学
    术资源作为供所述LDA主题模型训练的初始语料库;所述主题爬虫为按学术主题数分布的
    多个分布式爬虫,每个分布式爬虫对应一个学术主题,各分布式爬虫同时获得多个学术主
    题的学术资源。

    学术主题也可以是经过LDA主题模型训练而成的涵盖所有学科的多个学术主题,
    根据对所有学术领域的分类细化程度的具体需要人为确定一个对所有学术领域的分类数,
    该分类数作为学术主题数,根据操作者的知识经验在互联网上的相关网站随机搜集足够数
    量的文本资源,作为供所述LDA主题模型训练的初始语料库,所述LDA主题模型训练后得到
    经LDA主题模型归类的涵盖所有学科的与所述学术主题数相对应的多个学术主题的主题文
    档,阅读各主题文档的关联词栏目,根据知识经验人为命名主题名;所述主题爬虫为按学术
    主题数分布的多个分布式爬虫,每个分布式爬虫对应一个学术主题,各分布式爬虫同时获
    得多个学术主题的学术资源。

    所述公布在互联网上的电子文献包括论文、期刊、新闻、专利文献,将学术资源的
    摘要作为训练语料库,通过LDA主题模型计算得到主题及主题文档,主题文档指导主题爬虫
    爬行过程中主题相似度的计算,后将爬取的内容分类标签后存储到数据库中,作为LDA训练
    模型新的语料,最后提供学术资源数据库开放的API供展示调用;具体步骤如下:

    步骤一、下载并预处理现有的多个领域的学术资源的摘要,根据学术领域人为分
    成不同类别,分别作为LDA多个主题的训练语料;

    步骤二、输入LDA主题模型参数,LDA主题模型参数包括K,α,β,其中K的值表示主题
    数,α的值表示各个主题在取样之前的权重分布,β的值表示各个主题对词的先验分布,训练
    得到多个主题更细分的主题及主题文档,每个主题文档用于指导一个爬虫;

    步骤三、每个爬虫从选取的优质的种子URL开始,维护一个未访问网页的超链接队
    列,不断计算网页中的文本与网页中锚文本链接所指的文本与主题的相似度,根据计算出
    来的相似度数值排序更新爬取URL队列,并抓取与主题最相关的网页内容;

    步骤四、主题爬虫获取的学术资源,打上对应主题标签后,存储到数据库中,并作
    为训练LDA的新语料,用于主题文档更新;

    步骤五、提供学术资源数据库开放的API,供展示调用。

    所述步骤一包括如下具体子步骤:

    (a)语料搜集:下载现有多个领域的学术资源的摘要,作为训练语料;

    (b)文本预处理:提取摘要,中文分词,去除停用词;

    (c)分类入语料库:根据学术领域人为分成不同类别,分别作为LDA多个主题的训
    练语料。

    所述步骤三包括如下具体子步骤:

    (a)初始种子URL选取面向特定主题的较好的种子站点;

    (b)提取网页内容:下载优先级高的URL所指向的页面,根据HTML标签抽取所需内
    容和URL信息;

    (c)计算网页内容的主题相关度,并判定决定页面的取舍;

    (d)对未访问网页URL的重要程度进行排序;

    (e)重复(b)~(d)过程,直至未访问队列URL为空。

    所述子步骤(c)中,所述主题爬虫在爬经每篇电子文献进行主题相关度计算判定
    时,采用将VSM和SSRM两种主题相似度计算算法相结合的广义向量空间模型GVSM,来计算经
    爬页面的主题相关度,决定页面的取舍。

    所述学术主题是由一组语义上相关的词及表示该词与所述学术主题相关的权重
    来表示,即学术主题Z={(w1,p1),(w2,p2),…,((wi,pi),…,wn,pn)},其中w1,w2,…,wn表示与
    学术主题Z相关的词,p1,p2…,pn分别为词w1,w2,…,wn与学术主题Z的相关度值,设wi为与学
    术主题Z相关的第i个词,1≤i≤n,在LDA中表示为学术主题Z={(w1,p(w1|zj)),(w2,p(w2|
    zj)),…,(wn,p(wn|zj))},任意第j个学术主题表示为Zj,其中,p(wi|zj)表示词wi的选择学术
    主题Zj的概率。

    所述主题文档生成过程为模型的一种概率取样的过程,包括如下具体子步骤:

    (a)对文集中的任一文档d,生成文档长度N,N~Poisson(ε),即N服从泊松分布;

    (b)对文集中的任一文档d,生成主题向量θ,主题向量θ~Dirichllet(α),即主题
    向量θ服从狄利克雷分布;

    (c)文档d中的第i个词wi的生成:首先,生成一个主题zj,zj~Multinomial(θ),即
    zj服从多项式分布;然后,对主题zj,生成一个离散变量即
    服从狄利克雷分布;最后生成使得概率最大的一个词。

    本发明主要通过LDA主题模型,深度挖掘主题语义信息,为学术资源的主题爬虫构
    造良好的指导基础而主题爬虫所得的学术资源将用于LDA主题更新。将机器学习融入到学
    术资源的获取方法中,提高学术资源获取的准度和质量。采用分布式多线程爬虫,同时获取
    多个主题的学术资源,在爬取资源的速度和数量方面有很好的提升。

    本发明所述的基于LDA的学术资源获取方法具有如下特点:

    (1)通过LDA主题模型,深度挖掘主题语义信息,为学术资源的主题爬虫构造良好
    的指导基础,将机器学习融入到学术资源的获取方法中,提高学术资源获取的质量和效率。

    (2)主题爬虫所得的学术资源将用于LDA主题更新,定期更新主题模型,跟进学术
    发展的趋势,为科研工作者提供相关领域前沿资源。

    (3)在主题爬虫主题相似度计算???,采用将VSM与SSRM相结合的方法,平衡余弦
    相似度和语义相似度,达到更好的主题匹配效果。

    (4)采用学术资源的摘要,作为LDA主题模型的训练语料,在主题抽取广度和主题
    的细度方面相对于其他语料更具优势。

    (5)采用分布式爬虫框架,可同步抓取不同主题的学术资源,弥补混合相似度计算
    带来的时间损耗。

    附图说明

    图1为本发明针对单个主题的整个方法的流程示意图;

    图2为本发明主题爬虫框架示意图;

    图3为LDA模型示意图;

    图4为主题与主题文档示意图;

    图5为某一语料文本预处理前的文本示意图;

    图6为某一语料文本预处理后的文本示意图;

    图7为本发明针对多个主题的整个方法的流程示意图。

    相关概念名词解释

    网络爬虫:按照一定的规则,自动地抓取互联网信息的程序或者脚本。

    主题爬虫:是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。

    词:是待处理数据的基本离散单位,例如在文本处理中,一个词就是一个英文单词
    或者有独立意义的中文词。

    主题:是指某个定义好的专业领域或者兴趣领域,例如航天航空,生物医学,信息
    技术等,具体指一系列相关的词所组成的集合。

    主题文档:指描述该主题的词语集合,词语本身与主题高度相关,如搜索引擎中查
    询用到的关键词。

    主题确定??椋菏侵魈馀莱娴囊桓龉δ苣??,指确定预先定义的主题,一般的有两
    种方法:人为确定关键词;程序提取初始网页集合的关键词。

    分布式爬虫:在爬取互联网资源信息时,对当前页面上不同主题的信息能够同时
    获取,最终达到的目标:爬行一次,能获得多个主题的网络资源,比单个主题爬虫在效率和
    收获率有较好的提升。

    LDA模型训练:对语料信息进行LDA统计模型的处理,计算一篇文章中的各个单词
    属于不同的主题的概率,根据概率数值将词分到对应主题下。

    训练所需的语料:模型训练所需要的文本。

    具体实施方式

    以下详细说明本发明的具体实施方式。

    一种基于LDA的学术资源获取方法,所述学术资源为公布在互联网上的各种电子
    文献,包括但不限于各种论文、期刊、新闻、专利文献,使用可由电脑运行的主题爬虫,同时
    使用可由电脑运行的LDA主题模型,LDA主题模型如图3所示;为所述LDA主题模型配置一个
    语料库,语料库的语料供所述LDA主题模型训练使用,通过LDA主题模型计算得到主题爬虫
    本次爬行的主题文档,主题文档为主题关联词的集合,如图4所示;主题爬虫在普通网络爬
    虫的基础上进一步包括主题确定???、相似度计算???、URL优先级排序???,如图2所示;
    主题爬虫爬行过程中,主题爬虫的主题确定??槿范勘曛魈饧捌渲魈馕牡?,用所述主题
    文档指导主题相似度的计算,相似度计算??槎运廊〉囊趁嫔厦扛雒谋静⒔岷细靡趁?br />内容进行主题相似度计算及判断,剔除锚文本结合该页面的主题相似度小于设定阈值的超
    链接,选取锚文本结合该页面的主题相似度大于设定阈值的URL,由主题爬虫维护一个由已
    访问网页的超链接所指的未访问网页的URL队列,该URL队列根据相似度高低降序排列,主
    题爬虫按URL队列的排列顺序先后不断地访问各URL的网页,爬取相应学术资源,并不断地
    将所爬取的学术资源分类标签后存入数据库,针对本次爬行的主题文档,直至未访问队列
    URL为空;并提供学术资源数据库开放的API供展示调用。

    将主题爬虫每次所爬取的学术资源作为LDA主题模型训练用的新的语料;不断重
    复如上所述的主题爬虫爬行过程;使得各主题文档的所集合的主题关联词不断得以补充更
    新,所爬取的学术资源不断得以补充更新,为目标学术主题所获取学术资源的查准率与查
    全率不断提升。以上所述学术主题可以是单个学术主题,本发明针对单个主题的整个方法
    的流程如图1所示。

    以上所述所述学术主题为人为设定的多个学术主题,根据知识经验人为给定各学
    术主题该学术主题的关健词在互联网上的相关网站搜集其相关学术资源,以所搜集到的相
    关学术资源作为供所述LDA主题模型训练的初始语料库;所述主题爬虫为按学术主题数分
    布的多个分布式爬虫,每个分布式爬虫对应一个学术主题,各分布式爬虫同时获得多个学
    术主题的学术资源。

    以上所述学术主题也可以是经过LDA主题模型训练而成的涵盖所有学科的多个学
    术主题,根据对所有学术领域的分类细化程度的具体需要人为确定一个对所有学术领域的
    分类数,该分类数作为学术主题数,根据操作者的知识经验在互联网上的相关网站随机搜
    集足够数量的文本资源,作为供所述LDA主题模型训练的初始语料库,所述LDA主题模型训
    练后得到经LDA主题模型归类的涵盖所有学科的与所述学术主题数相对应的多个学术主题
    的主题文档,阅读各主题文档的关联词栏目,根据知识经验人为命名主题名。

    对于以上二种多个学术主题的情形,主题爬虫为按学术主题数分布的多个分布式
    爬虫,每个分布式爬虫对应一个学术主题,各分布式爬虫同时获得多个学术主题的学术资
    源。针对多个主题的整个方法的流程如图7所示。

    为了便于操作,可以将学术资源的摘要作为训练语料库,通过LDA主题模型计算得
    到主题及主题文档,主题文档指导主题爬虫爬行过程中主题相似度的计算,后将爬取的内
    容分类标签后存储到数据库中,作为LDA训练模型新的语料,最后提供学术资源数据库开放
    的API供展示调用;具体步骤如下:

    步骤一、下载并预处理现有的多个领域的学术资源的摘要,根据学术领域人为分
    成不同类别,分别作为LDA多个主题的训练语料;

    步骤二、输入LDA主题模型参数,LDA主题模型参数包括K,α,β,其中K的值表示主题
    数,α的值表示各个主题在取样之前的权重分布,β的值表示各个主题对词的先验分布,训练
    得到多个主题更细分的主题及主题文档,每个主题文档用于指导一个爬虫;

    步骤三、每个爬虫从选取的优质的种子URL开始,维护一个爬取URL队列,通过不断
    计算网页中的文本与网页中锚文本链接所指的文本与主题的相似度,根据相似度排序更新
    爬取URL队列,并抓取与主题最相关的网页内容;

    步骤四、主题爬虫获取的学术资源,打上对应主题标签后,存储到数据库中,并作
    为训练LDA的新语料,用于主题文档更新;

    步骤五、提供学术资源数据库开放的API,供展示调用。

    其中步骤一包括如下具体子步骤:

    (a)语料搜集:下载现有多个领域的学术资源的摘要,作为训练语料;

    (b)文本预处理:提取摘要,中文分词,去除停用词;

    (c)分类入语料库:根据学术领域人为分成不同类别,分别作为LDA多个主题的训
    练语料。

    其中步骤三包括如下具体子步骤:

    (a)初始种子URL选取面向特定主题的较好的种子站点;

    (b)提取网页内容:下载优先级高的URL所指向的页面,根据HTML标签抽取所需内
    容和URL信息;

    (c)主题相关度分析判定,决定页面的取舍;本发明主要采用将现有的VSM技术和
    SSRM技术相结合来计算主题相关度;

    (d)对未访问网页URL的重要程度进行排序;

    (e)重复(b)~(d)过程,直至未访问队列URL为空。

    其中子步骤(c)中,主题爬虫在爬经每篇电子文献进行主题相关度分析判定时,采
    用将VSM和SSRM两种主题相似度计算算法相结合的广义向量空间模型GVSM,来计算经爬页
    面的主题相关度,决定页面的取舍。

    学术主题是由一组语义上相关的词及表示该词与所述学术主题相关的权重来表
    示,即学术主题Z={(w1,p1),(w2,p2),…,((wi,pi),…,wn,pn)},其中w1,w2,…,wn表示与学术
    主题Z相关的词,p1,p2…,pn分别为词w1,w2,…,wn与学术主题Z的相关度值,设wi为与学术主
    题Z相关的第i个词,1≤i≤n,在LDA中表示为学术主题Z={(w1,p(w1|zj)),(w2,p(w2|
    zj)),…,(wn,p(wn|zj))},任意第j个学术主题表示为Zj,其中,p(wi|zj)表示词wi的选择学术
    主题Zj的概率。

    主题文档生成过程为模型的一种概率取样的过程,包括如下具体子步骤:

    (a)对文集中的任一文档d,生成文档长度N,N~Poisson(ε),即N服从泊松分布;

    (b)对文集中的任一文档d,生成主题向量θ,主题向量θ~Dirichllet(α),即主题
    向量θ服从狄利克雷分布;

    (c)文档d中的第i个词wi的生成:首先,生成一个主题zj,zj~Multinomial(θ),

    即zj服从多项式分布;然后,对主题zj,生成一个离散变量即
    服从狄利克雷分布;最后生成使得概率最大的一个词。LDA模型如
    图3所示。

    其中,α的值表示各个主题在取样之前的权重分布,β的值表示各个主题对词的先
    验分布。

    LDA模型中所有的变量及其服从的分布如下:

    θ~Dirichlet(α),


    整个模型通过积分可能存在的变量,实际上可以变为P(w|Z)的联合分布。其中w指
    词,且可观测。Z是话题的变量,是模型的目标产物??梢钥闯靓?,β都是模型的初始参数。那么
    通过对其中存在的变量积分可以得到:


    其中,N是词表长度,w是词,对θ~Dirichllet(α),中θ积
    分得:


    其中,表示特征词w分配给主题j的次数,表示分配给主题j的特征词数,

    表示文本d中分配给主题j的特征词数,n.(d)表示文本d中所有分配了主题的
    特征词数。

    从上可以看出,影响LDA建模的三个变量主要为α,β和话题数目K。为了选择比较好
    的话题数目,首先固定了α,β的取值,然后计算对其他变量积分后的式子的值的变化。

    采用LDA模型对文本集进行主题建模时,主题数目K对LDA模型拟合文本集的性能
    影响很大,因此需预先设定主题数。本文通过衡量不同主题数下的分类效果来确定最优主
    题数,并与使用Perplexity值确定模型最佳拟合时的分类效果进行比较,本文方法一方面
    能获得更直观准确的最优主题数,另一方面通过Perplexity值确定的最优主题数可以找出
    对应的分类效果与实际结果的差距。Perplexity值公式为:


    其中,M为文本集中的文本数,Nm为第m篇文本的长度,P(dm)为LDA模型产生第m篇文
    本的概率,公式为:


    本发明主题爬虫在通用爬虫的基础上增加了三个??椋褐魈馊范??、相似度计
    算???、URL优先级排序???,从而完成了对爬取页面的过滤和主题匹配,最终获得与主题
    高度相关的内容。

    1、主题确定??椋褐魈馀莱嬖诠ぷ髑耙范ǜ弥魈馀莱娴南喙刂魈獯始?,即建立
    主题文档。主题词集的确定通常有两种,一种是人工确定,另一种是通过初始页面集抽取所
    得。人工确定主题词集,关键词的训选取具有主观性,而初始页面抽取的关键词高噪音和低
    覆盖率。主题词的个数作为主题向量的维数,而相应的权值则为主题向量的各个分量值。记
    主题词集向量为:K={k1,k2,…,kn},n为主题词的个数。

    2、相似度计算??椋何吮Vづ莱婊袢〉耐衬芄痪×肯蛑魈饪柯?必须对网页
    进行过滤,将主题相关度较低的网页(小于设定的阈值)剔除,这样就不会在下一步爬行中
    处理该页面中的链接。因为一个页面的主题相关度如果很低,说明该网页很可能只是偶尔
    出现某些关键词,而页面的主题可能和指定主题几乎没有什么关系,处理其中的链接意义
    很小,这是主题爬虫和普通爬虫的根本区别。普通爬虫是根据设定的搜索深度,对所有链接
    进行处理,结果返回了大量无用的网页,而且进一步增加了工作量。将整篇文本用于相似度
    对比显然是一个不可行的办法,通常需要将文本的进行提炼和抽取,转化为适合比对和计
    算的数据结构,同时要保证尽可能的体现文本的主题。通常的主题爬虫采用的特征选取是
    VSM,也涉及TF-IDF算法。本文运用的是基于《知网》的语义相似度计算,通过对文档和主题
    词文档的词语之间的相似度计算,得到整篇文章与主题的相似度值。

    3、URL优先级排序??椋篣RL优先级排序??橹饕谴游捶梦实腢RL中筛选出与主
    题相似度高的潜在页面,根据相似度的高低进行排序,相似度越高的优先级越高,尽可能优
    先访问相似度高的,以保证访问的页面高主题相关。对未访问URL进行排序时,可以结合URL
    所在页面和URL锚文本(描述URL的文本)的相似度作为优先级排序的影响因素。

    本发明利用《知网》对每个词的语义信息的定义来计算词语之间相似度。在知网
    中,对于两个词语W1和W2,,设W1有个概念:W2有m个概念:
    W1和W2的相似度是W1的每个概念与W2的每个概念的相似度的最大值,公式如

    其中1≤i≤n,1≤j≤m

    这样,两个词语间的相似度可以转化为概念之间的相似度计算,知网中所有概念
    都最终归结于义原的表示,所以概念间相似度的计算也可以归结于与之对应的义原间相似
    度的计算。假设概念c1和概念c2分别有p和q个义原,分别记为
    概念c1和概念c2的相似度是c1的每个义原和c2的每个义原的相似度的最
    大值,公式为:

    其中1≤i≤p,1≤j≤q

    《知网》中所有概念都最终归结于义原的表示,所以概念之间相似度的计算也可以
    归结于与之对应的义原间相似度的计算。由于所有的义原根据上下位关系构成了一个树状
    的义原层次体系,故可采用义原在义原层次体系中的语义距离来计算义原相似度,进而得
    出概念相似度[27]。假设两个义原和在义原层次体系中的路径距离为Dis(s1,s2),则义原的
    相似度计算公式为:


    其中Dis(s1,s2)是s1和s2在义原层次体系中的路径长度,这里利用的是义原上下
    位关系,它是一个正整数。

    本发明主题爬虫的设计是以普通爬虫为基础,进一步功能扩充。在对网页的整个
    处理过程中步骤:初始种子URL确定、提取网页内容,主题相关度分析、URL排序。

    (a)初始种子URL选取面向特定主题的较好的种子站点,使主题爬虫能够顺利展开
    爬行工作。

    (b)提取网页内容:下载优先级高的URL所指向的页面,根据HTML标签抽取所需内
    容和URL信息。

    (c)主题相关度分析是主题爬虫的核心???它决定页面的取舍。本发明主要采用
    将现有的VSM技术和SSRM技术相结合的广义向量空间模型GVSM来计算主题相关度。

    主题相关度分析,用TF-IDF抽取文本关键词,并算出词的权重,对网页进行相关度
    分析。

    TF-IDF相关计算:


    其中wdi为词i在文档d中的权重,tfi为词i的词频,idfi为词i的逆文档频率,fi为词
    i在文档d中出现的次数,fmax为在文档d所有词中出现频率最高的次数,N为所有文档数,Ni
    为包含词i的文档数。TF-IDF仍是当前最有效的提取关键词和计算词的权值的方法。

    VSM主题相关度计算:


    其中为文档d的词向量,为主题t的词向量,wdi,wti为词i在文档d和主题t的TF-
    IDF值,n为文档d和主题t中出现的共同词的个数。该算法只考虑文档中出现相同词的频率
    向量,以此作为文档相似度判断,并未考虑到词与词之间语义上存在的关系,例如近义词,
    同义词等,从而影响了相似度的准确度。

    SSRM主题相关度计算:


    其中wdi,wti为词i在文档d和主题t的TF-IDF值,n,m分别为文档d和主题t的词数,
    Semij为词i和词j的语义相似度。


    其中C1,C2是两个概念,相当于词w1和词w1,Sem(C1,C2)为概念C1和概念C2的语义相
    似度,C3是C1和C2享有的最低共同概念,Path(C1,C3)为C1到C3路径上的节点数,Path(C2,C3)
    为C2到C3路径上的节点数,Depth(C3)为在一些不同的本体中,C3到根结点路径上的节点数。
    采用SSRM的算法,只考虑了语义上的关系,如果存在两篇文章中的词都是近义词或同义词,
    那么这篇文档相似度会计算的1,即完全相同,这显然是欠缺准确的。

    本发明采用结合VSM和SSRM计算相似度的方法,也称作广义向量空间模型,简称
    GVSM,其计算式为:


    其中Sim(dk,t)为文档dk的主题相似度,本发明兼顾文档词频因素和词与词之间的
    语义联系,采用将VSM与SSRM相结合的方法,有效提高主题相似度计算的精准度。

    (d)对未访问网页URL的重要程度进行排序。采用的是以下公式对URL进行排序:


    其中priority(h))为未访问的超链接h的优先值,N为包含h的检索网页数,Sim
    (fp,t)为网页p(包含超链接h)全文的主题相似度,Sim(ah,t)为超链接h的锚文本的主题相
    似度,λ为调节全文与锚文本的权重值。公式中的相似度计算同样采用VSM和SSRM相结合的
    方法,优化了未爬取URL链接队列的优先级排序,同样有效提高了主题学术资源获取的准确
    性。

    本发明主题爬虫是专为抓取某个主题资源而出现的网络信息抓取工具,相比于通
    通常的网络爬虫,主题爬虫目的在于抓取与特定主题内容相关的网页信息,需要通过计算
    网页与主题的相关程度来判断是否抓取该网页,并且维护一个待爬取URL队列,根据URL的
    优先级对页面进行访问,以保证相关度高的页面优先被访问。

    目前的主题爬虫存在着一些缺陷:(1)主题爬虫在工作前要确定该主题爬虫的相
    关主题词集。主题词集的确定通常有两种,一种是人工确定,另一种是通过初始页面分析所
    得。人工确定方法存在一定的主观性;而通过初始页面提取关键字的方法,一般在主题覆盖
    率上有所不足。两种传统的方法都会在主题爬虫进行网页主题相似度计算时造成不小的偏
    差。(2)目前基于文本启发式主题爬虫的核心是页面相似度计算,判断当前爬取网页是否与
    主题相近,除了与主题确定??榈木范扔泄赝?,最主要的就是相似度计算算法,通常采用
    的是VSM(向量空间模型),基于不同词之间是不相关的假设,以词向量来表示文本,通过共
    有词频计算文档间的相似度,这种算法往往忽略了词语词之间的语义关系,降低了在语义
    上高度相关文章的相似值。

    本发明主题爬虫的设计是以通用爬虫为基础,增加三个核心??椋褐魈馊范??,
    主题相似度计算??楹痛廊RL排序???。针对以上不足,本发明提出基于主题模型LDA
    的主题爬虫,并改进主题相似度算法和URL优先级排序算法,从爬取的初始和爬取的过程提
    高主题爬虫的内容质量与准确度。主要贡献点:(1)通过LDA主题模型,深度挖掘语料主题语
    义信息,为主题爬虫构造良好的指导基础,将机器学习融入到资源的获取方法中,提高资源
    获取的准度和质量。(2)在主题爬虫主题相似度计算???,采用将基于《知网》的语义相似度
    计算的方法,平衡余弦相似度和语义相似度,达到更好的主题匹配效果。

    下面例举一个应用实例:

    作为图书馆资源推荐服务的一项应用,需要为不同学院的科研人员(老师和研究
    生)推送从互联网上抓取的专业相关资源(论文,专利,博客、新闻等),为多个学院的研究人
    员同时推送对应专业相关的资源。将所有学术领域预定分为100个领域,即定为100个主题;
    主题爬虫为按学术主题数分布的100个分布式爬虫,每个分布式爬虫对应一个学术主题,各
    分布式爬虫同时获得100个学术主题的学术资源。整个方法的流程如图7所示。

    第一步:用网络爬虫在科学网、中国科技网、中国新闻网等,随机搜集60000篇新闻
    正文作为LDA训练语料库。

    第二步:将语料库中文本预处理,包括分词(将整篇文档切分成词,词是处理最小
    单位)、去停用词(过滤掉一些与文章内容无关的词语,如“的”,“了”,“因为”等连接词和语
    气词)、处理成符合主题模型的输入格式,主要用到开源工具IK分词器,加载停用词字典,对
    于某一篇文章,预处理前如图5所示,预处理后如图6所示。

    第三步:将所有学术领域预定分为100个领域,即定为100个主题,将所搜集的
    60000篇文本资源,作为供LDA主题模型训练的初始语料库,LDA主题模型训练后得到经LDA
    主题模型归类的100个学术主题的主题文档,阅读各主题文档的关联词栏目,根据知识经验
    人为命名主题名,如图4所示。

    第四步:通过LDA的训练得到的主题用于指导主题爬虫的主题判断,即网页的相似
    度判断。一个网页中包含了多个主题的信息,主题爬虫的目的就是在爬取该页面的时候,根
    据把预先定义好的主题,把所需信息抓取下来;如新闻网页上有多个新闻标题后台源代码
    中对应一个新闻原文的超链接,根据网页内容和标题进行主题相似度判断,算法参考论文
    中相似度计算,相似度值高的即为需要的信息,放到爬取队列中。

    第五步:爬取队列根据主题相似度值由高到低排序,优先抓取访问相似度值高的
    网页,将抓取的内容打上对应主题标签后存到数据库中;每个主题爬虫维护一个队列,打标
    签就是在存入数据库的同时,将对应的主题名一同存入数据库。最终新增的数据,一是作为
    LDA新的语料,二是为推荐分类系统的提供调用。

    本发明由LDA训练得到的主题词库,实际爬取过程中,在收获率和精准度明显优于
    单纯基于关键词和页面提取主题词的方法;在此基础上,通过对关键词和页面主题词进行
    LDA主题词库扩充,效果均好于原先的单一主题词确定方案,证明了LDA扩展词库的可行性
    和有效性。相比于传统VSM对文本进行相似度计算,基于《知网》的相似度算法通过词语语义
    提高了文档间的相似度值,在获取率和精准度表现上也明显较好。将这两个技术运用在主
    题爬虫中,得到了很好的效果,结合到具体应用,将大大提高在从海量资源中获取特定主题
    信息的质量和效率。

    关于本文
    本文标题:一种基于LDA的学术资源获取方法.pdf
    链接地址://www.4mum.com.cn/p-6021155.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 万人龙虎的计划是怎么编排的 重庆欢乐生肖走势图 算出重庆时时口诀 水果机技巧规律 北京pk10软件 必中计划软件幸运飞 新疆时时五星通走势图 三地五码组六最大遗漏 赌博龙虎牌怎么包赢不输 pk10走势图教你投注 凤凰高手论坛恃码中心 双色球开奖日期 彩票和值大小 快3稳赚公式大小单双 北京pk10app破解版 全网最早无错36码特围网址