• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 32
    • 下载费用:30 金币  

    重庆时时彩全位胆: 一种学术资源推荐服务系统与方法.pdf

    关 键 词:
    一种 学术 资源 推荐 服务 系统 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201611130297.9

    申请日:

    2016.12.09

    公开号:

    CN106815297A

    公开日:

    2017.06.09

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20161209|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 宁波大学
    发明人: 刘柏嵩; 王洋洋; 尹丽玲; 费晨杰; 高元
    地址: 315211 浙江省宁波市江北区风华路818号
    优先权:
    专利代理机构: 宁波奥圣专利代理事务所(普通合伙) 33226 代理人: 程晓明
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201611130297.9

    授权公告号:

    |||

    法律状态公告日:

    2017.07.04|||2017.06.09

    法律状态类型:

    实质审查的生效|||公开

    摘要

    提供一种学术资源推荐服务系统与方法,用基于LDA的主题爬虫在互联网上爬取学术资源,用基于LDA的文本分类模型按预定A个类别分类后存储于本地的学术资源数据库,还包括学术资源模型、资源质量值计算模型、用户兴趣模型,在用户的终端殖入跟踪软件???,结合用户的兴趣学科和历史浏览行为数据,学术资源类型、学科主题分布、关键词分布和LDA潜在主题分布共四个维度分别对学术资源模型和用户兴趣模型进行建模,计算学术资源模型与用户兴趣偏好模型之间的相似度,再结合资源质量值计算推荐度,最后根据推荐度为用户进行学术资源Top??N推荐;本发明根据用户身份、兴趣和浏览行为进行学术资源的个性化的精准推荐,提高科研人员的工作效率。

    权利要求书

    1.一种学术资源推荐服务系统,所述学术资源为公布在互联网上的各种电子文本,所
    述学术资源推荐服务系统包括网络爬虫、文本分类模型、位于本地的待推荐学术资源数据
    库,由网络爬虫在互联网上爬取学术资源,其特征在于,用文本分类模型按预定A个类别分
    类后存储于本地的待推荐学术资源数据库,提供学术资源数据库开放的API供展示及资源
    推荐??榈饔?,所述学术资源推荐服务系统还包括学术资源模型、资源质量值计算模型、用
    户兴趣模型,在用户的终端殖入跟踪软件???,用于跟踪记录用户的网上浏览行为;基于不
    同群体用户的历史浏览行为数据,计算不同身份的用户对各个类型学术资源的关注程度,
    从资源类型、学科分布、关键词分布和LDA潜在主题分布共四个维度对学术资源建模,结合
    用户的兴趣学科和历史浏览行为数据,对用户兴趣模型建模,计算学术资源模型与用户兴
    趣模型之间的相似度,再结合资源质量值计算推荐度,最后根据推荐度为用户进行学术资
    源Top-N推荐。
    2.如权利要求1所述的学术资源推荐服务系统,其特征在于,所述网络爬虫为主题爬
    虫,并配置LDA主题模型,所述LDA主题模型是一个“文档-主题-词”的三层贝叶斯生成模型,
    预先为所述LDA主题模型配置一个语料库,语料库中包括训练语料,用训练语料按设定主题
    数K让LDA主题模型训练,利用LDA主题模型训练时的聚词功能在训练语料经LDA主题模型训
    练后获得按设定主题数K分别聚集成K个主题关联词集合,即得到主题爬虫本次爬行的K个
    主题文档;所述主题爬虫在普通网络爬虫的基础上进一步包括主题确定???、相似度计算
    ???、URL优先级排序???;所述主题爬虫为按学术主题数分布的多个分布式爬虫,每个分
    布式爬虫对应一个学术主题,各分布式爬虫同时获得多个学术主题的学术资源;主题爬虫
    每次爬行过程中,主题爬虫的主题确定??槿范勘曛魈饧捌渲魈馕牡?,用所述主题文档
    指导主题相似度的计算,相似度计算??槎运廊〉囊趁嫔厦扛雒谋静⒔岷细靡趁婺谌?br />进行主题相似度计算及判断,剔除锚文本结合该页面的主题相似度小于设定阈值的超链
    接,选取锚文本结合该页面的主题相似度大于设定阈值的URL,由主题爬虫维护一个由已访
    问网页的超链接所指的未访问网页的URL队列,该URL队列根据相似度高低降序排列,主题
    爬虫按URL队列的排列顺序先后不断地访问各URL的网页,爬取相应学术资源,并不断地将
    所爬取的学术资源分类标签后存入数据库,针对本次爬行的主题文档,直至未访问队列URL
    为空;将所述主题爬虫每次所爬取的学术资源作为LDA主题模型训练用的新的语料;并不断
    重复主题爬虫爬行过程,使得各主题文档的所集合的主题关联词不断得以补充更新,所爬
    取的学术资源不断得以补充更新至一个人为认可的程度。
    3.如权利要求2所述的学术资源推荐服务系统,其特征在于,所述语料库中还包括类别
    明确的验证语料,用于预先用验证语料按预定类别数A让所述文本分类模型进行分类验证,
    以获得文本分类模型对A个类别中的每个类别的分类准确率,作为文本分类模型对A个类别
    中的每个类别的归类可信度指标;该准确率为被文本分类模型分到某个类别的所有验证语
    料中属被正确分类的语料的比率,并预设分类准确率阈值。
    4.如权利要求3所述的学术资源推荐服务系统,其特征在于,将所有学科分为75个学科
    类别,即所述类别数A为75个类别,利用LDA主题模型训练时设定主题数K为100个,所述文本
    分类模型进行分类验证时预设分类准确率阈值为80%。
    5.一种以资源推荐服务系统为相关用户提供学术资源推荐服务的方法,所述学术资源
    为公布在互联网上的各种电子文本,包括使用网络爬虫在互联网上爬取学术资源,其特征
    在于,使用文本分类模型将所爬取的学术资源按预定A个类别进行分类后存储,形成学术资
    源数据库,提供学术资源数据库开放的API供展示及资源推荐??榈饔?,使用学术资源模
    型、资源质量值计算模型、用户兴趣模型,在用户的终端殖入跟踪软件???,用于跟踪记录
    用户的网上浏览行为;向用户推荐其相应的学术资源的过程包括冷启动推荐阶段与二次推
    荐阶段,冷启动推荐阶段基于兴趣学科为用户推荐符合其兴趣学科的优质资源,所述优质
    资源即为经资源质量值计算模型计算后比较所得的资源质量值高的学术资源,资源质量值
    为资源权威度、资源社区热度和资源时新度的算术平均值或加权平均值;二次推荐阶段,分
    别对用户兴趣模型和资源模型建模,计算用户兴趣模型与资源模型二者的相似性,再结合
    资源质量值计算推荐度,最后根据推荐度为用户进行学术资源Top-N推荐。
    6.如权利要求5所述的方法,其特征在于,所述资源质量值Quality计算包括,资源的权
    威度Authority的计算公式如下:
    <mrow> <mi>A</mi> <mi>u</mi> <mi>t</mi> <mi>h</mi> <mi>o</mi> <mi>r</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mi>L</mi> <mi>e</mi> <mi>v</mi> <mi>e</mi> <mi>l</mi> <mo>+</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mi>C</mi> <mi>i</mi> <mi>t</mi> <mi>e</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
    其中Level是资源发表刊物级别被量化后的得分,将刊物级别分为5个等级,分数依次
    为1、0.8、0.6、0.4和0.2分。顶尖杂志或会议如Nature、Science得1分,第二级别的如ACM
    Transaction得0.8分,最低级别的得0.2分;Cite的计算公式如下:
    Cite=Cites/maxCite (2)
    Cite是资源被引量的量化结果,Cites是资源的被引量,maxCite是资源来源数据库中
    最大的被引量;
    资源社区热度Popularity的计算公式如下:
    Popularity=readTimes/maxReadTimes (3)
    readTimes是论文的阅读次数,maxReadTimes是资源来源数据库中最大的阅读次数;
    资源的时新度Recentness计算方法相同,公式如下:
    <mrow> <mi>Re</mi> <mi>c</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>n</mi> <mi>e</mi> <mi>s</mi> <mi>s</mi> <mo>=</mo> <mfrac> <mrow> <mn>12</mn> <mo>*</mo> <mrow> <mo>(</mo> <mi>y</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> <mo>-</mo> <mi>min</mi> <mi>Y</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mi>m</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> <mi>h</mi> <mo>-</mo> <mi>min</mi> <mi>M</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> <mi>h</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mn>12</mn> <mo>*</mo> <mrow> <mo>(</mo> <mi>max</mi> <mi>Y</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> <mo>-</mo> <mi>min</mi> <mi>Y</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mi>max</mi> <mi>M</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> <mi> </mi> <mi>h</mi> <mo>-</mo> <mi>min</mi> <mi>M</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> <mi> </mi> <mi>h</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
    year和month分别是资源的发表年份和月份;minYear、minMonth、maxYear和maxMonth
    是该类资源的来源数据库中所有资源的最早和最晚发表年份和月份;
    资源质量值Quality计算方法如下:
    <mrow> <mi>Q</mi> <mi>u</mi> <mi>a</mi> <mi>l</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mn>3</mn> </mfrac> <mi>A</mi> <mi>u</mi> <mi>t</mi> <mi>h</mi> <mi>o</mi> <mi>r</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mo>+</mo> <mfrac> <mn>1</mn> <mn>3</mn> </mfrac> <mi>P</mi> <mi>o</mi> <mi>p</mi> <mi>u</mi> <mi>l</mi> <mi>a</mi> <mi>r</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mo>+</mo> <mfrac> <mn>1</mn> <mn>3</mn> </mfrac> <mi>Re</mi> <mi>c</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>n</mi> <mi>e</mi> <mi>s</mi> <mi>s</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>
    7.如权利要求5所述的方法,其特征在于,所述学术资源模型表示如下:
    Mr={Tr,Kr,Ct,Lr} (6)
    其中,Tr为学术资源的学科分布向量,是该学术资源分布在A个学科类别的概率值,由贝
    叶斯多项式模型得到;
    Kr={(kr1,ωr1),(kr2,ωr2),…,(krm,ωrm)},m为关键词个数,kri(1≤i≤m)表示单条学
    术资源第i个关键词,ωri为关键词kri的权重,通过改进后的tf-idf算法得到,计算公式如
    下:
    w(i,r)表示文档r中第i个关键词的权重,tf(i,r)表示第i个关键词在文档r中出现的
    频度,Z表示文档集的总篇数,L表示包含关键词i的文档数;Lr为潜在主题分布向量,Lr=
    {lr1,lr2,lr3…,lrN1},N1是潜在主题数量;Ct为资源类型,t的取值可以为1,2,3,4,5即五大
    类学术资源:论文、专利、新闻、会议和图书;
    根据用户使用移动软件的行为特点,将用户对一个学术资源的操作行为分为打开、阅
    读、星级评价、分享和收藏,用户兴趣模型基于用户背景及浏览过的学术资源,根据用户的
    不同浏览行为,结合学术资源模型,构建用户兴趣模型,用户兴趣模型表示如下:
    Mu={Tu,Ku,Ct,Lu} (8)
    其中,Tu是用户一段时间内浏览过的某类学术资源的学科分布向量,Tr是经过用户行为
    后,形成的用户学科偏好分布向量,即
    <mrow> <msub> <mi>T</mi> <mi>u</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> </mrow> </mfrac> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> </mrow> </msubsup> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>&times;</mo> <msub> <mi>T</mi> <mrow> <mi>j</mi> <mi>r</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>
    其中,sum为用户产生过行为的学术资源总数,sj为用户对学术资源j产生行为后的“行
    为系数”,该值越大说明用户越喜欢该资源。Tjr表示第j篇资源的学科分布向量;sj的计算综
    合考虑了打开、阅读、评价、收藏和分享等行为,能够准确反映用户对资源的偏好程度。
    Ku={(ku1,ωu1),(ku2,ωu2),…,(kuN2,ωuN2)}是用户偏好关键词分布,N2为关键词个数,
    kui(1≤i≤N2)表示第i个用户偏好关键词,ωui为关键词kui的权重,通过用户u一段时间内
    产生过行为的所有学术资源的“关键词分布向量”Kr计算得到;
    K′jr=sj*Kjr (10)
    根据公式10可以计算出每篇学术资源新的关键词分布向量,再选取所有资源新的关键
    词分布向量的TOP-N2作为用户关键词偏好分布向量Ku;
    Lu为用户的LDA潜在主题偏好分布向量,由学术资源的LDA潜在主题分布向量Lr={lr1,
    lr2,lr3…,lrN1}计算得到,方法同Tu:
    <mrow> <msub> <mi>L</mi> <mi>u</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> </mrow> </mfrac> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> </mrow> </msubsup> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>&times;</mo> <msub> <mi>L</mi> <mrow> <mi>j</mi> <mi>r</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>
    用户兴趣与资源模型二者的相似性计算如下:
    学术资源模型表示:
    Mr={Tr,Kr,Ct,Lr} (12)
    用户兴趣模型表示:
    Mu={Tu,Ku,Ct,Lu} (13)
    用户学科偏好分布向量Tu与学术资源学科分布向量Tr的相似度通过余弦相似度计算,
    即:
    <mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>u</mi> </msub> <mo>,</mo> <msub> <mi>T</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>T</mi> <mi>u</mi> </msub> <mo>&times;</mo> <msub> <mi>T</mi> <mi>r</mi> </msub> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>T</mi> <mi>u</mi> </msub> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>T</mi> <mi>r</mi> </msub> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>14</mn> <mo>)</mo> </mrow> </mrow>
    用户LDA潜在主题偏好分布向量Lu与学术资源LDA潜在主题分布向量Lr的相似度通过余
    弦相似度计算,即:
    <mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mi>u</mi> </msub> <mo>,</mo> <msub> <mi>L</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>L</mi> <mi>u</mi> </msub> <mo>&times;</mo> <msub> <mi>L</mi> <mi>r</mi> </msub> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>L</mi> <mi>u</mi> </msub> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>L</mi> <mi>r</mi> </msub> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>15</mn> <mo>)</mo> </mrow> </mrow>
    用户关键词偏好分布向量Ku与学术资源关键词分布向量Kr的相似度计算通过Jaccard
    Similarity进入计算:
    <mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>K</mi> <mi>u</mi> </msub> <mo>,</mo> <msub> <mi>K</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mfrac> <mrow> <msub> <mi>K</mi> <mi>u</mi> </msub> <mo>&cap;</mo> <msub> <mi>K</mi> <mi>r</mi> </msub> </mrow> <mrow> <msub> <mi>K</mi> <mi>u</mi> </msub> <mo>&cup;</mo> <msub> <mi>K</mi> <mi>r</mi> </msub> </mrow> </mfrac> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>16</mn> <mo>)</mo> </mrow> </mrow>
    则用户兴趣模型与学术资源模型的相似度为:
    <mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>M</mi> <mi>u</mi> </msub> <mo>,</mo> <msub> <mi>M</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>&sigma;</mi> <mo>*</mo> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>u</mi> </msub> <mo>,</mo> <msub> <mi>T</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&rho;</mi> <mo>*</mo> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>K</mi> <mi>u</mi> </msub> <mo>,</mo> <msub> <mi>K</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&tau;</mi> <mo>*</mo> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mi>u</mi> </msub> <mo>,</mo> <msub> <mi>L</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow> <msqrt> <mrow> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> <mo>+</mo> <msup> <mi>&rho;</mi> <mn>2</mn> </msup> <mo>+</mo> <msup> <mi>&tau;</mi> <mn>2</mn> </msup> </mrow> </msqrt> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>17</mn> <mo>)</mo> </mrow> </mrow>
    其中,σ+ρ+τ=1,具体权重分配由实验训练得到。
    引入推荐度Recommendation_degree概念,某一学术资源的推荐度越大说明该资源越
    符合用户的兴趣偏好,且资源越优质,推荐度计算公式如下:
    Recommendation_degree=λ1Sim(Mu,Mn)+λ2Quality(λ1+λ2=1) (18)
    二次推荐阶段便是根据学术资源的推荐度进行Top-N推荐。
    8.如权利要求5所述的方法,其特征在于,所述网络爬虫为主题爬虫,并配置LDA主题模
    型,所述LDA主题模型是一个“文档-主题-词”的三层贝叶斯生成模型,预先为所述LDA主题
    模型配置一个语料库,语料库中包括训练语料,用训练语料按设定主题数K让LDA主题模型
    训练,利用LDA主题模型训练时的聚词功能在训练语料经LDA主题模型训练后获得按设定主
    题数K分别聚集成K个主题关联词集合,即得到主题爬虫本次爬行的K个主题文档;所述主题
    爬虫在普通网络爬虫的基础上进一步包括主题确定???、相似度计算???、URL优先级排序
    ???;所述主题爬虫为按学术主题数分布的多个分布式爬虫,每个分布式爬虫对应一个学
    术主题,各分布式爬虫同时获得多个学术主题的学术资源;主题爬虫每次爬行过程中,主题
    爬虫的主题确定??槿范勘曛魈饧捌渲魈馕牡?,用所述主题文档指导主题相似度的计
    算,相似度计算??槎运廊〉囊趁嫔厦扛雒谋静⒔岷细靡趁婺谌萁兄魈庀嗨贫燃扑?br />及判断,剔除锚文本结合该页面的主题相似度小于设定阈值的超链接,选取锚文本结合该
    页面的主题相似度大于设定阈值的URL,由主题爬虫维护一个由已访问网页的超链接所指
    的未访问网页的URL队列,该URL队列根据相似度高低降序排列,主题爬虫按URL队列的排列
    顺序先后不断地访问各URL的网页,爬取相应学术资源,并不断地将所爬取的学术资源分类
    标签后存入数据库,针对本次爬行的主题文档,直至未访问队列URL为空;将所述主题爬虫
    每次所爬取的学术资源作为LDA主题模型训练用的新的语料;并不断重复主题爬虫爬行过
    程,使得各主题文档的所集合的主题关联词不断得以补充更新,所爬取的学术资源不断得
    以补充更新至一个人为认可的程度。
    9.如权利要求5所述的方法,其特征在于,所述语料库中还包括类别明确的验证语料,
    用于预先用验证语料按预定类别数A让所述文本分类模型进行分类验证,以获得文本分类
    模型对A个类别中的每个类别的分类准确率,作为文本分类模型对A个类别中的每个类别的
    归类可信度指标;该准确率为被文本分类模型分到某个类别的所有验证语料中属被正确分
    类的语料的比率,并预设分类准确率阈值;用所述文本分类模型对每一篇待分类文本进行
    文本分类时具体包括以下步骤:
    步骤一、对每一篇待分类文本进行预处理,预处理包括分词、去停留词,并保留专有名
    词,分别计算该文本的经预处理后的所有词的特性权重,词的特性权重数值与在该文本中
    出现的次数成正比,与在所述训练语料中出现的次数成反比,将计算所得的词集按其特性
    权重数值大小降序排列,提取每一篇待分类文本原始词集的前面部分作为其特征词集;
    步骤二、使用文本分类模型,选取每一篇待分类文本原始特征词集用来分别计算该篇
    文本可能归属预定A个类别中各个类别的概率值,选取概率值最大的类别作为该篇文本分
    类类别;
    步骤三、对步骤二的文本分类结果进行判断,如果文本分类模型对该类别的分类准确
    率数值达到设定阈值就直接输出结果;如果文本分类模型对该类别的分类准确率数值未达
    到设定阈值,就进入步骤四;
    步骤四、将每一篇经预处理的文本输入所述LDA主题模型,用LDA主题模型计算出该篇
    文本对应所设定的K个主题中的每个主题的权重值,选取权重值最大的主题,并将预先经
    LDA主题模型训练后所得到的该主题下的主题关联词中的前Y个词加入至该篇文本的原始
    特征词集之中共同作为扩充后的特征词集,再次使用文本分类模型,分别计算该篇文本可
    能归属预定A个类别中各个类别的概率值,选取概率值最大的类别作为该篇文本最终分类
    类别。
    10.如权利要求9所述的方法,其特征在于,所述文本分类模型的主要计算公式为:
    <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>x</mi> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>x</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>x</mi> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>x</mi> <mi>n</mi> </msub> <mo>|</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>c</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>19</mn> <mo>)</mo> </mrow> </mrow>
    其中P(cj|x1,x2,…,xn)表示特征词(x1,x2,…,xn)同时出现时该文本属于类别Cj的概
    率;其中P(cj)表示训练文本集中,属于类别cj的文本占总数的比率,P(x1,x2,…,xn|cj)表示
    如果待分类文本属于类别cj,则这篇文本的特征词集为(x1,x2,…,xn)的概率,P(c1,c2,…,
    cn)表示给定的所有类别的联合概率。

    说明书

    一种学术资源推荐服务系统与方法

    技术领域

    本发明涉及计算机应用技术领域,尤其涉及一种学术资源推荐服务系统与以资源
    推荐服务系统为相关用户提供学术资源推荐服务的方法。

    背景技术

    目前已经进入大数据时代,在学术资源领域尤其如此,每年都有数以亿计的各类
    学术资源产生。除了学术论文、专利之外,还有大量的学术会议、学术新闻和学术社区信息
    等各类学术资源实时涌现,这些类型的学术资源对于用户精准、高效地掌握感兴趣领域的
    科研现状意义重大。然而,科研用户平时有繁重的科研工作,这类学术资源具有大数据异
    质、异构且快速增长的特性,在学术资源中基于传统搜索引擎的方式很难查全、查准,搜索
    过程也显得繁琐,用户在查询感兴趣的学术资源往往需花费大量的时间和精力,影响其工
    作效率。

    当前学术资源个性化推荐研究的对象主要专注于学术论文,推荐学术资源类型单
    一;不同的用户群体,即不同身份的用户对不同类型学术资源的关注程度不同,当前学术资
    源的个性化推荐研究并没有考虑这些因素,不能基于用户身份制定多策略的推荐方案。并
    且,当前学术资源推荐研究仅局限于推荐???,本发明则为学术资源推荐提供系统化的服
    务,从学术资源的动态获取、整合和分类,到基于用户身份、行为和兴趣学科进行学术资源
    的个性化推荐,形成以资源整合和推荐为核心的一体化服务体系。

    LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层
    贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章
    的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词
    语”这样一个过程得到。主题是指某个定义好的专业领域或者兴趣领域,例如航天航空,生
    物医学,信息技术等,具体指一系列相关的词所组成的集合。文档到主题服从多项式分布,
    主题到词服从多项式分布。LDA是一种非监督机器学习技术,可以用来识别文档中潜藏的主
    题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,
    从而将文本信息转化为了易于建模的数字信息。每一篇文档代表了一些主题所构成的一个
    概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。LDA主题模型是自然语
    言处理中主题挖掘的典型模型,可以从文本语料中抽取潜在的主题,提供一个量化研究主
    题的方法,已经被广泛的应用到学术资源的主题发现中,如研究热点挖掘、研究主题演化、
    研究趋势预测等。

    另外,随着互联网的发现,互联网充塞着大量的各种新闻、博客、会议记要等各种
    方式的信息文本,这类信息文本或多或少包括学术相关的信息内容,而且往往包括最新的
    学术研究信息,为各类相关学科人士所关心,而这类信息文本杂乱无序,往往学科重叠,自
    身一般没有分类信息,现有技术对这类信息文本往往很难做出正确的自动分类,各类相关
    学科人士采自行用传统搜索引擎的方式很难查全、查准,搜索过程也显得繁琐,用户在查询
    感兴趣的学术资源往往需花费大量的时间和精力,影响其工作效率。

    本发明正是为了解决上述技术问题。

    发明内容

    本发明所要解决的技术问题是针对上述技术现状,提供一种学术资源推荐服务系
    统与以资源推荐服务系统为相关用户提供学术资源推荐服务的方法。

    本发明解决上述技术问题所采用的技术方案为:

    一种学术资源推荐服务系统,所述学术资源为公布在互联网上的各种电子文本,
    所述学术资源推荐服务系统包括网络爬虫、文本分类模型、学术资源数据库,由网络爬虫在
    互联网上爬取学术资源,其特征在于,用文本分类模型按预定A个类别分类后存储于本地的
    学术资源数据库,提供学术资源数据库开放的API供展示及资源推荐??榈饔?,所述学术资
    源推荐服务系统还包括学术资源模型、资源质量值计算模型、用户兴趣模型,在用户的终端
    殖入跟踪软件???,用于跟踪记录用户的网上浏览行为;基于不同群体用户的历史浏览行
    为数据,计算不同身份的用户对各个类型学术资源的关注程度,从资源类型、学科分布、关
    键词分布和LDA潜在主题分布共四个维度对学术资源建模,结合用户的兴趣学科和历史浏
    览行为数据,对用户的兴趣偏好建模,计算学术资源模型与用户兴趣偏好模型之间的相似
    度,再结合资源质量值计算推荐度,最后根据推荐度为用户进行学术资源Top-N推荐。

    所述网络爬虫为主题爬虫,还包括LDA主题模型,所述LDA主题模型是一个“文档-
    主题-词”的三层贝叶斯生成模型,预先为所述LDA主题模型配置一个语料库,语料库中包括
    训练语料,用训练语料按设定主题数K让LDA主题模型训练,利用LDA主题模型训练时的聚词
    功能在训练语料经LDA主题模型训练后获得按设定主题数K分别聚集成K个主题关联词集
    合,即得到主题爬虫本次爬行的K个主题文档;所述主题爬虫在普通网络爬虫的基础上进一
    步包括主题确定???、相似度计算???、URL优先级排序???;所述主题爬虫为按学术主题
    数分布的多个分布式爬虫,每个分布式爬虫对应一个学术主题,各分布式爬虫同时获得多
    个学术主题的学术资源;主题爬虫每次爬行过程中,主题爬虫的主题确定??槿范勘曛?br />题及其主题文档,用所述主题文档指导主题相似度的计算,相似度计算??槎运廊〉囊?br />面上每个锚文本并结合该页面内容进行主题相似度计算及判断,剔除锚文本结合该页面的
    主题相似度小于设定阈值的超链接,选取锚文本结合该页面的主题相似度大于设定阈值的
    URL,由主题爬虫维护一个由已访问网页的超链接所指的未访问网页的URL队列,该URL队列
    根据相似度高低降序排列,主题爬虫按URL队列的排列顺序先后不断地访问各URL的网页,
    爬取相应学术资源,并不断地将所爬取的学术资源分类标签后存入数据库,针对本次爬行
    的主题文档,直至未访问队列URL为空;将所述主题爬虫每次所爬取的学术资源作为LDA主
    题模型训练用的新的语料;并不断重复主题爬虫爬行过程,使得各主题文档的所集合的主
    题关联词不断得以补充更新,所爬取的学术资源不断得以补充更新至一个人为认可的程
    度。

    所述语料库中还包括类别明确的验证语料,用于预先用验证语料按预定类别数A
    让所述文本分类模型进行分类验证,以获得文本分类模型对A个类别中的每个类别的分类
    准确率,作为文本分类模型对A个类别中的每个类别的归类可信度指标;该准确率为被文本
    分类模型分到某个类别的所有验证语料中属被正确分类的语料的比率,并预设分类准确率
    阈值。

    将所有学科分为75个学科类别,即所述类别数A为75个类别,利用LDA主题模型训
    练时设定主题数K为100个,所述文本分类模型进行分类验证时预设分类准确率阈值为
    80%。

    一种以资源推荐服务系统为相关用户提供学术资源推荐服务的方法,所述学术资
    源为公布在互联网上的各种电子文本,包括使用网络爬虫在互联网上爬取学术资源,其特
    征在于,使用文本分类模型将所爬取的学术资源按预定A个类别进行分类后存储,形成学术
    资源数据库,提供学术资源数据库开放的API供展示及资源推荐??榈饔?,使用资源质量值
    计算模型、用户兴趣模型,在用户的终端殖入跟踪软件???,用于跟踪记录用户的网上浏览
    行为;向用户推荐其相应的学术资源的过程包括冷启动推荐阶段与二次推荐阶段,冷启动
    推荐阶段基于兴趣学科为用户推荐符合其兴趣学科的优质资源,所述优质资源即为经资源
    质量值计算模型计算后比较所得的资源质量值高的学术资源,资源质量值为资源权威度、
    资源社区热度和资源时新度的算术平均值或加权平均值;二次推荐阶段,分别对用户兴趣
    模型和资源模型建模,计算用户兴趣模型与资源模型二者的相似性,再结合资源质量值计
    算推荐度,最后根据推荐度为用户进行学术资源Top-N推荐。

    所述资源质量值Quality计算包括,资源权威度Authority的计算公式如下:


    其中Level是资源发表刊物级别被量化后的得分,将刊物级别分为5个等级,分数
    依次为1、0.8、0.6、0.4和0.2分。顶尖杂志或会议如Nature、Science得1分,第二级别的如
    ACM Transaction得0.8分,最低级别的得0.2分;Cite的计算公式如下:

    Cite=Cites/maxCite (2)

    Cite是资源被引量的量化结果,Cites是资源的被引量,maxCite是资源来源数据
    库中最大的被引量;

    资源社区热度Popularity的计算公式如下:

    Popularity=readTimes/maxReadTimes (3)

    readTimes是论文的阅读次数,maxReadTimes是资源来源数据库中最大的阅读次
    数;

    资源的时新度Recentness计算方法相同,公式如下:


    year和month分别是资源的发表年份和月份;minYear、minMonth、maxYear和
    maxMonth是该类资源的来源数据库中所有资源的最早和最晚发表年份和月份;

    资源质量值Quality计算方法如下:


    所述学术资源模型表示如下:

    Mr={Tr,Kr,Ct,Lr} (6)

    其中,Tr为学术资源的学科分布向量,是该学术资源分布在A个学科类别的概率
    值,由贝叶斯多项式模型得到;

    Kr={(kr1,ωr1),(kr2,ωr2),…,(krm,ωrm)},m为关键词个数,kri(1≤i≤m)表示单
    条学术资源第i个关键词,ωri为关键词kri的权重,通过改进后的tf-idf算法得到,计算公
    式如下:


    w(i,r)表示文档r中第i个关键词的权重,tf(i,r)表示第i个关键词在文档r中出
    现的频度,Z表示文档集的总篇数,L表示包含关键词i的文档数;Lr为潜在主题分布向量,Lr
    ={lr1,lr2,lr3…,lrN1},N1是潜在主题数量;Ct为资源类型,t的取值可以为1,2,3,4,5即五
    大类学术资源:论文、专利、新闻、会议和图书;

    根据用户使用移动软件的行为特点,将用户对一个学术资源的操作行为分为打
    开、阅读、星级评价、分享和收藏,用户兴趣模型基于用户背景及浏览过的学术资源,根据用
    户的不同浏览行为,结合学术资源模型,构建用户兴趣模型,用户兴趣模型表示如下:

    Mu={Tu,Ku,Ct,Lu} (8)

    其中,Tu是用户一段时间内浏览过的某类学术资源的学科分布向量Tr经过用户行
    为后,形成的用户学科偏好分布向量,即


    其中,sum为用户产生过行为的学术资源总数,sj为用户对学术资源j产生行为后
    的“行为系数”,该值越大说明用户越喜欢该资源。Tjr表示第j篇资源的学科分布向量。sj的
    计算综合考虑了打开、阅读、评价、收藏和分享等行为,能够准确反映用户对资源的偏好程
    度。

    Ku={(ku1,ωu1),(ku2,ωu2),...,(kuN2,ωuN2)}是用户的关键词偏好分布向量,N2
    为关键词个数,kui(1≤i≤N2)表示第i个用户偏好关键词,ωui为关键词kui的权重,通过用
    户u一段时间内产生过行为的某类学术资源的“关键词分布向量”Kr计算得到。

    Kjr′=sj*Kjr (10)

    根据公式10可以计算出每篇资源新的关键词分布向量,再选取所有资源新的关键
    词分布向量的TOP-N2作为用户关键词偏好分布向量Ku;

    Lu为用户的LDA潜在主题偏好分布向量,由学术资源的LDA潜在主题分布向量Lr=
    {lr1,lr2,lr3...,lrN1}计算得到,方法同Tu:


    用户兴趣与资源模型二者的相似性计算如下:

    学术资源模型表示:

    Mr={Tr,Kr,Ct,Lr} (12)

    用户兴趣模型表示:

    Mu={Tu,Ku,Ct,Lu} (13)

    用户学科偏好分布向量Tu与学术资源学科分布向量Tr的相似度通过余弦相似度计
    算,即:


    用户LDA潜在主题偏好分布向量Lu与学术资源LDA潜在主题分布向量Lr的相似度通
    过余弦相似度计算,即:


    用户关键词偏好分布向量Ku与学术资源关键词分布向量Kr的相似度计算通过
    Jaccard Similarity进入计算:


    则用户兴趣模型与学术资源模型的相似度为:


    其中,σ+ρ+τ=1,具体权重分配由实验训练得到。

    引入推荐度Recommendation_degree概念,某一学术资源的推荐度越大说明该资
    源越符合用户的兴趣偏好,且资源越优质,推荐度计算公式如下:

    Recommendation_degree=λ1Sim(Mu,Mn)+λ2Quality(λ1+λ2=1) (18)

    二次推荐阶段便是根据学术资源的推荐度进行Top-N推荐。

    所述网络爬虫包括定址爬虫与主题爬虫,还包括LDA主题模型,所述LDA主题模型
    是一个“文档-主题-词”的三层贝叶斯生成模型,预先为所述LDA主题模型配置一个语料库,
    语料库中包括训练语料,用训练语料按设定主题数K让LDA主题模型训练,利用LDA主题模型
    训练时的聚词功能在训练语料经LDA主题模型训练后获得按设定主题数K分别聚集成K个主
    题关联词集合,即得到主题爬虫本次爬行的K个主题文档;所述主题爬虫在普通网络爬虫的
    基础上进一步包括主题确定???、相似度计算???、URL优先级排序???;所述主题爬虫为
    按学术主题数分布的多个分布式爬虫,每个分布式爬虫对应一个学术主题,各分布式爬虫
    同时获得多个学术主题的学术资源;主题爬虫每次爬行过程中,主题爬虫的主题确定???br />确定目标主题及其主题文档,用所述主题文档指导主题相似度的计算,相似度计算??槎?br />所爬取的页面上每个锚文本并结合该页面内容进行主题相似度计算及判断,剔除锚文本结
    合该页面的主题相似度小于设定阈值的超链接,选取锚文本结合该页面的主题相似度大于
    设定阈值的URL,由主题爬虫维护一个由已访问网页的超链接所指的未访问网页的URL队
    列,该URL队列根据相似度高低降序排列,主题爬虫按URL队列的排列顺序先后不断地访问
    各URL的网页,爬取相应学术资源,并不断地将所爬取的学术资源分类标签后存入数据库,
    针对本次爬行的主题文档,直至未访问队列URL为空;将所述主题爬虫每次所爬取的学术资
    源作为LDA主题模型训练用的新的语料;并不断重复主题爬虫爬行过程,使得各主题文档的
    所集合的主题关联词不断得以补充更新,所爬取的学术资源不断得以补充更新至一个人为
    认可的程度。

    所述语料库中还包括类别明确的验证语料,用于预先用验证语料按预定类别数A
    让所述文本分类模型进行分类验证,以获得文本分类模型对A个类别中的每个类别的分类
    准确率,作为文本分类模型对A个类别中的每个类别的归类可信度指标;该准确率为被文本
    分类模型分到某个类别的所有验证语料中属被正确分类的语料的比率,并预设分类准确率
    阈值;用所述文本分类模型对每一篇待分类文本进行文本分类时具体包括以下步骤:

    步骤一、对每一篇待分类文本进行预处理,预处理包括分词、去停留词,并保留专
    有名词,分别计算该文本的经预处理后的所有词的特性权重,词的特性权重数值与在该文
    本中出现的次数成正比,与在所述训练语料中出现的次数成反比,将计算所得的词集按其
    特性权重数值大小降序排列,提取每一篇待分类文本原始词集的前面部分作为其特征词
    集;

    步骤二、使用文本分类模型,选取每一篇待分类文本原始特征词集用来分别计算
    该篇文本可能归属预定A个类别中各个类别的概率值,选取概率值最大的类别作为该篇文
    本分类类别;

    步骤三、对步骤二的文本分类结果进行判断,如果文本分类模型对该类别的分类
    准确率数值达到设定阈值就直接输出结果;如果文本分类模型对该类别的分类准确率数值
    未达到设定阈值,就进入步骤四;

    步骤四、将每一篇经预处理的文本输入所述LDA主题模型,用LDA主题模型计算出
    该篇文本对应所设定的K个主题中的每个主题的权重值,选取权重值最大的主题,并将预先
    经LDA主题模型训练后所得到的该主题下的主题关联词中的前Y个词加入至该篇文本的原
    始特征词集之中共同作为扩充后的特征词集,再次使用文本分类模型,分别计算该篇文本
    可能归属预定A个类别中各个类别的概率值,选取概率值最大的类别作为该篇文本最终分
    类类别。

    所述文本分类模型的主要计算公式为:


    其中P(cj|x1,x2,...,xn)表示特征词(cj|x1,x2,...,xn)同时出现时该文本属于类
    别cj的概率;其中P(cj)表示训练文本集中,属于类别cj的文本占总数的比率,P(x1,x2,...,
    xn|cj)表示如果待分类文本属于类别cj,则这篇文本的特征词集为(x1,x2,...,xn)的概率,P
    (c1,c2,...,cn)表示给定的所有类别的联合概率。

    本发明所述的面向多类型学术资源的资源推荐服务系统具有如下特点:

    (1)本发明实现了多种类型,比如学术论文、专利、学术会议和学术新闻等类型学
    术资源的动态获取,并基于主题爬虫??楦咝У鼗袢∧勘暄踝试?。

    (2)本发明实现了对多种类型学术资源基于学科属性进行主题分类的工作。

    (3)不同用户群体对不同类型学术资源的关注程度有所差异,本发明实现了基于
    不同用户群体的多策略学术资源推荐方案,为不同身份的用户按不同比例推荐各个类型学
    术资源。

    (4)基于用户浏览习惯,本发明实现了基于用户不同行为进行多种类型学术资源
    的个性化推荐工作。

    本发明根据用户身份、兴趣和浏览行为进行学术资源的个性化推荐,可以更精准
    地向用户推荐学术资源,大大提高科研人员的工作效率,为科研工作者更好的进行科学研
    究创造方便、快捷的信息获取环境,有效地化解学术资源信息过载与用户资源获取之间的
    矛盾。

    另外,本发明采用基于LDA的学术资源获取方法与分类方法,通过LDA主题模型,深
    度挖掘主题语义信息,为学术资源的主题爬虫构造良好的指导基础,将机器学习融入到学
    术资源的获取方法中,提高学术资源获取的质量和效率;主题爬虫所得的学术资源又用于
    LDA主题更新,可随时更新主题模型,跟进学术发展的趋势,为科研工作者提供相关领域前
    沿资源;本发明提出的基于选择性特征扩展的文本分类方法适合复杂的应用场景,有选择
    的对信息量少的数据增加主题信息,同时避免对信息量充足的数据增加噪音,为文本分类
    模型的优化提供了一种思路,且具有场景适应性强,结果可用性高,分类模型易于更新和维
    护的特点。

    附图说明

    图1为本发明整个学术资源推荐服务系统的框架示意图;

    图2为LDA模型示意图;

    图3为某一文本预处理前的文本示意图;

    图4为某一文本预处理后的文本示意图;

    图5为训练语料经LDA主题模型训练后主题与主题文档示意图;

    图6为本发明采用基于LDA的学术资源获取方法的流程示意图;

    图7为本发明采用基于LDA的文本分类方法的流程示意图;

    图8为三次实验在部分学科上的查全率示意图;

    图9为三次实验在部分学科上的查准率示意图

    图10为本发明推荐流程示意图。

    具体实施方式

    以下详细说明本发明的具体实施方式。

    本发明学术资源推荐服务系统,如图1所示,包括网络爬虫、文本分类模型、学术资
    源数据库,由网络爬虫在互联网上爬取学术资源,用文本分类模型按预定A个类别分类后存
    储于本地的学术资源数据库,提供学术资源数据库开放的API供展示及资源推荐??榈饔?;
    本发明学术资源推荐服务系统还包括学术资源模型、资源质量值计算模型、用户兴趣模型,
    在用户的终端殖入跟踪软件???,用于跟踪记录用户的网上浏览行为;基于不同群体用户
    的历史浏览行为数据,计算不同身份的用户对各个类型学术资源的关注程度,从资源类型、
    学科分布、关键词分布和LDA潜在主题分布共四个维度对学术资源建模,结合用户的兴趣学
    科和历史浏览行为数据,对用户兴趣偏好建模,计算学术资源模型与用户兴趣模型之间的
    相似度,再结合资源质量值计算推荐度,最后根据推荐度为用户进行学术资源Top-N推荐。
    根据教育部《研究生学科专业目录》中的学科门类,将所有一级学科整理为75个学科类别,
    即所述类别数A为75个类别。

    一、学术资源的获取

    本发明网络爬虫主要为主题爬虫,还包括相应的LDA主题模型,LDA主题模型是一
    个“文档-主题-词”的三层贝叶斯生成模型,如图2所示;预先用训练语料按设定主题数K让
    LDA主题模型训练,当然训练前需对每一篇训练语料进行预处理,预处理包括分词、去停留
    词;利用LDA主题模型训练时的聚词功能在训练语料经LDA主题模型训练后获得按设定主题
    数K分别聚集成K个主题关联词集合,主题关联词集合也称作主题文档;利用LDA主题模型训
    练时可设定主题数K为50至200个,优选主题数K为100个;可从网上随机爬取各个学科各种
    形式的文献,篇幅很长但有规范摘要的论文之类的文献可仅取其摘要,也可使用现成的数
    据库,作为训练语料,文献篇数应当达到相当数量规模,至少几万篇,多至几百万篇。如选取
    主题数K为100,LDA主题模型运算训练过程中就会将训练语料的所有单词分别聚集成100个
    主题关联词集合,即100个主题文档;我们可以根据各个集合词的含义人为的命名各个主题
    名称,也可以不命名各个主题名称,而仅以数字编号或代号以示分别,其中3个主题文档如
    图5所示。

    主题爬虫在普通网络爬虫的基础上进一步包括主题确定???、相似度计算???、
    URL优先级排序???;所述主题爬虫为按学术主题数分布的多个分布式爬虫,每个分布式爬
    虫对应一个学术主题,各分布式爬虫同时获得多个学术主题的学术资源;主题爬虫每次爬
    行过程中,主题爬虫的主题确定??槿范勘曛魈饧捌渲魈馕牡?,用主题文档指导主题相
    似度的计算,相似度计算??槎运廊〉囊趁嫔厦扛雒谋静⒔岷细靡趁婺谌萁兄魈庀?br />似度计算及判断,剔除锚文本结合该页面的主题相似度小于设定阈值的超链接,选取锚文
    本结合该页面的主题相似度大于设定阈值的URL,由主题爬虫维护一个由已访问网页的超
    链接所指的未访问网页的URL队列,该URL队列根据相似度高低降序排列,主题爬虫按URL队
    列的排列顺序先后不断地访问各URL的网页,爬取相应学术资源,并不断地将所爬取的学术
    资源分类标签后存入数据库,针对本次爬行的主题文档,直至未访问队列URL为空;将主题
    爬虫每次所爬取的学术资源作为LDA主题模型训练用的新的语料;并不断重复主题爬虫爬
    行过程,使得各主题文档的所集合的主题关联词不断得以补充更新,所爬取的学术资源不
    断得以补充更新至一个人为认可的程度。

    为了便于操作,可以将学术资源的摘要作为训练语料库,通过LDA主题模型计算得
    到主题及主题文档,主题文档指导主题爬虫爬行过程中主题相似度的计算,后将爬取的内
    容存储到数据库中,作为LDA训练模型新的语料,提供学术资源数据库开放的API供展示调
    用;具体步骤如下:

    步骤一、下载并预处理现有的多个领域的学术资源的摘要,根据学术领域人为分
    成不同类别,分别作为LDA多个主题的训练语料;

    步骤二、输入LDA主题模型参数,LDA主题模型参数包括K,α,β,其中K的值表示主题
    数,α的值表示各个主题在取样之前的权重分布,β的值表示各个主题对词的先验分布,训练
    得到多个主题更细分的主题及主题文档,每个主题文档用于指导一个爬虫;

    步骤三、每个爬虫从选取的优质的种子URL开始,维护一个爬取URL队列,通过不断
    计算网页中的文本与网页中锚文本链接所指的文本与主题的相似度,根据相似度排序更新
    爬取URL队列,并抓取与主题最相关的网页内容;

    步骤四、主题爬虫获取的学术资源,打上对应主题标签后,存储到数据库中,并作
    为训练LDA的新语料,用于主题文档更新;

    步骤五、提供学术资源数据库开放的API,供展示调用。

    其中步骤一包括如下具体子步骤:

    (a)语料搜集:下载现有多个领域的学术资源的摘要,作为训练语料;

    (b)文本预处理:提取摘要,中文分词,去除停用词;

    (c)分类入语料库:根据学术领域人为分成不同类别,分别作为LDA多个主题的训
    练语料。

    其中步骤三包括如下具体子步骤:

    (a)初始种子URL选取面向特定主题的较好的种子站点;

    (b)提取网页内容:下载优先级高的URL所指向的页面,根据HTML标签抽取所需内
    容和URL信息;

    (c)主题相关度分析判定,决定页面的取舍;本发明主要采用将现有的VSM技术和
    SSRM技术相结合来计算主题相关度;

    (d)对未访问网页URL的重要程度进行排序;

    (e)重复(b)~(d)过程,直至未访问队列URL为空。

    其中子步骤(c)中,主题爬虫在爬经每篇电子文献进行主题相关度分析判定时,采
    用将VSM和SSRM两种主题相似度计算算法相结合的广义向量空间模型GVSM,来计算经爬页
    面的主题相关度,决定页面的取舍。

    主题是由一组语义上相关的词及表示该词与主题相关的权重来表示,即主题Z=
    {(w1,p1),(w2,p2),…,(wn,pn)},其中第i个词wi是与主题Z相关的词,p1为该词与Z的相关度
    的衡量,在LDA中表示为Z={(w1,p(w1|zj)),(w2,p(w2|zj)),…,(wn,p(wn|zj))},其中wi∈W,
    p(wi|zj)为主题为Zj时选择词为wi的概率,zj为第j个主题。

    主题文档生成过程为模型的一种概率取样的过程,包括如下具体子步骤:

    (a)对文集中的任一文档d,生成文档长度N,N~Poisson(ε),服从泊松分布;

    (b)对文集中的任一文档d,生成一个θ~Dirichlet(α),服从狄利克雷分布;

    (c)文档d中的第i个词wi的生成:首先,生成一个主题zj~Multinomial(θ),服从
    多项式分布;然后,对主题zj,生成一个离散变量服从狄利克雷分布;最后
    生成使得概率最大的一个词。LDA模型如图3所示。

    其中,α的值表示各个主题在取样之前的权重分布,β的值表示各个主题对词的先
    验分布。

    LDA模型中所有的变量及其服从的分布如下:



    整个模型通过积分可能存在的变量,实际上可以变为P(w|Z)的联合分布。其中w指
    词,且可观测。Z是话题的变量,是模型的目标产物??梢钥闯靓?,β都是模型的初始参数。那么
    通过对其中存在的变量积分可以得到:


    其中,N是词表长度,w是词,对θ~Dirichlet(α),中θ积分得:


    其中,表示特征词w分配给主题j的次数,表示分配给主题j的特征词数,
    表示文本d中分配给主题j的特征词数,表示文本d中所有分配了主题的特征词数。

    从上可以看出,影响LDA建模的三个变量主要为α,β和话题数目K。为了选择比较好
    的话题数目,首先固定了α,β的取值,然后计算对其他变量积分后的式子的值的变化。

    采用LDA模型对文本集进行主题建模时,主题数目K对LDA模型拟合文本集的性能
    影响很大,因此需预先设定主题数。本文通过衡量不同主题数下的分类效果来确定最优主
    题数,并与使用Perplexity值确定模型最佳拟合时的分类效果进行比较,本文方法一方面
    能获得更直观准确的最优主题数,另一方面通过Perplexity值确定的最优主题数可以找出
    对应的分类效果与实际结果的差距。Perplexity值公式为:


    其中,M为文本集中的文本数,Nm为第m篇文本的长度,P(dm)为LDA模型产生第m篇文
    本的概率,公式为:


    本发明主题爬虫在通用爬虫的基础上增加了三个??椋褐魈馊范??、相似度计
    算???、URL优先级排序???,从而完成了对爬取页面的过滤和主题匹配,最终获得与主题
    高度相关的内容。

    1、主题确定??椋褐魈馀莱嬖诠ぷ髑耙范ǜ弥魈馀莱娴南喙刂魈獯始?,即建立
    主题文档。主题词集的确定通常有两种,一种是人工确定,另一种是通过初始页面集抽取所
    得。人工确定主题词集,关键词的训选取具有主观性,而初始页面抽取的关键词高噪音和低
    覆盖率。主题词的个数作为主题向量的维数,而相应的权值则为主题向量的各个分量值。记
    主题词集向量为:K={k1,k2,…,kn},n为主题词的个数。

    2、相似度计算??椋何吮Vづ莱婊袢〉耐衬芄痪×肯蛑魈饪柯?,必须对网页
    进行过滤,将主题相关度较低的网页(小于设定的阈值)剔除,这样就不会在下一步爬行中
    处理该页面中的链接。因为一个页面的主题相关度如果很低,说明该网页很可能只是偶尔
    出现某些关键词,而页面的主题可能和指定主题几乎没有什么关系,处理其中的链接意义
    很小,这是主题爬虫和普通爬虫的根本区别。普通爬虫是根据设定的搜索深度,对所有链接
    进行处理,结果返回了大量无用的网页,而且进一步增加了工作量。将整篇文本用于相似度
    对比显然是一个不可行的办法,通常需要将文本的进行提炼和抽取,转化为适合比对和计
    算的数据结构,同时要保证尽可能的体现文本的主题。通常的主题爬虫采用的特征选取是
    VSM,也涉及TF-IDF算法。本文运用的是基于《知网》的语义相似度计算,通过对文档和主题
    词文档的词语之间的相似度计算,得到整篇文章与主题的相似度值。

    3、URL优先级排序??椋篣RL优先级排序??橹饕谴游捶梦实腢RL中筛选出与主
    题相似度高的潜在页面,根据相似度的高低进行排序,相似度越高的优先级越高,尽可能优
    先访问相似度高的,以保证访问的页面高主题相关。对未访问URL进行排序时,可以结合URL
    所在页面和URL锚文本(描述URL的文本)的相似度作为优先级排序的影响因素。

    本发明利用《知网》对每个词的语义信息的定义来计算词语之间相似度。在知网
    中,对于两个词语W1和W2,,设W1有个概念:W2有m个概念:W1和W2
    的相似度是W1的每个概念与W2的每个概念的相似度的最大值,公式如


    这样,两个词语间的相似度可以转化为概念之间的相似度计算,知网中所有概念
    都最终归结于义原的表示,所以概念间相似度的计算也可以归结于与之对应的义原间相似
    度的计算。假设概念c1和概念c2分别有p和q个义原,分别记为
    概念c1和概念c2的相似度是c1的每个义原和c2的每个义原的相似度的最大值,公式
    为:


    《知网》中所有概念都最终归结于义原的表示,所以概念之间相似度的计算也可以
    归结于与之对应的义原间相似度的计算。由于所有的义原根据上下位关系构成了一个树状
    的义原层次体系,故可采用义原在义原层次体系中的语义距离来计算义原相似度,进而得
    出概念相似度[27]。假设两个义原和在义原层次体系中的路径距离为Dis(s1,s2),则义原的
    相似度计算公式为:


    其中Dis(s1,s2)是s1和s2在义原层次体系中的路径长度,这里利用的是义原上下
    位关系,它是一个正整数。

    本发明主题爬虫的设计是以普通爬虫为基础,进一步功能扩充。在对网页的整个
    处理过程中步骤:初始种子URL确定、提取网页内容,主题相关度分析、URL排序。

    (a)初始种子URL选取面向特定主题的较好的种子站点,使主题爬虫能够顺利展开
    爬行工作。

    (b)提取网页内容:下载优先级高的URL所指向的页面,根据HTML标签抽取所需内
    容和URL信息。

    (c)主题相关度分析是主题爬虫的核心???,它决定页面的取舍。本发明主要采用
    将现有的VSM技术和SSRM技术相结合的广义向量空间模型GVSM来计算主题相关度。

    主题相关度分析,用TF-IDF抽取文本关键词,并算出词的权重,对网页进行相关度
    分析。

    TF-IDF相关计算:


    其中wdi为词i在文档d中的权重,tfi为词i的词频,idfi为词i的逆文档频率,fi为词
    i在文档d中出现的次数,fmax为在文档d所有词中出现频率最高的次数,N为所有文档数,Ni
    为包含词i的文档数。TF-IDF仍是当前最有效的提取关键词和计算词的权值的方法。

    VSM主题相关度计算:


    其中为文档d的词向量,为主题t的词向量,wdi,wti为词i在文档d和主题t的TF-
    IDF值,n为文档d和主题t中出现的共同词的个数。该算法只考虑文档中出现相同词的频率
    向量,以此作为文档相似度判断,并未考虑到词与词之间语义上存在的关系,例如近义词,
    同义词等,从而影响了相似度的准确度。

    SSRM主题相关度计算:


    其中wdi,wti为词i在文档d和主题t的TF-IDF值,n,m分别为文档d和主题t的词数,
    Semij为词i和词j的语义相似度。


    其中C1,C2是两个概念,相当于词w1和词w1,Sem(C1,C2)为概念C1和概念C2的语义相
    似度,C3是C1和C2享有的最低共同概念,Path(C1,C3)为C1到C3路径上的节点数,Path(C2,C3)
    为C2到C3路径上的节点数,Depth(C3)为在一些不同的本体中,C3到根结点路径上的节点数。
    采用SSRM的算法,只考虑了语义上的关系,如果存在两篇文章中的词都是近义词或同义词,
    那么这篇文档相似度会计算的1,即完全相同,这显然是欠缺准确的。

    本发明采用结合VSM和SSRM计算相似度的方法,也称作广义向量空间模型,简称
    GVSM,其计算式为:


    其中Sim(dk,t)为文档dk的主题相似度,本发明兼顾文档词频因素和词与词之间的
    语义联系,采用将VSM与SSRM相结合的方法,有效提高主题相似度计算的精准度。

    (d)对未访问网页URL的重要程度进行排序。采用的是以下公式对URL进行排序:


    其中priority(h)为未访问的超链接h的优先值,N为包含h的检索网页数,Sim(fp,
    t)为网页p(包含超链接h)全文的主题相似度,Sim(ah,t)为超链接h的锚文本的主题相似
    度,λ为调节全文与锚文本的权重值。公式中的相似度计算同样采用VSM和SSRM相结合的方
    法,优化了未爬取URL链接队列的优先级排序,同样有效提高了主题学术资源获取的准确
    性。

    本发明主题爬虫是专为抓取某个主题资源而出现的网络信息抓取工具,相比于通
    通常的网络爬虫,主题爬虫目的在于抓取与特定主题内容相关的网页信息,需要通过计算
    网页与主题的相关程度来判断是否抓取该网页,并且维护一个待爬取URL队列,根据URL的
    优先级对页面进行访问,以保证相关度高的页面优先被访问。

    目前的主题爬虫存在着一些缺陷:(1)主题爬虫在工作前要确定该主题爬虫的相
    关主题词集。主题词集的确定通常有两种,一种是人工确定,另一种是通过初始页面分析所
    得。人工确定方法存在一定的主观性;而通过初始页面提取关键字的方法,一般在主题覆盖
    率上有所不足。两种传统的方法都会在主题爬虫进行网页主题相似度计算时造成不小的偏
    差。(2)目前基于文本启发式主题爬虫的核心是页面相似度计算,判断当前爬取网页是否与
    主题相近,除了与主题确定??榈木范扔泄赝?,最主要的就是相似度计算算法,通常采用
    的是VSM(向量空间模型),基于不同词之间是不相关的假设,以词向量来表示文本,通过共
    有词频计算文档间的相似度,这种算法往往忽略了词语词之间的语义关系,降低了在语义
    上高度相关文章的相似值。

    本发明主题爬虫的设计是以通用爬虫为基础,增加三个核心??椋褐魈馊范??,
    主题相似度计算??楹痛廊RL排序???。针对以上不足,本发明提出基于主题模型LDA
    的主题爬虫,并改进主题相似度算法和URL优先级排序算法,从爬取的初始和爬取的过程提
    高主题爬虫的内容质量与准确度。主要贡献点:(1)通过LDA主题模型,深度挖掘语料主题语
    义信息,为主题爬虫构造良好的指导基础,将机器学习融入到资源的获取方法中,提高资源
    获取的准度和质量。(2)在主题爬虫主题相似度计算???,采用将基于《知网》的语义相似度
    计算的方法,平衡余弦相似度和语义相似度,达到更好的主题匹配效果。

    二、学术资源的分类

    本发明采用基于LDA的文本分类方法,如图7所示,使用贝叶斯概率计算模型作为
    文本分类模型,提取最能体现该篇待分类文本特性的一组特征词作为用于输入文本分类模
    型的特征词集,原始特征词集就是将原始词集按特性权重排序后的前面部分,用文本分类
    模型计算所述特征词组合归属预定A个类别中的每个类别的概率,取概率值最大的类别作
    为其所属类别;根据教育部《研究生学科专业目录》中的学科门类,将所有学科分为75个学
    科类别,即所述类别数A为75个类别。使用以上所述的LDA主题模型与经其训练所得的100个
    主题文档来辅助文本分类模型进行文本分类?;乖は扔美啾鹈魅返难橹び锪习丛ざɡ啾鹗?br />A让文本分类模型进行分类验证,以获得文本分类模型对A个类别中的每个类别的分类准确
    率,作为文本分类模型对A个类别中的每个类别的归类可信度指标;该准确率为被文本分类
    模型分到某个类别的所有验证语料中属被正确分类的语料的比率,并预设分类准确率阈
    值;文本分类模型进行分类验证时预设分类准确率阈值为80%较为合适。用文本分类模型
    对每一篇待分类文本进行文本分类时具体包括以下步骤:

    步骤一、对每一篇待分类文本分别计算该文本的经预处理后的所有词的特性权
    重,词的特性权重数值与在该文本中出现的次数成正比,与在所述训练语料中出现的次数
    成反比,将计算所得的词集按其特性权重数值大小降序排列,提取每一篇待分类文本原始
    词集的前面部分作为其特征词集。

    步骤二、使用文本分类模型,选取每一篇待分类文本原始特征词集用来分别计算
    该篇文本可能归属预定A个类别中各个类别的概率值,选取概率值最大的类别作为该篇文
    本分类类别;

    步骤三、对步骤二的文本分类结果进行判断,如果文本分类模型对该类别的分类
    准确率数值达到设定阈值就直接输出结果;如果文本分类模型对该类别的分类准确率数值
    未达到设定阈值,就进入步骤四;

    步骤四、将每一篇经预处理的文本输入所述LDA主题模型,用LDA主题模型计算出
    该篇文本对应所设定的K个主题中的每个主题的权重值,选取权重值最大的主题,并将预先
    经LDA主题模型训练后所得到的该主题下的主题关联词中的前Y个词加入至该篇文本的原
    始特征词集之中共同作为扩充后的特征词集,再次使用文本分类模型,分别计算该篇文本
    可能归属预定A个类别中各个类别的概率值,选取概率值最大的类别作为该篇文本最终分
    类类别。具体可取10至20个词,如取主题关联词中的前15个词加入至该篇文本的原始特征
    词集之中共同作为扩充后的特征词集;即使新加入的词与原始特征词有重复也没关系。

    文本分类模型的主要计算公式为:


    其中P(cj|x1,x2,...,xn)表示特征词(x1,x2,…,xn)同时出现时该文本属于类别
    cj的概率;其中P(cj)表示训练文本集中,属于类别cj的文本占总数的比率,P(x1,x2,...,xn|
    cj)表示如果待分类文本属于类别cj,则这篇文本的特征词集为(x1,x2,...,xn)的概率,P
    (c1,c2,...,cn)表示给定的所有类别的联合概率。

    显然,对于给定的所有类别,分母P(c1,c2,...,cn)是一个常数,模型分类结果为
    (1)式中概率最大的类别,求解(6)式的最大值可转化为求解下式的最大值


    又根据贝叶斯假设,文本特征向量属性x1,x2,...,xn独立同分布,其联合概率分布
    等于各个属性特征概率分布的乘积,即:

    P(x1,x2,...,xn|cj)=ΠiP(xi|cj) (36)

    所以(7)式变为:

    即为所求的用于分类的
    分类函数。

    分类函数中的概率值P(cj)和P(xi|cj)还是未知的,因此,为了计算分类函数的最
    大值,(9)式中的先验概率值分别估计如下:


    其中,N(C=cj)表示训练文本中属于cj类别的样本数量;N表示训练样本总数量。


    其中,N(Xi=xi,C=cj)表示类别cj中包含属性xi的训练样本数量;N(C=cj)表示类
    别cj中的训练样本数量;M表示训练样本集合中经过去除无用词后关键词的数量。

    LDA是Blei等人在2003年提出的一种对离散数据集建模的统计主题模型,是一个
    “文档-主题-词”的三层贝叶斯生成模型。最初的模型只对“文档-主题”概率分布引入一个
    超参数使其服从Dirichlet分布,随后Griffiths等人对“主题-词”概率分布也引入了一个
    超参数使其服从Dirichlet分布。LDA模型如图2所示。其中:N为这篇文档的单词数量,M为文
    档集中的文档数量,K为主题个数,为主题-词的概率分布,θ为文档-主题的概率分布,Z为
    隐含变量表示主题,W为词,α为θ的超参,β为的超参。

    LDA主题模型把一篇文档看作是一组词的集合,词与词之间没有先后顺序,而且一
    篇文档可以包含多个主题,文档中每个词都是由某个主题生成,同一个词也可以属于不同
    的主题,因此LDA主题模型是一种典型的词袋模型。

    训练LDA模型的关键是隐含变量分布的推断,即获取目标文本的隐含文本-主题分
    布θ和主题-词分布若给定模型参数α,β,文本d的随机变量θ、z和w的联合分布为:


    由于上式同时存在多个隐含变量,直接计算θ,是不可能的,所以需要对参数进行
    估计推断,目前常见的参数估计算法有期望最大化(Expectation Maximization,EM)、变分
    贝叶斯推理和Gibbs抽样。本文采用Gibbs抽样进行模型参数的推断,Griffiths指出Gibbs
    抽样在Perplexity值和训练速度等方面均优于变分贝叶斯推理和EM算法。EM算法由于其似
    然函数局部最大化问题往往导致模型找到的是局部最优解,而变分贝叶斯推理得到的模型
    与真实情况有所偏差,Gibbs抽样能快速有效的从大规模数据集中提取主题信息,成为目前
    最流行的LDA模型提取算法。

    MCMC是一套从复杂概率分布中抽取样本值的近似迭代方法,Gibbs抽样作为MCMC
    的一种简单实现形式,目的是构造收敛于特定分布的Markov链,并从链中抽取接近目标概
    率分布值的样本。在训练过程中,算法只对主题变量zi进行抽样,其条件概率计算公式如
    下:


    其中,等式左边含义为:当前词wi在已知其他词各自所属主题的条件下,该词属于
    主题k的概率;等式右边ni-1为第k个主题下第i个单词个数减去1;nk-1为该文档第k个主题
    的个数减去1;第一个乘子为wi这个词在k号主题下的概率;第二个乘子为第k个主题在该篇
    文档里的概率。

    Gibbs抽样具体步骤为:

    1)初始化,为每个词wi随机分配主题,zi是词的主题,将zi初始化为1到K之间的一
    个随机整数,i从1到N,N为文本集的特征词记号,此为Markov链的初始态;

    2)i从1循环到N,根据公式(2)计算当前词wi属于各个主题的概率,并依此概率对
    词wi重新抽样主题,获得Markov链的下一状态;

    迭代步骤2)足够次数后,认为Markov链已达稳态,至此这篇文档的每个词都有一
    个特定的所属主题;对于每篇文档,文本-主题分布θ和主题-词分布的值可按下列公式估
    算:


    其中,表示特征词w分配给主题k的次数,表示分配给主题k的特征词数,
    表示文本d中分配给主题k的特征词数,表示文本d中所有分配了主题的特征词数。

    作为文本分类模型可信度指标的分类准确率,是通过概率来计算的,具体公式如
    下:


    其中,i表示类别,Ni表示分类器正确预测i类别的次数,Mi表示分类器预测i类别的
    总次数。

    可采用查准率P,查全率R和两者的综合评价指标F1作为最终的评价指标,查准率P
    衡量的是正确判定该类别的测试样本占判定为该类别的测试样本的比例,查全率R衡量的
    是正确判定该类别测试样本占该类别所有测试样本的比例。以某类别Ci为例,n++表示正确
    判定样本属于类别Ci的数量,n+-表示不属于但却被判定为类别Ci的样本数,n-+表示属于但
    被判定为不属于类别Ci的样本数。对于类别Ci而言,查全率R、查准率P和综合指标F1值为:


    发明者曾进行了三组实验:实验一,基于原始特征集进行分类器性能测试;实验
    二,基于扩充后的特征集进行分类器性能测试;实验三,基于选择性特征扩展后的特征集进
    行分类器性能测试,其中可信度阈值设置为0.8。表2为三次实验在部分学科上的查全率和
    查准率:

    表2部分学科的查全率和查准率





    由表2可知,基于原始特征集进行实验时,历史学查全率较高,而查准率较低,说明
    有较多的不属于历史学学科的数据被分类器归为了历史学,同时发现科学技术史学科查全
    率较低,说明有很多本属于这个学科的数据被归为了其他学科,由于这两个学科主题十分
    类似,这很有可能是分类器把较多属于科学技术史的数据归类为历史学。类似的情况同样
    出现在了地质资源与地质工程学科和地质学学科上?;诶┱购筇卣骷陨厦娴奈侍庥兴?br />改善,但对之前识别度高的学科产生了影响。而进行选择性特征扩展一方面避免了对识别
    度高的学科产生影响,另一方面对本身由于信息量不足引起识别度低的学科有一定程度上
    的改善。

    根据上面的实验结果可以计算出三次实验各自的平均查全率、平均查准率和平均
    F1值。结果如下:

    表3实验对比



    由表3可以看出,面对复杂的分类场景,本发明基于选择性特征扩展的方法相比于
    基于原始特征集或基于扩展后的特征集的方法具有更好的适应性,平均查全率、平均查准
    率和平均F1值明显高于其它方案,能够达到较好的实用效果。

    图6为三次实验在部分学科上的查全率示意图;图7为三次实验在部分学科上的查
    准率示意图。

    由于大数据时代的到来,资源分类面临的挑战越来越大,不同的应用场景需要采
    用不同的分类技术,不存在一项技术适合所有的分类任务。本发明提出的基于选择性特征
    扩展的方法适合复杂的应用场景,有选择的对信息量少的数据增加主题信息,同时避免对
    信息量充足的数据增加噪音,并且本发明方法具有普遍的适应性。


    三、学术资源的推荐

    本发明向用户推荐其相应的学术资源的过程包括冷启动推荐阶段与二次推荐阶
    段,冷启动推荐阶段基于兴趣学科为用户推荐符合其兴趣学科的优质资源,所述优质资源
    即为经资源质量值计算模型计算后比较所得的资源质量值高的学术资源,资源质量值为资
    源权威度、资源社区热度和资源时新度的算术平均值或加权平均值;二次推荐阶段,分别对
    用户兴趣模型和资源模型建模,计算用户兴趣与资源模型二者的相似性,再结合资源质量
    值计算推荐度,最后根据推荐度为用户进行学术资源Top-N推荐。

    1、冷启动阶段推荐算法:

    表4五大类资源的属性和衡量标准

    优质的学术资源能够吸引和留住新用户。在冷启动阶段,本文拟向用户推荐符合
    其兴趣学科的优质资源。优质资源即质量值高的学术资源,质量值的衡量标准主要包括权
    威度、社区热度和时新度等属性。五大类资源的属性和衡量标准如表4所示。

    论文权威度Authority的计算公式如下:


    Level是论文发表刊物级别被量化后的得分。本文将刊物级别分为5个等级,分数
    依次为1、0.8、0.6、0.4和0.2分。顶尖杂志或会议如Nature、Science得1分,第二级别的如
    ACM Transaction得0.8分,最低级别的得0.2分。Cite的计算公式如下:

    Cite=Cites/maxCite. (2)

    Cite是论文被引量的量化结果,Cites是论文的被引量,maxCite是论文来源数据
    库中最大的被引量。

    其他四类资源的权威度计算与论文类似,只是量化方法不同而已。

    论文社区热度Popularity的计算公式如下:

    Popularity=readTimes/maxReadTimes. (3)

    readTimes是论文的阅读次数,maxReadTimes是论文来源数据库中最大的阅读次
    数。

    所有资源的时新度Recentness计算方法相同,公式如下:


    year和month分别是资源的发表年份和月份。minYear、minMonth、maxYear和
    maxMonth是该类资源的来源数据库中所有资源的最早和最晚发表年份和月份。

    论文质量值Quality计算方法如下:


    2、二次推荐阶段的算法:

    本阶段采用融合用户行为和资源内容的推荐方法,分别对用户兴趣模型和资源模
    型建模,计算二者的相似性,再结合资源质量值计算推荐度,最后根据推荐度进行推荐。

    学术资源模型表示如下:

    Mr={Tr,Kr,Ct,Lr} (6)

    其中,Tr为学术资源的学科分布向量,是该学术资源分布在75个学科的概率值,由
    贝叶斯多项式模型得到。

    Kr={(kr1,ωr1),(kr2,ωr2),...,(krm,ωrm)},m为关键词个数,kri(1≤i≤m)表示
    单条学术资源第i个关键词,ωri为关键词kri的权重,通过改进后的tf-idf算法得到,计算
    公式如下:


    w(i,r)表示文档r中第i个关键词的权重,tf(i,r)表示第i个关键词在文档r中出
    现的频度,Z表示文档集的总篇数,L表示包含关键词i的文档数。

    Lr为LDALDA潜在主题分布向量,Lr={lr1,lr2,lr3...,lrN1},N1是潜在主题数量。

    Ct为资源类型,t的取值可以为1,2,3,4,5即五大类学术资源:学术论文、学术专利
    学术新闻、学术会议和学术图书。

    根据用户使用移动软件的行为特点,将用户对一个学术资源的操作行为分为打
    开、阅读、星级评价、分享和收藏,星级评价属于显式行为,其它的属于隐式行为。显式行为
    能够明确的反映用户兴趣偏好程度,如星级评价,评分越高说明用户越喜欢该资源;隐式行
    为虽不能明确反映用户兴趣偏好,但其蕴含的信息量和信息价值往往比显式反馈更多更
    高。

    用户兴趣模型主要基于用户背景及浏览过的学术资源。根据用户的不同浏览行
    为,结合学术资源模型,可构建用户兴趣模型,此模型将随用户兴趣变化而动态调整。用户
    兴趣模型表示如下:

    Mu={Tu,Ku,Ct,Lu} (8)

    其中,Tu是用户一段时间内浏览过的某类学术资源的学科分布向量Tr经过用户行
    为后,形成的用户学科偏好分布向量,即


    其中,sum为用户产生过行为的学术资源总数,sj为用户对学术资源j产生行为后
    的“行为系数”,该值越大说明用户越喜欢该资源。Tjr表示第j篇资源的学科分布向量。sj的
    计算综合考虑了打开、阅读、评价、收藏和分享等行为,能够准确反映用户对资源的偏好程
    度。

    Ku={(ku1,ωu1),(ku2,ωu2),...,(kuN2,ωuN2)}是用户关键词偏好分布向量,N2为
    关键词个数,kui(1≤i≤N2)表示第i个用户偏好关键词,ωui为关键词kui的权重,通过用户u
    一段时间内产生过行为的所有学术资源的“关键词分布向量”Kr计算得到。

    Kjr′=sj*Kjr (10)

    根据公式10可以计算出每篇学术资源新的关键词分布向量,再选取所有资源新的
    关键词分布向量的TOP-N2作为用户的关键词偏好分布向量Ku。

    Lu为用户的LDA潜在主题偏好分布向量,由学术资源的LDA潜在主题分布向量Lr=
    {lr1,lr2,lr3...,lrN1}计算得到,方法同Tu.


    行为系数的计算:s表示行为系数,T是阅读时间阈值,δ是一个调节参数,加入阅读
    时间阈值,旨在防止误点击,所以此值很小。如果用户阅读资源j的时间小于阈值T,则认为
    用户是误点击,s=0。在用户愿意花较长时间阅读即阅读时间大于等于T的条件下,如果用
    户做出评价且评价值大于其之前所有评价的均值mean,则认为其喜欢j,将s增加δ。如果用
    户对j进行了收藏或分享,说明用户很喜欢j,将s增加δ。本发明认为阅读、评价、收藏、分享
    是由浅入深地反映用户的兴趣偏好。s的取值主要取决于初始值和调节参数δ,我们想将用
    户的所有行为映射为一个0到2的值,所以初始值为1,调节参数δ=0.333333。

    学术资源模型与用户兴趣模型相似度计算:

    学术资源模型表示:

    Mr={Tr,Kr,Ct,Lr} (12)

    用户兴趣模型表示:

    Mu={Tu,Ku,Ct,Lu} (13)

    用户学科偏好分布向量Tu与学术资源学科分布向量Tr的相似度通过余弦相似度计
    算,即:


    用户的LDA潜在主题分布向量Lu与学术资源的LDA潜在主题分布向量Lr的相似度通
    过余弦相似度计算,即:


    用户关键词偏好分布向量Ku与学术资源关键词分布向量Kr的相似度计算通过
    Jaccard Similarity计算:


    则用户兴趣模型与学术资源模型的相似度为:


    其中,σ+ρ+τ=1,具体权重分配由实验训练得到。

    为了向用户推荐其感兴趣的优质资源,引入推荐度Recommendation_degree概念,
    某一学术资源的推荐度越大说明该资源越符合用户的兴趣偏好,且资源越优质。推荐度计
    算公式如下:

    Recommendation_degree=λ1Sim(Mu,Mn)+λ2Quality(λ1+λ2=1) (18)

    二次推荐阶段便是根据学术资源的推荐度进行Top-N推荐。

    整个推荐过程如图10所示,从图2可知,系统整体的推荐流程包括三部分:资源模
    型的构建、冷启动阶段的推荐和二次推荐过程,它们的具体步骤如下:

    资源模型的构建过程:

    1)通过网络爬虫和数据接口技术获取五类学术资源数据;

    2)解析并提取每条学术资源的相关信息,插入资源库;

    3)对资源库中的每条数据进行预处理,包括分词和去停留词;

    4)通过已经训练好的三类模型计算每条资源的学科分布、关键词分布和LDA潜在
    主题分布,三类模型分别是贝叶斯多项式模型、VSM和LDA模型;

    5)根据学科分布向量得到资源的学科类别,资源的学科类别是学科分布向量中概
    率较大的前3个学科;

    6)计算每条资源的质量值;

    7)将学科分布向量、关键词分布向量、LDA潜在主题分布向量、学科类别和质量值
    插入资源库。

    冷启动阶段的推荐过程:

    1)选择符合用户兴趣学科的学术资源

    2)根据学术资源的质量值进行优质资源推荐。

    二次推荐阶段的推荐过程:

    1)取得用户的浏览记录,计算“行为系数”;

    2)构建用户兴趣模型;

    3)计算资源模型与用户兴趣模型的相似度;

    4)根据相似度和质量值计算推荐度;

    5)根据资源的推荐度进行Top-N推荐。

    为方便后续计算,我们提前构建了资源模型,当用户首次使用本系统时,我们采用
    冷启动阶段的推荐策略为其推荐学术资源;当用户的行为数据达到一定数量后,便采用二
    次推荐策略为其推荐学术资源。

    本发明主要根据学术资源及用户数据的不断积累变化而提出对应的推荐策略。冷
    启动阶段为用户推荐符合其兴趣学科的优质资源;二次推荐阶段从资源类型、学科分布、关
    键词分布和LDA潜在主题分布共四个维度对各类学术资源建模,根据用户行为对用户兴趣
    偏好建模,最后根据资源推荐度进行Top-N推荐。

    实验结果表明,本发明所采用的学术资源推荐策略,能充分迎合用户的兴趣学科,
    在提升资源的CTR方面取得明显的效果;二次推荐阶段,从实验结果可知,本发明所采用的
    建模方法下的推荐策略在Precision方面明显高于目前两种常用资源建模方式下的推荐策
    略。

    关于本文
    本文标题:一种学术资源推荐服务系统与方法.pdf
    链接地址://www.4mum.com.cn/p-6021022.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 三分时时彩技巧稳赚公式 手机投注什么时候停止的 谁有时时彩计划软件 重庆时时5星人工计划 四川时时官网平台 色子大小号规则 广东时时十一选五开奖结果 全年无错原创36码网址 四川时时走势图开奖 包六肖是怎样中几个算中 内蒙古时时走势图经 11选5六码组合一共多少组 快三技巧稳赚大小 赌场里有哪些玩法 吉林时时官方开奖结果 秒速赛车稳赚玩法