• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 7
    • 下载费用:30 金币  

    重庆时时彩龙虎公式: 一种改进的基于用户兴趣模型的个性化摘要系统.pdf

    关 键 词:
    一种 改进 基于 用户 兴趣 模型 个性化 摘要 系统
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201110083097.3

    申请日:

    2011.03.31

    公开号:

    CN102156728A

    公开日:

    2011.08.17

    当前法律状态:

    终止

    有效性:

    无权

    法律详情: 未缴年费专利权终止IPC(主分类):G06F 17/30申请日:20110331授权公告日:20130821终止日期:20160331|||授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20110331|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 河南理工大学
    发明人: 刘永利
    地址: 454000 河南省焦作市高新区世纪大道2001号河南理工大学
    优先权:
    专利代理机构: 代理人:
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201110083097.3

    授权公告号:

    |||102156728B||||||

    法律状态公告日:

    2017.05.17|||2013.08.21|||2011.11.23|||2011.08.17

    法律状态类型:

    专利权的终止|||授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种改进的基于用户兴趣模型的个性化摘要系统,该系统由Web信息检索子系统、用户兴趣子系统和个性化摘要子系统3部分组成。该个性化摘要系统通过分析用户检索日志,利用文档索引图方法建立和/或更新用户兴趣模型;然后依据该用户兴趣模型与检索结果进行用户兴趣与检索结果中句子相似度的度量,从而得到满足用户需要的个性化摘要。采用的个性化句子评分处理得到的个性化摘要充分考虑了用户的兴趣特点,使摘要的生成过程根据用户的兴趣进行匹配,可以提高摘要的有效性以及用户的满意度。

    权利要求书

    1.一种改进的基于用户兴趣模型的个性化摘要系统,该个性化摘要系统由Web信息检索子系统、用户兴趣子系统和个性化摘要子系统组成;其特征在于:所述Web信息检索子系统根据查询请求负责完成对Web页面的索引和检索任务,并将检索结果输出给个性化摘要子系统、将检索日志输出给用户兴趣子系统;所述用户兴趣子系统根据Web信息检索子系统提供的检索日志,利用文档索引图结构描述用户兴趣模型;所述个性化摘要子系统包括以下步骤:(A)根据用户兴趣子系统提供的用户兴趣模型与Web信息检索子系统输出的检索结果进行用户兴趣c与检索结果中句子相似度s的计算,获得相似度sim(c,s),sim(c,s)=θ·simTerm(c,s)+(1-θ)·simPhrase(c,s)输出给个性化句子评分处理;sim(c,s)=θ·simTerm(c,s)+(1-θ)·simPhrase(c,s)中,c表示用户兴趣模型,s表示一个句子,simTerm(c,s)表示c和s之间基于单个关键词的相似度,simPhrase(c,s)表示c和s之间基于短语的相似度,θ为一个调节因子,调节两种相似度计算方法的比重;(B)利用检索结果计算出句子中的查询关键词的逆文本频率IDF,然后依据逆文本频率IDF计算每一个句子s的分值Sidf(s),并将分值Sidf(s)输出给个性化句子评分处理;(C)利用检索结果计算出每一个句子s中的信息量Sic(s),并将信息量Sic(s)输出给个性化句子评分处理;(D)个性化句子评分处理依据最终评分?对每一个句子s进行重要性排序,并将排序结果中前K项组成一个个性化摘要输出给用户,从而完成在用户模型下的个性化摘要的订制;其中,最终评分?中的α表示分值Sidf(s)的系数,β表示信息量Sic(s)的系数,γ表示相似度sim(c,s)的系数;2.根据权利要求1所述的改进的基于用户兴趣模型的个性化摘要系统,其特征在于:用户兴趣c用文档索引图结构进行表示;3.根据权利要求1所述的改进的基于用户兴趣模型的个性化摘要系统,其特征在于:在个性化摘要子系统中,用户兴趣与检索结果中句子基于单个关键词的相似度simTerm(c,s)的计算采用向量空间模型中的cosine公式计算得到?其中,simTerm(c,s)表示用户兴趣c和句子s的基于单个关键词的相似度,N为关键词空间的维数,wi,c为用户兴趣模型c中关键词ti对应的权重,wi,s为句子s中关键词ti对应的权重;4.根据权利要求1所述的改进的基于用户兴趣模型的个性化摘要系统,其特征在于:在个性化摘要子系?统中,用户兴趣与检索结果中句子基于短语的相似度simPhrase(c,s)的计算方法为?其中,simPhrase(c,s)表示用户兴趣c和句子s的基于短语的相似度,P为用户兴趣c和句子s相匹配短语的个数,li为第i个匹配短语的长度,fi,c和fi,s分别为第i个匹配短语在用户兴趣c和句子s中出现的次数,g(li)是一个对匹配短语长度进行评分的函数,g(li)=(li/|si|),|si|为原始短语的长度,|sj,c|和|sk,s|分别表示用户兴趣c和句子s中原始句子的长度。5.根据权利要求1所述的改进的基于用户兴趣模型的个性化摘要系统,其特征在于:在个性化摘要子系统中,所述分值?中IDFt表示出现在句子s中的查询关键词t的倒排词频,tq表示查询q中的关键词组成的集合,Sidf(s)反映了句子包含查询关键词的多少。6.根据权利要求1所述的改进的基于用户兴趣模型的个性化摘要系统,其特征在于:在个性化摘要子系统中,所述信息量?中Weightt表示TF*IDF算法计算得到的关键词t的权重,ts表示句子s中的关键词组成的集合,f表示一个句子长度调节系数;Sic(s)反映了句子所包含信息的多少,在生成摘要的过程中作为Sidf(s)的辅助因素。7.根据权利要求1所述的改进的基于用户兴趣模型的个性化摘要系统,其特征在于:排序结果中前K项中K的取值为排序结果中的前2~5句句子。?

    说明书

    一种改进的基于用户兴趣模型的个性化摘要系统

    技术领域

    本申请属于信息检索、数据挖掘、人工智能领域。

    背景技术

    自动摘要技术是计算机语言学和情报科学共同关注的课题,其本质是信息的挖掘和信息的浓缩。按照目标或功能的不同,摘要可以划分为指示性摘要、信息性摘要、概括性摘要和评论性摘要等,但这些摘要的生成过程通常不考虑具体用户的知识水平、兴趣领域和信息需求,而是直接为不同背景的用户提供相同的摘要内容。

    个性化摘要是指通过分析用户的兴趣和需求信息,为不同的用户生成与其个人信息紧密相关的摘要内容的过程。

    传统方式的摘要忽略了不同用户之间的兴趣差异,若摘要的生成过程能够根据用户的兴趣进行匹配,则可以提高摘要的有效性以及用户的满意度。

    发明内容

    本申请在研究现有用户兴趣建模和文档摘要技术的基础上,设计了一种基于用户兴趣模型的个性化摘要系统PerSum,具体内容如下。①通过分析用户检索日志,利用概念聚类的方法隐式的建立和更新以层次概念结构描述的用户兴趣模型;②讨论了个性化摘要与查询偏重摘要的相同点和不同点,针对查询偏重摘要在表达文档内容时的不足,设计了一个个性化摘要提取模型。

    本申请设计了一种改进的基于用户兴趣模型的个性化摘要系统PerSum。系统在一个Web信息检索子系统的基础上,加入了用户兴趣子系统和个性化摘要子系统。PerSum系统的体系结构如图1所示。①Web信息检索子系统:一方面对指定的Web页面进行索引和存储,另一方面接收用户的查询请求,检索出查询结果,主要包括搜索、索引、存储、检索和检索日志部分。②用户兴趣子系统:根据用户的检索日志,构建或更新用户的兴趣模型,主要包括兴趣更新、兴趣存储和兴趣访问接口三个部分。③个性化摘要子系统:根据用户的兴趣模型和检索结果,生成用户的个性化摘要,主要包括句子评分和摘要自动提取两个部分。

    附图说明

    图1是PerSum系统体系结构图,

    图2是文档索引图示例,

    图3是点的内部结构。

    具体实施方式

    用户兴趣模型通??杀硎疚桓龈拍罴?,记作C={c1,c2,...cn},其中每个概念可用一组关键词及其权重的二元组描述,即ci={(t1,w1),(t2,w2),...(tm,wm)},如概念“政治”可以表示为{(政治,0.9),(访问,0.8),(政府,0.6)}。

    仅仅使用关键词往往难以准确表达出用户的兴趣信息,因为在对Web页面建立索引的过程中原有丰富的语义信息已经消失殆尽。为了尽可能多的保留原有的语义信息,在用户兴趣的表示方法中加入短语的因素是一种理想的方法。短语是由多个关键词按顺序组成的一个序列,通常能够比单个的关键词包含更多的语义信息。在本发明中,选择文档索引图的方法表示用户兴趣,这种方法不但考虑了单个关键词的因素,而且考虑了短语的因素。

    文档索引图是一种有向图,如图2所示。

    一个文档索引图可形式化表示为G=(V,E),其中G表示文档索引图,V是n个节点组成的集合{v1,v2...vn},每个节点vi(1≤i≤n)表示文档中的一个关键词;E表示图中边组成的集合{e1,e2...em},ej(1≤j≤m)表示一条边,m表示边的数目。

    用文档索引图表示用户兴趣时,将用户访问过的Web文档建立文档索引图。如图2列出了两个文档建立的文档索引图。建立时,每个文档被分割成多个句子,每个句子依次添加到文档索引图中,句子中每个关键词对应图中一个节点,若该关键词已存在于图中,则直接修改对应节点的信息,否则新建一个节点保存该关键词的信息。

    每个节点的内部存储结构如图3所示。

    节点的内部结构包括两个部分,即文档表和边表。文档表中每一行记录了文档编号、关键词频率TF以及边信息ET,其中边信息ET对应了一个边表,边表中每一行记录了边编号(如E1和E2)和该节点在句子中的位置信息(如S1(1)表示句子1中的第一个关键词,S3(1)表示句子3中的第一个关键词),边表反映了句子的结构信息。

    在用户和Web信息检索系统的一个典型交互中,用户根据自己的检索意图提交查询,然后得到大量的检索结果。用户不可能阅读每个结果的所有内容,因此检索结果往往采用偏重摘要(query-biased?summary)的形式。偏重摘要不同于通用摘要,后者是对文档主体内容的概括浓缩,而前者是根据用户的查询需求而生成的存在侧重点的摘要。由于偏重摘要通常仅根据查询条件生成,而查询条件往往不能准确表达用户的查询意图,另一方面,偏重摘要内容不考虑用户的兴趣差异,只要查询内容相同,摘要内容就相同,因此在Web信息检索系统中用偏重摘要表达文档内容的方式亟待改善。个性化摘要在偏重摘要的基础上,结合了用户的兴趣特点,能够满足用户的个性化需求。

    借鉴查询偏重摘要的生成方法,个性化摘要通过一个句子抽取模型创建。Web页面文本内容由一系列的句子组成,通过评定每个句子的重要性,选出分值最高的部分句子组成该页面内容的摘要。句子重要性的评定,在生成查询偏重摘要时通常需要考虑以下几个主要的因素:标题、位置、词频和查询偏重。Vechtomova提出的查询偏重摘要方法结合了词频和查询偏重两个因素,取得了良好的效果。本申请在Vechtomova生成偏重摘要方法的基础上,加入了用户兴趣因素,即依次考虑以下因素:

    (1)句子中出现的查询关键词的IDF值。用户通常很容易从包含有查询关键词的句子中判断出检索结果的相关性,因此,根据句子中查询关键词的分布,计算每个句子的分值:

    Sidf(s)=ΣkKqIDFk---(1)]]>

    其中IDFk表示出现在句子中的查询关键词k的倒排词频,Kq为查询q中的关键词组成的集合。Sidf反映了句子包含查询关键词的多少;

    (2)句子的信息量,即组成句子的每个关键词对应的TF*IDF值的组合:

    Sic(s)=ΣkKsWeightkf---(2)]]>

    其中,Weightk是TF*IDF算法计算得到的关键词k的权重,Ks为句子s中的关键词组成的集合,f为一个句子长度调节系数。Sic反映了句子所包含信息的多少,在生成摘要的过程中作为Sidf的辅助因素;

    (3)用户兴趣。用户兴趣模型子系统根据用户的浏览内容,为PerSum系统的每个用户建立了用文档索引图描述的兴趣模型。通过计算每个句子与用户兴趣之间的相似程度,可以有效地确定用户对于句子的兴趣。相似度计算包括两个方面,基于单个关键词的相似度和基于短语的相似度。

    A.基于单个关键词的相似度计算

    用户兴趣模型可用一组关键词及其权重的二元组表示,即c={(t1,w1,c),(t2,w2,c),...(tm,wm,c)},其中表示关键词,表示关键词对应的权重,因此对于用户兴趣c和句子s的相似度可以用向量空间模型(vector?space?model)中的cosine公式计算:

    simTerm(c,s)=Σi=1Nwi,c×wi,sΣi=1Nwi,c2×Σi=1Nwi,s2---(3)]]>

    其中,simTerm(c,s)表示用户兴趣c和句子s的基于单个关键词的相似度,N为关键词空间的维数,wi,c为用户兴趣模型c中关键词ti对应的权重,wi,s为句子s中关键词ti对应的权重。

    B.基于短语的相似度计算

    根据文档索引图表示的用户兴趣模型,从短语的角度出发计算与句子s的相似度。

    simPhrase(c,s)=Σi=1P[g(li)·(fi,c+fi,s)]2Σj|sj,c|+Σk|sk,s|---(4)]]>

    其中,simPhrase(c,s)表示用户兴趣c和句子s的基于短语的相似度,P为用户兴趣c和句子s相匹配短语的个数,li为第i个匹配短语的长度,fi,c和fi,s分别为第i个匹配短语在用户兴趣c和句子s中出现的次数,g(li)是一个对匹配短语长度进行评分的函数,g(li)=(li/|si|),|si|为原始短语的长度,|sj,c|和|sk,s|分别表示用户兴趣c和句子s中原始句子的长度。

    综合考虑上述两个方面,用户对句子s的兴趣可用下式表示:

    sim(c,s)=θ·simTerm(c,s)+(1-θ)·simPhrase(c,s)(5)

    其中,θ为一个调节因子,调节两种相似度计算方法的比重。

    综合上述三个因素得到句子s的最终评分如下:

    S(s)=αSidf(s)+βSic(s)+γsim(c,s)α+β+γ---(6)]]>

    用上述方法计算每个句子的最终评分,根据分值对句子的重要性排序,取TOPK个句子组成提供给用户的个性化摘要。

    关于本文
    本文标题:一种改进的基于用户兴趣模型的个性化摘要系统.pdf
    链接地址://www.4mum.com.cn/p-5867911.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 贵州11选5走势 31选7现场开奖直播 325棋牌官方正式版下载 澳门二分彩开奖 排列五327期规律 泳坛夺金分析技巧 江苏11选5中奖心得 开元棋牌有鬼吗 同花顺模拟炒股 140期双色球历史同期对比表 北京赛车投注平台新润 大富豪棋牌游戏下载 岐山福彩中心 河北十一选五走试图 安徽十一选五开奖结果图 冠通棋牌大厅手机版