• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 13
    • 下载费用:30 金币  

    重庆时时彩随机王: 一种中文网页主题内容的提取方法.pdf

    关 键 词:
    一种 中文 网页 主题 内容 提取 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201110090737.3

    申请日:

    2011.04.12

    公开号:

    CN102156737A

    公开日:

    2011.08.17

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20110412|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 华中师范大学
    发明人: 刘清堂; 邵明博; 向丹丹; 吴林静
    地址: 430079 湖北省武汉市武昌区珞瑜路152号
    优先权:
    专利代理机构: 武汉天力专利事务所 42208 代理人: 吴晓颖;冯卫平
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201110090737.3

    授权公告号:

    102156737B||||||

    法律状态公告日:

    2013.03.20|||2011.09.28|||2011.08.17

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明属于计算机应用和信息抽取领域,提供一种中文网页的主题内容提取方法,该方法是将网页数据转换成DOM对象后,在对其进行融合,分类,过滤操作,最后返回提取的网页内容。本发明操作方便,适用范围广,既不依附于特定的软、硬件,也不依赖于特定的网页模版;大量实验结果表明,本方法针对不同风格的中文新闻网页,能有效的排除页面中的“噪声”信息,提取主题内容,具有较高的实用性。

    权利要求书

    1.一种中文网页主题内容的提取方法,该方法使用的硬件部分包括DOM?生成部件、DOM?处理部件、结点融合部件、结点特征分析部件、结点元素过滤器、过滤器临时结果分析部件,其特征在于该方法包括以下步骤:?(1)DOM?生成部件使用网页数据流的副本,生成DOM?对象;(2)DOM?处理部件结合页面类型信息,将步骤(1)中获得的DOM?对象根据不同的页面类型执行相应的处理,计算结点的特征信息,并保存处理结果;所述特征信息包括当前结点的文字密度δ(b)和链接密度θ?(b);(3)对于上述步骤(2)中保存的处理结果,结点融合部件根据相邻结点间的特征信息,计算相似性,若相似条件为真,则合并相邻结点中相同的字段,保留前一个结点,舍弃后一个结点;(4)结点特征分析部件使用步骤(3)中融合后的结点集合,依据每相邻的三个结点的特征信息,将结点划分为“内容结点”与“噪声结点”两大类;(5)结点过滤器对步骤(4)中留下的“噪声结点”以及拥有特殊标签的“内容结点”进行多层过滤,每一次的过滤结果都使用过滤器临时结果分析部件进行保存;经过分析后得出最优的结点集合作为提取后的主题内容。2.根据权利要求1所述的一种中文网页主题内容的提取方法,其特征在于:该方法利用媒体检测压缩部件返回网页包含的图片、视频媒体信息,使用上述步骤(5)提供的结点集合,媒体检测压缩部件会检测该网页是否包含媒体信息,定位与文档相关的媒体信息,并对其进行压缩、缓存到本地。3.根据权利要求1所述的一种中文网页主题内容的提取方法,其特征在于步骤(2)中所述的DOM?处理部件包括页面类型猜测???、文档预处理???、结点计算???,其具体工作步骤如下:?(3-1)将获取的网页数据流保存一份副本,以备容错处理;(3-2)从DOM?对象的<title>结点和<H1>结点提取标题信息;(3-3)调用文档预处理???,过滤掉当前DOM对象所包含的注释信息,还有脚本、样式、以及Flash?交互结点;(3-4)调用页面类型猜测???,猜测目标页面的类型,若为内容型页面,则顺序执行以下步骤;若为目录型页面,则直接执行(3-7)的步骤;(3-5)调用结点计算???,遍历DOM?对象中剩下的结点,忽略<applet>、<button>?交互结点,以及<b>、<u>修饰结点;计算其它剩下的每个结点的文字密度δ(b)和链接密度θ?(b),并保存以上的计算结果,以及结点的文字信息、DOM?操作接口;其计算公式如下??????(公式1)?????????????????????????????????(公式2)L(b)表示当前结点的文字行数,T(b)?表示当前结点的文字长度,maxLen表示屏幕一行最多所能包含的字符长度,T’(b)代表行数大于1?的结点文字长度(不包含最后一行),Ta(b)表示当前结点及其子孙结点中,所有<a>结点的字符长度之和;(3-6)将(3-5)中的处理结果进行保存,以备后续部件进行操作;(3-7)若猜测页面类型为目录型,则使用(3-1)保存的网页数据流副本,重新生成DOM?对象,并重新遍历对象中的<a>结点,返回目录内容。4.根据权利要求1所述的一种中文网页主题内容的提取方法,其特征在于:步骤(3)中所述的结点融合部件包括原子结点相似度计算??楹徒岬闳诤夏??,其具体工作步骤如下原子结点相似度计算??楸槔街瑁?)保存的处理结果中的每个结点,依据公式3计算每相邻的2个结点的δ(b)和链接密度θ?(b),判断两者是否相似,若达到经验阈值ε为0.1则结点融合??榻腥诤喜僮?,最终使得相邻的每两个结点的区分度足够大;其中,?、为两类值的权重?(公式3)???????????????。5.根据权利要求1所述的一种中文网页主题内容的提取方法,其特征在于:步骤(4)中所述的结点特征分析部件针对步骤(3)中产生的区分度足够大的结点集合,循环遍历该集合中的每个结点,并对结点前后的邻居及其本身进行如下判断(5-1)判断条件(a)是否成立,条件(a)为假,则将当前结点归为噪声结点;(5-2)条件(a)为真,则需要判断条件(b)是否成立,若条件(b)为假,则判断条件(c)是否成立,若条件(c)为假,则将当前结点归为内容结点;(5-3)若条件(c)为真,则判断条件(d)是否成立,若条件(d)为真,则将当前结点归为噪声结点,反之,将当前结点归为内容结点;(5-4)若条件(b)为真,则判断条件(e)是否成立,若条件(e)为假,则将当前归为内容结点,若条件(e)为真,则需要判断条件(f)是否成立,若条件(f)为假,则将当前结点归为内容结点,反之则需要判断条件(g)是否成立,若条件(g)成立,则将当前结点归为噪声结点,反之将其归为内容结点;其中条件(a),当前结点的链接密度是否小于经验阈值0.353333;条件(b),前一个结点的链接密度是否小于经验阈值0.555556;条件(c),当前结点的文字密度是否小于经验阈值0.555556;条件(d),下一个结点的文字密度是否小于经验阈值0.353333;条件(e),当前结点的文字密度是否小于经验阈值0.488889;条件(f),下一个结点的文字密度是否小于等于经验阈值0.555556;条件(g),前一个结点的文字密度是否小于等于经验阈值0.353333。6.根据权利要求1所述的一种中文网页主题内容的提取方法,其特征在于:步骤(5)中所述的结点过滤器、过滤器临时结果分析部件,其具体工作步骤如下(6-1)使用结点过滤器A过滤掉空白、无效的噪声结点;(6-2)使用结点过滤器B对内容结点中的<Span>与<TD>?结点进行过滤:首先判断当前结点所包含的字符长度是否大于经验阈值4,若为假则过滤之,反之则保留;然后判断当前结点是否包含具有语义分割功能的标点符号,若为假则过滤之,反之则保留;操作结果由过滤器临时结果分析部件的数据统计??榻斜4?;(6-3)使用结点过滤器C过滤掉网页数据中包含的不规范的<P>结点信息,将操作结果保存于过滤器临时结果分析部件;由于W3C标准建议<P>结点不应该包含其它容器结点,因此本条过滤规则的判断标准为<P>结点是一个单层结点;(6-4)使用结点过滤器C过滤掉网页数据中包含的不规范的<TD>结点信息,将操作结果保存于过滤器临时结果分析部件;由于未闭合的<TD>结点通常容易错误的包含其它容器结点,因此本条过滤规则的判断标准为<TD>结点是一个单层结点;(6-5)使用结点过滤器C过滤掉网页数据中包含的不规范的<DIV>结点信息,将操作结果保存于过滤器临时结果分析部件;由于未闭合的<DIV>结点通常容易错误的包含其它容器结点,因此本条过滤规则的判断标准为<?DIV?>结点是一个单层结点;(6-6)过滤器临时结果分析部件对上述操作产生的结果对象进行降序排列,首先依据该对象中的分隔符统计量进行,若该字段相等,则依据字符长度进行;遍历有序的结果集合,找出第一个满足以下条件的结果;分隔符统计量大于等于经验阈值2,并且文字密度大于经验阈值0.28;(6-7)若结果为空,则使用(3-1)保存的网页数据流保存一份副本,重新生成DOM?对象,并利用DOM处理部件遍历对象中的每个结点,只针对<P>,<TD>,<PRE>,以及<DIV>结点进行对应的过滤,储存,并将该集合作为提取的网页主题内容;判断该网页内容中的文字密度,如果不为0,则执行下步操作;(6-8)使用(3-1)保存的网页数据流副本,重新生成DOM?对象,并利用DOM处理部件遍历对象中的每个结点,只针对<a>结点进行过滤,存储,返回目录内容。

    说明书

    一种中文网页主题内容的提取方法

    技术领域

    本发明属于计算机应用和信息抽取领域,特别涉及一种中文网页的主题内容提取方法。

    背景技术

    随着Internet?技术及其环境的不断成熟与发展,互联网已经成为人们获取信息资源不可或缺的方式?;チA啃畔⒌谋ㄊ讲?,“数据丰富,知识缺乏”这一问题越来越突出:当我们通过WEB?浏览网页时,会发现并不是所有呈现在屏幕的信息都与主题相关,它通常包含着大量的广告、导航、版权信息以及各种交互式操作接口(如:调查问卷等)。这些与主题无关的信息不仅造成了用户信息浏览的负担,还给基于网页主题内容的应用系统带来了实施和开发上的困难。

    因此,能够快速准确的提取网页的主题内容是一项基于WEB?内容应用服务的关键技术。它不但能提高各种基于内容服务的应用系统的准确性,还能大大的提升其工作效率,同时还更直接的减轻用户信息浏览的负担。信息抽取领域的专家一直尝试着借助计算机来解决这些与主题无关的信息带来的麻烦。

    网页内容的抽取通?;峄谀0婊蚍挚榱街址椒??;谀0娴姆椒?,一般来讲至少需要自顶向下的比较两棵来自相同模版的DOM(Document?Object?Model)?树,找到它们之间相同的子树并去除,把剩余的部分作为主题内容。实验证明该方法是可行有效的,但该方法的局限在于机器学习了一套网页模版并不一定能重用到其他网页集合上。除此之外,我们还应该注意到机器学习的计算代价也是相当可观的。由于人们访问网络的随机性,使得这样的方法并不能实时有效的提取网页的主题内容?;诜挚榈姆椒ǚ种Ы隙?,比较有代表性的主要有基于纯DOM树的网页分块、基于视觉信息的网页分块(Vision-based?Page?Segmentation:?VIPS)以及基于特定标签的网页分块。由于DOM?的最早引入是为了在浏览器中进行布局显示而不是进行WEB页面的语义描述,在未引入补充信息之前,基于纯DOM的分块方法单凭其提供的标签层次关系是不能完全胜任内容提取工作的?;谑泳跣畔⒌耐撤挚槔肳EB页面的视觉提示如background?color、font?color、font?size、bold?等信息,结合DOM提供的层次结构进行页面的分块,并把它应用在了TREC2003?的测评中,取得了较好的效果。但由于视觉特征的复杂性,很难有一个通用的规则集。除此之外,VIPS算法还需要保存大量的视觉信息,其处理性能随着页面的复杂程度急剧下降。由于早期互联网流行既定的几种布局,也有人根据<table>标签把网页分成若干个内容块。这样分块流程非常简单,但面对日益复杂的页面,处理效果往往不能令人满意。

    综上所述,现有的方法要么算法流程过于简单,只能针对特定标签的网页风格进行内容提??;要么算法复杂度过高(基于模版的机器学习或者复杂的视觉计算),都直接导致无法实时的处理人们随机的页面访问。

    发明内容

    本发明就是针对上述背景技术中的不足之处,而提出的一种中文网页的主题内容提取方法。该方法不依赖于单个网页文档之外的信息,仅依据各个原子(不可再分)结点的内部特征信息,结合中文网页的语言描述特点,有效提取主题内容。

    本发明的目的是通过如下技术措施来实现的。

    一种中文网页主题内容的提取方法,该方法使用的硬件部分包括DOM?生成部件、DOM?处理部件、结点融合部件、结点特征分析部件、结点元素过滤器、过滤器临时结果分析部件,该方法包括以下步骤:

    (1)DOM?生成部件使用网页数据流的副本,生成DOM?对象;

    (2)DOM?处理部件结合页面类型信息,将步骤(1)中获得的DOM?对象根据不同的页面类型执行相应的处理,计算结点的特征信息,并保存处理结果;所述特征信息包括当前结点的文字密度δ(b)和链接密度θ?(b);

    (3)对于上述步骤(2)中保存的处理结果,结点融合部件根据相邻结点间的特征信息,计算相似性,若相似条件为真,则合并相邻结点中相同的字段,保留前一个结点,舍弃后一个结点(下文称作,融合操作);

    (4)结点特征分析部件使用步骤(3)中融合后的结点集合,依据每相邻的三个结点的特征信息,将结点划分为“内容结点”与“噪声结点”两大类;

    (5)结点过滤器对步骤(4)中留下的“噪声结点”以及一些拥有特殊标签的“内容结点”进行多层过滤,每一次的过滤结果都使用过滤器临时结果分析部件进行保存;经过分析后得出最优的结点集合作为提取后的主题内容。

    在上述技术方案中,该方法可以根据客户的需求,利用媒体检测压缩部件返回网页包含的图片、视频等媒体信息,使用上述步骤(5)提供的结点集合,媒体检测压缩部件会检测该网页是否包含媒体信息,定位与文档相关的媒体信息,并对其进行压缩、缓存到本地。

    在上述技术方案中,步骤(2)中所述的DOM?处理部件包括页面类型猜测???、文档预处理???、结点计算???,其具体工作步骤如下:

    (3-1)将获取的网页数据流保存一份副本,以备容错处理;

    (3-2)从DOM?对象的<title>结点和<H1>结点提取标题信息;

    (3-3)调用文档预处理???,过滤掉当前DOM对象所包含的注释信息,还有脚本、样式、以及Flash?等交互结点;

    (3-4)调用页面类型猜测???,猜测目标页面的类型,若为内容型页面,则顺序执行以下步骤;若为目录型页面,则直接执行(3-7)的步骤;

    (3-5)调用结点计算???,遍历DOM?对象中剩下的结点,忽略<applet>、<button>?等交互结点,以及<b>、<u>等修饰结点;计算其它剩下的每个结点的文字密度δ(b)和链接密度θ?(b),并保存以上的计算结果,以及结点的文字信息、DOM?操作接口等;其计算公式如下

    ????(公式1)

    ????????????????(公式2)

    L(b)表示当前结点的文字行数,T(b)?表示当前结点的文字长度,maxLen表示屏幕一行最多所能包含的字符长度,T’(b)代表行数大于1?的结点文字长度(不包含最后一行),Ta(b)表示当前结点及其子孙结点中,所有<a>结点的字符长度之和;

    (3-6)将(3-5)中的处理结果进行保存,以备后续部件进行操作;

    (3-7)若猜测页面类型为目录型,则使用(3-1)保存的网页数据流副本,重新生成DOM?对象,并重新遍历对象中的<a>结点,返回目录内容。

    在上述技术方案中,步骤(3)中所述的结点融合部件包括原子结点相似度计算??楹徒岬闳诤夏??,其具体工作步骤如下:原子结点相似度计算??楸槔街瑁?)保存的处理结果中的每个结点,依据公式3计算每相邻的2个结点的δ(b)和链接密度θ?(b),判断两者是否相似,若达到经验阈值ε为0.1则结点融合??榻腥诤喜僮?,最终使得相邻的每两个结点的区分度足够大;其中,?、为两类值的权重

    ?(公式3)

    。

    在上述技术方案中,步骤(4)中所述的结点特征分析部件针对步骤(3)中产生的区分度足够大的结点集合,循环遍历该集合中的每个结点,并对结点前后的邻居及其本身进行如下判断:

    (5-1)判断条件(a)是否成立,条件(a)为假,则将当前结点归为噪声结点;

    (5-2)条件(a)为真,则需要判断条件(b)是否成立,若条件(b)为假,则判断条件(c)是否成立,若条件(c)为假,则将当前结点归为内容结点;

    (5-3)若条件(c)为真,则判断条件(d)是否成立,若条件(d)为真,则将当前结点归为噪声结点,反之,将当前结点归为内容结点;

    (5-4)若条件(b)为真,则判断条件(e)是否成立,若条件(e)为假,则将当前归为内容结点,若条件(e)为真,则需要判断条件(f)是否成立,若条件(f)为假,则将当前结点归为内容结点,反之则需要判断条件(g)是否成立,若条件(g)成立,则将当前结点归为噪声结点,反之将其归为内容结点;

    其中条件(a),当前结点的链接密度是否小于经验阈值0.353333;

    条件(b),前一个结点的链接密度是否小于经验阈值0.555556;

    条件(c),当前结点的文字密度是否小于经验阈值0.555556;

    条件(d),下一个结点的文字密度是否小于经验阈值0.353333;

    条件(e),当前结点的文字密度是否小于经验阈值0.488889;

    条件(f),下一个结点的文字密度是否小于等于经验阈值0.555556;

    条件(g),前一个结点的文字密度是否小于等于经验阈值0.353333。

    在上述技术方案中,所述的结点过滤器、过滤器临时结果分析部件,其具体工作步骤如下:

    (6-1)使用结点过滤器A过滤掉空白、无效的噪声结点;

    (6-2)使用结点过滤器B对内容结点中的<Span>与<TD>?结点进行针对性过滤:首先判断当前结点所包含的字符长度是否大于经验阈值4,若为假则过滤之,反之则保留;然后判断当前结点是否包含具有语义的标点符号,若为假则过滤之,反之则保留;操作结果由过滤器临时结果分析部件的数据统计??榻斜4?;

    (6-3)使用结点过滤器C过滤掉网页数据中包含的不规范的<P>结点信息,将操作结果保存于过滤器临时结果分析部件;由于W3C标准建议<P>结点不应该包含其他容器结点,因此本条过滤规则的判断标准为<P>结点是一个单层结点;

    (6-4)使用结点过滤器C过滤掉网页数据中包含的不规范的<TD>结点信息,将操作结果保存于过滤器临时结果分析部件;由于未闭合的<TD>结点通常容易错误的包含其他容器结点,因此本条过滤规则的判断标准为<TD>结点是一个单层结点;

    (6-5)使用结点过滤器C过滤掉网页数据中包含的不规范的<DIV>结点信息,将操作结果保存于过滤器临时结果分析部件;由于未闭合的<DIV>结点通常容易错误的包含其他容器结点,因此本条过滤规则的判断标准为<?DIV?>结点是一个单层结点;

    (6-6)过滤器临时结果分析部件对上述操作产生的结果对象进行降序排列,首先依据该对象中的分隔符统计量进行,若该字段相等,则依据字符长度进行;遍历有序的结果集合,找出第一个满足以下条件的结果;分隔符统计量大于等于经验阈值2,并且文字密度大于经验阈值0.28;

    (6-7)若结果为空,则使用(3-1)保存的网页数据流保存一份副本,重新生成DOM?对象,并利用DOM处理部件遍历对象中的每个结点,只针对<P>,<TD>,<PRE>,以及<DIV>结点进行对应的过滤,储存,并将该集合作为提取的网页主题内容;判断该网页内容中的文字密度,如果不为0,则执行下步操作;

    (6-8)使用(3-1)保存的网页数据流副本,重新生成DOM?对象,并利用DOM处理部件遍历对象中的每个结点,只针对<a>结点进行过滤,存储,返回目录内容。

    本发明与现有技术相比具有如下优点:本发明操作方便,适用范围广,既不依附于特定的软、硬件,也不依赖于特定的网页模版;大量实验结果表明,本方法针对不同风格的中文新闻网页,能有效的排除页面中的“噪声”信息,提取主题内容,具有较高的实用性。

    附图说明

    图1是本发明实施例一种中文网页的主题内容提取方法原理图。

    图2是本发明实施例一种中文网页的主题内容提取方法的程序流程图。

    具体实施方式

    下面结合附图及实施对发明进一步的描述。

    如图1所示,为本发明实施例一种中文网页的主题内容提取方法原理图。系统首先会对用户请求的URL?进行适当的格式化处理,获取远程服务器端的网络数据,构建一个可操作的DOM?对象。

    DOM对象只是一个可操作的原始网络数据结构,需要利用DOM?处理部件(DOMHandler)建立一个处理这个模型的新对象,DOM?处理部件,通过页面类型猜测??樘峁┑拿毒倮嘈?,选择不同的策略进行处理转换。

    如图2所示,?为本实施例一种中文网页的主题内容提取方法的程序流程图。当判断输入为内容页时,DOM?处理部件(DOMHandler)会首先将DOM?模型转换为WebDocument?,它是一种自定义的描述网页特征的数据结构,包括各节点的文字密度,链接密度,文字信息,DOM操作接口等,但数据本身没有得到任何的精炼。这时需要通过结点融合部件、结点特征分析部件、结点元素过滤器来对WebDocument?进行多维度的扫描过滤,并在每一次扫描过滤后,将它们保存到过滤器临时结果分析部件中,通过计算排序,分析这些临时结果,获得最优的结果集合作为页面提取内容。

    当结果集不为空时,则证明成功的找到了内容结点。根据程序的配置,可以通过已经找到的内容结点,反向定位相关图片或视频的位置。若成功找到了相关媒体的访问URL,则将他们压缩并缓存到本地。结合刚才获取的媒体内容,组装生成新的网页实体。

    当结果集为空时,则证明未成功的找到内容结点。通常出现这种情况是因为,原始的HTML?代码未遵循W3C?的标准,或本身就不具备内容结点。为了提供容错机制,程序提供了另一种转换方式:将DOM?对象转换为SimpleWebDocument?(另一种自定义的描述网页特征的数据结构)。针对该结构,有专门的过滤器进行上述类似的过滤,并直接返回网页内容。

    这个时候需要检查当前的网页内容的文字密度。当文字密度为0时,则需要检测当前网页是否以展示媒体信息为主。若为真,则返回提示信息。若为假,则返回错误信息。当文字密度不为0时,则检查该密度是否落在安全域内,若为真,则返回网页内容。若为假,则需要将DOM?模型转换为IndexDoc?(自定义的一种用来描述目录页特征的数据结构)。

    本实施例的具体步骤如下。

    一种中文网页主题内容的提取方法,该方法使用的硬件部分包括DOM?生成部件、DOM?处理部件、结点融合部件、结点特征分析部件、结点元素过滤器、过滤器临时结果分析部件、媒体检测压缩部件,其特征在于该方法包括以下步骤:

    (1)DOM?生成部件使用网页数据流的副本,生成DOM?对象;

    (2)DOM?处理部件结合页面类型信息,将步骤(1)中获得的DOM?对象根据不同的页面类型执行相应的处理,计算结点的特征信息,并保存处理结果;所述特征信息包括当前结点的文字密度δ(b)和链接密度θ?(b);

    (3)对于上述步骤(2)中保存的处理结果,结点融合部件根据相邻结点间的特征信息,若相似条件为真,则合并相邻结点中相同的字段,保留前一个结点,舍弃后一个结点(下文称作,融合操作);

    (4)结点特征分析部件使用步骤(3)中融合后的结点集合,依据每相邻的三个结点的特征信息,将结点划分为“内容结点”与“噪声结点”两大类;

    (5)结点过滤器对步骤(4)中留下的“噪声结点”以及一些拥有特殊标签的“内容结点”进行多层过滤,每一次的过滤结果都使用过滤器临时结果分析部件进行保存;经过分析后得出最优的结点集合作为提取后的主题内容。

    在上述实施例中,该方法可以根据客户的需求,利用媒体检测压缩部件返回网页包含的图片、视频等媒体信息,其方法为使用上述步骤(5)提供的结点集合,媒体检测压缩部件会检测该网页是否包含媒体信息,定位与文档相关的媒体信息,并对其进行压缩、缓存到本地。

    在上述实施例中,所述的DOM?处理部件包括页面类型猜测???、文档预处理???、结点计算???,其具体工作步骤如下:

    (3-1)将获取的网页数据流保存一份副本,以备容错处理;

    (3-2)从DOM?对象的<title>结点和<H1>结点提取标题信息;

    (3-3)调用文档预处理???,过滤掉当前DOM对象所包含的注释信息,还有脚本、样式、以及Flash?等交互结点;

    (3-4)调用页面类型猜测???,猜测目标页面的类型,若为内容型页面,则顺序执行以下步骤;若为目录型页面,则直接执行(3-7)的步骤;

    (3-5)调用结点计算???,遍历DOM?对象中剩下的结点,忽略<applet>、<button>?等交互结点,以及<b>、<u>等修饰结点;计算其它剩下的每个结点的文字密度δ(b)和链接密度θ?(b),并保存以上的计算结果,以及结点的文字信息、DOM?操作接口等;其计算公式如下

    ????(公式1)

    ????????????????(公式2)

    L(b)表示当前结点的文字行数,T(b)?表示当前结点的文字长度,maxLen表示屏幕一行最多所能包含的字符长度,T’(b)代表行数大于1?的结点文字长度(不包含最后一行),Ta(b)表示当前结点及其子孙结点中,所有<a>结点的字符长度之和;

    (3-6)将(3-5)中的处理结果进行保存,以备后续部件进行操作;

    (3-7)若猜测页面类型为目录型,则使用(3-1)保存的网页数据流副本,重新生成DOM?对象,并重新遍历对象中的<a>结点,返回目录内容。

    在上述实施例中,所述的结点融合部件包括原子结点相似度计算??楹徒岬闳诤夏??,其具体工作步骤如下:遍历步骤(2)保存的处理结果中的每个结点,依据公式3计算每相邻的2个结点的δ(b)和链接密度θ?(b),判断两者是否相似,若达到经验阈值ε为0.1则进行融合操作,最终使得相邻的每两个结点的区分度足够大;其中,?、为两类值的权重

    ?(公式3)

    。

    在上述实施例中,步骤(4)中所述的结点特征分析部件针对步骤(3)中产生的区分度足够大的结点集合,循环遍历该集合中的每个结点,并对结点前后的邻居及其本身进行如下判断:

    (5-1)判断条件(a)是否成立,条件(a)为假,则将当前结点归为噪声结点;

    (5-2)条件(a)为真,则需要判断条件(b)是否成立,若条件(b)为假,则判断条件(c)是否成立,若条件(c)为假,则将当前结点归为内容结点;

    (5-3)若条件(c)为真,则判断条件(d)是否成立,若条件(d)为真,则将当前结点归为噪声结点,反之,将当前结点归为内容结点;

    (5-4)若条件(b)为真,则判断条件(e)是否成立,若条件(e)为假,则将当前归为内容结点,若条件(e)为真,则需要判断条件(f)是否成立,若条件(f)为假,则将当前结点归为内容结点,反之则需要判断条件(g)是否成立,若条件(g)成立,则将当前结点归为噪声结点,反之将其归为内容结点;

    其中条件(a),当前结点的链接密度是否小于经验阈值0.353333;

    条件(b),前一个结点的链接密度是否小于经验阈值0.555556;

    条件(c),当前结点的文字密度是否小于经验阈值0.555556;

    条件(d),下一个结点的文字密度是否小于经验阈值0.353333;

    条件(e),当前结点的文字密度是否小于经验阈值0.488889;

    条件(f),下一个结点的文字密度是否小于等于经验阈值0.555556;

    条件(g),前一个结点的文字密度是否小于等于经验阈值0.353333。

    在上述实施例中,所述的结点过滤器、过滤器临时结果分析部件,其具体工作步骤如下:

    (6-1)使用结点过滤器A过滤掉空白、无效的噪声结点;

    (6-2)使用结点过滤器B对内容结点中的<Span>与<TD>?结点进行针对性过滤:首先判断当前结点所包含的字符长度是否大于经验阈值4,若为假则过滤之,反之则保留;然后判断当前结点是否包含具有语义的标点符号,若为假则过滤之,反之则保留;操作结果由过滤器临时结果分析部件的数据统计??榻斜4?;

    (6-3)过滤掉网页数据中包含的不规范的<P>结点信息,将操作结果保存于过滤器临时结果分析部件;由于W3C标准建议<P>结点不应该包含其他容器结点,因此本条过滤规则的判断标准为<P>结点是一个单层结点;

    (6-4)过滤掉网页数据中包含的不规范的<TD>结点信息,将操作结果保存于过滤器临时结果分析部件;由于未闭合的<TD>结点通常容易错误的包含其他容器结点,因此本条过滤规则的判断标准为<TD>结点是一个单层结点;

    (6-5)过滤掉网页数据中包含的不规范的<DIV>结点信息,将操作结果保存于过滤器临时结果分析部件;由于未闭合的<DIV>结点通常容易错误的包含其他容器结点,因此本条过滤规则的判断标准为<?DIV?>结点是一个单层结点;

    (6-6)过滤器临时结果分析部件对上述操作产生的结果对象进行降序排列,首先依据该对象中的分隔符统计量进行,若该字段相等,则依据字符长度进行;遍历有序的结果集合,找出第一个满足以下条件的结果;分隔符统计量大于等于经验阈值2,并且文字密度大于经验阈值0.28;

    (6-7)若结果为空,则使用(3-1)保存的网页数据流保存一份副本,重新生成DOM?对象,并利用DOM处理部件遍历对象中的每个结点,只针对<P>,<TD>,<PRE>,以及<DIV>结点进行对应的过滤,储存,并直接返回网页内容;判断该网页内容中的文字密度,如果为0,则根据客户需求返回媒体信息,如果不为0,则执行下步操作;

    (6-8)使用(3-1)保存的网页数据流副本,重新生成DOM?对象,并利用DOM处理部件遍历对象中的每个结点,只针对<a>结点进行过滤,存储,返回目录内容。

    关于本文
    本文标题:一种中文网页主题内容的提取方法.pdf
    链接地址://www.4mum.com.cn/p-5867939.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 中国北车股票行情 中国银行股票行情 股票行情今天002063 上证指数近期走势图 股票涨跌专业一天赚3000 中国重工股票分析 贵州茅台股票分析报告2018 全国股票配资公司 股票指数行情 新手炒股入门书籍 2010年10月上证指数 美国股票指数比中国股票指数高 000157个股资料股票行情 股票配资排名丿找 厦门股票配资利息多少 能源股票推荐