• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 7
    • 下载费用:30 金币  

    重庆时时彩8码一期计划: 一种基于网页模板的网站内容无障碍检测方法.pdf

    关 键 词:
    一种 基于 网页 模板 网站 内容 障碍 检测 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201410028740.6

    申请日:

    2014.01.22

    公开号:

    CN103838823A

    公开日:

    2014.06.04

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20140122|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 浙江大学
    发明人: 王灿; 李凯; 周宇; 卜佳俊; 陈纯
    地址: 310027 浙江省杭州市西湖区浙大路38号
    优先权:
    专利代理机构: 杭州天正专利事务所有限公司 33201 代理人: 王兵;黄美娟
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410028740.6

    授权公告号:

    ||||||

    法律状态公告日:

    2017.02.22|||2014.07.02|||2014.06.04

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    一种基于网页模板的网站内容无障碍检测方法,包括依据待检测网址抓取该网站所有相关网页和资源;对网页依据正文提取算法进行正文过滤,去掉网页DOM树的正文节点;对网页集合依据基于html标签的网页结构度量计算出网页之间的距离矩阵;设定层次聚类阈值θ,依据距离矩阵对所有网页进行层次聚类,在每一个聚类簇中选取若干个网页作为该聚类簇的模板构成网页模板集合;对得到的模板网页集合进行对应模板相关检测规则的检测;对其他所有的网页集合进行模板不相关规则的检测并且将检测结果与结果汇总,从而快速得到检测结果。

    权利要求书

    权利要求书
    1.  一种基于网页模板的网站内容无障碍检测方法,该方法的特征在于,包括以下步骤:
    (1)依据待检测网址抓取该网站所有相关网页和资源;对所有网页进行渲染并保存渲染结果;
    (2)对步骤(1)中的网页依据正文提取算法进行正文过滤,去掉网页DOM树的正文节点;
    (3)对步骤(2)中得到的网页集合依据基于html标签的网页结构度量计算出网页之间的距离矩阵M

    (4)对M设定阈值θ,对所有网页进行层次聚类;在每一个聚类簇中选取若干个网页作为该聚类簇的模板构成网页模板集合;
    (5)对步骤(4)得到的模板网页集合进行对应模板相关检测规则的检测;
    (6)对步骤(2)得到的网页集合进行模板不相关规则的检测并且将检测结果与步骤(5)结果汇总,从而快速得到检测结果。

    2.  根据权利要求1中所述的的方法,其特征在于:步骤(2)所述的依据正文提取算法进行正文过滤,具体步骤为:
    (2.1)对渲染完毕的网页构建DOM树,过滤网页html文本中的与内容不相关的标签;
    (2.2)对步骤(2.1)中构建的DOM树计算每一个节点的文本密度,文本密度最大的节点即为文本块,其中文本密度的度量方式为:
    DSc=∑i∈childrenofcTextDensityi             公式(1)
    其中i为网页DOM树某个节点c的子节点,TextDensityi为节点i的文本密度,节点i的文本密度依照组合文本密度定义如下:
    TextDensityi=CiTilogln(Ci⫬LCiLCi+LCbCbCi+e)(CiLCiTiLTi)]]>             公式(2)
    其中Ci表示以i为根的子DOM树的文字数,Ti表示子DOM树的html标签数LCi表示子DOM树超链接文字数,LCi为非超链接文字数,LTi为超链接标签数目,LCb为<body>标签下超链接文字数,Cb为<body>标签下文字数,e为自然常数,当公式中分母为0时,将其设为1。

    3.  根据权利要求1中所述的方法,其特征在于:步骤(3)所述的计算网页结构度量距离矩阵,具体步骤为:
    (3.1)统计网页D中各html标签在网页中出现的次数,构建特征向量v(D),向量共N维,N为W3C标准允许在html文档中出现的各类标签总数;
    (3.2)对网页转化后的特征向量进行欧式距离的计算,得到网页结构距离矩阵M。

    4.  根据权利要求1中所述的方法,其特征在于:步骤(4)所述的层次聚类,具体步骤为:
    对所有网页进行自底向上的层次聚类,即初始化每个网页作为单独的聚类簇,而后依据设定的距离的阈值进行合并聚类簇,直至达到阈值θ为止。

    说明书

    说明书一种基于网页模板的网站内容无障碍检测方法
    技术领域
    本发明涉及网页无障碍检测与改造方法的领域,特别是一种基于网页模板的网站内容无障碍检测方法。
    背景技术
    在互联网日益发达的今天,残疾人对网络的使用由于自身的问题存在障碍,为缓解这一问题,2012年,工信部颁布了最新版本的通信行业标准《YD/T1761‐2012信息无障碍‐身体机能差异人群‐网站设计无障碍技术要求》,对于网站设计提出了无障碍的要求,为此需要对现有网站进行无障碍的检测。网页的网页数目非常多,直接进行检测无论从效率上还是准确率上都会有困难,难以实现。
    根据检测规则是否与能够直接检测网页模板,可以将检测规则分为模板相关和模板不相关。如果能够准确找出网站所有模板网页,这将大大提高模板相关规则的无障碍检测效率。传统的模板提取算法没有考虑到正文内容对于模板提取效果的负面影响。
    发明内容
    本发明克服了现有技术的上述缺点,提出了一种基于正文过滤和网页结构聚类的模板提取算法,在此算法的基础上提出了基于网页模板的网站内容无障碍检测方法。利用正文过滤实现对正文的提取构建目标的网页DOM树。进而对去除正文后的网页集合进行聚类,从中 找出模板,利用模板进行检测,避免了对海量网页的逐一检测。本发明提供了一种基于网页模板的网站内容无障碍检测方法,包括以下步骤:
    (1)依据待检测网址获取该网站所有相关网页和资源;对所有网页进行渲染并保存渲染结果;
    (2)对步骤(1)中的网页依据正文提取算法进行正文过滤,去掉网页DOM树的正文节点;
    (3)对步骤(2)中得到的网页集合依据基于html标签的网页结构度量计算出网页之间的距离矩阵M

    (4)对M设定阈值θ,对所有网页进行层次聚类;在每一个聚类簇中选取若干个网页作为该聚类簇的模板构成网页模板集合;
    (5)对步骤(4)得到的模板网页集合进行对应模板相关检测规则的检测;
    (6)对步骤(2)得到的网页集合进行模板不相关规则的检测并且将检测结果与步骤(5)结果汇总,从而快速得到检测结果。
    对于步骤(2)中的正文过滤,包括以下步骤:
    (2.1)对所有网页构建DOM树,其中过滤网页html文本中与内容不相关的html标签;
    (2.2)对步骤(2.1)中构建的DOM树计算每一个节点的文本密度,文本密度最大的节点即为文本块,其中文本密度的度量方式为:
    DSc=∑i∈childrenofcTextDensityi             公式(1)
    其中i为节点c的子节点,TextDensityi为节点i的文本密度,本发明采用的组合文本密度,考虑了某些超链接块中文本密度大,对正文??榻懈扇诺奶氐?,节点i的组合文本密度依照组合文本密度定义如下:
    TextDensityi=CiTilogln(Ci&Not;LCiLCi+LCbCbCi+e)(CiLCiTiLTi)]]>             公式(2)
    其中Ci表示以i为根的子DOM树的文字数,Ti表示子DOM树的html标签数LCi表示子DOM树超链接文字数,LCi为非超链接文字数,LTi为超链接标签数目,LCb为<body>标签下超链接文字数,Cb为<body>标签下文字数,e为自然常数。
    对于步骤(3)中的网页距离矩阵计算,包括以下步骤:
    (3.1)统计网页D中各html标签在网页中出现的次数,构建特征向量v(D),向量共N维,N为W3C标准允许在html文档中出现的各类标签总数
    (3.2)对网页转化后的特征向量进行欧式距离的计算,得到网页结构距离矩阵。
    对于步骤(4)中的层次聚类,具体步骤为:对所有网页进行自底向上的层次聚类,即初始化每个网页作为单独的聚类簇,而后依据设定的距离的阈值进行合并聚类簇,直至达到阈值θ为止。
    本发明的优点是:模板提取算法在考虑了正文的负面影响,精确度较高;基于网页模板的网站内容无障碍检测方法将检测规则分为模板相关与模板不相关,对于模板相关规则只检测模板即可,大大提高 了无障碍检测的效率。
    附图说明
    图1是本发明的流程图。
    具体实施方式
    下面将结合附图对本发明的具体实施进行详细的描述,结合图示过程对发明进行详细说明。
    本发明提供了一种基于网页模板的网站内容无障碍检测方法,包括以下步骤:
    (1)依据待检测网址使用分布式爬虫抓取该网站所有相关网页和资源;使用多线程渲染引擎,对所有网页进行渲染并保存渲染结果;
    (2)对步骤(1)中的网页依据公式(1)和公式(2)使用正文提取算法进行正文过滤,去掉所有网页DOM树的正文节点;
    (3)对步骤(2)中得到的网页集合依据基于html标签的标签向量距离计算出网页之间的距离矩阵M;

    (4)对M设定阈值θ,对所有网页进行层次聚类;在每一个聚类簇中选取若干个网页作为该聚类簇的模板构成网页模板集合;
    (5)对步骤(4)得到的模板网页集合进行对应模板相关检测规则的检测;
    (6)对步骤(2)得到的网页集合进行模板不相关规则的检测并且将检测结果与步骤(5)结果汇总,从而快速得到检测结果。
    对于步骤(2)中的正文过滤,包括以下步骤:
    (2.1)对所有网页构建DOM树,其中过滤网页html文本中的注释、<script>标签、<noscript>标签、<style>标签和CSS样式为“display:none”的标签;
    (2.2)对步骤(2.1)中构建的DOM树计算每一个节点的文本密度,文本密度最大的节点即为文本块,其中文本密度的度量方式为:
    DSc=∑i∈childrenofcTextDensityi                  公式(1)
    其中i为节点c的子节点,TextDensityi为节点i的文本密度,本发明采用的组合文本密度,考虑了某些超链接块中文本密度大,对正文??榻懈扇诺奶氐?,节点i的组合文本密度依照组合文本密度定义如下:
    TextDensityi=CiTilogln(Ci&Not;LCiLCi+LCbCbCi+e)(CiLCiTiLTi)]]>     公式(2)
    其中Ci表示以i为根的子DOM树的文字数,Ti表示子DOM树的html标签数LCi表示子DOM树超链接文字数,LCi为非超链接文字数,LTi为超链接标签数目,LCb为<body>标签下超链接文字数,Cb为<body>标签下文字数,e为自然常数,当公式中分母为0时,将其设为1。
    对于步骤(3)中的网页距离矩阵计算,包括以下步骤:
    (3.1)统计网页D中各html标签在网页中出现的次数,构建特征向量v(D),向量共N维,N为W3C标准允许在html文档中出现的各类标签总数;
    (3.2)对网页转化后的特征向量进行欧式距离的计算,得到网页结构距离矩阵。
    对于步骤(4)中的层次聚类,其实施过程为:对所有正文过滤后的网页进行自底向上的层次聚类,即初始化每个网页作为单独的聚类簇,而后依据设定的距离的阈值进行合并聚类簇,直至达到满足条件的最大聚簇,其中合并聚类簇的参考距离为待合并聚簇之间的单个链接距离(Single Linkage)。
    最后,应当指出,以上实施例仅是本发明较有代表性的例子。显然,本发明的技术方案并不限于上述实施例,权利中的步骤还可以有不同的解决方式。本领域的普通技术人员可在不脱离本发明的发明思想情况下,对于上述实施例做出种种修改或变化,因而本发明的?;し段Р⒉槐簧鲜鍪凳├?,而应该是符合权利要求书提到的创新性特征的最大范围。

    关于本文
    本文标题:一种基于网页模板的网站内容无障碍检测方法.pdf
    链接地址://www.4mum.com.cn/p-6147515.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 五分快三投注稳赚技巧 11选五计划软件选五中五 2013大乐透全部走势图 寻找手机棋牌黑客 河北11选5计划软件 排列三组六怎么算中奖 非凡计划官网app 11选5稳赚投注技巧 千里马计划软件时时 北京pk技巧想输都难 pk10投注软件免费版 pk10冷热预测软件免费 怎样买时时彩稳赚不赔 正规网上彩票投注站 彩世家哪个版本看计划的 北京pk10预测软件免费