• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 12
    • 下载费用:20 金币  

    重庆时时彩精彩网: 网页信息的解析方法及装置.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201310631635.7

    申请日:

    2013.12.02

    公开号:

    CN103793461A

    公开日:

    2014.05.14

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20131202|||公开
    IPC分类号: G06F17/30; G06Q30/00(2012.01)I 主分类号: G06F17/30
    申请人: 北京奇虎科技有限公司; 奇智软件(北京)有限公司
    发明人: 周雷; 高扬; 姜鑫; 曹晴; 牛杏媛
    地址: 100088 北京市西城区新街口外大街28号D座112室(德胜园区)
    优先权:
    专利代理机构: 北京工信联合知识产权代理事务所(普通合伙) 11266 代理人: 郭一斐
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201310631635.7

    授权公告号:

    103793461B||||||

    法律状态公告日:

    2017.05.31|||2014.06.11|||2014.05.14

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明提出了一种网页信息的解析方法,包括以下步骤:将待解析网页的网址与可解析的域名集合中的域名进行匹配;根据匹配成功的域名定位到对应的网址特征集合;将待解析网页的网址与该网址特征集合中的网址特征进行匹配;根据匹配成功的网址特征定位到对应的商品模板集合;将待解析网页与该商品模板集合中的商品模板进行匹配;将待解析的网页按照匹配成功的商品模板进行解析,返回解析结果。本发明还提供了一种对应的网页信息的解析装置。采用本发明,网站中多种形式的商品网址都能够准确识别出来,对于不同类型的商品网址能够采用不同种类的商品模板去匹配识别,从而尽可能多地将网页上的商品信息解析出来。

    权利要求书

    权利要求书
    1.  一种网页信息的解析方法,其特征在于包括以下步骤:
    将待解析网页的网址与可解析的域名集合中的域名进行匹配;
    根据匹配成功的域名定位到对应的网址特征集合;
    将待解析网页的网址与该网址特征集合中的网址特征进行匹配;
    根据匹配成功的网址特征定位到对应的商品模板集合;
    将待解析网页与该商品模板集合中的商品模板进行匹配;
    将待解析的网页按照匹配成功的商品模板进行解析,返回解析结果。

    2.  根据权利要求1所述的网页信息的解析方法,其特征在于:所述域名集合由一级域名构建。

    3.  根据权利要求1所述的网页信息的解析方法,其特征在于:所述网址特征包括两个项目:域名和特征表达式。

    4.  根据权利要求3所述的网页信息的解析方法,其特征在于:所述特征表达式,是字符串,或者是正则表达式。

    5.  根据权利要求1-4之一所述的网页信息的解析方法,其特征在于:所述可解析的域名集合中包括一个或多个域名,所述网址特征集合中包括一个或多个网址特征,所述商品模板集合中包括一个或多个商品模板,商品模板中包含需要从页面内容中提取出来的用于描述商品的项目信息。

    6.  根据权利要求1所述的网页信息的解析方法,其特征在于:所述商品模板还包括页面类型项,该页面类型项包括用于描述页面类型的正则表达式或字符串,在所述将待解析网页与该商品模板集合中的商品模板进行匹配的步骤中,通过判断待解析网页的网址与商品模板中包括的页面类型项的正则表达式或字符串是否匹配,来确定待解析网页与商品模板是否匹配成功。

    7.  根据权利要求1所述的网页信息的解析方法,其特征在于:同一个商品模板能够隶属于不同的商品模板集合,从而对应于不同的网址特征。

    8.  根据权利要求1-7之一所述的网页信息的解析方法,其特征在于:所述涉及匹配的步骤中,是将待解析网页的网址与集合中的元素逐一进行匹配,如果集合中的全部元素都不能与待解析网页的网址匹配成功,则认为匹配失败,不进行下一步骤,解析过程结束。

    9.  一种网页信息的解析装置,其特征在于包括以下??椋?BR>域名匹配???,将待解析网页的网址与可解析的域名集合中的域名进行匹配;
    域名定位???,根据匹配成功的域名定位到对应的网址特征集合;
    网址匹配???,将待解析网页的网址与该网址特征集合中的网址特征进行匹配;
    网址定位???,根据匹配成功的网址特征定位到对应的商品模板集合;
    商品匹配???,将待解析网页与该商品模板集合中的商品模板进行匹配;解析???,将待解析的网页按照匹配成功的商品模板进行解析,返回解析结果。

    10.  根据权利要求9所述的网页信息的解析装置,其特征在于:所述域名集合由一级域名构建。

    关 键 词:
    网页 信息 解析 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:网页信息的解析方法及装置.pdf
    链接地址://www.4mum.com.cn/p-6159179.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03