• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 14
    • 下载费用:30 金币  

    重庆时时彩出号内幕: 网页主题内容抽取方法.pdf

    关 键 词:
    网页 主题 内容 抽取 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201010125191.6

    申请日:

    2010.03.12

    公开号:

    CN102193944A

    公开日:

    2011.09.21

    当前法律状态:

    撤回

    有效性:

    无权

    法律详情: 发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20110921|||实质审查的生效IPC(主分类):G06F 17/30申请日:20100312|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 三星电子(中国)研发中心; 三星电子株式会社
    发明人: 沈文南; 酆晓杰; 王艳丽; 王进; 玄东俊
    地址: 210008 江苏省南京市中山路268号汇杰广场8楼
    优先权:
    专利代理机构: 北京铭硕知识产权代理有限公司 11286 代理人: 韩明星;王艳娇
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201010125191.6

    授权公告号:

    ||||||

    法律状态公告日:

    2013.08.07|||2011.11.23|||2011.09.21

    法律状态类型:

    发明专利申请公布后的视为撤回|||实质审查的生效|||公开

    摘要

    本发明公开了一种网页主题内容抽取方法。该方法包括步骤:从简易信息聚合(RSS:Really?Simple?Syndication)文件中选择最新的RSS信息及其对应的网页;搜索所述RSS信息在其对应的所述网页的树状结构(Dom?Tree)中的位置,将所述位置的信息作为网页模板;利用所述网页模板对多个目标网页进行主题内容的抽取。该方法还包括步骤:每当对所述多个目标网页中的预定个数的目标网页进行了主题内容抽取后,重新生成所述网页模板并继续进行所述多个目标网页的主题内容的抽取。

    权利要求书

    1.一种网页主题内容抽取方法,包括步骤:从简易信息聚合(RSS:Really?Simple?Syndication)文件中选择最新的RSS信息及其对应的网页;搜索所述RSS信息在其对应的所述网页的树状结构(Dom?Tree)中的位置,将所述位置的信息作为网页模板;利用所述网页模板对多个目标网页进行主题内容的抽取。2.如权利要求1所述的网页主题内容抽取方法,其特征在于通过逐层遍历所述网页的树状结构,搜索到第一节点作为所述RSS信息在所述树状结构中的位置,将所述第一节点的XPath作为所述位置的信息;在所述树状结构的所有节点中,所述第一节点的文本与所述RSS信息的文本信息的相似度为最大且大于预定的阈值。3.如权利要求1所述的网页主题内容抽取方法,其特征在于通过逐层遍历所述网页的树状结构,搜索到第一节点,在所述树状结构的所有节点中,所述第一节点的文本与所述RSS文本信息的相似度为最大且大于预定的阈值;接着遍历所述第一节点的子孙节点,搜索到第二节点作为所述RSS信息在所述树状结构中的位置,将所述第二节点的XPath作为所述位置的信息;所述第二节点的文本与所述RSS信息的文本信息的相似度大于所述阈值且所述第二节点的子节点与所述RSS文本信息的相似度均小于所述阈值。4.如权利要求1所述的网页主题内容抽取方法,其特征在于还包括步骤:每当对所述多个目标网页中的预定个数的目标网页进行了主题内容抽取后,重新生成所述网页模板并继续进行所述多个目标网页的主题内容的抽取。5.如权利要求1所述的网页主题内容抽取方法,其特征在于使用所述网页模板抽取所述目标网页中最新的目标网页的主题内容;计算所述最新的目标网页所对应的RSS信息与所述最新的目标网页的主题内容的相似度;所述相似度大于预定的阈值,则需要重新生成网页模板。6.如权利要求1所述的网页主题内容抽取方法,其特征在于所述RSS信息为标题(Title)RSS信息、正文(Description)RSS信息、或类别(Category)RSS信息;所述网页模板为标题模板、正文模板、或类别模板;所述主题内容为标题内容、正文内容、或类别内容。

    说明书

    网页主题内容抽取方法

    技术领域

    本发明涉及网页主题信息的抽取,具体涉及网页主题内容的抽取。

    背景技术

    在网页中,存在导航链接、脚本程序、相关文章、广告链接、版权信息等与主题内容无关的噪音信息,去除这些噪音信息,抽取出网页的主题内容在很多方面都有其应用价值,例如用来改进搜索引擎的网页分类、网页消重、移动终端直接访问网页主题内容等。

    目前抽取网页主题内容的技术主要分为两类,一类主要是应用于结构化网页,通过分析结构化网页的特征,找到抽取数据的模板,从而批处理抽取网页数据;另一类先构建训练网页集,然后用机器学习训练得到模板,然后对每个网页抽取数据。对于普通网页,主要是使用第二类方法。

    但是,上述训练集很难包含所有的情况,从而导致生成的模板不能精确地抽取主题内容,而且现有方法对于一个网页只是抽取一段主题内容,不能单独抽取正文(description)、标题(title)、类别(category)等。而且,通过机器学习来训练模板,不能在移动终端等资源有限的设备上进行。

    发明内容

    鉴于上述现有的网页主题内容抽取方法中存在的问题,本发明提供了一种能够精确地抽取网页主题内容,并且能够在资源有限的设备上运行的网页主题内容抽取方法。

    为了实现上述目的,根据本发明的网页主题内容抽取方法,包括步骤:从简易信息聚合(RSS:Really?Simple?Syndication)文件中选择最新的RSS信息及其对应的网页;搜索所述RSS信息在其对应的所述网页的树状结构(DomTree)中的位置,将所述位置的信息作为网页模板;利用所述网页模板对多个目标网页进行主题内容的抽取。

    而且,上述的网页主题内容抽取方法,其特征在于通过逐层遍历所述网页的树状结构,搜索到第一节点作为所述RSS信息在所述树状结构中的位置,将所述第一节点的XPath作为所述位置的信息;在所述树状结构的所有节点中,所述第一节点的文本与所述RSS信息的文本信息的相似度为最大且大于预定的阈值。

    而且,上述的网页主题内容抽取方法,其特征在于通过逐层遍历所述网页的树状结构,搜索到第一节点,在所述树状结构的所有节点中,所述第一节点的文本与所述RSS文本信息的相似度为最大且大于预定的阈值;接着遍历所述第一节点的子孙节点,搜索到第二节点作为所述RSS信息在所述树状结构中的位置,将所述第二节点的XPath作为所述位置的信息;所述第二节点的文本与所述RSS信息的文本信息的相似度大于所述阈值且所述第二节点的子节点与所述RSS文本信息的相似度均小于所述阈值。

    而且,上述的网页主题内容抽取方法,其特征在于还包括步骤:每当对所述多个目标网页中的预定个数的目标网页进行了主题内容抽取后,重新生成所述网页模板并继续进行所述多个目标网页的主题内容的抽取。,重新生成所述网页模板并继续进行所述目标网页的主题内容的抽取。

    而且,上述的网页主题内容抽取方法,其特征在于使用所述网页模板抽取所述目标网页中最新的目标网页的主题内容;计算所述最新的目标网页所对应的RSS信息与所述最新的目标网页的主题内容的相似度;所述相似度大于预定的阈值,则需要重新生成网页模板。

    而且,上述的网页主题内容抽取方法,其特征在于所述RSS信息为标题RSS信息、正文RSS信息、或类别RSS信息;所述网页模板为标题模板、正文模板、或类别模板;所述主题内容为标题内容、正文内容、或类别内容。

    根据本发明的网页主题内容抽取方法,能够精确地抽取网页主题内容,并且能够在资源有限的设备上运行的网页主题内容抽取方法。

    附图说明

    通过下面结合附图进行的描述,本发明的上述和其他目的和特点将会变得更加清楚,其中:

    图1是为了说明RSS信息的示意图;

    图2是为了说明根据本发明的实施方式的网页主题内容抽取方法的流程图;

    图3是为了说明根据本发明的实施方式的网页模板生成方法的流程图;

    图4A是为了说明网页文件、DOM?Tree以及XPath的示意图;

    图4B是为了说明网页文件、DOM?Tree以及XPath的示意图;

    图5是为了说明根据图3所示的模板生成方法得到的模板生成结果的图;

    图6是为了说明根据本发明的实施方式的网页模板验证方法的流程图。

    主要符号说明:101为模板生成模板;102为内容抽取模板;103为模板验证???;S1010-S1100、S2010-S2110以及S2010-S3050为步骤。

    具体实施方式

    以下,参照附图来详细说明本发明的实施方式。

    (实施方式)

    本实施方式的网页主题内容抽取方法涉及RSS信息,因此,首先对RSS信息进行说明。

    RSS信息是一种描述同步网站内容的格式,是一种新的信息发布技术手段,目前的很多网页,比如博客、新闻类网站等在发布时都附带RSS信息。RSS信息能直接被其他站点调用,而且由于这些数据都是标准的扩展标记语言(XML:Extensible?Markup?Language)格式,所以也能在其他的终端和服务中使用。

    RSS是目前使用最广泛的XML应用,门户网站的一个子频道,比如科技频道,某个博客主写的所有博客,都有一个RSS文件维护最新发布的网页RSS信息。一般,一个RSS文件只包含最新更新的几个网页RSS信息,并且随着信息发布的更新而变化。

    例如,图1示出了为了说明RSS信息而作为一个例子的网站的信息科技(IT:Information?Technology)频道的RSS文件片断。在此图中,使用方框10示出了HTML网页文件中的标题RSS信息,使用方框20示出了正文RSS信息,并使用方框30示出了类别RSS信息。另外,RSS文本信息是指RSS信息去除HTML标签后的文本信息,比如该网页的标题RSS文本信息是“中国移动启动TD网络四期建设部署”,而且如图所示,正文RSS文本信息在这个例子中为实际正文的一个片段。

    下面,对根据本实施方式的网页主题内容抽取方法进行说明。

    图2是为了说明据本实施方式的网页主题内容抽取方法的流程图。

    如图2所示,根据本实施方式的网页主题内容抽取方法可分为模板生成???01、内容抽取???02、以及模板验证???03三个???,而且更具体地分为S1010至S1100十个步骤。其中,步骤S1010至S1040构成模板生成???01,步骤S1050至S1070构成内容抽取???02,步骤S1090至S1100构成模板验证???03。

    在步骤S1010,选择最新的部分网页和其对应的RSS信息。具体地说,首先对RSS文件包含的所有RSS信息按更新时间排序;然后选择更新时间靠前的若干RSS信息,选择数目可以手动配置;接着根据选择的RSS信息,找到其对应的网页。

    在步骤S1020,通过定位标题RSS的文本信息在网页中的位置得到标题模板。在此步骤中,利用在步骤S1010选择的若干RSS信息及其对应的网页中的每一个得到的标题模板均应相同,如果在这些标题模板中,有个别不相同的,则将其去除,而保留大部分相同的标题模板。

    接着在步骤S1030,通过定位正文RSS的文本信息在网页中的位置得到正文模板。在此步骤中,如果在步骤1020中一样,利用在步骤S1010选择的若干RSS信息及其对应的网页中的每一个得到的正文模板均应相同,如果在这些正文模板中,有个别不相同的,则将其去除,而保留大部分相同的正文模板。

    接着在步骤S1040,通过定位标签RSS的文本信息在网页中的位置得到类别模板。在此步骤中,同样地保留大部分相同的类别模板。

    如此,在模板生成???01中,选择最新更新的部分网页和其对应的RSS信息,并通过定位RSS文本信息在网页中的位置得到由标题模版、正文模板、以及类别模板构成的网页模板。关于RSS文本信息在网页中位置的定位方法在后详细说明。

    接着在步骤S1050,利用网页模板中的标题模板对与该标题RSS信息对应的目标网页抽取标题内容。

    接着在步骤S1060,利用网页模板中的正文模板对与该正文RSS信息对应的目标网页抽取正文内容。

    接着在步骤S1070,利用网页模板中的类别模板对与该类别RSS信息对应的目标网页抽取类别内容。

    接着在步骤S1080,判断是否对与该RSS信息对应的所有目标网页进行了主题内容的抽取。

    如果没有对该RSS信息对应的所有网页进行了主题内容的抽取,需要继续对剩余网页进行主题内容的抽取(步骤S1080:“否”),则接着在步骤S1090,利用最新更新的RSS信息与其对应抽取的主题内容来验证网页模板,具体地包括对于标题模板的验证、对于正文模板的验证、以及对于类别模板的验证。

    接着在步骤S1100,根据步骤S1090的验证结果,判断标题模板、正文模板以及类别模板中的任何一个是否已不适用于最新网页的主题内容抽取而需要重新生成,即判断网页模板是否已不适用于最新网页的主题内容抽取,而需要重新生成网页模板。

    如果在步骤S1100,判断需要重新生成网页模板(步骤S1100:“是”),则返回步骤S1020。相反,如果在步骤S1100,判断不需要重新生成网页模板(步骤S1100:“否”),则返回步骤S1050,继续对剩余的目标网页进行主题内容的抽取。

    如此,在模板验证???03中,利用最新更新的RSS与其对应抽取的主题内容来监控当前的网页模板是否需要变化,如果需要变化则重新生成网页模板再进行网页主题内容的抽取,否则继续使用当前的网页模板继续对剩余的目标网页进行主题内容的抽取。这里,对于当前的网页模板是否需要变化的具体验证方法将在后详细说明。

    当在步骤S1080,判断已经对该RSS文件对应的所有目标网页进行了主题内容的抽取(步骤S1080:“是”),则结束处理。

    如此,在内容抽取???02中,利用网页模板对该RSS文件对应的所有目标网页进行了包括标题内容、正文内容以及类别内容的网页主题内容的抽取。

    图3是为了说明根据本实施方式的网页模板生成方法的流程图。具体地,图3为正文模板的生成方法的流程图,即对应于图2中的步骤S?1030。

    首先在步骤S2010,为网页构建DOM?Tree。

    图4A及图4B是用于说明网页文件、DOM?Tree以及XPath的示意图。

    具体地图4A表示超文本置标语言(HTML:HyperText?Markup?Language)网页文件的一个例子。图4B是对应于图4A所示的HTML网页文件的DOMTree,DOM?Tree中的每个节点对应于HTML网页中的HTML标签。DOM?Tree中各节点的文本信息为该节点对应的子树包含的文本信息。在图4B中,作为节点的XPath,举例性地示出了“/html/body/ul”。

    接着在步骤S2020,去除Javascript等无用信息。

    接着在步骤S2030,计算RSS文本信息与根结点的所有子节点文本信息的相似度。

    相似度的计算方法如下。鉴于RSS文本信息通常都是实际文本的片断或者全部,也有极少部分是一段关于实际文本的简单的综述,所以对于相似度计算,使用简单的算法。即首先对RSS文本信息分词,得到单词数组a以及单词个数n,然后计算数组a中的单词是否在节点文本信息中出现,得到出现的单词个数m,再计算s=m/n作为相似度。

    接着在步骤S2040,从步骤S2030的计算结果中取最大相似度s及对应的子节点a。

    接着在步骤S2050,判断最大相似度s是否大于预定的阈值sv。

    关于相似度阈值,鉴于在有些情况下RSS文本信息不能和实际文本完全匹配,所以通过实验得到一个经验数据,当相似度超过这个经验数据,则认为RSS与节点文本匹配,这个经验数据就是相似度阈值。

    当在步骤S2050判定最大相似度s小于等于阈值sv(步骤S2050:“否”)时,接着在步骤S2060返回失败信息,该信息表示正文模板生成失败,并结束模板生成处理。

    当在步骤S2050判定最大相似度s大于阈值sv(步骤S2050:“是”)时,接着在步骤S2070,递归遍历地计算a的所有子孙节点的文本信息与RSS文本信息的相似度。

    接着在步骤S2080,从步骤S2070的计算结果中取最大相似度s1及其对应的子孙节点b。

    接着在步骤S2090,判断最大相似度s1是否大于预定的阈值sv。

    当在步骤S2090判定最大相似度s1大于阈值sv(步骤S2090:“是”)时,接着在步骤S2100,将b节点作为a节点,并返回S2070重复进行后续步骤的处理。

    当在步骤S2090判定最大相似度s1小于等于阈值(步骤S2090:“否”)时,接着在步骤S2110,返回a节点的Xpath,Xpath即为正文模板。

    根据图2所示的方法得到正文模板时,节点b符合如下两个条件,即正文RSS文本信息与节点b的文本的相似度大于阈值sv,同时正文RSS文本信息与节点b的子节点的文本的相似度都小于阈值sv。由此得到的节点b为自上而下逐层遍历网页树状结构,通过文本相似度比较而找到的、与正文RSS文本信息最相似的节点。该节点在树中的位置、即该节点的Xpath就是正文模板。

    根据本实施方式的标题模板的生成方法(图2中的步骤S1020)以及类别模板的生成方法(图2中的步骤S1040)与正文模板的生成方法相同。均可从图3所示的方法类推得到。具体地,如果使用标题RSS信息进行图3所示的处理,则得到的Xpath即为标题模板。而如果使用类别RSS信息进行图3所示的处理,则得到的Xpath即为类别模板。

    图5是为了说明根据图3所示的模板生成方法得到的模板生成结果的图。

    图5的主体为对应于图1所示RSS文件的网页画面。图5中的标题40对应于图1中的标题RSS信息,而正文50对应于图1中的正文RSS信息。根据图3所示的模板生成方法,通过定位标题RSS文本信息在HTML网页中的位置得到标题模板/html/body/div[4]/div/div[5]/div/div[1]/div/div[3]/div[2]/div[1]/h3,而通过定位正文RSS文本信息在html网页中的位置得到正文模板/html/body/div[4]/div/div[5]/div/div[1]/div/div[3]/div[2]/div[2]/div[1]/div[1]。

    图6是为了说明根据本实施方式的网页模板验证方法的流程图。具体地,图6为标题模板的验证方法的流程图,而根据本实施方式的正文模板验证方法及类别模板验证方法均与标题模板的验证方法相同,可从图6所示的流程类推得到。从而实现图2中的步骤S1090。

    首先在步骤S3010,获取最新网页的标题RSS文本信息。

    接着在步骤S3020,获取根据标题模板抽取的标题内容。

    接着在步骤S3030,计算在步骤S3010获取的标题RSS文本信息与在步骤S3020获取的标题内容的相似度s2。

    接着在步骤S3040,判断相似度s2是否大于预定的阈值sv,如果大于阈值sv(步骤S3040:“是”),则结束标题模板的验证。相反,如果不大于阈值(步骤S3040:“否”),则接着在步骤S3050,返回表示需要重新生成模板的信息。

    如上所述,在根据本实施方式的网页主题内容抽取方法中,因为利用RSS信息来生成网页模板,能够提高模板生成的准确率。

    而且,在根据本实施方式的网页主题内容抽取方法中,因为使用少量的网页与对应的RSS信息生成网页模板,并利用该网页模板对所有的目标网页进行主题内容的抽取,所以能够提高网页主题内容抽取的效率。而且,所抽取的主题内容可细化到标题、正文、类别等,抽取粒度细,能够更精确地抽取网页的主题内容。

    而且,在根据本实施方式的网页主题内容抽取方法中,因为只需要少量的网页(申报书中为“blog”)和RSS信息,所以能够在移动终端等有资源限制的设备上实施。

    而且,根据本实施方式的网页主题内容抽取方法,不仅能够获取有意义的文本信息,同时能够得到相关的图片、视频等多媒体文本,反过来说,能够过滤掉和文本无关的多媒体文件,比如广告图片等。

    而且,根据本实施方式的网页主题内容抽取方法,能够实时侦测模板的变化,如果模板发生变化,能够及时做出修正,因此具有自适应机制。

    另外,在不脱离由权利要求限定的本发明的精神和范围的情况下,还可以对本实施方式中的网页主题内容抽取方法进行形式和细节上的各种改变。

    例如,虽然在本实施方式的网页主题内容抽取方法中,在每一个目标网页的内容抽取之后均进行网页模板的验证,但本发明并不限于此,也可以在每抽取完预定个数的目标网页之后进行网页模板的验证。

    再例如,虽然在本实施方式中网页模板是指标题模板、内容模板、或类别模板,但本发明并不限于,网页模板也可以是作者(author)模板等其他模板。

    产业上的可利用性

    本发明的网页主题内容抽取方法适用于使用RSS信息的网页的主题内容的抽取。

       内容来自专利网重庆时时彩单双窍门 www.4mum.com.cn转载请标明出处

    关于本文
    本文标题:网页主题内容抽取方法.pdf
    链接地址://www.4mum.com.cn/p-5866049.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 组选280前后 打麻将老输怎么办 江苏快3开奖 山东十一选五遗漏 足球4场进球彩对阵 广西快3开奖结果查询今天 广西快三间隔 山东群英会开奖查询 3d图库 山西快乐10分开奖图 168大富豪棋牌游戏 nba比分最高 四川时时彩服务电话 注册送金币捕鱼平台 湖北快三走势图表走势图分布图 网上真人棋牌平台官网