• 浪潮孙丕恕从信息时代到智能时代 人工智能价值将爆发式释放 2019-12-21
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
    • / 15
    • 下载费用:30 金币  

    重庆时时彩中奖奥秘: 一种广告页面的预测方法和装置.pdf

    关 键 词:
    一种 广告 页面 预测 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201610788487.3

    申请日:

    2016.08.31

    公开号:

    CN106354836A

    公开日:

    2017.01.25

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20160831|||公开
    IPC分类号: G06F17/30; G06N3/08 主分类号: G06F17/30
    申请人: 南威软件股份有限公司
    发明人: 郭晋峰
    地址: 362000 福建省泉州市丰泽区丰海路南威大厦2号楼
    优先权:
    专利代理机构: 泉州市潭思专利代理事务所(普通合伙) 35221 代理人: 廖仲禧
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201610788487.3

    授权公告号:

    |||

    法律状态公告日:

    2017.03.01|||2017.01.25

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明公开了一种广告页面的预测方法和装置。本发明提供的广告页面的预测方法中,基于BP神经网络模型进行广告页面的预测,利用目前已知的正常页面和广告页面作为输入层变量,以便能提供尽可能多的样本数据,通过具有机器学习能力的BP神经网络模型实现广告页面的页面特征学习,这种具有机器学习能力的基于BP神经网络模型的广告页面的预测方法,具有预测效率高,预测结果准确的特点。

    权利要求书

    1.一种广告页面的预测方法,其特征在于,包括:
    获取页面数据集,所述页面数据集包括:多个正常页面和多个广告页面,所述正常页面
    包括:非广告页面;
    使用页面解析器从所述页面数据集中的每个页面对应的页面源代码中提取到页面特
    征,根据提取到的页面特征确定输入层神经元,确定待测页面为广告页面的预测值作为输
    出层神经元,所述输入层神经元的个数和提取到的页面特征的个数相同;
    根据所述输入层神经元和所述输出层神经元构造用于广告页面预测的误差反向传播
    BP神经网络模型,并根据预置的预测精度确定所述BP神经网络模型的期望误差、学习率和
    最大步长参数,所述BP神经网络模型包括:输入层神经元、隐藏层神经元和输出层神经元;
    对所述页面数据集中的每个页面分别进行归一化处理得到页面数据归一化样本,从所
    述页面数据归一化样本中选择包括页面特征的页面数据作为所述BP神经网络模型的输入
    层向量,将从所述页面数据归一化样本中选择出的页面数据对应于正常页面或广告页面作
    为所述BP神经网络模型的期望输出层向量;
    将所述输入层向量输入到所述BP神经网络模型中进行网络学习训练,得到所述BP神经
    网络模型输出的实际输出向量,计算所述实际输出向量和所述期望输出向量中处于相同位
    置的实际输出预测值和期望输出值之间的误差,并将所述误差作为误差反向传播算法的输
    入数据对所述BP神经网络模型进行循环往复训练,直至所述实际输出预测值与所述期望输
    出值之间的误差小于所述期望误差时,输出训练完成后的BP神经网络模型;
    使用所述页面解析器对待测页面的页面源代码进行解析,得到所述待测页面的网页特
    征,将所述待测页面的网页特征作为输入层向量输入到所述训练完成后的BP神经网络模
    型,通过所述训练完成后的BP神经网络模型输出对所述待测页面为广告页面的实际预测
    值。
    2.根据权利要求1所述的一种广告页面的预测方法,其特征在于,所述根据所述输入层
    神经元和所述输出层神经元构造用于广告页面预测的误差反向传播BP神经网络模型,包
    括:
    根据提取到的网页特征的个数确定BP神经网络模型的输入层神经元的个数;
    根据所述BP神经网络模型的输出层向量的维数确定所述BP神经网络模型的输出层神
    经元的个数为1;
    根据输入层神经元的个数和输出层神经元的个数确定所述BP神经网络模型的隐藏层
    神经元的个数。
    3.根据权利要求2所述的一种广告页面的预测方法,其特征在于,从页面源代码中提取
    到的页面特征的个数为8个,所述BP神经网络模型的输入层神经元的个数为8个;
    所述页面特征包括:页面是否包括标题、页面标题长度、页面中关键词个数、页面数据
    长度、页面中JS脚本长度、页面中图片数、页面中链接数。
    4.根据权利要求2所述的一种广告页面的预测方法,其特征在于,所述根据输入层神经
    元的个数和输出层神经元的个数确定所述BP神经网络模型的隐藏层神经元的个数,包括:
    通过如下计算公式确定所述隐藏层神经元的个数:
    <mrow> <msub> <mi>P</mi> <mn>1</mn> </msub> <mo>=</mo> <msqrt> <mrow> <msub> <mi>P</mi> <mn>2</mn> </msub> <mo>+</mo> <msub> <mi>P</mi> <mn>3</mn> </msub> <mo>+</mo> <mn>1</mn> </mrow> </msqrt> <mo>+</mo> <mi>n</mi> <mo>,</mo> </mrow>
    其中,P1是隐藏层神经元的个数,P2是输入层神经元的个数,P3为输出层神经元的个数,
    n是取值大于或等于1的调整参数。
    5.根据权利要求1所述的一种广告页面的预测方法,其特征在于,所述BP神经网络模型
    中神经元的激活函数包括:S型函数sigmod()。
    6.根据权利要求1所述的一种广告页面的预测方法,其特征在于,所述对所述页面数据
    集中的每个页面分别进行归一化处理得到页面数据归一化样本,包括:
    通过如下计算公式对所述页面数据集中的每个页面进行归一化处理,将每个页面的页
    面特征映射到从0至1的区间,该计算公式包括:
    <mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>x</mi> <mo>-</mo> <mi>min</mi> </mrow> <mrow> <mi>max</mi> <mo>-</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> </mfrac> <mo>,</mo> </mrow>
    其中,max表示网页特征的最大值,min表示网页特征的最小值,x表示网页特征的实际
    值,f(x)表示网页特征的归一化值。
    7.一种广告页面的预测装置,其特征在于,包括:
    样本页面获取???,用于获取页面数据集,所述页面数据集包括:多个正常页面和多个
    广告页面,所述正常页面包括:非广告页面;
    输入输出层构建???,用于使用页面解析器从所述页面数据集中的每个页面对应的页
    面源代码中提取到页面特征,根据提取到的页面特征确定输入层神经元,确定待测页面为
    广告页面的预测值作为输出层神经元,所述输入层神经元的个数和提取到的页面特征的个
    数相同;
    模型构造???,用于根据所述输入层神经元和所述输出层神经元构造用于广告页面预
    测的误差反向传播BP神经网络模型,并根据预置的预测精度确定所述BP神经网络模型的期
    望误差、学习率和最大步长参数,所述BP神经网络模型包括:输入层神经元、隐藏层神经元
    和输出层神经元;
    训练数据配置???,用于对所述页面数据集中的每个页面分别进行归一化处理得到页
    面数据归一化样本,从所述页面数据归一化样本中选择包括页面特征的页面数据作为所述
    BP神经网络模型的输入层向量,将从所述页面数据归一化样本中选择出的页面数据对应于
    正常页面或广告页面作为所述BP神经网络模型的期望输出层向量;
    模型训练???,用于将所述输入层向量输入到所述BP神经网络模型中进行网络学习训
    练,得到所述BP神经网络模型输出的实际输出向量,计算所述实际输出向量和所述期望输
    出向量中处于相同位置的实际输出预测值和期望输出值之间的误差,并将所述误差作为误
    差反向传播算法的输入数据对所述BP神经网络模型进行循环往复训练,直至所述实际输出
    预测值与所述期望输出值之间的误差小于所述期望误差时,输出训练完成后的BP神经网络
    模型;
    页面预测???,用于使用所述页面解析器对待测页面的页面源代码进行解析,得到所
    述待测页面的网页特征,将所述待测页面的网页特征作为输入层向量输入到所述训练完成
    后的BP神经网络模型,通过所述训练完成后的BP神经网络模型输出对所述待测页面为广告
    页面的实际预测值。
    8.根据权利要求7所述的一种广告页面的预测装置,其特征在于,所述模型构造???,
    具体用于根据提取到的网页特征的个数确定BP神经网络模型的输入层神经元的个数;根据
    所述BP神经网络模型的输出层向量的维数确定所述BP神经网络模型的输出层神经元的个
    数为1;根据输入层神经元的个数和输出层神经元的个数确定所述BP神经网络模型的隐藏
    层神经元的个数。
    9.根据权利要求8所述的一种广告页面的预测装置,其特征在于,从页面源代码中提取
    到的页面特征的个数为8个,所述BP神经网络模型的输入层神经元的个数为8个;
    所述页面特征包括:页面是否包括标题、页面标题长度、页面中关键词个数、页面数据
    长度、页面中JS脚本长度、页面中图片数、页面中链接数。
    10.根据权利要求7所述的一种广告页面的预测装置,其特征在于,所述训练数据配置
    ???,具体用于通过如下计算公式对所述页面数据集中的每个页面进行归一化处理,将每
    个页面的页面特征映射到从0至1的区间,该计算公式包括:
    <mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>x</mi> <mo>-</mo> <mi>min</mi> </mrow> <mrow> <mi>max</mi> <mo>-</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> </mfrac> <mo>,</mo> </mrow>
    其中,max表示网页特征的最大值,min表示网页特征的最小值,x表示网页特征的实际
    值,f(x)表示网页特征的归一化值。

    说明书

    一种广告页面的预测方法和装置

    技术领域

    本发明涉及计算机技术领域,具体涉及一种广告页面的预测方法和装置。

    背景技术

    近年来,随着互联网的发展,电子政务、无纸化办公的实现,单位上网数据审计、上
    网行为管控产品得到了广泛应用。这些产品中都面临着正确区分正常网页和网页上附带的
    大量广告页面的问题,具体的,广告页面可以包括:广告、弹窗、推送页面。广告页面的问题
    已经成为制约产品可用性的关键。现有技术中,通常使用企业防火墙来拦截可疑页面,通常
    建立域名数据库和统一资源定位符(Uniform Resource Locator,URL)数据库的方式来控
    制白名单页面的访问,但是这种方式无法满足对广告页面的有效识别,仍无法阻止广告页
    面对用户的干扰。

    发明内容

    本发明的目的在于提供一种广告页面的预测方法和装置,用于对网页是否为广告
    页面进行预测。

    为了达到上述目的,本发明采用这样的如下技术方案:

    一方面,本发明提供一种广告页面的预测方法,包括:

    获取页面数据集,所述页面数据集包括:多个正常页面和多个广告页面,所述正常
    页面包括:非广告页面;

    使用页面解析器从所述页面数据集中的每个页面对应的页面源代码中提取到页
    面特征,根据提取到的页面特征确定输入层神经元,确定待测页面为广告页面的预测值作
    为输出层神经元,所述输入层神经元的个数和提取到的页面特征的个数相同;

    根据所述输入层神经元和所述输出层神经元构造用于广告页面预测的误差反向
    传播BP神经网络模型,并根据预置的预测精度确定所述BP神经网络模型的期望误差、学习
    率和最大步长参数,所述BP神经网络模型包括:输入层神经元、隐藏层神经元和输出层神经
    元;

    对所述页面数据集中的每个页面分别进行归一化处理得到页面数据归一 化样
    本,从所述页面数据归一化样本中选择包括页面特征的页面数据作为所述BP神经网络模型
    的输入层向量,将从所述页面数据归一化样本中选择出的页面数据对应于正常页面或广告
    页面作为所述BP神经网络模型的期望输出层向量;

    将所述输入层向量输入到所述BP神经网络模型中进行网络学习训练,得到所述BP
    神经网络模型输出的实际输出向量,计算所述实际输出向量和所述期望输出向量中处于相
    同位置的实际输出预测值和期望输出值之间的误差,并将所述误差作为误差反向传播算法
    的输入数据对所述BP神经网络模型进行循环往复训练,直至所述实际输出预测值与所述期
    望输出值之间的误差小于所述期望误差时,输出训练完成后的BP神经网络模型;

    使用所述页面解析器对待测页面的页面源代码进行解析,得到所述待测页面的网
    页特征,将所述待测页面的网页特征作为输入层向量输入到所述训练完成后的BP神经网络
    模型,通过所述训练完成后的BP神经网络模型输出对所述待测页面为广告页面的实际预测
    值。

    另一方面,本发明提供一种广告页面的预测装置,包括:

    样本页面获取???,用于获取页面数据集,所述页面数据集包括:多个正常页面和
    多个广告页面,所述正常页面包括:非广告页面;

    输入输出层构建???,用于使用页面解析器从所述页面数据集中的每个页面对应
    的页面源代码中提取到页面特征,根据提取到的页面特征确定输入层神经元,确定待测页
    面为广告页面的预测值作为输出层神经元,所述输入层神经元的个数和提取到的页面特征
    的个数相同;

    模型构造???,用于根据所述输入层神经元和所述输出层神经元构造用于广告页
    面预测的误差反向传播BP神经网络模型,并根据预置的预测精度确定所述BP神经网络模型
    的期望误差、学习率和最大步长参数,所述BP神经网络模型包括:输入层神经元、隐藏层神
    经元和输出层神经元;

    训练数据配置???,用于对所述页面数据集中的每个页面分别进行归一化处理得
    到页面数据归一化样本,从所述页面数据归一化样本中选择包括页面特征的页面数据作为
    所述BP神经网络模型的输入层向量,将从所述页面数据归一化样本中选择出的页面数据对
    应于正常页面或广告页面作为所述BP 神经网络模型的期望输出层向量;

    模型训练???,用于将所述输入层向量输入到所述BP神经网络模型中进行网络学
    习训练,得到所述BP神经网络模型输出的实际输出向量,计算所述实际输出向量和所述期
    望输出向量中处于相同位置的实际输出预测值和期望输出值之间的误差,并将所述误差作
    为误差反向传播算法的输入数据对所述BP神经网络模型进行循环往复训练,直至所述实际
    输出预测值与所述期望输出值之间的误差小于所述期望误差时,输出训练完成后的BP神经
    网络模型;

    页面预测???,用于使用所述页面解析器对待测页面的页面源代码进行解析,得
    到所述待测页面的网页特征,将所述待测页面的网页特征作为输入层向量输入到所述训练
    完成后的BP神经网络模型,通过所述训练完成后的BP神经网络模型输出对所述待测页面为
    广告页面的实际预测值。

    采用上述技术方案后,本发明提供的技术方案将有如下优点:

    本发明的方法能够更准确出待测页面是否为广告页面,能够为用户过滤掉广告页
    面,从而使得用户的上网体验极速提高。由于利用了页面源代码提取到页面特征参数,使得
    广告页面的预测可以充分考虑这些页面特征对待测页面是否为广告页面的影响,因此预测
    结果更加准确。由于BP神经网络模型本身具有的自学习和自适应能力,使得预测的结果相
    对准确。本发明基于BP神经网络模型进行广告页面的预测,利用目前已知的正常页面和广
    告页面作为输入层变量,以便能提供尽可能多的样本数据,通过具有机器学习能力的BP神
    经网络模型实现广告页面的页面特征学习,这种具有机器学习能力的基于BP神经网络模型
    的广告页面的预测方法,具有预测效率高,预测结果准确的特点。

    附图说明

    图1为本发明实施例提供一种广告页面的预测方法的算法流程示意图;

    图2-a为本发明实施例提供的训练集的数据选择示意图;

    图2-b为本发明实施例提供的错误集的数据选择示意图;

    图2-c为本发明实施例提供的识别正确率的结果示意图;

    图3为本发明实施例提供的广告页面的预测装置的组成结构示意图。

    具体实施方式

    本发明实施例提供了一种广告页面的预测方法和装置,用于对网页是否为广告页
    面进行预测。

    为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明
    实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述
    的实施例仅仅是本发明一部分实施例,而非全部实施例?;诒痉⒚髦械氖凳├?,本领域的
    技术人员所获得的所有其他实施例,都属于本发明?;さ姆段?。

    本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的
    任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设
    备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固
    有的其它单元。

    以下分别进行详细说明。随着大数据处理技术的快速发展,机器学习、人工智能等
    技术得到了广泛应用。本发明实施例中,BP神经网络模型作为一种可以解决分类问题的机
    器学习算法在解决广告页面识别这个问题上,从而解决目前在广告页面识别上存在的极大
    难题。

    本发明实施例可以采用神经网络作为广告页面的预测模型,其中,神经网络具体
    为本发明实施例描述的BP神经网络。首先建立用于广告页面预测的BP神经网络模型,在初
    始化时对BP神经网络模型进行参数设置,采集计算过程中使用的训练数据和测试数据,通
    过网络学习训练得到BP神经网络模型,训练完成后的BP神经网络模型可以用于对网页是否
    为广告页面的预测,

    首先本发明实施例提供的一种广告页面的预测方法,具体可以包括如下步骤:

    步骤(1)、获取页面数据集,页面数据集包括:多个正常页面和多个广告页面,正常
    页面包括:非广告页面。

    其中,页面数据集是已知的页面集合,可以从网页历史数据库中提取出用于训练
    模型和测试模型的样本数据,其中,页面数据集中包括有大量的正常页面和大量的广告页
    面,其中,正常页面也称为正常网页,为非广告页面,正常网页指上网时浏览的主页面。广告
    页面指的是用户看到的主页面中嵌入 的一些“弹出窗口广告”、“页面上的浮动窗口”,还有
    页面中嵌入的如“百度推荐、淘宝推荐”等子页面,从在技术上,广告页面也作为一个独立的
    网页请求。

    步骤(2)、使用页面解析器从页面数据集中的每个页面对应的页面源代码中提取
    到页面特征,根据提取到的页面特征确定输入层神经元,确定待测页面为广告页面的预测
    值作为输出层神经元,输入层神经元的个数和提取到的页面特征的个数相同。

    在本发明实施例中,页面解析器也称为网页解析器,也可以称为“网页特征分析
    器”,它通过对网页代码内容的处理,获取如:页面总长度、页面中JS代码的长度、页面中包
    含图片数、页面中包含链接数等页面特征信息。需要说明的是,在实际应用中页面特征包括
    的维度和类型是多种多样的,具体可以结合应用场景来判断,例如页面是否包括标题
    (title)也可以是通过页面解析器从页面源代码中解析出的页面特征。

    在本发明的一些实施例中,该页面特征包括:页面是否包括标题、页面标题长度、
    页面中关键词个数、页面数据长度、页面中JS脚本长度、页面中图片数、页面中链接数。不限
    定的,页面特征可以只包括上述几种特征中的一些特征而不需要使用全部的特征,另外还
    可以结合场景来选择其它的特征。

    步骤(3)、根据输入层神经元和输出层神经元构造用于广告页面预测的误差反向
    传播BP神经网络模型,并根据预置的预测精度确定BP神经网络模型的期望误差、学习率和
    最大步长参数,BP神经网络模型包括:输入层神经元、隐藏层神经元和输出层神经元。

    在本发明实施例中,BP神经网络模型在初始化时,还可以预先配置连接权值和阈
    值,其中,初始连接权值可以为权重为[-1,1]之间的较小的接近于0的随机值,设置BP神经
    网络模型的学习速率、期望误差、最大步数参数,其他参数根据计算精度和速度的需要进行
    设置。学习率决定着权重阈值的调整量,学习率选取过小,则每次权值的调整量就小,网络
    收敛速度慢。学习率选取过大,则每次权值的调整量就大,在实际应用中,学习率可以设置
    为0.1。

    其中,BP神经网络模型的拓扑结构具体可以为输入层、隐藏层和输出层的前馈型
    神经网络结构,层与层之间采用全互连方式连接,同一层结点之间 无连接,隐藏层的神经
    元个数可以根据计算的需要确定,在实际应用中,用于计算待测页面为广告页面的预测值
    的BP神经网络模型具有自动网络学习训练能力,通过网络学习训练得出可用的BP神经网络
    模型来对页面进行预测。

    在本发明的一些实施例中,BP神经网络模型中神经元的激活函数包括:S型函数
    sigmod()。

    在本发明的一些实施例中,根据输入层神经元和输出层神经元构造用于广告页面
    预测的误差反向传播BP神经网络模型,包括:

    根据提取到的网页特征的个数确定BP神经网络模型的输入层神经元的个数;

    根据BP神经网络模型的输出层向量的维数确定BP神经网络模型的输出层神经元
    的个数为1;

    根据输入层神经元的个数和输出层神经元的个数确定BP神经网络模型的隐藏层
    神经元的个数。

    其中,从页面源代码中提取到的页面特征的个数为8个,BP神经网络模型的输入层
    神经元的个数为8个,如图1所示,该页面特征包括:页面是否包括标题、页面标题长度、页面
    中关键词个数、页面数据长度、页面中JS脚本长度、页面中图片数、页面中链接数。本发明实
    施例输出层神经元的个数为1,即通过BP神经网络模型对待测页面进行计算后输出待测页
    面是为广告页面的预测值,因此只需要输出层神经元为1个,其中预测值可以为0到1的一个
    值,若该值取值越大则为广告页面的可能性越大。

    在本发明的上述实施例中,根据输入层和输出层的神经元个数确定BP神经网络模
    型的隐藏层神经元个数,根据BP神经网络模型的应用经验,将隐藏神经元的数量设置为3至
    15个,隐藏神经元的具体数量需要根据实际的预测过程来确定,例如可以根据非线性函数
    的不同复杂程度和不同的预测精度,可以通过反复试验法和经验来确定中间神经元的数
    量,增加中间层神经元数量可以提高预测精度,但会使训练时间变长。

    在本发明的一些实施例中,具体的,根据输入层神经元的个数和输出层神经元的
    个数确定BP神经网络模型的隐藏层神经元的个数,包括:

    通过如下计算公式确定隐藏层神经元的个数:

    <mrow> <msub> <mi>P</mi> <mn>1</mn> </msub> <mo>=</mo> <msqrt> <mrow> <msub> <mi>P</mi> <mn>2</mn> </msub> <mo>+</mo> <msub> <mi>P</mi> <mn>3</mn> </msub> <mo>+</mo> <mn>1</mn> </mrow> </msqrt> <mo>+</mo> <mi>n</mi> <mo>,</mo> </mrow>

    其中,P1是隐藏层神经元的个数,P2是输入层神经元的个数,P3为输出层神经元的
    个数,n是取值大于或等于1的调整参数。

    在本发明的上述实施例中,n是取值大于或等于1的调整参数,例如n是取值为大于
    1且小于15的常数,以待测页面为广告页面的预测为示例,隐藏层神经元的个数可以取9。另
    外,隐藏层神经元的传递函数可以采用S型正切函数,根据输出元素个数确定输出神经元数
    量,这里输出元素有1个预测值,输出

    步骤(4)、对页面数据集中的每个页面分别进行归一化处理得到页面数据归一化
    样本,从页面数据归一化样本中选择包括页面特征的页面数据作为BP神经网络模型的输入
    层向量,将从页面数据归一化样本中选择出的页面数据对应于正常页面或广告页面作为BP
    神经网络模型的期望输出层向量。

    其中,归一化处理是将页面特征数据的值转换到从0至1的区间内,得到页面数据
    归一化样本,从页面数据归一化样本中选择包括页面特征的页面数据作为BP神经网络模型
    的输入层向量,将从页面数据归一化样本中选择出的页面数据对应于正常页面或广告页面
    作为BP神经网络模型的期望输出层向量。

    在本发明的一些实施例中,对页面数据集中的每个页面分别进行归一化处理得到
    页面数据归一化样本,包括:

    通过如下计算公式对页面数据集中的每个页面进行归一化处理,将每个页面的页
    面特征映射到从0至1的区间,该计算公式包括:

    <mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>x</mi> <mo>-</mo> <mi>min</mi> </mrow> <mrow> <mi>max</mi> <mo>-</mo> <mi>min</mi> </mrow> </mfrac> <mo>,</mo> </mrow>

    其中,max表示网页特征的最大值,min表示网页特征的最小值,x表示网页特征的
    实际值,f(x)表示网页特征的归一化值。

    步骤(5)、将输入层向量输入到BP神经网络模型中进行网络学习训练,得到BP神经
    网络模型输出的实际输出向量,计算实际输出向量和期望输出向量中处于相同位置的实际
    输出预测值和期望输出值之间的误差,并将误差作为误差反向传播算法的输入数据对BP神
    经网络模型进行循环往复训练,直至 实际输出预测值与期望输出值之间的误差小于期望
    误差时,输出训练完成后的BP神经网络模型。

    在本发明实施例中,BP神经网络模型以输入层变量为训练样本进行网络学习训
    练,网络学习训练由正向传播和反向传播两部分组成,其中,首先对正向传播进行说明,首
    先由输入层神经元传到隐含层神经元,经隐含层神经元处理后再传送到输出层,最后由输
    出层神经元处理并产生一个输出模式的值,作为本发明的输出变量集合。如果在输出层得
    不到期望的输出,则转入反向传播。接下来对反向传播进行说明,将误差信号沿原来的连接
    通路返回,更新连接权重及各层神经元的权重,从而减小误差信号。通过网络训练,使预测
    值和期望输出值的误差不断减小,直至小于期望误差。即可得到用于计算待测页面是否为
    广告页面的BP神经网络模型。

    步骤(6)、使用页面解析器对待测页面的页面源代码进行解析,得到待测页面的网
    页特征,将待测页面的网页特征作为输入层向量输入到训练完成后的BP神经网络模型,通
    过训练完成后的BP神经网络模型输出对待测页面为广告页面的实际预测值。

    本发明实施例中,利用BP神经网络模型良好的非线性逼近能力,实现对待测页面
    是否为广告页面的精确预测,应用本发明所述的方法能够提高广告页面的识别准确度。

    通过前述实施例对本发明的举例说明可知,本发明的方法能够更准确出待测页面
    是否为广告页面,能够为用户过滤掉广告页面,从而使得用户的上网体验极速提高。由于利
    用了页面源代码提取到页面特征参数,使得广告页面的预测可以充分考虑这些页面特征对
    待测页面是否为广告页面的影响,因此预测结果更加准确。由于BP神经网络模型本身具有
    的自学习和自适应能力,使得预测的结果相对准确。本发明基于BP神经网络模型进行广告
    页面的预测,利用目前已知的正常页面和广告页面作为输入层变量,以便能提供尽可能多
    的样本数据,通过具有机器学习能力的BP神经网络模型实现广告页面的页面特征学习,这
    种具有机器学习能力的基于BP神经网络模型的广告页面的预测方法,具有预测效率高,预
    测结果准确的特点。

    为便于更好的理解和实施本发明实施例的上述方案,下面举例相应的应 用场景
    来进行具体说明。广告页面都是独立的嵌入在正常网页中的独立子页面,而这些广告页面
    与正常网页相比,在网页正文的结构、内容、特征上有着非统一但相对明显的区别。本发明
    依据这个特点,使用大量广告页面和正常页面作为BP神经网络模型的训练数据集,进行神
    经网络训练,在应用环境中,对每一个网页使用BP神经网络进行广告页面、正常网页的识
    别。

    在模型训练阶段,首先获取大量的正常网页和广告页面,对每一个页面通过网页
    解析器进行特征获取,网页解析器,也可以成为网页特征分析器,它通过对网页代码内容的
    处理,获取如:页面总长度、页面中JS代码长度、页面中包含图片数、页面中包含链接数等页
    面特征信息,又如:网页title长度、title中包含的“推广、广告、推荐、合作、弹窗”等关键词
    的个数、网页数据长度、网页中js脚本长度、网页中图片数、网页中链接数等,将已知的页面
    作为单独的训练数据,并进行归一化处理归一化,也可以叫标准化,因为网页有不同特征,
    如网页文档的总字符长度、网页中是否包含某个关键词这些特征的取值,属于不同的参考
    系。在这里归一化可以实现不同的值统一到[0,1]之间的值,例如采用线性归一化函数f(x)
    =x-min/max–min,最终获得训练数据集。其次,BP神经网络模型的输入层神经元数由网页
    特征数确定,输出层神经元数为1个,隐藏层数和每层隐藏层神经元个数,可以采用多次学
    习,选择最优的方式来确定,因为神经网络中隐藏层中的神经元个数,对于不同的隐藏层
    数、神经元个数,确实会对网络最终的识别成功率有不小的影响??梢远喑⑹圆煌闹?,找
    出最终识别成功率最高的作为最终网络结构的参数。输出层、隐藏层神经元都附加包含一
    个权值为1的偏置值。向前传播时,激活函数使用S型函数sigmod()。反向传播时,先计算出
    输出层神经元的误差,再计算其他隐藏层神经元的误差,权值修正时使用值为0.1的学习
    率。网络开始训练前,初始化所有权重为[-1,1]之间的较小的接近于0的随机值,利用训练
    数据集,使用每一条训练数据对网络进行前向传播、反向传播训练。直到网络的错误输出率
    达到可以接受的范围。在应用阶段,对每一个要识别的页面进行特征获取、归一化处理,然
    后作为BP神经网络的输入进行计算,网络的输出确定此页面是否为广告页面。

    本发明实施例采用BP神经网络模型能够达到良好的广告页面识别效果, 为广告
    页面的识别提供了新途径;极大减轻开发人员维护“域名、URL”数据库的工作。整体上达到
    良好的识别效果。请参阅图2-a所示,是训练集网页数,包括正常网页1760个,广告页面1800
    个。正常网页指上网时浏览的主页面。广告页面指的是用户看到的主页面中嵌入的一些“弹
    出窗口广告”、“页面上的浮动窗口”,还有页面中嵌入的如“百度推荐、淘宝推荐”等子页面。
    图2-b所示是错误集,训练完毕后正常网页识别的错误数和广告页面识别的错误数,经过实
    测表明,本发明实施例训练完成后输出的BP神经网络模型对正常网页识别的错误数为32,
    对广告页面识别的错误数为46,如图2-c所示,是正常网页正确识别率和广告页面正确识别
    率,经过实测表明,本发明实施例训练完成后输出的BP神经网络模型对正常网页正确识别
    率为98.2%,本发明实施例训练完成后输出的BP神经网络模型对广告页面正确识别率为
    97.4%

    在本发明实施例中,首先要获取一组网页并获取每个网页的页面特征,形成训练
    集,然后建立BP神经网络模型,对该网络模型进行训练,达到一个可以接受的误差率。应用
    到产品中时,对页面获取特征,作为网络的输入,网络的输出就是识别结果?;贐P神经网
    络作为机器学习算法,针对网页源码特征进行模式识别,可有效识别广告页面、“弹窗”等非
    主动请求的垃圾页面数据。

    前述实施例介绍了本发明实施例提供的一种广告页面的识别方法,接下来介绍该
    广告页面的识别方法对应的广告页面的预测装置,如图3所示,广告页面的预测装置包括:

    样本页面获取???,用于获取页面数据集,所述页面数据集包括:多个正常页面和
    多个广告页面,所述正常页面包括:非广告页面;

    输入输出层构建???,用于使用页面解析器从所述页面数据集中的每个页面对应
    的页面源代码中提取到页面特征,根据提取到的页面特征确定输入层神经元,确定待测页
    面为广告页面的预测值作为输出层神经元,所述输入层神经元的个数和提取到的页面特征
    的个数相同;

    模型构造???,用于根据所述输入层神经元和所述输出层神经元构造用于广告页
    面预测的误差反向传播BP神经网络模型,并根据预置的预测精度确定所述BP神经网络模型
    的期望误差、学习率和最大步长参数,所述BP神经 网络模型包括:输入层神经元、隐藏层神
    经元和输出层神经元;

    训练数据配置???,用于对所述页面数据集中的每个页面分别进行归一化处理得
    到页面数据归一化样本,从所述页面数据归一化样本中选择包括页面特征的页面数据作为
    所述BP神经网络模型的输入层向量,将从所述页面数据归一化样本中选择出的页面数据对
    应于正常页面或广告页面作为所述BP神经网络模型的期望输出层向量;

    模型训练???,用于将所述输入层向量输入到所述BP神经网络模型中进行网络学
    习训练,得到所述BP神经网络模型输出的实际输出向量,计算所述实际输出向量和所述期
    望输出向量中处于相同位置的实际输出预测值和期望输出值之间的误差,并将所述误差作
    为误差反向传播算法的输入数据对所述BP神经网络模型进行循环往复训练,直至所述实际
    输出预测值与所述期望输出值之间的误差小于所述期望误差时,输出训练完成后的BP神经
    网络模型;

    页面预测???,用于使用所述页面解析器对待测页面的页面源代码进行解析,得
    到所述待测页面的网页特征,将所述待测页面的网页特征作为输入层向量输入到所述训练
    完成后的BP神经网络模型,通过所述训练完成后的BP神经网络模型输出对所述待测页面为
    广告页面的实际预测值。

    在本发明的一些实施例中,所述模型构造???,具体用于根据提取到的网页特征
    的个数确定BP神经网络模型的输入层神经元的个数;根据所述BP神经网络模型的输出层向
    量的维数确定所述BP神经网络模型的输出层神经元的个数为1;根据输入层神经元的个数
    和输出层神经元的个数确定所述BP神经网络模型的隐藏层神经元的个数。

    在本发明的一些实施例中,从页面源代码中提取到的页面特征的个数为8个,所述
    BP神经网络模型的输入层神经元的个数为8个;

    所述页面特征包括:页面是否包括标题、页面标题长度、页面中关键词个数、页面
    数据长度、页面中JS脚本长度、页面中图片数、页面中链接数。

    在本发明的一些实施例中,所述模型构造???,具体用于通过如下计算公式确定
    所述隐藏层神经元的个数:

    <mrow> <msub> <mi>P</mi> <mn>1</mn> </msub> <mo>=</mo> <msqrt> <mrow> <msub> <mi>P</mi> <mn>2</mn> </msub> <mo>+</mo> <msub> <mi>P</mi> <mn>3</mn> </msub> <mo>+</mo> <mn>1</mn> </mrow> </msqrt> <mo>+</mo> <mi>n</mi> <mo>,</mo> </mrow>

    其中,P1是隐藏层神经元的个数,P2是输入层神经元的个数,P3为输出 层神经元的
    个数,n是取值大于或等于1的调整参数。

    在本发明的一些实施例中,所述训练数据配置???,具体用于通过如下计算公式
    对所述页面数据集中的每个页面进行归一化处理,将每个页面的页面特征映射到从0至1的
    区间,该计算公式包括:

    <mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>x</mi> <mo>-</mo> <mi>min</mi> </mrow> <mrow> <mi>max</mi> <mo>-</mo> <mi>min</mi> </mrow> </mfrac> <mo>,</mo> </mrow>

    其中,max表示网页特征的最大值,min表示网页特征的最小值,x表示网页特征的
    实际值,f(x)表示网页特征的归一化值。

    通过前述实施例对本发明的举例说明可知,本发明的方法能够更准确出待测页面
    是否为广告页面,能够为用户过滤掉广告页面,从而使得用户的上网体验极速提高。由于利
    用了页面源代码提取到页面特征参数,使得广告页面的预测可以充分考虑这些页面特征对
    待测页面是否为广告页面的影响,因此预测结果更加准确。由于BP神经网络模型本身具有
    的自学习和自适应能力,使得预测的结果相对准确。本发明基于BP神经网络模型进行广告
    页面的预测,利用目前已知的正常页面和广告页面作为输入层变量,以便能提供尽可能多
    的样本数据,通过具有机器学习能力的BP神经网络模型实现广告页面的页面特征学习,这
    种具有机器学习能力的基于BP神经网络模型的广告页面的预测方法,具有预测效率高,预
    测结果准确的特点。

    另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离
    部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也
    可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上??梢愿菔?br />际的需要选择其中的部分或者全部??槔词迪直臼凳├桨傅哪康?。另外,本发明提供的
    装置实施例附图中,??橹涞牧庸叵当硎舅侵渚哂型ㄐ帕?,具体可以实现为一
    条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以
    理解并实施。

    通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借
    助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专
    用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以
    很容易地用相应的硬件来实现,而 且,用来实现同一功能的具体硬件结构也可以是多种多
    样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实
    现是更佳的实施方式?;谡庋睦斫?,本发明的技术方案本质上或者说对现有技术做出
    贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质
    中,如计算机的软盘、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储
    器(RAM,Random Access Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设
    备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

    综上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照上
    述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对上
    述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些
    修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

       内容来自专利网重庆时时彩单双窍门 www.4mum.com.cn转载请标明出处

    关于本文
    本文标题:一种广告页面的预测方法和装置.pdf
    链接地址://www.4mum.com.cn/p-6027245.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 浪潮孙丕恕从信息时代到智能时代 人工智能价值将爆发式释放 2019-12-21
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 宁夏十一选五开奖查询 快乐十分玩法技巧任三 北京pk10官网在线计划 大乐透预测最准十专家 棋牌游戏app下载 3d组选6中奖计算方法 乒乓球教学视频1--50集 原版澳门足球即时赔率 上证指数每日行情 重庆百变王牌投注 0807足球比分 老快3历史开奖360彩票 广西快乐十分走垫图非凡 黑龙江11选5秘籍 十一运夺金走势图开奖结果查询 福建麻将规则