• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 16
    • 下载费用:30 金币  

    重庆时时彩怎么读: 基于关键路径的违法网站识别系统及其方法.pdf

    关 键 词:
    基于 关键 路径 违法 网站 识别 系统 及其 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201611101755.6

    申请日:

    2016.12.05

    公开号:

    CN106776958A

    公开日:

    2017.05.31

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20161205|||公开
    IPC分类号: G06F17/30; G06F21/55(2013.01)I; G06K9/62 主分类号: G06F17/30
    申请人: 公安部第三研究所
    发明人: 凡友荣; 王永剑; 曲洋; 杨涛; 姜国庆; 彭如香
    地址: 200031 上海市徐汇区岳阳路76号
    优先权:
    专利代理机构: 上海智信专利代理有限公司 31002 代理人: 王洁;郑暄
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201611101755.6

    授权公告号:

    |||

    法律状态公告日:

    2017.06.23|||2017.05.31

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明涉及一种基于关键路径的违法网站识别系统及其方法,系统框架分为四层,包括用户层、应用服务层、技术支撑层和数据存储层。用户层给出系统主要账户,应用服务层给出系统主要功能???,技术支撑层包括系统开发过程中使用的相关工具,以及核心的算法程序,数据存储层给出系统中用到的数据。按功能详细划分,基于关键路径的违法网站识别系统的功能??榘ǎ菏菰ご?、网站相似度计算、网站聚类、违法网站关键路径提取和违法网站识别。该系统以URL本身特征作为研究着手点,开发基于Path的相似度计算程序、基于网站相似度和Fast??Unfolding聚类算法能够准确地计算网站间的相似度并获取有效的URL关键路径,最后,通过URL关键路径知识库则可发现未知网站中的违法网站。

    权利要求书

    1.一种基于关键路径的违法网站识别系统,包括用户层、应用服务层、技术支撑层和数
    据存储层,其特征在于,
    所述的用户层用以提供系统主要账户;
    所述的应用服务层用以提供系统主要功能???,供所述的用户层中的系统主要账户调
    用;
    所述的技术支撑层用以提供系统开发工具及核心的算法程序,供所述的应用服务层的
    系统主要功能??榈饔?;
    所述的数据存储层用以为所述的用户层、应用服务层和技术支撑层提供和存储数据。
    2.根据权利要求1所述的基于关键路径的违法网站识别系统,其特征在于,所述的系统
    主要账户包括数据预处理账户、算法程序管理账户、算法执行账户和系统管理账户,其中:
    所述的数据预处理账户用以实现该系统的数据处理程序的开发、数据处理程序的运行
    以及数据处理后该系统所获取数据的管理;
    所述的算法程序管理账户用以实现对该系统的算法的开发与维护,其中,所述的算法
    包括相似度算法、聚类算法、关键路径提取算法和违法网站识别算法;
    所述的算法执行账户用以实现按需调整算法参数、在Apache Spark平台运行算法以及
    存储和管理算法的运行结果;
    所述的系统管理账户用以实现对所述的系统中的账户、角色和权限资源信息的分配和
    维护以及数据库的备份。
    3.根据权利要求1所述的基于关键路径的违法网站识别系统,其特征在于,所述的系统
    主要功能??榘ㄊ菰ご砟??、网站相似度计算???、网站聚类???、违法网站关键路
    径提取??楹臀シㄍ臼侗鹉??,其中,
    所述的数据预处理??橛靡远云浠袢〉难盗吠镜腢RL进行预处理,获取Host和Path;
    所述的网站相似度计算??橛靡愿莞孟低郴袢〉难盗吠镜腢RL的Host和Path获取
    训练网站的Path相似度和Host相似度;
    所述的网站聚类??橛靡曰袢∫蛔钣畔嗨贫茹兄?;
    所述的违法网站关键路径提取??橛靡蕴崛∥シㄍ镜墓丶肪豆钩梢皇侗鹞シㄍ?br />站的关键路径知识库,该识别违法网站的关键路径知识库位于所述的数据存储层;
    所述的违法网站识别??橛靡越岷纤龅奈シㄍ竟丶肪吨犊馀卸洗侗鹜?br />是否为违法网站。
    4.一种基于权利要求1至3中任一项所述的系统实现基于关键路径的违法网站识别方
    法,其特征在于,所述的系统主要功能??榘ㄊ菰ご砟??、网站相似度计算???、网
    站聚类???、违法网站关键路径提取??楹臀シㄍ臼侗鹉??,所述方法包括以下步骤:
    (1)所述的违法网站识别系统分析训练网站,构建一违法网站识别系统关键路径知识
    库;
    (2)所述的违法网站识别系统根据从待识别网站中获取的数据、所述的违法网站识别
    系统关键路径知识库以及所述的违法网站识别??榕卸细么侗鹜臼欠裎シㄍ?。
    5.根据权利要求4所述的实现基于关键路径的违法网站识别方法,其特征在于,所述的
    步骤(1)的具体步骤为:
    (1.1)所述的违法网站识别系统通过所述的数据预处理??榛袢⊙盗吠綰RL的Host
    和Path;
    (1.2)所述的违法网站识别系统根据所述的步骤(1.1)中获取的训练网站URL的Host的
    数据、Path的数据和所述的网站相似度计算??榛袢⊙盗吠炯涞腍ost相似度和Path相似
    度;
    (1.3)所述的违法网站识别系统根据所述的步骤(1.2)中的Host相似度、Path相似度和
    所述的网站聚类??槿范ㄒ蛔钣畔嗨贫茹兄?;
    (1.4)所述的违法网站识别系统根据所述的步骤(1.2)中获取的Host相似度和Path相
    似度和所述的步骤(1.3)中获取的最优相似度阈值以及所述的违法网站关键路径获取训练
    网站的关键路径,并将训练网站的关键路径并入一违法网站识别系统关键路径知识库,该
    违法网站识别系统关键路径知识库存储于所述的数据存储层。
    6.根据权利要求5所述的实现基于关键路径的违法网站识别方法,其特征在于,所述的
    步骤(1.1)中的获取网站URL的Host和Path具体为:
    所述的违法网站识别系统获取训练网站的URL,并通过所述的数据预处理??樘崛⊙?br />练网站的URL的Host和Path,其中,所述的数据预处理??橥ü齋QL语句将其获取的待识别
    网站的URL切分为Host、Path和Query。
    7.根据权利要求5所述的实现基于关键路径的违法网站识别方法,其特征在于,所述的
    步骤(1.2)中的违法网站识别系统获取网站的相似度具体为:
    所述的违法网站识别系统通过所述的网站相似度计算??榛袢「猛镜腍ost相似度
    和Path相似度,其中,所述的违法网站识别系统通过一Host相似度计算??榛袢ost相似
    度,该违法网站识别系统通过一Path相似度计算??榛袢ath相似度。
    8.根据权利要求7所述的实现基于关键路径的违法网站识别方法,其特征在于,所述的
    违法网站识别系统通过其获取的Path计算??榛袢ath相似度具体为:
    所述的违法网站识别系统通过所述的网站相似度计算??榻浠袢〉难盗吠镜?br />Path按Path层级存储到所述的数据存储层,并比较训练网站处于同一层级的Path以获取相
    似度;
    所述的违法网站识别系统通过其获取的Host获取Host相似度具体为:
    所述的违法网站识别系统通过所述的网站相似度计算??榻浠袢〉降难盗吠镜?br />最大Path相似度作为训练网站的Host相似度。
    9.根据权利要求5所述的实现基于关键路径的违法网站识别方法,其特征在于,所述的
    步骤(1.3)中的违法网站识别系统选择相似度阈值的具体步骤为:
    (1.3.1)所述的违法网站识别系统根据其所获取的Path相似度和Host相似度确定一相
    似度阈值,并将其获取的Host相似度与该相似度阈值进行比较,高于该相似度阈值的即作
    为有效相似度,低于该相似度阈值即作为无效相似度;
    (1.3.2)所述的违法网站识别系统将其获取的具有有效相似度的训练网站通过所述的
    网站聚类??榻芯劾嘣怂?,聚类运算的算法为Fast Unfolding算法,且该违法网站识别
    系统判断聚类运算结果是否满足实际需要,如果满足实际需要,则该相似度阈值即为最优
    相似度阈值;否则修改该相似度阈值,并进入步骤(1.3.1)。
    10.根据权利要求5所述的实现基于关键路径的违法网站识别方法,其特征在于,所述
    的步骤(1.4)中的违法网站识别系统获取训练网站的关键路径具体为:
    所述的违法网站识别系统通过所述的违法网站关键路径提取??榻浠袢〉腍ost相
    似度高于最优相似度阈值的Host中包括的Path作为关键Path,并将其加入所述的违法网站
    识别系统关键路径知识库。
    11.根据权利要求5所述的实现基于关键路径的违法网站识别方法,其特征在于,所述
    的步骤(2)中的违法网站识别系统判断该待识别网站是否为违法网站,具体包括以下步骤:
    (2.1)所述的违法网站识别系统通过所述的数据预处理??樵ご砀么侗鹜镜氖?br />据以获取Path、Host和Query;
    (2.2)所述的违法网站识别系统通过所述的违法网站识别系统分析待识别网站的Path
    是否含有所述的违法网站识别系统关键路径知识库中包括的关键路径;如果待识别网站的
    Path含有所述的违法网站识别系统关键路径知识库中包括的关键路径,则继续步骤(2.3);
    否则继续步骤(2.4);
    (2.3)所述的违法网站识别系统判定该待识别网站为违法网站;
    (2.4)所述的违法网站识别系统判定该待识别网站并非违法网站。

    说明书

    基于关键路径的违法网站识别系统及其方法

    技术领域

    本发明涉及网站识别分类领域,尤其涉及违法网站识别技术领域,具体是指一种
    基于关键路径的违法网站识别系统及其方法。

    背景技术

    识别违法网站是网络安全领域的一项重要工作,其识别方法的准确性和时效性也
    有了更高的要求。目前,现有的网站聚类研究多从用户访问行为的角度出发,从Web日志中
    获取用户访问网站的数据,包括用户的访问路径、访问频率、访问时间以及访问爱好等,建
    立用户事务矩阵,进而对用户群体和网站进行聚类。然而,这种间接的网站聚类方法不够准
    确,不能实现违法网站的快速识别。在违法网站自动识别的专业领域,已有研究主要基于黑
    名单、静态检测和动态检测三类技术,但建立和维护黑名单的工作量大且成本高,静态检测
    多数通过网络爬虫获取网站静态数据,对未知违法网站检测不够及时,动态检测实施难度
    大,并且主要针对挂马类网站,能识别的网站类别有限。综上可见,目前通过网站相似度和
    网站关键路径识别违法网站的研究还不多,尤其是针对违法网站URL关键路径的研究还很
    少。

    发明内容

    为了克服上述现有技术中的问题,本发明提出了一种工作量小、能及时检测未知
    违法网站、实施难度小、能识别多种网站类别的基于关键路径的违法网站识别系统及其方
    法。

    本发明的基于关键路径的违法网站识别系统及其方法具体如下:

    该基于关键路径的违法网站识别系统,包括用户层、应用服务层、技术支撑层和数
    据存储层,其主要特点是,

    所述的用户层用以提供系统主要账户;

    所述的应用服务层用以提供系统主要功能???,供所述的用户层中的系统主要账
    户调用;

    所述的技术支撑层用以提供系统开发工具及核心的算法程序,供所述的应用服务
    层的系统主要功能??榈饔?;

    所述的数据存储层用以为所述的用户层、应用服务层和技术支撑层提供和存储数
    据。

    较佳地,所述的系统主要账户包括数据预处理账户、算法程序管理账户、算法执行
    账户和系统管理账户,其中:

    所述的数据预处理账户用以实现该系统的数据处理程序的开发、数据处理程序的
    运行以及数据处理后该系统所获取数据的管理;

    所述的算法程序管理账户用以实现对该系统的算法的开发与维护,其中,所述的
    算法包括相似度算法、聚类算法、关键路径提取算法和违法网站识别算法;

    所述的算法执行账户用以实现按需调整算法参数、在Apache Spark平台运行算法
    以及存储和管理算法的运行结果;

    所述的系统管理账户用以实现对所述的系统中的账户、角色和权限资源信息的分
    配和维护以及数据库的备份。

    较佳地,所述的系统主要功能??榘ㄊ菰ご砟??、网站相似度计算???、网
    站聚类???、违法网站关键路径提取??楹臀シㄍ臼侗鹉??,其中,

    所述的数据预处理??橛靡远云浠袢〉难盗吠镜腢RL进行预处理,获取Host和
    Path;

    所述的网站相似度计算??橛靡愿莞孟低郴袢〉难盗吠镜腢RL的Host和Path
    获取训练网站的Path相似度和Host相似度;

    所述的网站聚类??橛靡曰袢∫蛔钣畔嗨贫茹兄?;

    所述的违法网站关键路径提取??橛靡蕴崛∥シㄍ镜墓丶肪豆钩梢皇侗鹞?br />法网站的关键路径知识库,该识别违法网站的关键路径知识库位于所述的数据存储层;

    所述的违法网站识别??橛靡越岷纤龅奈シㄍ竟丶肪吨犊馀卸洗侗?br />网站是否为违法网站。

    该基于以上所述的系统实现基于关键路径的违法网站识别方法,其主要特点是,
    所述的方法包括以下步骤:

    (1)所述的违法网站识别系统分析训练网站,构建一违法网站识别系统关键路径
    知识库;

    (2)所述的违法网站识别系统根据从待识别网站中获取的数据、所述的违法网站
    识别系统关键路径知识库以及所述的违法网站识别??榕卸细么侗鹜臼欠裎シㄍ?br />站。

    较佳地,所述的步骤(1)的具体步骤为:

    (1.1)所述的违法网站识别系统通过所述的数据预处理??榛袢⊙盗吠綰RL的
    Host和Path;

    (1.2)所述的违法网站识别系统根据所述的步骤(1.1)中获取的训练网站URL的
    Host的数据、Path的数据和所述的网站相似度计算??榛袢⊙盗吠炯涞腍ost相似度和
    Path相似度;

    (1.3)所述的违法网站识别系统根据所述的步骤(1.2)中的Host相似度、Path相似
    度和所述的网站聚类??槿范ㄒ蛔钣畔嗨贫茹兄?;

    (1.4)所述的违法网站识别系统根据所述的步骤(1.2)中获取的Host相似度和
    Path相似度和所述的步骤(1.3)中获取的最优相似度阈值以及所述的违法网站关键路径获
    取训练网站的关键路径,并将训练网站的关键路径并入一违法网站识别系统关键路径知识
    库,该违法网站识别系统关键路径知识库存储于所述的数据存储层。

    更佳地,所述的步骤(1.1)中的获取网站URL的Host和Path具体为:

    所述的违法网站识别系统获取训练网站的URL,并通过所述的数据预处理??樘?br />取训练网站的URL的Host和Path,其中,所述的数据预处理??橥ü齋QL语句将其获取的待
    识别网站的URL切分为Host、Path和Query。

    更佳地,所述的步骤(1.2)中的违法网站识别系统获取网站的相似度具体为:

    所述的违法网站识别系统通过所述的网站相似度计算??榛袢「猛镜腍ost相
    似度和Path相似度,其中,所述的违法网站识别系统通过一Host相似度计算??榛袢ost
    相似度,该违法网站识别系统通过一Path相似度计算??榛袢ath相似度。

    尤佳地,所述的违法网站识别系统通过其获取的Path计算??榛袢ath相似度具
    体为:

    所述的违法网站识别系统通过所述的网站相似度计算??榻浠袢〉难盗吠?br />的Path按Path层级存储到所述的数据存储层,并比较训练网站处于同一层级的Path以获取
    相似度;

    所述的违法网站识别系统通过其获取的Host获取Host相似度具体为:

    所述的违法网站识别系统通过所述的网站相似度计算??榻浠袢〉降难盗吠?br />站的最大Path相似度作为训练网站的Host相似度。

    更佳地,所述的步骤(1.3)中的违法网站识别系统选择相似度阈值的具体步骤为:

    (1.3.1)所述的违法网站识别系统根据其所获取的Path相似度和Host相似度确定
    一相似度阈值,并将其获取的Host相似度与该相似度阈值进行比较,高于该相似度阈值的
    即作为有效相似度,低于该相似度阈值即作为无效相似度;

    (1.3.2)所述的违法网站识别系统将其获取的具有有效相似度的训练网站通过所
    述的网站聚类??榻芯劾嘣怂?,聚类运算的算法为Fast Unfolding算法,且该违法网站
    识别系统判断聚类运算结果是否满足实际需要,如果满足实际需要,则该相似度阈值即为
    最优相似度阈值;否则修改该相似度阈值,并进入步骤(1.3.1)。

    更佳地,所述的步骤(1.4)中的违法网站识别系统获取训练网站的关键路径具体
    为:

    所述的违法网站识别系统通过所述的违法网站关键路径提取??榻浠袢〉?br />Host相似度高于最优相似度阈值的Host中包括的Path作为关键Path,并将其加入所述的违
    法网站识别系统关键路径知识库。

    更佳地,所述的步骤(2)中的违法网站识别系统判断该待识别网站是否为违法网
    站具体步骤为:

    (2.1)所述的违法网站识别系统通过所述的数据预处理??樵ご砀么侗鹜?br />的数据以获取Path、Host和Query;

    (2.2)所述的违法网站识别系统通过所述的违法网站识别系统分析待识别网站的
    Path是否含有所述的违法网站识别系统关键路径知识库中包括的关键路径;如果待识别网
    站的Path含有所述的违法网站识别系统关键路径知识库中包括的关键路径,则继续步骤
    (2.3);否则继续步骤(2.4);

    (2.3)所述的违法网站识别系统判定该待识别网站为违法网站;

    (2.4)所述的违法网站识别系统判定该待识别网站并非违法网站。

    采用该种结构的基于关键路径的违法网站识别系统及其方法,由于其系统基于网
    站相似度算法,使用Path关键路径,并基于训练网站间的相似度进行网站聚类,通过发现使
    违法网站聚为一簇的关键URL,提取违法网站的URL关键路径,进而得到违法网站的关键路
    径知识库;通过网站关键路径的匹配技术,分析未知违法网站的Path并与所述的违法网站
    识别系统关键路径知识库中的关键Path进行比对,若该未知网站中的Path在所述的违法网
    站识别系统关键路径知识库中有对应的Path,则该未知网站被判定为违法网站,若该未知
    网站中的Path在所述的违法网站识别系统关键路径知识库中没有对应Path,则该未知网站
    被判定为非违法网站。采用此类方法,检测识别未知违法网站时工作量大大减少,且能够及
    时检测违法网站、并由于Path的多样性,该系统不仅能准确、快速地识别违法网站,而且能
    长期积累URL关键路径,建立违法网站的关键路径知识库,可为后续的违法网站研究提供可
    靠的基础,为网络安全管理工作提供可靠的技术支持。

    附图说明

    图1为本发明的基于关键路径的违法网站识别系统的系统框架图。

    图2为本发明的基于关键路径的违法网站识别系统的系统物理框架图。

    图3为本发明的基于关键路径的违法网站识别系统的系统功能??橥?。

    图4为本发明的基于关键路径的违法网站识别系统的数据预处理规则示意图。

    图5为本发明的基于关键路径的违法网站识别系统的Path相似度计算流程。

    图6为本发明的基于关键路径的违法网站识别系统的一种具体实施例中的方法流
    程图。

    图7为本发明的基于关键路径的违法网站识别系统的聚类效果示例图。

    具体实施方式

    为了更好的描述本发明的技术方案,下面给出具体实施例进行进一步说明。

    请参阅图1所示,该基于关键路径的违法网站识别系统,包括用户层、应用服务层、
    技术支撑层和数据存储层。,

    请参阅图2所示,所述的用户层用以提供系统主要账户,包括数据预处理账户、算
    法程序管理账户、算法执行账户和系统管理账户,其中:

    所述的数据预处理账户用以实现该系统的数据处理程序的开发、数据处理程序的
    运行以及数据处理后该系统所获取数据的管理所述的算法程序管理账户用以实现对该系
    统的算法的开发与维护,其中,所述的算法包括相似度算法、聚类算法、关键路径提取算法
    和违法网站识别算法;

    所述的数据预处理账户和所述的算法程序管理账户根据需求调用系统的各个功
    能???,设定程序执行的各个参数,运行的结果通过将接收端回传给本系统,并将参数传递
    至程序执行端;

    所述的算法执行账户用以实现按需调整算法参数、在Apache Spark平台运行算法
    以及存储和管理算法的运行结果,且所述的算法程序管理账户可查看系统运行的结果,并
    在必要时对算法进行修改和优化;

    所述的系统管理账户用以实现对所述的系统中的账户、角色和权限资源信息的分
    配和维护以及数据库的备份。

    所述的应用服务层用以提供系统主要功能???,供所述的用户层中的系统主要账
    户调用,包括数据预处理???、网站相似度计算???、网站聚类???、违法网站关键路径提
    取??楹臀シㄍ臼侗鹉??。

    所述的数据预处理??橛靡远云浠袢〉难盗吠镜腢RL进行预处理,获取Host和
    Path;

    所述的网站相似度计算??橛靡愿莞孟低郴袢〉难盗吠镜腢RL的Host和Path
    获取训练网站的Path相似度和Host相似度;

    所述的网站聚类??橛靡曰袢∫蛔钣畔嗨贫茹兄?;

    所述的违法网站关键路径提取??橛靡蕴崛∥シㄍ镜墓丶肪豆钩梢皇侗鹞?br />法网站的关键路径知识库,该识别违法网站的关键路径知识库位于所述的数据存储层;

    所述的违法网站识别??橛靡越岷纤龅奈シㄍ竟丶肪吨犊馀卸洗侗?br />网站是否为违法网站。

    所述的技术支撑层用以提供系统开发工具及核心的算法程序,供所述的应用服务
    层的系统主要功能??榈饔?;

    所述的数据存储层用以为所述的用户层、应用服务层和技术支撑层提供和存储数
    据。

    以上系统实现基于关键路径的违法网站识别方法包括以下步骤:

    (1)所述的违法网站识别系统分析训练网站,构建一违法网站识别系统关键路径
    知识库,其中,步骤(1)的具体步骤为:

    (1.1)所述的违法网站识别系统通过所述的数据预处理??榛袢⊙盗吠綰RL的
    Host和Path,其中,获取网站URL的Host和Path具体为:

    所述的违法网站识别系统获取训练网站的URL,并通过所述的数据预处理??樘?br />取训练网站的URL的Host和Path,其中,所述的数据预处理??橥ü齋QL语句将其获取的待
    识别网站的URL切分为Host、Path和Query;

    (1.2)所述的违法网站识别系统根据所述的步骤(1.1)中获取的训练网站URL的
    Host的数据、Path的数据和所述的网站相似度计算??榛袢⊙盗吠镜腍ost相似度和Path
    相似度,其中,违法网站识别系统获取训练网站的相似度具体为:

    所述的违法网站识别系统通过所述的网站相似度计算??榛袢「猛镜腍ost相
    似度和Path相似度,其中,所述的违法网站识别系统通过一Host相似度计算??榛袢ost
    相似度,通过所述的网站相似度计算??榻浠袢〉降难盗吠镜淖畲驪ath相似度作为训
    练网站的Host相似度;该违法网站识别系统通过一Path相似度计算??榛袢ath相似度,
    利用所述的网站相似度计算??榻浠袢〉难盗吠镜腜ath按Path层级存储到所述的数
    据存储层,并比较训练网站处于同一层级的Path以获取相似度;

    (1.3)所述的违法网站识别系统根据所述的步骤(1.2)中的Host相似度、Path相似
    度和所述的网站聚类??槿范ㄒ蛔钣畔嗨贫茹兄?,其中,违法网站识别系统选择相似度阈
    值的具体步骤为:

    (1.3.1)所述的违法网站识别系统根据其所获取的Path相似度和Host相似度确定
    一相似度阈值,并将其获取的Host相似度与该相似度阈值进行比较,高于该相似度阈值的
    即作为有效相似度,低于该相似度阈值即作为无效相似度;

    (1.3.2)所述的违法网站识别系统将其获取的具有有效相似度的训练网站通过所
    述的网站聚类??榻芯劾嘣怂?,聚类运算的算法为Fast Unfolding算法,且该违法网站
    识别系统判断聚类运算结果是否满足实际需要,如果满足实际需要,则该相似度阈值即为
    最优相似度阈值;否则修改该相似度阈值,并进入步骤(1.3.1);

    (1.4)所述的违法网站识别系统根据所述的步骤(1.2)中获取的Host相似度和
    Path相似度和所述的步骤(1.3)中获取的最优相似度阈值以及所述的违法网站关键路径获
    取训练网站的关键路径,并将训练网站的关键路径并入一违法网站识别系统关键路径知识
    库,该违法网站识别系统关键路径知识库存储于所述的数据存储层,具体为:

    所述的违法网站识别系统通过所述的违法网站关键路径提取??榻浠袢〉?br />Host相似度高于最优相似度阈值的Host中包括的Path作为关键Path,并将其加入所述的违
    法网站识别系统关键路径知识库;

    (2)所述的违法网站识别系统根据从待识别网站中获取的数据、所述的违法网站
    识别系统关键路径知识库以及所述的违法网站识别??榕卸ǜ么侗鹜臼欠裎シㄍ?br />站其中,所述的违法网站识别系统判断该网站是否为违法网站具体步骤为:

    (2.1)所述的违法网站识别系统通过所述的数据预处理??樵ご砀么侗鹜?br />的据以获取Path、Host和Query;

    (2.2)所述的违法网站识别系统通过所述的违法网站识别系统分析待识别网站的
    Path是否含有所述的违法网站识别系统关键路径知识库中包括的关键路径;如果待识别网
    站的Path含有所述的违法网站识别系统关键路径知识库中包括的关键路径,则继续步骤
    (2.3);否则继续步骤(2.4);

    (2.3)所述的违法网站识别系统判定该待识别网站为违法网站;

    (2.4)所述的违法网站识别系统判定该待识别网站并非违法网站。

    请参阅图3,按功能详细划分,基于关键路径的违法网站识别系统的功能??榘?br />括:数据预处理、网站相似度计算、网站聚类、违法网站关键路径提取、违法网站识别。其中
    网站相似度计算??橄阜治狿ath相似度计算和Host相似度计算两个子???。下面分别对这
    六个功能??榈墓ぷ髟斫邢晗附樯?。

    (1)数据预处理:使用SQL语句对数据进行预处理。请参阅图4,数据预处理将网站
    的URL切分为“Host”、“Path”、“Query”三个部分。

    (2)Path相似度计算:请参阅图5,每个网站包含多个不同的URL,即一个Host对应
    多个Path,Path代表用户访问网页的动作路径,同类网站具有类似的动作路径。Path相似度
    指计算不同URL的Path部分的相似度,Path部分按照层级划分,通过比较不同Path在同一层
    级的值来计算相似度。

    如“//www.sekongge1.com/attachment/js/foothf.js”,其中“//
    www.sekongge1.com”为Host,“attachment”称为路径Path的1级目录,“js”称为路径Path的
    2级目录,依此类推。

    (3)Host相似度计算:每个Host有多个Path,基于Path相似度计算???,已经得到
    了所有的Path相似度,取Path相似度中的最大值作为这两个Host间的相似度。两个Host之
    间的相似度取Path相似度的最大值,而不是所有Path相似度的总和或平均值,这在一定程
    度上能减弱每个Host路径数量不同这个问题带来的影响。并且,这种最长路径之间的匹配,
    能体现两个Host之间的最大相似程度。

    (4)网站聚类:基于上述网站间相似度计算的结果,确定相似度的阈值,即筛选出
    高于此阈值的相似度作为有效的相似度,然后再对网站进行聚类。若聚类效果不满足要求,
    则再次修改相似度阈值,重新进行聚类,如此循环,直到聚类效果符合要求。此过程可发现
    最优的相似度阈值,这是提取违法网站URL关键路径的重要基础。

    网站与网站之间的联系形成一个复杂的网络,在复杂网络中发现联系紧密的社
    区,即可将相似网站进行聚类。

    在一种具体的实施例中,可选择Fast Unfolding这种社区发现算法进行聚类。
    Fast Unfolding算法是一种基于??樽畲蠡?Modularity Optimization)的启发式方法,
    根据Modularity值的大小评估社区发现的效果。通过使Modularity值最大化,得到最优的
    社区发现策略,从而达到最优的网站聚类效果。

    在一种具体的实施例中,可使用人工标注过的网站进行聚类运算,即每个网站的
    网站类型是已知的,因此聚类运算后可通过人工核对来评价聚类的实际效果。

    (5)违法网站URL关键路径提?。涸谖シㄍ居行Ь劾嗟幕∩?,研究使得违法网
    站聚为一簇的关键因素,即可抽取这些违法网站的关键路径,并入违法网站识别系统关键
    路径知识库。根据网站相似度计算模型,选取最大的Path相似度作为网站间的Host相似度,
    当此聚类有效时,说明这些相似度对应的Path就是使得违法网站聚为一簇的关键因素。

    (6)违法网站识别:基于违法网站识别系统关键路径知识库,通过代码实现,可检
    测未知网站的Path是否含有违法网站识别系统关键路径知识库中的关键路径,从而判断该
    网站是否是违法网站。

    在一个具体实施例中,基于关键路径的违法网站识别系统以网站本身的特征作为
    研究的着手点,开发基于Path相似度计算程序,能够准确地计算网站间的相似度,基于网站
    相似度和Fast Unfolding聚类算法得到有效的关键路径,最后,根据违法网站识别系统关
    键路径知识库,只需分析得待识别网站的Path、并对该待识别网站的Path与所述的违法网
    站识别系统关键路径知识库中的关键Path进行快速匹配,即可发现未知网站中的违法网
    站。

    请参阅图6,本系统的方法主要包括两个步骤:

    (1)数据预处理,具体指从真实的网络环境中抽取数据,通过数据预处理,提取网
    站URL的Host和Path部分。以人工标注过的违法网站为训练集,抽取这些违法网站的Host和
    Path数据。

    (2)相似度计算,是基于本系统中的相似度计算模型,计算违法网站的Path相似度
    和Host相似度。

    (3)网站聚类,是基于违法网站的Host相似度,使用Fast Unfolding算法进行网站
    聚类,通过评估聚类效果,选择使聚类效果达到最优相似度阈值。

    (4)抽取违法网站的关键路径,基于网站聚类中确定的最优相似度阈值,确定从
    URL路径中抽取关键路径的层级数,从而提取违法网站的关键路径,并入到违法网站关键路
    径知识库中。

    (5)识别违法网站是根据积累的违法网站关键路径知识库,检测待识别网站的
    Path部分是否包含这些关键路径,以此判断是否是违法网站。

    在一个具体实施例中,以3万个赌博网站为样本,通过本系统进行计算,3分钟内计
    算得到了1170个赌博网站的关键路径,根据这些网站的关键路径匹配到了22066条访问赌
    博网站的记录,准确率为98%。

    在一个具体实施例中,Host间相似度计算示如下表所示,Hosta和Hostb之间的相似
    度为30。



    以10万个URL为计算实例(该数据为真实网络环境中获取的数据)。这10万个URL是
    人工进行标注之后的数据,网站类型是已知的。将数据导入到本系统中,进行预处理和计
    算,部分相似度计算结果下表所示。

    Host1
    Host2
    相似度
    0002.am
    ljw027.com
    2
    0002.am
    m.309111.com
    2
    0002.am
    m.5448ii.com
    2
    0002.am
    www.22hh163.com
    6
    0002.am
    www.7111x.com
    6
    0002.am
    www.54bwin.com
    6
    0002.am
    444ylg.com
    6

    请参阅图7,基于网站相似度计算结果进行网站聚类,违法网站主要分为赌博、色
    情、涉恐三大类。

    请参阅下表,本系统的基于关键路径的违法网站识别系统及其方法对待识别网站
    进行分析,可得到各类网站的关键路径,以赌博网站为例。

    关键路径
    /app/member/account
    /app/member/add_reg_mem.php
    /app/member/check_ip_enable.php
    /app/member/check_login_domain.php
    /app/member/check_user.php
    /app/member/FT_browse

    根据得到的关键路径知识库,在未知网站库中进行匹配,以赌博网站的关键路径
    识别到了22066条访问赌博网站的记录,准确率为98%。

    采用该种结构的基于关键路径的违法网站识别系统及其方法,由于其系统基于网
    站相似度算法,使用Path关键路径,并基于训练网站间的相似度进行网站聚类,通过发现使
    违法网站聚为一簇的关键URL,提取违法网站的URL关键路径,进而得到违法网站的关键路
    径知识库;通过网站关键路径的匹配技术,分析未知违法网站的Path并与所述的违法网站
    识别系统关键路径知识库中的关键Path进行比对,若该未知网站中的Path在所述的违法网
    站识别系统关键路径知识库中有对应的Path,则该未知网站被判定为违法网站,若该未知
    网站中的Path在所述的违法网站识别系统关键路径知识库中没有对应Path,则该未知网站
    被判定为非违法网站。采用此类方法,检测识别未知违法网站时工作量大大减少,且能够及
    时检测违法网站、并由于Path的多样性,该系统不仅能准确、快速地识别违法网站,而且能
    长期积累URL关键路径,建立违法网站的关键路径知识库,可为后续的违法网站研究提供可
    靠的基础,为网络安全管理工作提供可靠的技术支持。

    在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出
    各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的
    而非限制性的。

    关于本文
    本文标题:基于关键路径的违法网站识别系统及其方法.pdf
    链接地址://www.4mum.com.cn/p-6021140.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 北京pk10历史开奖 重庆时时精准全天计划 彩神幸运飞艇冠军5码app 云南时时近100期走势图 七乐彩结果彩票 七乐彩免费缩水软件 香港马开奖免费资料 北京pk赛车龙虎压法 彩无敌计划 重庆时时预测软件 江苏时时走势图 北京pk10高手杀号法 彩票大赢家软件 彩名堂免费计划软件下载2.0.6 破解游戏黑客联系方式 我在澳门赌大小方法