• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 19
    • 下载费用:30 金币  

    重庆时时彩宝宝: 一种移动终端及网络爬虫的实现方法.pdf

    关 键 词:
    一种 移动 终端 网络 爬虫 实现 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201611092280.9

    申请日:

    2016.11.30

    公开号:

    CN106776934A

    公开日:

    2017.05.31

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20161130|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 努比亚技术有限公司
    发明人: 张琪; 郭凤阁; 张淑燕
    地址: 518000 广东省深圳市南山区高新区北环大道9018号大族创新大厦A区6-8层、10-11层、B区6层、C区6-10层
    优先权:
    专利代理机构: 北京派特恩知识产权代理有限公司 11270 代理人: 张颖玲;王花丽
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201611092280.9

    授权公告号:

    |||

    法律状态公告日:

    2017.06.23|||2017.05.31

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明实施例公开了一种移动终端及网络爬虫的实现方法,所述移动终端包括:确定单元,用于根据预先确定的种子节点序列确定种子节点序列对应的平衡树;抓取单元,用于根据所述平衡树对所述种子节点序列中的全部种子节点以及全部种子节点生成的所有节点进行抓取。

    权利要求书

    1.一种移动终端,其特征在于,所述移动终端包括:确定单元和抓取单元;
    所述确定单元,用于根据预先确定的种子节点序列确定种子节点序列对应的平衡树;
    所述抓取单元,用于根据所述平衡树对所述种子节点序列中的全部种子节点以及全部
    种子节点生成的所有节点进行抓取。
    2.根据权利要求1所述的移动终端,其特征在于,所述移动终端还包括:转化单元和存
    储单元;
    所述转化单元,用于将所述平衡树转化为二叉树;
    所述存储单元,用于将二叉树保存在本地文件中。
    3.根据权利要求1所述的移动终端,其特征在于,所述确定单元包括:选择子单元和添
    加子单元;
    所述选择子单元,用于当所述种子节点序列不为空时,在所述种子节点序列中选择一
    个种子节点作为当前种子节点;
    所述添加子单元,用于将所述当前种子节点生成的所有节点添加到所述平衡树中。
    4.根据权利要求3所述的移动终端,其特征在于,所述添加子单元,具体用于将所述当
    前种子节点作为父节点,当所述父节点指向的子节点不为空时,在全部子节点中选择一个
    子节点作为当前子节点;判断所述当前子节点是否在所述平衡树中;当所述当前子节点不
    在所述平衡树中时,将所述当前子节点添加到所述平衡树中,将所述当前子节点作为所述
    当前父节点,返回执行上述操作。
    5.根据权利要求4所述的移动终端,其特征在于,所述添加子单元,还用于当所述当前
    子节点不在所述平衡树中时,将所述当前子节点添加到所述种子节点序列对应的有向有环
    图中;当所述当前子节点在所述平衡树中时,将所述当前子节点的碰撞次数加1,并将所述
    当前子节点添加到所述种子节点序列对应的有向有环图中。
    6.一种网络爬虫的实现方法,其特征在于,所述方法包括:
    根据预先确定的种子节点序列确定种子节点序列对应的平衡树;
    根据所述平衡树对所述种子节点序列中的全部种子节点以及全部种子节点生成的所
    有节点进行抓取。
    7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
    将所述平衡树转化为二叉树;
    将二叉树保存在本地文件中。
    8.根据权利要求6所述的方法,其特征在于,所述根据预先确定的种子节点序列确定种
    子节点序列对应的平衡树,包括:
    当所述种子节点序列不为空时,在所述种子节点序列中选择一个种子节点作为当前种
    子节点;
    将所述当前种子节点生成的所有节点添加到所述平衡树中。
    9.根据权利要求8所述的方法,其特征在于,所述将所述当前种子节点生成的所有节点
    添加到所述平衡树中,包括:
    将所述当前种子节点作为父节点,当所述父节点指向的子节点不为空时,在全部子节
    点中选择一个子节点作为当前子节点;
    判断所述当前子节点是否在所述平衡树中;
    当所述当前子节点不在所述平衡树中时,将所述当前子节点添加到所述平衡树中,将
    所述当前子节点作为所述当前父节点,返回执行上述操作。
    10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
    当所述当前子节点不在所述平衡树中时,将所述当前子节点添加到所述种子节点序列
    对应的有向有环图中;
    当所述当前子节点在所述平衡树中时,将所述当前子节点的碰撞次数加1,并将所述当
    前子节点添加到所述种子节点序列对应的有向有环图中。

    说明书

    一种移动终端及网络爬虫的实现方法

    技术领域

    本发明涉及计算机网络技术,尤其涉及一种移动终端及网络爬虫的实现方法。

    背景技术

    随着互联网信息爆炸式的增长,搜索引擎扮演着越来越重要的角色。搜索引擎技
    术中,网络爬虫是重要的组成部分。网络爬虫可以按照一定的规则,自动地抓取页面信息。
    网络爬虫工作的基本步骤包括:将待抓取的URL(Uniform Resource Locator,统一资源定
    位符)放入待抓取队列;从待抓取队列中取出一个URL;从所述URL指向的网站上抓取相关页
    面信息;将抓取到的页面信息保存至页面库中;将已经抓取完的URL放入已抓取URL队列。在
    抓取网页信息的过程中,根据网页的抓取策略,不断从当前页面上抽取新的URL放入队列,
    直到满足某种停止条件。然后将抓取到的网页信息存储在搜索引擎的服务器中,从而可以
    加快用户的搜索速度。

    网络爬虫在进行信息抓取的时候,需要根据所要获得的信息定制配置文件。配置
    文件中包含所要爬取信息的入口链接,划定所要爬取的信息所在区域,表明所要爬取的信
    息如何进行翻页扩展,如何从网页中准确的获取具体的每一项信息等等。也就是说,配置文
    件定义了网络爬虫进行抓取的流程,以及所要获取的结果。

    在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:

    在现有网络爬虫的实现方法中,采用边爬边下载内容的方式进行抓取,不支持多
    人协同爬取,执行效率低下。

    发明内容

    本发明的主要目的在于提供一种移动终端及网络爬虫的实现方法,可以支持多人
    同时爬取,能够提高执行效率。

    为达到上述目的,本发明的技术方案是这样实现的:

    本发明实施例提供了一种移动终端,所述移动终端包括:确定单元和抓取单元;

    所述确定单元,用于根据预先确定的种子节点序列确定种子节点序列对应的平衡
    树;

    所述抓取单元,用于根据所述平衡树对所述种子节点序列中的全部种子节点以及
    全部种子节点生成的所有节点进行抓取。

    在上述实施例中,所述移动终端还包括:转化单元和存储单元;

    所述转化单元,用于将所述平衡树转化为二叉树;

    所述存储单元,用于将二叉树保存在本地文件中。

    在上述实施例中,所述确定单元包括:选择子单元和添加子单元;

    所述选择子单元,用于当所述种子节点序列不为空时,在所述种子节点序列中选
    择一个种子节点作为当前种子节点;

    所述添加子单元,用于将所述当前种子节点生成的所有节点添加到所述平衡树
    中。

    在上述实施例中,所述添加子单元,具体用于将所述当前种子节点作为父节点,当
    所述父节点指向的子节点不为空时,在全部子节点中选择一个子节点作为当前子节点;判
    断所述当前子节点是否在所述平衡树中;当所述当前子节点不在所述平衡树中时,将所述
    当前子节点添加到所述平衡树中,将所述当前子节点作为所述当前父节点,返回执行上述
    操作。

    在上述实施例中,所述添加子单元,还用于当所述当前子节点不在所述平衡树中
    时,将所述当前子节点添加到所述种子节点序列对应的有向有环图中;当所述当前子节点
    在所述平衡树中时,将所述当前子节点的碰撞次数加1,并将所述当前子节点添加到所述种
    子节点序列对应的有向有环图中。

    本发明实施例还提供了一种网络爬虫的实现方法,所述方法包括:

    根据预先确定的种子节点序列确定种子节点序列对应的平衡树;

    根据所述平衡树对所述种子节点序列中的全部种子节点以及全部种子节点生成
    的所有节点进行抓取。

    在上述实施例中,所述方法还包括:

    将所述平衡树转化为二叉树;

    将二叉树保存在本地文件中。

    在上述实施例中,所述根据预先确定的种子节点序列确定种子节点序列对应的平
    衡树,包括:

    当所述种子节点序列不为空时,在所述种子节点序列中选择一个种子节点作为当
    前种子节点;

    将所述当前种子节点生成的所有节点添加到所述平衡树中。

    在上述实施例中,所述将所述当前种子节点生成的所有节点添加到所述平衡树
    中,包括:

    将所述当前种子节点作为父节点,当所述父节点指向的子节点不为空时,在全部
    子节点中选择一个子节点作为当前子节点;

    判断所述当前子节点是否在所述平衡树中;

    当所述当前子节点不在所述平衡树中时,将所述当前子节点添加到所述平衡树
    中,将所述当前子节点作为所述当前父节点,返回执行上述操作。

    在上述实施例中,所述方法还包括:

    当所述当前子节点不在所述平衡树中时,将所述当前子节点添加到所述种子节点
    序列对应的有向有环图中;

    当所述当前子节点在所述平衡树中时,将所述当前子节点的碰撞次数加1,并将所
    述当前子节点添加到所述种子节点序列对应的有向有环图中。

    本发明实施例提供的移动终端及网络爬虫的实现方法,先根据预先确定的种子节
    点序列确定种子节点序列对应的平衡树;然后根据平衡树对种子节点序列中的全部种子节
    点以及全部种子节点生成的所有节点进行抓取。而在现有技术中,大多采用有向有环图,使
    用深度或者广度或者两者共用的方式进行抓取,因此,和现有技术相比,本发明实施例提供
    的移动终端及网络爬虫的实现方法,可以支持多人同时爬取,能够提高执行效率;并且,本
    发明实施例的技术方案实现简单方便、便于普及,适用范围更广。

    附图说明

    图1为本发明实施例提供的一种移动终端的硬件结构示意图;

    图2为本发明实施例提供的移动终端能够操作的通信系统结构示意图;

    图3为本发明实施例一提供的移动终端的组成结构示意图;

    图4为本发明实施例二提供的移动终端的组成结构示意图;

    图5为本发明实施例中网络爬虫的实现方法的实现流程示意图;

    图6为本发明实施例中确定种子节点序列对应的平衡树的实现方法流程示意图;

    图7为本发明实施例中将当前种子节点生成的所有节点添加到平衡树中的实现方
    法流程示意图。

    具体实施方式

    下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完
    整地描述。

    应当理解,此处所描述的具体实施例仅仅用以解释本发明的技术方案,并不用于
    限定本发明的?;し段?。

    现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中,使用
    用于表示元件的诸如“??椤?、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身
    并没有特定的意义。因此,“??椤庇搿安考笨梢曰旌系厥褂?。

    移动终端可以以各种形式来实施。例如,本发明中描述的终端可以包括诸如移动
    电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)、便携
    式多媒体播放器(PMP)、导航装置等的移动终端。

    图1为实现本发明各个实施例的移动终端100的硬件结构示意,如图1所示,移动终
    端100可以包括:无线通信单元110、用户输入单元120、感测单元130、输出单元140、存储器
    150、接口单元160、控制器170和电源单元180等。图1示出了具有各种组件的移动终端100,
    但是应理解的是,并不要求实施所有示出的组件??梢蕴娲厥凳└嗷蚋俚淖榧?。将在
    下面详细描述移动终端100的元件。

    无线通信单元110通常包括一个或多个组件,其允许移动终端100与无线通信系统
    或网络之间的无线电通信。例如,无线通信单元110可以包括:移动通信???11、无线互联
    网???12和短程通信???13中的至少一个。

    移动通信???11将无线电信号发送到基站(例如,接入点、节点B等)、外部终端以
    及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话
    信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。

    无线互联网???12支持移动终端100的无线互联网接入。无线互联网???12可
    以内部或外部地耦接到终端。无线互联网???12所涉及的无线互联网接入技术可以包括
    无线局域网(WLAN)、无线相容性认证(Wi-Fi)、无线宽带(Wibro)、全球微波互联接入
    (Wimax)、高速下行链路分组接入(HSDPA)等。

    短程通信???13是用于支持短程通信的???。短程通信技术的一些示例包括蓝
    牙TM、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、紫蜂TM等。

    用户输入单元120可以根据用户输入的命令生成键输入数据以控制移动终端100
    的各种操作。用户输入单元120允许用户输入各种类型的信息,并且可以包括键盘、锅仔片、
    触摸板(例如,检测由于被接触而导致的电阻、压力、电容等的变化的触敏组件)、滚轮、摇杆
    等。特别地,当触摸板以层的形式叠加在显示单元141上时,可以形成触摸屏。

    感测单元130检测移动终端100的当前状态,(例如,移动终端100的打开或关闭状
    态)、移动终端100的位置、用户对于移动终端100的接触(即,触摸输入)的有无、移动终端
    100的取向、移动终端100的加速或减速移动和方向等,并且生成用于控制移动终端100的操
    作的命令或信号。例如,当移动终端100实施为滑动型移动电话时,感测单元130可以感测该
    滑动型电话是打开还是关闭。另外,感测单元130能够检测电源单元180是否提供电力或者
    接口单元160是否与外部装置耦接。

    接口单元160用作至少一个外部装置与移动终端100连接可以通过的接口。例如,
    外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无
    线数据端口、存储卡端口(典型示例是通用串行总线USB端口)、用于连接具有识别??榈淖?br />置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等。

    接口单元160可以用于接收来自外部装置的输入(例如,数据信息、电力等)并且将
    接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外
    部装置之间传输数据。

    另外,当移动终端100与外部底座连接时,接口单元160可以用作允许通过其将电
    力从底座提供到移动终端100的路径或者可以用作允许从底座输入的各种命令信号通过其
    传输到移动终端100的路径。从底座输入的各种命令信号或电力可以用作用于识别移动终
    端100是否准确地安装在底座上的信号。

    输出单元140被构造为以视觉、音频和/或触觉方式提供输出信号(例如,音频信
    号、视频信号、警报信号、振动信号等)。输出单元140可以包括显示单元141和音频输出???br />142等。

    显示单元141可以显示在移动终端100中处理的信息。例如,当移动终端100处于电
    话通话模式时,显示单元141可以显示与通话或其它通信(例如,文本消息收发、多媒体文件
    下载等)相关的用户界面(UI)或图形用户界面(GUI)。当移动终端100处于视频通话模式或
    者图像捕获模式时,显示单元141可以显示捕获的图像和/或接收的图像、示出视频或图像
    以及相关功能的UI或GUI等。

    同时,当显示单元141和触摸板以层的形式彼此叠加以形成触摸屏时,显示单元
    141可以用作输入装置和输出装置。显示单元141可以包括液晶显示器(LCD)、薄膜晶体管
    LCD(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维(3D)显示器等中的至少一
    种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看,这可以称为透明显
    示器,典型的透明显示器可以例如为TOLED(透明有机发光二极管)显示器等。根据特定想要
    的实施方式,移动终端100可以包括两个或更多显示单元(或其它显示装置),例如,移动终
    端100可以包括外部显示单元(未示出)和内部显示单元(未示出)。触摸屏可用于检测触摸
    输入压力以及触摸输入位置和触摸输入面积。

    音频输出???42可以在移动终端100处于呼叫信号接收模式、通话模式、记录模
    式、语音识别模式、广播接收模式等模式下时,将无线通信单元110接收的或者在存储器150
    中存储的音频数据转换音频信号并且输出为声音。而且,音频输出???42可以提供与移动
    终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等)。音
    频输出???42可以包括扬声器、蜂鸣器等。

    存储器150可以存储由控制器170执行的处理和控制操作的软件程序等,或者可以
    暂时地存储已经输出或将要输出的数据(例如,电话簿、消息、静态图像、视频等)。而且,存
    储器150可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。

    存储器150可以包括至少一种类型的存储介质,所述存储介质包括闪存、硬盘、多
    媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器
    (SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器
    (PROM)、磁性存储器、磁盘、光盘等。而且,移动终端100可以与通过网络连接执行存储器150
    的存储功能的网络存储装置协作。

    控制器170通??刂埔贫斩?00的总体操作。例如,控制器170执行与语音通话、
    数据通信、视频通话等相关的控制和处理。另外,控制器170可以包括用于再现或回放多媒
    体数据的多媒体???71,多媒体???71可以构造在控制器170内,或者可以构造为与控制
    器170分离??刂破?70可以执行模式识别处理,以将在触摸屏上执行的手写输入或者图片
    绘制输入识别为字符或图像。

    电源单元180在控制器170的控制下接收外部电力或内部电力并且提供操作各元
    件和组件所需的适当的电力。

    这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算
    机可读介质来实施。对于硬件实施,这里描述的实施方式可以通过使用特定用途集成电路
    (ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可
    编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的
    电子单元中的至少一种来实施,在一些情况下,这样的实施方式可以在控制器170中实施。
    对于软件实施,诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的
    软件??槔词凳?。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来
    实施,软件代码可以存储在存储器150中并且由控制器170执行。

    至此,已经按照其功能描述了移动终端100。下面,为了简要起见,将描述诸如折叠
    型、直板型、摆动型、滑动型移动终端100等的各种类型的移动终端100中的滑动型移动终端
    100作为示例。因此,本发明能够应用于任何类型的移动终端100,并且不限于滑动型移动终
    端100。

    如图1中所示的移动终端100可以被构造为利用经由帧或分组发送数据的诸如有
    线和无线通信系统以及基于卫星的通信系统来操作。

    现在将参考图2描述其中根据本发明的移动终端100能够操作的通信系统。

    这样的通信系统可以使用不同的空中接口和/或物理层。例如,由通信系统使用的
    空中接口包括例如频分多址(FDMA)、时分多址(TDMA)、码分多址(CDMA)和通用移动通信系
    统(UMTS)(特别地,长期演进(LTE))、全球移动通信系统(GSM)等。作为非限制性示例,下面
    的描述涉及CDMA通信系统,但是这样的教导同样适用于其它类型的系统。

    参考图2,CDMA无线通信系统可以包括多个移动终端100、多个基站(BS)270、基站
    控制器(BSC)275和移动交换中心(MSC)280。MSC280被构造为与公共电话交换网络(PSTN)
    290形成接口。MSC280还被构造为与可以经由回程线路耦接到基站270的BSC275形成接口。
    回程线路可以根据若干己知的接口中的任一种来构造,所述接口包括例如E1/T1、ATM、IP、
    PPP、帧中继、HDSL、ADSL或xDSL。将理解的是,如图2中所示的系统可以包括多个BSC275。

    每个BS270可以服务一个或多个分区(或区域),由多向天线或指向特定方向的天
    线覆盖的每个分区放射状地远离BS270?;蛘?,每个分区可以由用于分集接收的两个或更多
    天线覆盖。每个BS270可以被构造为支持多个频率分配,并且每个频率分配具有特定频谱
    (例如,1.25MHz,5MHz等)。

    分区与频率分配的交叉可以被称为CDMA信道。BS270也可以被称为基站收发器子
    系统(BTS)或者其它等效术语。在这样的情况下,术语“基站”可以用于笼统地表示单个
    BSC275和至少一个BS270?;疽部梢员怀莆胺湮颜尽??;蛘?,特定BS270的各分区可以被称
    为多个蜂窝站。

    作为无线通信系统的一个典型操作,BS270接收来自各种移动终端100的反向链路
    信号。移动终端100通常参与通话、消息收发和其它类型的通信。特定BS270接收的每个反向
    链路信号被在特定BS270内进行处理?;竦玫氖荼蛔⒏喙氐腂SC275。BSC提供通话资
    源分配和包括BS270之间的软切换过程的协调的移动管理功能。BSC275还将接收到的数据
    路由到MSC280,其提供用于与PSTN290形成接口的额外的路由服务。类似地,PSTN290与
    MSC280形成接口,MSC与BSC275形成接口,并且BSC275相应地控制BS270以将正向链路信号
    发送到移动终端100。

    移动终端中无线通信单元110的移动通信???12基于移动终端内置的接入移动
    通信网络(如2G/3G/4G等移动通信网络)的必要数据(包括用户识别信息和鉴权信息)接入
    移动通信网络为移动终端用户的网页浏览、网络多媒体播放等业务传输移动通信数据(包
    括上行的移动通信数据和下行的移动通信数据)。

    无线通信单元110的无线互联网???13通过运行无线热点的相关协议功能而实
    现无线热点的功能,无线热点支持多个移动终端(移动终端之外的任意移动终端)接入,通
    过复用移动通信???12与移动通信网络之间的移动通信连接为移动终端用户的网页浏
    览、网络多媒体播放等业务传输移动通信数据(包括上行的移动通信数据和下行的移动通
    信数据),由于移动终端实质上是复用移动终端与通信网络之间的移动通信连接传输移动
    通信数据的,因此移动终端消耗的移动通信数据的流量由通信网络侧的计费实体计入移动
    终端的通信资费,从而消耗移动终端签约使用的通信资费中包括的移动通信数据的数据流
    量。

    基于上述移动终端100硬件结构以及通信系统,提出本发明方法各个实施例。

    实施例一

    图3为本发明实施例一提供的移动终端的组成结构示意图。如图3所示,所述移动
    终端包括:确定单元301和抓取单元302;

    确定单元301,用于根据预先确定的种子节点序列确定种子节点序列对应的平衡
    树。

    一般情况下,一个网页服务器中具有非常多的统一资源定位符(Uniform
    Resource Location,URL),并且各URL之间的关系也是错综复杂的,为了清楚地获取并表示
    URL之间的关系,可以通过建立URL的树结构,由于网络爬虫抓取网页的速度非??於颐?br />个网页只获取一次,可以准确抓取到每个网页,因此,可以采用网络爬虫软件通过网络爬虫
    技术快速抓取网页服务器中各网页信息,并将各网页中的URL建立成URL的树结构,以便将
    所有网页的URL都关联起来。

    在本发明的具体实施例中,可以预先确定种子节点序列;然后根据预先确定的种
    子节点序列对应的平衡树。例如,假设预先确定的种子节点序列为{A1、A2、A3、A4},在本步
    骤中,可以确定种子节点序列{A1、A2、A3、A4}对应的平衡树。

    在本发明的具体实施例中,当种子节点序列不为空时,确定单元301可以在种子节
    点序列中选择一个种子节点作为当前种子节点;然后将当前种子节点生成的所有节点添加
    到平衡树中。具体地,确定单元301在确定种子节点序列对应的平衡树时,可以先判断种子
    节点序列是否为空,当种子节点序列不为空时,在种子节点序列中选择一个种子节点作为
    当前种子节点;然后确定单元301可以将当前种子节点生成的所有节点添加到平衡树中。当
    种子节点序列为空时,确定单元301可以结束确定种子节点序列对应的平衡树的流程。

    抓取单元302,用于根据平衡树对种子节点序列中的全部种子节点以及全部种子
    节点生成的所有节点进行抓取。

    在本发明的具体实施例中,确定单元301在确定种子节点序列对应的平衡树之后,
    抓取单元302可以根据平衡树对种子节点序列中的全部种子节点以及全部种子节点生成的
    所有节点进行抓取。具体地,抓取单元302可以采用现有技术中平衡树的遍历方法,通过对
    平衡树进行遍历从而实现对种子节点序列中的全部种子节点以及全部种子节点生成的所
    有节点进行抓取。

    较佳地,在本发明的具体实施例中,所述移动终端还包括:转化单元303和存储单
    元304;

    转化单元303,用于将平衡树转化为二叉树。

    存储单元304,用于将二叉树保存在本地文件中。

    在本发明的具体实施例中,转化单元303还可以将平衡树转化为二叉树;然后存储
    单元304将二叉树保存在本地文件中。

    本发明实施例提供的移动终端,先根据预先确定的种子节点序列确定种子节点序
    列对应的平衡树;然后根据平衡树对种子节点序列中的全部种子节点以及全部种子节点生
    成的所有节点进行抓取。而在现有技术中,大多采用有向有环图,使用深度或者广度或者两
    者共用的方式进行抓取,因此,和现有技术相比,本发明实施例提供的移动终端,可以支持
    多人同时爬取,能够提高执行效率;并且,本发明实施例的技术方案实现简单方便、便于普
    及,适用范围更广。

    实施例二

    图4为本发明实施例二提供的移动终端的组成结构示意图。如图4所示,确定单元
    301包括:选择子单元3011和添加子单元3012;

    选择子单元3011,用于当种子节点序列不为空时,在种子节点序列中选择一个种
    子节点作为当前种子节点。

    在本发明的具体实施例中,选择子单元3011在确定种子节点序列对应的平衡树
    时,可以先判断种子节点序列是否为空;当种子节点序列不为空时,选择子单元3011可以在
    种子节点序列中选择一个种子节点作为当前种子节点;当种子节点序列为空时,选择子单
    元3011可以结束确定种子节点序列对应的平衡树的流程。

    添加子单元3012,用于将当前种子节点生成的所有节点添加到平衡树中。

    在本发明的具体实施例中,选择子单元3011在种子节点序列中选择当前种子节点
    之后,添加子单元3012可以将当前种子节点生成的所有节点添加到平衡树中。

    在本发明的具体实施例中,添加子单元3012,具体用于将当前种子节点作为父节
    点,当父节点指向的子节点不为空时,在全部子节点中选择一个子节点作为当前子节点;判
    断当前子节点是否在平衡树中;当所述当前子节点不在平衡树中时,将当前子节点添加到
    平衡树中,将当前子节点作为当前父节点,返回执行上述操作。具体地,添加子单元3012可
    以采用现有技术中的平衡树生成方法将当前子节点添加到平衡树中。

    在本发明的具体实施例中,添加子单元3012,还用于当所述当前子节点不在平衡
    树中时,将当前子节点添加到种子节点序列对应的有向有环图中;当所述当前子节点在平
    衡树中时,将当前子节点的碰撞次数加1,并将当前子节点添加到所述种子节点序列对应的
    有向有环图中。

    本发明实施例提供的移动终端,先根据预先确定的种子节点序列确定种子节点序
    列对应的平衡树;然后根据平衡树对种子节点序列中的全部种子节点以及全部种子节点生
    成的所有节点进行抓取。而在现有技术中,大多采用有向有环图,使用深度或者广度或者两
    者共用的方式进行抓取,因此,和现有技术相比,本发明实施例提供的移动终端,可以支持
    多人同时爬取,能够提高执行效率;并且,本发明实施例的技术方案实现简单方便、便于普
    及,适用范围更广。

    实施例三

    图5为本发明实施例中网络爬虫的实现方法的实现流程示意图。如图5所示,所述
    方法包括:

    步骤501、根据预先确定的种子节点序列确定种子节点序列对应的平衡树。

    在本发明的具体实施例中,可以预先确定种子节点序列;然后根据预先确定的种
    子节点序列对应的平衡树。例如,假设预先确定的种子节点序列为{A1、A2、A3、A4},在本步
    骤中,可以确定种子节点序列{A1、A2、A3、A4}对应的平衡树。

    图6为本发明实施例中确定种子节点序列对应的平衡树的实现方法流程示意图。
    如图6所示,所述方法包括:

    步骤601、当种子节点序列不为空时,在种子节点序列中选择一个种子节点作为当
    前种子节点。

    在本发明的具体实施例中,在确定种子节点序列对应的平衡树时,可以先判断种
    子节点序列是否为空;当种子节点序列不为空时,在种子节点序列中选择一个种子节点作
    为当前种子节点;当种子节点序列为空时,结束确定种子节点序列对应的平衡树的流程。

    步骤602、将当前种子节点生成的所有节点添加到平衡树中。

    在本发明的具体实施例中,在种子节点序列中选择当前种子节点之后,将当前种
    子节点生成的所有节点添加到平衡树中。

    根据上述的分析可知,通过上述的步骤601~602,可以实现确定种子节点序列对
    应的平衡树,从而可以根据平衡树对种子节点序列中的全部种子节点以及全部种子节点生
    成的所有节点进行抓取。

    图7为本发明实施例中将当前种子节点生成的所有节点添加到平衡树中的实现方
    法流程示意图。如图7所示,将当前种子节点生成的所有节点添加到平衡树的方法可以包括
    以下步骤:

    步骤701、将当前种子节点作为父节点。

    在本发明的具体实施例中,在将当前种子节点生成的所有节点添加到平衡树时,
    在种子节点序列中选择当前种子节点之后,可以将当前种子节点作为父节点。

    步骤702、当父节点指向的子节点不为空时,在全部子节点中选择一个子节点作为
    当前子节点。

    在本发明的具体实施例中,当父节点指向的子节点不为空时,可以在全部子节点
    中选择一个子节点作为当前子节点;当父节点指向的子节点为空时,可以结束将当前种子
    节点生成的所有节点添加到平衡树的流程。

    步骤703、判断当前子节点是否在平衡树中。

    在本发明的具体实施例中,在全部子节点中选择当前子节点之后,可以判断当前
    子节点是否在平衡树中,当所述当前子节点不在平衡树中时,可以执行步骤704;当所述当
    前子节点在平衡树中时,可以执行步骤705。

    步骤704、将当前子节点添加到平衡树中,将当前子节点作为当前父节点,返回执
    行步骤702。

    在本发明的具体实施例中,当所述当前子节点不在平衡树中时,可以将当前子节
    点添加到平衡树中。具体地,可以采用现有技术中的平衡树生成方法将当前子节点添加到
    平衡树中。然后将当前子节点作为当前父节点,返回执行步骤702。

    较佳地,在本发明的具体实施例中,当所述当前子节点不在平衡树中时,还可以将
    当前子节点添加到种子节点序列对应的有向有环图中。

    步骤705、将当前子节点作为当前父节点,返回执行步骤702。

    在本发明的具体实施例中,当所述当前子节点在平衡树中时,可以将当前子节点
    的碰撞次数加1,并将当前子节点添加到种子节点序列对应的有向有环图中,返回执行步骤
    702。

    根据上述的分析可知,通过上述的步骤701~705,可以实现将当前种子节点生成
    的所有节点添加到平衡树,从而可以根据平衡树对种子节点序列中的全部种子节点以及全
    部种子节点生成的所有节点进行抓取。

    步骤502、根据平衡树对种子节点序列中的全部种子节点以及全部种子节点生成
    的所有节点进行抓取。

    在本发明的具体实施例中,在确定种子节点序列对应的平衡树之后,可以根据平
    衡树对种子节点序列中的全部种子节点以及全部种子节点生成的所有节点进行抓取。具体
    地,可以采用现有技术中平衡树的遍历方法,通过对平衡树进行遍历从而实现对种子节点
    序列中的全部种子节点以及全部种子节点生成的所有节点进行抓取。

    较佳地,在本发明的具体实施例中,还可以将平衡树转化为二叉树;然后将二叉树
    保存在本地文件中。具体地,可以采用现有技术中的二叉树生成方法将平衡树转化为二叉
    树。

    具体地,在本发明的具体实施例中,具体的有向有环图的存储方案伪代码如下:




    本发明实施例提供的网络爬虫的实现方法,先根据预先确定的种子节点序列确定
    种子节点序列对应的平衡树;然后根据平衡树对种子节点序列中的全部种子节点以及全部
    种子节点生成的所有节点进行抓取。而在现有技术中,大多采用有向有环图,使用深度或者
    广度或者两者共用的方式进行抓取,因此,和现有技术相比,本发明实施例提供的网络爬虫
    的实现方法,可以支持多人同时爬取,能够提高执行效率;并且,本发明实施例的技术方案
    实现简单方便、便于普及,适用范围更广。

    需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排
    他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而
    且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有
    的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该
    要素的过程、方法、物品或者装置中还存在另外的相同要素。

    上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

    通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方
    法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下
    前者是更佳的实施方式?;谡庋睦斫?,本发明的技术方案本质上或者说对现有技术做
    出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质
    (如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服
    务器,空调器,或者网络设备等)执行本发明各个实施例所描述的方法。

    以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发
    明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技
    术领域,均同理包括在本发明的专利?;し段?。

    关于本文
    本文标题:一种移动终端及网络爬虫的实现方法.pdf
    链接地址://www.4mum.com.cn/p-6021004.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • pk10技巧之号码赢钱技巧 腾讯分分彩计划软件源码 辽宁省大连市十一选五彩票 幸运快三大小单双稳赚买法 北京pc28预测软件 即开彩官网 重庆彩组选包胆 北京pk10稳赚技巧 时时彩六码投法 大小最佳倍投方案 稳赚 上海时时五星走势图 排三6码组六最大遗漏 江西时时开奖结果走势图 吉林时时预测稳赢 体彩11选5技巧规律 自动投注挂机稳赚方案