• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 10
    • 下载费用:20 金币  

    重庆时时彩彩历史开奖: 一种针对证券行业的实时垂直搜索引擎的搜索方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201210426552.X

    申请日:

    2012.10.31

    公开号:

    CN103793418A

    公开日:

    2014.05.14

    当前法律状态:

    驳回

    有效性:

    无权

    法律详情: 发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20140514|||实质审查的生效IPC(主分类):G06F 17/30申请日:20121031|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 珠海富讯网络科技有限公司
    发明人: 黄拓
    地址: 519000 广东省珠海市吉大九洲大道东1164号十五层1536
    优先权:
    专利代理机构: 广州三环专利代理有限公司 44202 代理人: 温旭
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201210426552.X

    授权公告号:

    ||||||

    法律状态公告日:

    2018.02.27|||2014.06.11|||2014.05.14

    法律状态类型:

    发明专利申请公布后的驳回|||实质审查的生效|||公开

    摘要

    本发明涉及一种针对证券行业的实时垂直搜索引擎的搜索方法,包括有:首先服务器高频定向抓取新闻网页,接着对抓取的新闻网页的新闻内容进行格式化处理,然后对格式化后的新闻内容与相关关键字的相关性,以及该新闻内容对公众的影响力进行评估计算,最后存入数据库,用户搜索数据时,系统将根据多项参数计算搜索结果的权值并排序显示。这样,即可实现搜索引擎信息与信息源头的被动同步,解决了采用传统搜索方法的通用搜索引擎的时效性差、信息重复的问题,且本方法仅针对互联网具有行业代表性的财经新闻发布源头进行定向采集,效率高,搜索结果更及时、更精准;另外,本发明结合舆情分析技术,搜索结果可采用多种方式排序,显示效果更具人性化。

    权利要求书

    权利要求书
    1.  一种针对证券行业的实时垂直搜索引擎的搜索方法,其特征在于,包括有:首先通过服务器高频定向抓取新闻网页,接着对抓取的新闻网页的新闻内容进行格式化处理,然后对格式化后的新闻内容与相关关键字的相关性和/或该新闻内容对公众的影响力进行评估计算,最后存入数据库,用户搜索数据时,服务器将根据多项参数计算搜索结果的权值并排序显示。

    2.  根据权利要求1所述的实时垂直搜索引擎的搜索方法,其特征在于,本搜索方法包括有以下步骤:
        S1. 通过服务器高频定向抓取新闻网页的URL;
    S2. 根据抓取新闻网页的URL判断是否已抓取过;
    S3. 对抓取的新闻网页的新闻内容进行格式化处理,将来自各个网站的新闻内容格式化成统一的格式和呈现方式;
    S4. 对格式化后的新闻内容与相关关键字的相关性进行计算;
    S5. 对格式化后的新闻内容对公众的影响力进行评估计算;
    S6. 将有关新闻内容的关键字相关性数值、新闻内容的影响力数值存入数据库,用户搜索数据时,查询服务器将根据相关关键字的相关性数值、相关新闻内容的影响力数值、以及相关新闻内容的发布时间计算搜索结果的权值并排序显示。

    3.  根据权利要求2所述的实时垂直搜索引擎的搜索方法,其特征在于,所述对格式化后的新闻内容与相关关键字的相关性进行计算,具体为:首先在格式化后的新闻内容中查找事先已设定好的、证券行业内搜索频率较高的专有词汇,若该新闻内容有出现这些词汇,则将这些词汇作为该新闻内容的关键字,并为各个关键字设定一个相关性初始值然后分析各个关键字在该新闻内容中出现的位置、形式状态、出现次数,根据预先设定好各个位置、形式状态、出现次数对应的加成值进行相应加成,计算出各个关键字的相关性基础值;最后将各个关键字的相关性基础值在所有关键字的相关性基础值之和中的占比,得到各个关键字的相关性数值。

    4.  根据权利要求3所述的实时垂直搜索引擎的搜索方法,其特征在于,所述对格式化后的新闻内容对公众的影响力进行评估计算,具体为:首先根据定向抓取新闻网页的网站的周平均访问流量,预先设定好各个网站对应的影响力基准数值,且所抓取新闻网页的新闻内容的影响力数值为该网站的影响力基准数值,若抓取同一新闻内容在多个网站发布,则该新闻内容的影响力数值为其在各抓取网站所对应的影响力数值之和。

    5.  根据权利要求4所述的实时垂直搜索引擎的搜索方法,其特征在于,在所述对格式化后的新闻内容对公众的影响力进行评估计算过程中,当抓取新闻网页的新闻内容的主题是预先设定好有加成值的特定主题时,所述抓取新闻网页的新闻内容的影响力数值为其发布网站的影响力基准数值加成该特定主题对应的加成值。

    6.  根据权利要求5所述的实时垂直搜索引擎的搜索方法,其特征在于,所述通过服务器高频定向抓取新闻网页,具体为:首先设置包括财经网站、证监会指定的上市公司公告发布网站、财经报章杂志媒体网站、证据研究机构网站在内的多个财经网站作为信息源头,然后通过服务器对这些财经网站进行实时高频抓取,以获得最新发布的新闻网页的URL。

    7.  根据权利要求6所述的实时垂直搜索引擎的搜索方法,其特征在于,所述用户搜索数据时,查询服务器将根据相关关键字的相关性数值、相关新闻内容的影响力数值、以及相关新闻内容的发布时间计算搜索结果的权值并排序显示,具体为:当用户需要搜索某关键字的新闻时,系统将会从新闻索引数据库中计算相关新闻的权值,作为搜索结果以时间排列方式、相关性-影响力排列方式、或时间-相关性-影响力排列方式排序显示。

    8.  根据权利要求7所述的实时垂直搜索引擎的搜索方法,其特征在于,所述搜索结果以时间排列方式、相关性-影响力排列方式或时间-相关性-影响力排列方式中搜索结果的相关性-影响力排列方式,具体为:首先于数据库查询所有包含用户所搜索的关键字的新闻内容,根据每一篇新闻内容与用户所搜索的关键字的相关性数值和该新闻内容的影响力数值相乘,得出搜索结果中每一新闻内容的排名权重,并设定一个相关性和影响力的阀值,过滤掉相关性数值和影响力数值都较低的搜索结果,最后按照排名权重从高至低进行排列显示;
    所述时间-相关性-影响力排列方式,具体为:把时间作为一个具有线性特征的参数加入到相关性-影响力搜索结果的权重排名计算中,让“最近一段时间内”影响力高的新闻排列靠前,即根据每一新闻内容与用户所搜索的关键字的相关性数值和该新闻内容的影响力数值相乘,再乘以每一新闻发布时间对应的加成值,得出搜索结果中每一新闻内容的排名权重,最后按排名权重从高至低进行排列显示。

    9.  根据权利要求2至8任何一项所述的实时垂直搜索引擎的搜索方法,其特征在于,在所述根据抓取新闻网页的URL判断是否已抓取后,将新URL保存至待抓取新闻列表数据库,并多线程对所述新闻网页的新闻内容进行抓取。

    10.  根据权利要求2至8任何一项所述的实时垂直搜索引擎的搜索方法,其特征在于,本搜索方法还包括步骤:对抓取的格式化处理后的新闻内容从标题、日期、关键字频率、关键字分布情况、新闻摘要、文章字数等多方面特征与数据库中的已有新闻内容进行对比,经过对比如果数据库中没有新闻内容与之类似则归类为“首发”,将该新闻内容及其相关性数值和影响力数值写入到新闻索引表数据库中;如果发现本新闻内容已经存在于数据库或与新闻索引表数据库中某篇新闻内容极为相似,则归类为“转载”,将该新闻内容及其相关性数值写入到类似新闻索引表数据库中,同时将该“转载”的新闻内容的影响力数值叠加到新闻索引表数据库中对应的“首发”的新闻内容的“影响力数值”字段上。

    关 键 词:
    一种 针对 证券 行业 实时 垂直 搜索引擎 搜索 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种针对证券行业的实时垂直搜索引擎的搜索方法.pdf
    链接地址://www.4mum.com.cn/p-6158886.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03