• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 10
    • 下载费用:30 金币  

    重庆时时彩做号器: 用户需求获取方法.pdf

    关 键 词:
    用户 需求 获取 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201210436032.7

    申请日:

    2012.11.05

    公开号:

    CN103793444A

    公开日:

    2014.05.14

    当前法律状态:

    终止

    有效性:

    无权

    法律详情: 未缴年费专利权终止IPC(主分类):G06F 17/30申请日:20121105授权公告日:20170208终止日期:20171105|||授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20121105|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 江苏苏大大数据科技有限公司
    发明人: 朱利民
    地址: 215000 江苏省苏州市苏州工业园区通园路208号
    优先权:
    专利代理机构: 广州华进联合专利商标代理有限公司 44224 代理人: 何平
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201210436032.7

    授权公告号:

    |||||||||

    法律状态公告日:

    2018.10.26|||2017.02.08|||2014.06.11|||2014.05.14

    法律状态类型:

    专利权的终止|||授权|||实质审查的生效|||公开

    摘要

    本发明涉及一种用户需求获取方法,依次包括以下步骤:获取用户提供的种子词、关键词扩展步骤、搜索步骤、网页挑选步骤、标注步骤、评价步骤以及学习步骤,由上述步骤得到用户的需求模型。上述用户需求获取方法中,需求模型是按照用户需求建立并不断完善的,根据该用户的需求模型,能够准确获取该用户的需求,从而提供相关性较高的信息给该用户。

    权利要求书

    权利要求书
    1.  一种用户需求获取方法,其特征在于,依次包括以下步骤:
    获取用户提供的种子词,所述种子词包括正种子词和负种子词;
    关键词扩展步骤,利用同义词集合以及上下义关系,对所述种子词扩展,得到与正种子词相关的正相关关键词以及与负种子词相关的反相关关键词;
    搜索步骤,根据所述正相关关键词和反相关关键词,基于互联网进行匹配搜索,得到待标注网页,所述待标注网页包括候选正例和候选反例,所述候选正例和候选反例分别由所述正相关关键词和反相关关键词搜索得到;
    网页挑选步骤,分析所述待标注网页,根据其内容将待标注网页分类,然后从每类网页中分别选出一个样本网页供用户标注;
    标注步骤,如果样本网页符合用户的需求,将该样本网页标注为正例,如果样本网页不符合用户的需求,将该样本网页标注为反例,集合所述正例和反例,得到初始用户标注数据集;
    评价步骤,采用SVM分类器训练法,将从所述候选正例和候选反例中选出的所有样本网页作为测试集,将所有非样本网页作为训练集,对待标注网页分类的准确性进行测试,得到分类的准确率,预先设定阈值,当所述分类的准确率达到所述阈值时,所述评价步骤完成,当所述分类的准确率未达到所述阈值时,返回所述网页挑选步骤,调整需要标注的正例和反例的数量,重复标注步骤和评价步骤,最终得到正例和反例数量均衡的用户标注数据集。
    学习步骤,基于所述正例和反例数量均衡的用户标注数据集,学习用户需求,得到用户的需求模型。

    2.  根据权利要求1所述的用户需求获取方法,其特征在于,在所述关键词扩展步骤中,所述同义词集合以及上下义关系由wordnet提供。

    3.  根据权利要求1所述的用户需求获取方法,其特征在于,所述标注步骤之后还包括从得到的所述正例和反例中抽取特征词,生成正相关关键词和反相关关键词,进一步扩展所述种子词的步骤。

    4.  根据权利要求1所述的用户需求获取方法,其特征在于,在所述标注步骤中,所述样本网页的标注由用户通过人机交互界面完成。

    5.  根据权利要求1所述的用户需求获取方法,其特征在于,在所述标注步 骤中,需要标注的所述正例和反例的初始数量相等。

    6.  根据权利要求1所述的用户需求获取方法,其特征在于,在所述评价步骤中,所述需要标注的正例和反例的数量如下:
    正例的数量=用户标注网页的总数*(当前反例的比例+当前分类错误中反例的比例)/2;
    反例的数量=用户标准网页的总数*(当前正例的比例+当前分类错误中正例的比例)/2。
    上述计算方法中,反例的比例指反例占正例和反例总量的比例,正例的比例指正例占正例和反例总量的比例,分类错误中反例比例指经SVM分类器训练后,所述训练集中被误认为反例的比例,分类错误中正例比例指经SVM分类器训练后,所述训练集中被误认为正例的比例。

    7.  根据权利要求1所述的用户需求获取方法,其特征在于,所述学习步骤包括:
    主题句学习步骤,预先设置主题特征搜索树,首先从所述正例和反例数量均衡的用户标注数据集中抽取主题得到主题数据集,其次从所述主题数据集中抽取主题句特征,最后进行主题需求判断,如果当前的主题特征搜索树不包括所述抽取的主题特征,则将所述抽取的主题特征加入所述主题特征搜索树,得到用户的主题监控模型;
    内容学习步骤,首先从所述正例和反例数量均衡的用户标注数据集中抽取内容得到内容数据集,其次从所述内容数据集中抽取内容特征,最后进行二元分类器训练,对内容需求进行判别,得到用户的内容监控模型。

    8.  根据权利要求7所述的用户需求获取方法,其特征在于,在所述主题句学习步骤中,在从所述主题数据集中抽取主题特征时,采用基于字的重排序的方式构建主题特征。

    9.  根据权利要求7所述的用户需求获取方法,其特征在于,所述二元分类器训练为贝叶斯分类器。

    说明书

    说明书用户需求获取方法
    技术领域
    本发明涉及网络技术领域,特别是涉及一种用户需求获取方法。
    背景技术
    自互联网诞生以来,因特网已经发展成为拥有近亿用户和数亿页面的巨大的全球信息仓库,而且其信息量仍在以指数形式飞速地增长。从互联网中获取信息已经成为个人获取知识的主要方法和重要手段,也成为当前企业获取情报的重要途径,但是,面对浩如烟海的网络信息,传统的人工搜集和处理方法都已难以胜任,搜索结果通常包括很多与用户需求相关性不大的信息,因此如何准确获取用户的需求是一个关键的问题。
    目前,国内外在信息搜索领域已经做了大量研究,并开发了多种搜索引擎,如百度、谷歌以及雅虎等。从某种程度上这些搜索引擎提高了搜索的效率和速度,但获取用户需求的方法仍然存在着很大的局限性,最突出表现在以下几个方面:首先,由于采用的是全文检索或关键词检索方式,基于字面的检索机制造成实际检索结果与用户需求之间的偏差,即检索返回“有用”信息太少,“垃圾”信息太多;其次,网络搜索引擎需面对广泛的知识领域,而针对某一特殊领域因没有足够的背景知识,导致搜索到大量无关的网页,具有较大相关性的网页却很少。
    发明内容
    基于此,针对网络信息的搜索,有必要提供一种准确获取用户需求的方法。
    一种用户需求获取方法,依次包括以下步骤:
    获取用户提供的种子词,所述种子词包括正种子词和负种子词;
    关键词扩展步骤,利用同义词集合以及上下义关系,对所述种子词扩展,得到与正种子词相关的正相关关键词以及与负种子词相关的反相关关键词;
    搜索步骤,根据所述正相关关键词和反相关关键词,基于互联网进行匹配 搜索,得到待标注网页,所述待标注网页包括候选正例和候选反例,所述候选正例和候选反例分别由所述正相关关键词和反相关关键词搜索得到;
    网页挑选步骤,分析所述待标注网页,根据其内容将待标注网页分类,然后从每类网页中分别选出一个样本网页供用户标注;
    标注步骤,如果样本网页符合用户的需求,将该样本网页标注为正例,如果样本网页不符合用户的需求,将该样本网页标注为反例,集合所述正例和反例,得到初始用户标注数据集;
    评价步骤,采用SVM分类器训练法,将从所述候选正例和候选反例中选出的所有样本网页作为测试集,将所有非样本网页作为训练集,对待标注网页分类的准确性进行测试,得到分类的准确率,预先设定阈值,当所述分类的准确率达到所述阈值时,所述评价步骤完成,当所述分类的准确率未达到所述阈值时,返回所述网页挑选步骤,调整需要标注的正例和反例的数量,重复标注步骤和评价步骤,最终得到正例和反例数量均衡的用户标注数据集。
    学习步骤,基于所述正例和反例数量均衡的用户标注数据集,学习用户需求,得到用户的需求模型。
    在其中一个实施例中,在所述关键词扩展步骤中,所述同义词集合以及上下义关系由wordnet提供。
    在其中一个实施例中,所述标注步骤之后还包括从得到的所述正例和反例中抽取特征词,生成正相关关键词和反相关关键词,进一步扩展所述种子词的步骤。
    在其中一个实施例中,在所述标注步骤中,所述样本网页的标注由用户通过人机交互界面完成。
    在其中一个实施例中,在所述标注步骤中,需要标注的所述正例和反例的初始数量相等。
    在其中一个实施例中,在所述评价步骤中,所述需要标注的正例和反例的数量如下:
    正例的数量=用户标注网页的总数*(当前反例的比例+当前分类错误中反例的比例)/2;
    反例的数量=用户标准网页的总数*(当前正例的比例+当前分类错误中正例的比例)/2。
    上述计算方法中,反例的比例指反例占正例和反例总量的比例,正例的比例指正例占正例和反例总量的比例,分类错误中反例比例指经SVM分类器训练后,所述训练集中被误认为反例的比例,分类错误中正例比例指经SVM分类器训练后,所述训练集中被误认为正例的比例。
    在其中一个实施例中,所述学习步骤包括:
    主题句学习步骤,预先设置主题特征搜索树,首先从所述正例和反例数量均衡的用户标注数据集中抽取主题得到主题数据集,其次从所述主题数据集中抽取主题句特征,最后进行主题需求判断,如果当前的主题特征搜索树不包括所述抽取的主题特征,则将所述抽取的主题特征加入所述主题特征搜索树,得到用户的主题监控模型;
    内容学习步骤,首先从所述正例和反例数量均衡的用户标注数据集中抽取内容得到内容数据集,其次从所述内容数据集中抽取内容特征,最后进行二元分类器训练,对内容需求进行判别,得到用户的内容监控模型。
    在其中一个实施例中,在所述主题句学习步骤中,在从所述主题数据集中抽取主题特征时,采用基于字的重排序的方式构建主题特征。
    在其中一个实施例中,所述二元分类器训练为贝叶斯分类器。
    上述用户需求获取方法,首先获取用户提供的种子词并将其扩展得到正相关关键词和反相关关键词,其次基于正相关关键词和反相关关键词搜索得到待标注网页,通过网页挑选步骤和标注步骤,得到初始用户标注数据集,再对初始用户标注数据集进行评价,得到正例和反例数量均衡的用户标注数据集,对正例和反例数量均衡的用户标注数据集进行分析,学习用户的需求,并得到用户的需求模型。上述需求模型是按照用户需求建立并不断完善的,根据该用户的需求模型,能够准确获取该用户的需求,从而提供相关性较高的信息给该用户。
    附图说明
    图1为一个实施例的用户需求获取方法的流程图;
    图2为一个实施例的学习步骤的流程图。
    具体实施方式
    为了解决难以准确获取用户需求问题,本实施方式提供了一种准确获取用户需求的方法。下面结合具体的实施例,对用户需求获取方法进行具体的描述。
    请参考图1和图2,本实施方式提供的用户需求获取方法,包括如下步骤:
    步骤S110,获取用户提供的种子词;
    步骤S120,关键词扩展步骤;
    步骤S130,搜索步骤;
    步骤S140,网页挑选步骤;
    步骤S150,标注步骤;
    步骤S160,评价步骤;
    步骤S170,学习步骤。
    在步骤S110中,获取用户提供的种子词,种子词包括正种子词和负种子词。
    步骤S120为关键词扩展步骤,关键词扩展即增加种子词的同义词或近义词来扩展当前种子词。关键词扩展有两种途径,第一种途径是利用wordnet(一种基于认知语言学的英语词典,它不仅把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”)提供的同义词集合以及上下义关系,对种子词进行关键词扩展,得到与正种子词相关的正相关关键词以及与负种子词相关的反相关关键词,集合正相关关键词和反相关关键词得到关键词库。另一种途径是,根据步骤S160的评价步骤,从得到的正例和反例中抽取特征词,生成正相关关键词和反相关关键词,进一步扩展种子词,从而完善关键词库,更准确地获取用户的需求。
    步骤S130为搜索步骤,根据关键词库中正相关关键词和反相关关键词,基于互联网进行匹配搜索,得到待标注网页,待标注网页包括候选正例和候选反例,候选正例和候选反例分别由正相关关键词和反相关关键词搜索得到。候选正例即为用户关心的网页,符合用户的需求;候选反例即为所谓的“错误信息”, 是不符合用户需求的。
    在步骤S140即网页挑选步骤中,分析待标注网页,根据其内容将待标注网页分为若干类,然后从每类网页中分别选出一个样本网页供用户标注,样本网页包含的网页数量由用户指定。如果样本网页被用户标注为正例,那么该样本网页所在的类中的其他待标注网页均视正例,如果样本网页被用户标注为反例,那么该样本网页所在的类中的其他待标注网页均视反例。显然,步骤S124可以极大地降低用户标注的工作量。
    步骤S150为标注步骤,本实施方式提供了人机交互界面,用户可以通过人机交互界面方便地完成对候选网页的标注工作。如果样本网页符合用户的需求,将该样本网页标注为正例,如果样本网页不符合用户的需求,将该样本网页标注为反例,集合正例和反例,得到初始用户标注数据集。
    首次人机交互时,由于还没有进行步骤S160的评价步骤,用户需要对样本网页进行1:1的标注,即用户从所有样本网页中,标注出相同数量的正例和反例。当然,这个正例和反例1:1的比例只是初始设定比例,在后续步骤中,正例和反例的比例会进行相应调整。
    步骤S160为评价步骤,采用SVM(support vector machine,支持向量机)分类器,将从候选正例和候选反例中选出的所有样本网页作为测试集,将所有非样本网页作为训练集,对待标注网页分类的准确性进行测试,得到分类的准确率,预先设定阈值,当分类的准确率达到阈值时,评价步骤完成。当分类的准确率未达到阈值时,返回网页挑选步骤,调整需要标注的正例和反例的数量,重复标注步骤和评价步骤,直至分类的准确率达到阈值,从而得到正例和反例数量均衡的用户标注数据集。
    如果所述分类的准确率未达到所述阈值,进入下一轮评价步骤时,所述正例和反例在下一轮评价步骤中的数量根据如下计算方法调整:
    正例的数量=用户标注网页的总数*(当前反例的比例+当前分类错误中反例的比例)/2;
    反例的数量=用户标准网页的总数*(当前正例的比例+当前分类错误中正例的比例)/2。
    上述计算方法中,反例的比例指反例占正例和反例总量的比例,正例的比例指正例占正例和反例总量的比例。分类错误中反例比例指经SVM分类器训练步骤后,训练集中被误认为反例的比例,分类错误中正例比例指经SVM分类器训练步骤后,训练集中被误认为正例的比例。该计算方法即为调整正例和反例比例的依据。
    步骤S170为学习步骤,包括主题句学习步骤和内容学习步骤两部分。
    在步骤S170中,首先执行步骤172:主题抽取,内容抽取。在已经得到的正例和反例数量均衡的用户标注数据集中,抽取出主题以及内容,并分别得到主题数据集和内容数据集。
    步骤S174a为主题句特征抽取,步骤S176a为主题需求判断。预先设置主题特征搜索树,执行步骤S174a,从主题数据集中抽取出主题句特征。在从主题数据集中抽取主题特征时,传统的做法一般是采用基于词特征构建主题过渡模型,而主题词变化形式较多,因此基于词特征构建主题过渡模型的方法不能全面覆盖用户需要的信息。为了解决这个问题,本实施方式采用基于字的重排序的方式构建主题特征,将主题词分解为关键字并将关键字重组得到各种形式的主题词,这样便解决了主题词因变化形式较多引起的问题。然后再执行步骤S176a,进行主题需求判断,如果当前的主题特征搜索树不包括抽取的主题特征,则将抽取的主题特征加入主题特征搜索树,得到用户的主题监控模型。
    步骤S174b为内容特征抽取,步骤S176b为内容需求判别。执行步骤S174a,从主题数据集中抽取出内容特征,再执行步骤S176a,进行主题需求判别。在主题需求判别时,采用训练二元分类器的方法,得到用户的内容监控模型。为了保证分类器的分类速度,本实施方式使用的二元分类器为贝叶斯分类器。
    在本实施方式中,首先获取用户提供的种子词并将其扩展得到正相关关键词和反相关关键词,其次基于正相关关键词和反相关关键词搜索得到待标注网页,通过网页挑选步骤和标注步骤,得到初始用户标注数据集,再对初始用户标注数据集做多次评价得到正例和反例数量均衡的用户标注数据集,对正例和反例数量均衡的用户标注数据集进行分析,学习用户的需求,并得到用户的需求模型。上述需求模型是按照用户需求建立并不断完善的,根据该用户的需求 模型,能够准确获取该用户的需求,从而提供相关性较高的信息给该用户。
    采用SVM分类器,可以定量地评价正例和反例,对训练集有定量的评价,及时调整正例和反例的比例。以此为依据有选择地进行人机交互,可以更有效地全面获得用户的需求。
    传统方法基于词特征构建主题过渡模型,而主题词形式变化较多,这类形式变化的词很可能就会被当做“错误信息”过滤掉,使用户无法全面获取需求的信息。采用基于字重排序的主题特征过滤模型,有效解决主题形式变化较多的问题,保证了用户获取需求信息的全面性。
    以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的?;し段?。因此,本发明专利的?;し段вσ运饺ɡ笪?。

    关于本文
    本文标题:用户需求获取方法.pdf
    链接地址://www.4mum.com.cn/p-6185430.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 河北11选5走垫图 pc蛋蛋预测尽享 海南飞鱼app 太原股票配资 3号码分布图 上海时时乐今天开奖 赌赛车的是什么软件 天津11选5开奖结果 开元棋牌官方版下载 南国彩票 怎样买3d能赚钱 极速体育直播 双色球复式最新中奖加奖规则 五行分布图 七乐彩走势图综合版 17141双色球号码预测