• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 19
    • 下载费用:20 金币  

    玩重庆时时彩要判刑吗: 一种基于内容的图片搜索方法和装置.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201210432356.3

    申请日:

    2012.11.02

    公开号:

    CN103793434A

    公开日:

    2014.05.14

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20121102|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 北京百度网讯科技有限公司
    发明人: 方高林
    地址: 100085 北京市海淀区上地十街10号百度大厦2层
    优先权:
    专利代理机构: 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人: 倪志华
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201210432356.3

    授权公告号:

    |||

    法律状态公告日:

    2015.09.02|||2014.05.14

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明提供了一种基于内容的图片搜索方法和装置,其中方法包括:获取用户要搜索的图片;基于图片内容从图片库中对所述要搜索的图片进行检索,得到相关图片;从相关图片的上下文中提取候选主题词;将候选主题词的统计特征融合词性特征、结构特征、领域特征和词关系特征中的至少一种对候选主题词进行置信度的确定,利用置信度从候选主题词中选择主题词;依据选择的主题词与相关图片的相似状况,对相关图片进行排序后包含在搜索结果中返回给用户。本发明能够准确地提供用户需求的图片检索结果,节约系统资源,提高用户体验。

    权利要求书

    权利要求书
    1.  一种基于内容的图片搜索方法,其特征在于,该方法包括:
    S1、获取用户要搜索的图片;
    S2、基于图片内容从图片库中对所述要搜索的图片进行检索,得到相关图片;
    S3、从相关图片的上下文中提取候选主题词;
    S4、将候选主题词的统计特征融合词性特征、结构特征、领域特征和词关系特征中的至少一种对候选主题词进行置信度的确定,利用置信度从候选主题词中选择主题词;
    S5、依据选择的主题词与相关图片的相似状况,对相关图片进行排序后包含在搜索结果中返回给用户。

    2.  根据权利要求1所述的方法,其特征在于,所述步骤S2具体包括:
    S21、从所述要搜索的图片中提取局部特征;
    S22、将提取的局部特征量化到视觉词汇上;
    S23、利用量化得到的视觉词汇在图片库中进行检索得到相关图片。

    3.  根据权利要求1所述的方法,其特征在于,所述步骤S3具体包括:
    将所述相关图片的上下文进行分词处理和停用词过滤后,提取出预设词性的词语作为候选主题词;和/或,
    从所述相关图片的上下文中提取满足预设搭配词模式的两个以上词语的搭配作为候选主题词,所述预设搭配词模式包括词性搭配要求、窗口长度和词语间隔。

    4.  根据权利要求1或3所述的方法,其特征在于,所述步骤S3中进一步包括对提取出的候选主题词进行过滤,具体包括以下过滤处理中的至少一种:
    过滤掉词频小于预设统计词频阈值的候选主题词;或者,
    如果某候选主题词没有在二元词构成的query中以词头或词尾出现过,则过滤掉该候选主题词;或者,
    如果某候选主题词是两个以上词语的搭配,且该候选主题词中的各词语在所述相关图片的上下文中没有出现过相邻,则过滤掉该候选主题词。

    5.  根据权利要求1所述的方法,其特征在于,所述步骤S4中包括确定候选主题词的统计特征权重值,具体为:将每个相似图片的上下文分别作为一个文档,采用候选主题词的词频TF和文档频率DF综合确定候选主题词的统计特征权重值。

    6.  根据权利要求1所述的方法,其特征在于,所述步骤S4中包括以下处理中的至少一种:
    确定候选主题词的词性特征权重值,具体为:依据候选主题词的词性为候选主题词赋予对应的词性特征权重值;
    确定候选主题词的结构特征权重值,具体为:依据候选主题词在文本中位置的重要程度为候选主题词赋予对应的结构特征权重值;
    确定候选主题词的领域特征权重值,具体为:判断候选主题词中与该候选主题词所来源的文本是否属于同一个领域,如果是,将该候选主题词赋予较高的领域特征权重值,否则将该候选主题词赋予较低的领域特征权重值;
    确定候选主题词的词关系特征权重值,具体为:选取统计特征权重值排在前N个的候选主题词构成集合T,依据候选主题词与T之间的距离确定候选主题词的词关系特征权重值,所述N为预设的正整数。

    7.  根据权利要求6所述的方法,其特征在于,在确定候选主题词所属的领域时,查询词领域模型确定候选主题词属于各领域的概率,取其中的最大概率对应的领域作为该候选主题词所属的领域;
    其中所述词领域模型是利用已有的分类语料统计各词语属于各领域的概率得到的。

    8.  根据权利要求6所述的方法,其特征在于,候选主题词w与T之间的距离由该候选主题词w与T中各候选主题词之间的相似度之和得到,其中两个候选主题词之间的相似度通过查找预先建立的词关系模型确定。

    9.  根据权利要求5或6所述的方法,其特征在于,在所述步骤S4中确定 候选主题词的置信度时,将候选主题词的各特征权重值采用加权求和、权重乘积中至少一种方式进行融合得到候选主题词的置信度。

    10.  根据权利要求1所述的方法,其特征在于,所述选择的主题词与相关图片的相似状况由相关图片的上下文中包含选择的主题词的数目来体现,包含的数目越多越相似。

    11.  根据权利要求6所述的方法,其特征在于,该方法还包括:在所述步骤S5之前还包括:判断是否所述选择的主题词的分布特征权重值小于预设的分布特征权重值阈值,且所述选择的主题词的置信度小于预设的置信度阈值,如果是,则不返回搜索结果;否则继续执行所述步骤S5。

    12.  根据权利要求1所述的方法,其特征在于,所述步骤S5中还包括:在搜索结果中进一步推送与所述选择的主题词相关的百科信息。

    13.  根据权利要求12所述的方法,其特征在于,在搜索结果中推送与所述选择的主题词相关的百科信息具体包括:
    将所述选择的主题词与百科数据库进行匹配,如果匹配到对应的词条,则将该词条的百科信息包含在搜索结果中推送给用户;或者,
    查找词领域模型确定所述选择的主题词所属的领域,结合确定的领域将所述选择的主题词在百科数据库进行匹配,将匹配得到的词条的百科信息包含在搜索结果中推送给用户;或者,
    确定置信度排在所述选择的主题词之后的其他L个候选主题词,所述L为预设的正整数,结合确定的L个候选主题词将所述选择的主题词在百科数据库进行匹配,将匹配得到的词条的百科信息包含在搜索结果中推送给用户;或者,
    将所述选择的主题词中的专有名词在百科数据库中进行匹配,将匹配得到的词条的百科信息包含在搜索结果中推送给用户。

    14.  一种基于内容的图片搜索装置,其特征在于,该装置包括:
    图片获取单元,用于获取用户要搜索的图片;
    图片检索单元,用于基于图片内容从图片库中对所述要搜索的图片进行检索,得到相关图片;
    候选词提取单元,用于从相关图片的上下文中提取候选主题词;
    主题词选择单元,用于将候选主题词的统计特征融合词性特征、结构特征、领域特征和词关系特征中的至少一种对候选主题词进行置信度的确定,利用置信度从候选主题词中选择主题词;
    图片排序单元,用于依据选择的主题词与相关图片的相似状况,对相关图片进行排序;
    结果输出单元,用于将排序后的相关图片包含在搜索结果中返回给用户。

    15.  根据权利要求14所述的装置,其特征在于,所述图片检索单元具体配置为:从所述要搜索的图片中提取局部特征,将提取的局部特征量化到视觉词汇上,利用量化得到的视觉词汇在图片库中进行检索得到相关图片。

    16.  根据权利要求14所述的装置,其特征在于,所述候选词提取单元具体配置为:
    将所述相关图片的上下文进行分词处理和停用词过滤后,提取出预设词性的词语作为候选主题词;和/或,
    从所述相关图片的上下文中提取满足预设搭配词模式的两个以上词语的搭配作为候选主题词,所述预设搭配词模式包括词性搭配要求、窗口长度和词语间隔。

    17.  根据权利要求14或16所述的装置,其特征在于,所述候选词提取单元还用于对提取出的候选主题词进行过滤,具体包括以下过滤处理中的至少一种:
    过滤掉词频小于预设统计词频阈值的候选主题词;或者,
    如果某候选主题词没有在二元词构成的query中以词头或词尾出现过,则过滤掉该候选主题词;或者,
    如果某候选主题词是两个以上词语的搭配,且该候选主题词中的各词语在所述相关图片的上下文中没有出现过相邻,则过滤掉该候选主题词。

    18.  根据权利要求14所述的装置,其特征在于,所述主题词选择单元包括:统计特征确定子单元,用于将每个相似图片的上下文分别作为一个文档,采用 候选主题词的词频TF和文档频率DF综合确定候选主题词的统计特征权重值。

    19.  根据权利要求14所述的装置,其特征在于,所述主题词选择单元包括:词性特征确定子单元、结构特征确定子单元、领域特征确定子单元和词关系特征确定子单元中的至少一种;
    所述词性特征确定子单元,用于依据候选主题词的词性为候选主题词赋予对应的词性特征权重值;
    所述结构特征确定子单元,用于依据候选主题词在文本中位置的重要程度为候选主题词赋予对应的结构特征权重值;
    所述领域特征确定子单元,用于判断候选主题词中与该候选主题词所来源的文本是否属于同一个领域,如果是,将该候选主题词赋予较高的领域特征权重值,否则将该候选主题词赋予较低的领域特征权重值;
    所述词关系特征确定子单元,用于选取统计特征权重值排在前N个的候选主题词构成集合T,依据候选主题词与T之间的距离确定候选主题词的词关系特征权重值,所述N为预设的正整数。

    20.  根据权利要求19所述的装置,其特征在于,所述领域特征确定子单元在确定候选主题词所属的领域时,查询词领域模型确定候选主题词属于各领域的概率,取其中的最大概率对应的领域作为该候选主题词所属的领域;
    其中所述词领域模型是利用已有的分类语料统计各词语属于各领域的概率得到的。

    21.  根据权利要求19所述的装置,其特征在于,所述词关系特征确定子单元确定的候选主题词w与T之间的距离由该候选主题词w与T中各候选主题词之间的相似度之和得到,其中两个候选主题词之间的相似度通过查找预先建立的词关系模型确定。

    22.  根据权利要求18或19所述的装置,其特征在于,所述主题词选择单元还包括:置信度确定子单元,用于将候选主题词的各特征权重值采用加权求和、权重乘积中至少一种方式进行融合得到候选主题词的置信度。

    23.  根据权利要求14所述的装置,其特征在于,所述选择的主题词与相关 图片的相似状况由相关图片的上下文中包含选择的主题词的数目来体现,包含的数目越多越相似。

    24.  根据权利要求19所述的装置,其特征在于,该装置还包括:判断单元,用于判断是否所述选择的主题词的分布特征权重值小于预设的分布特征权重值阈值,且所述选择的主题词的置信度小于预设的置信度阈值,如果是,则禁止所述结果输出单元返回搜索结果;否则允许所述结果输出单元返回搜索结果。

    25.  根据权利要求14所述的装置,其特征在于,该装置还包括:百科推送单元,用于在所述搜索结果中进一步推送与所述选择的主题词相关的百科信息。

    26.  根据权利要求25所述的装置,其特征在于,所述百科推送单元具体配置为:
    将所述选择的主题词与百科数据库进行匹配,如果匹配到对应的词条,则将该词条的百科信息包含在搜索结果中推送给用户;或者,
    查找词领域模型确定所述选择的主题词所属的领域,结合确定的领域将所述选择的主题词在百科数据库进行匹配,将匹配得到的词条的百科信息包含在搜索结果中推送给用户;或者,
    确定置信度排在所述选择的主题词之后的其他L个候选主题词,所述L为预设的正整数,结合确定的L个候选主题词将所述选择的主题词在百科数据库进行匹配,将匹配得到的词条的百科信息包含在搜索结果中推送给用户;或者,
    将所述选择的主题词中的专有名词在百科数据库中进行匹配,将匹配得到的词条的百科信息包含在搜索结果中推送给用户。

    关 键 词:
    一种 基于 内容 图片 搜索 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种基于内容的图片搜索方法和装置.pdf
    链接地址://www.4mum.com.cn/p-6158998.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03