• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 6
    • 下载费用:30 金币  

    重庆时时彩跑路: 一种基于NLPIR中文分词系统的中文分词工具.pdf

    关 键 词:
    一种 基于 NLPIR 中文 分词 系统 工具
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201610757070.0

    申请日:

    2016.08.29

    公开号:

    CN106354714A

    公开日:

    2017.01.25

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/27申请日:20160829|||公开
    IPC分类号: G06F17/27; G06F9/44 主分类号: G06F17/27
    申请人: 广东工业大学
    发明人: 肖红; 毛明扬
    地址: 510062 广东省广州市越秀区东风东路729号大院
    优先权:
    专利代理机构: 北京集佳知识产权代理有限公司 11227 代理人: 罗满
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201610757070.0

    授权公告号:

    |||

    法律状态公告日:

    2017.03.01|||2017.01.25

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明公开了一种基于NLPIR中文分词系统的中文分词工具,NLPIR中文分词系统包括API接口以及动态链接库,中文分词工具包括:用户输入窗口,用于供用户输入文本文件的路径地址;分词函数调用???,用于接收到用户输入的路径地址后自动调用相应的API接口或动态链接库内的函数来进行相应的分词操作,得到文本文件对应的分词后的文本文件,并将分词后的文本文件发送至显示界面进行显示。本发明实现了用户界面化操作,方便了用户进行人机交互,能够为用户提供分词结果的文档说明,使非专业人员也能够看懂及使用,通用性强,便利性好。

    权利要求书

    1.一种基于NLPIR中文分词系统的中文分词工具,其特征在于,所述NLPIR中文分词系
    统包括API接口以及动态链接库,所述中文分词工具包括:
    用户输入窗口,用于供用户输入文本文件的路径地址;
    分词函数调用???,用于接收到用户输入的所述路径地址后自动调用相应的API接口
    或所述动态链接库内的函数来进行相应的分词操作,得到所述文本文件对应的分词后的文
    本文件,并将所述分词后的文本文件发送至显示界面进行显示。
    2.根据权利要求1所述的中文分词工具,其特征在于,还包括:
    与所述分词函数调用??橄嗔拇氏蛄亢饔媚??,用于接收到所述分词后的文本
    文件后,调用所述NLPIR中文分词系统的word2vec模型接口对所述分词后的文本文件进行
    处理,得到对应的词向量。
    3.根据权利要求2所述的中文分词工具,其特征在于,还包括:
    与所述词向量函数调用??橄嗔木劾嗪饔媚??,用于当得到所述分词后的文本
    文件对应的所述词向量后,调用所述NLPIR中文分词系统的k-means算法接口对所述词向量
    进行聚类分析,得到聚类分析结果并发送至所述显示界面进行显示。
    4.根据权利要求3所述的中文分词工具,其特征在于,所述显示界面为计算机桌面。
    5.根据权利要求3所述的中文分词工具,其特征在于,所述中文分词工具采用的编写语
    言为C#语言。

    说明书

    一种基于NLPIR中文分词系统的中文分词工具

    技术领域

    本发明涉及中文分词技术领域,特别是涉及一种基于NLPIR中文分词系统的中文
    分词工具。

    背景技术

    由于计算机不能识别中文文本的语义,所以必须将文本进行分词。中文分词指的
    是将一个汉字序列切分成一个一个单独的词,中文分词是文本挖掘的基础,文本挖掘是用
    于基于文本信息的知识发现,对于输入的一段中文,成功的进行中文分词,可以达到使计算
    机能够自动识别语句含义的效果。

    目前的NLPIR中文分词系统只开放了API接口和动态链接库,无法对分词后得到的
    结果进行文档说明,导致非专业人员看不懂也用不了,故通用性弱,便利性差。

    因此,如何提供一种通用性强、便利性好的基于NLPIR中文分词系统的中文分词工
    具是本领域技术人员目前需要解决的问题。

    发明内容

    本发明的目的是提供一种基于NLPIR中文分词系统的中文分词工具,能够为用户
    提供分词结果的文档说明,使非专业人员也能够看懂及使用,通用性强,便利性好。

    为解决上述技术问题,本发明提供了一种基于NLPIR中文分词系统的中文分词工
    具,所述NLPIR中文分词系统包括API接口以及动态链接库,所述中文分词工具包括:

    用户输入窗口,用于供用户输入文本文件的路径地址;

    分词函数调用???,用于接收到用户输入的所述路径地址后自动调用相应的API
    接口或所述动态链接库内的函数来进行相应的分词操作,得到所述文本文件对应的分词后
    的文本文件,并将所述分词后的文本文件发送至显示界面进行显示。

    优选地,还包括:

    与所述分词函数调用??橄嗔拇氏蛄亢饔媚??,用于接收到所述分词后的
    文本文件后,调用所述NLPIR中文分词系统的word2vec模型接口对所述分词后的文本文件
    进行处理,得到对应的词向量。

    优选地,还包括:

    与所述词向量函数调用??橄嗔木劾嗪饔媚??,用于当得到所述分词后的
    文本文件对应的所述词向量后,调用所述NLPIR中文分词系统的k-means算法接口对所述词
    向量进行聚类分析,得到聚类分析结果并发送至所述显示界面进行显示。

    优选地,所述显示界面为计算机桌面。

    优选地,所述中文分词工具采用的编写语言为C#语言。

    本发明提供了一种基于NLPIR中文分词系统的中文分词工具,包括用户输入窗口
    以及分词函数调用???,用户只需要输入文本文件的路径地址,即可从显示界面获得分词
    后的文本文件??杉?,本发明提供的工具实现了用户界面化操作,方便了用户进行人机交
    互,且能够为用户提供分词结果的文档说明,使非专业人员也能够看懂及使用,通用性强,
    便利性好,提高了用户体验。

    附图说明

    为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所
    需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施
    例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获
    得其他的附图。

    图1为本发明提供的一种基于NLPIR中文分词系统的中文分词工具的结构示意图。

    具体实施方式

    本发明的核心是提供一种基于NLPIR中文分词系统的中文分词工具,能够为用户
    提供分词结果的文档说明,使非专业人员也能够看懂及使用,通用性强,便利性好。

    为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例
    中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是
    本发明一部分实施例,而不是全部的实施例?;诒痉⒚髦械氖凳├?,本领域普通技术人员
    在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明?;さ姆段?。

    本发明提供了一种基于NLPIR中文分词系统的中文分词工具,NLPIR中文分词系统
    包括API接口以及动态链接库,参见图1所示,图1为本发明提供的一种基于NLPIR中文分词
    系统的中文分词工具的结构示意图。中文分词工具包括:

    用户输入窗口11,用于供用户输入文本文件的路径地址;

    分词函数调用???2,用于接收到用户输入的路径地址后自动调用相应的API接
    口或动态链接库内的函数来进行相应的分词操作,得到文本文件对应的分词后的文本文
    件,并将分词后的文本文件发送至显示界面13进行显示。

    可以理解的是,这里的用户输入窗口11通过显示界面13进行显示,即本发明中文
    分词工具具体为桌面软件,软件打开后即在显示界面13上弹出用户输入窗口11。

    其中,NLPIR中文分词系统采用深度神经网络模型,能够实现文本内容提取、文本
    分类和文本过滤的操作,具体可应用于垃圾信息屏蔽、敏感信息审查等领域;该系统采用层
    叠隐马尔科夫模型,还支持中英文分词和词性标注等操作,并能够利用信息熵计算每个候
    选词的上下文条件熵,实现文本中出现的人名、地名等关键词提取。NLPIR中文分词系统包
    括有动态链接库以及多个API接口,每个API接口代表一种函数操作,动态链接库内包括有
    多个函数,通过调用API接口以及动态链接库内的函数即能够实现相应的操作,具体的,这
    里的操作指的是上述NLPIR中文分词系统所能实现的操作。

    作为优选地,中文分词工具还包括:

    与分词函数调用???2相连的词向量函数调用???4,用于接收到分词后的文本
    文件后,调用NLPIR中文分词系统的word2vec模型接口对分词后的文本文件进行处理,得到
    对应的词向量。

    其中,Word2vec模型利用深度学习的思想及词向量表示方式,可以通过训练把对
    文本内容的处理简化为K维向量空间中的向量运算,其基本思想是通过训练将每个词映射
    成K维实数向量(K一般为模型中的超参数),通过词向量之间的距离(比如cosine相似度、欧
    氏距离等)来判断它们之间的语义相似度。Word2vec模型输出的词向量可以被用来做比如
    聚类分析、找同义词、词性分析等工作。这里的聚类分析指的是将物理或抽象对象的集合分
    组为由类似的对象组成的多个类的分析过程。

    可以理解的是,通过生成词向量,即可采用该词向量进行后续聚类分析、找同义
    词、词性分析等工作,方便后续操作。

    进一步的,中文分词工具还包括:

    与词向量函数调用???4相连的聚类函数调用???5,用于当得到分词后的文本
    文件对应的词向量后,调用NLPIR中文分词系统的k-means算法接口对词向量进行聚类分
    析,得到聚类分析结果并发送至显示界面13进行显示。

    其中,K-means算法是一种基于原型的目标函数聚类方法,以欧式距离作为相似度
    测度,它是用于求取对应某一初始聚类中心向量的、使得评价指标最小的最优分类。

    另外,这里的显示界面13为计算机桌面。这里的计算机可以为32位的或64位的计
    算机,当然,本发明对此不作限定。

    具体的,本发明中的中文分词工具采用的编写语言为C#语言。

    本发明提供了一种基于NLPIR中文分词系统的中文分词工具,包括用户输入窗口
    以及分词函数调用???,用户只需要输入文本文件的路径地址,即可从显示界面获得分词
    后的文本文件??杉?,本发明提供的工具实现了用户界面化操作,方便了用户进行人机交
    互,且能够为用户提供分词结果的文档说明,使非专业人员也能够看懂及使用,通用性强,
    便利性好,提高了用户体验。

    需要说明的是,在本说明书中,术语“包括”、“包含”或者其任何其他变体意在涵盖
    非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要
    素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备
    所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在
    包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

    对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。
    对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的
    一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明
    将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一
    致的最宽的范围。

    关于本文
    本文标题:一种基于NLPIR中文分词系统的中文分词工具.pdf
    链接地址://www.4mum.com.cn/p-6027179.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 双色球技巧准确率100 极速时时可以玩吗 大乐透电子投注单有效吗 王中王36码资料 重庆时时彩任二如何玩才稳赚 江苏时时开奖结果走势图 后三复式杀号公式 福彩快三是怎么玩的 体彩pk10 三分快三大小单双稳赚买法 快三技巧数学公式 pk10安卓版软件下载 时时彩个位单双的公式 排列三组三规律与技巧 彩票合作协议 江苏时时票开奖结果