• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 6
    • 下载费用:30 金币  

    重庆时时彩计划群靠谱吗: 一种文本特征线及其提取方法.pdf

    关 键 词:
    一种 文本 特征 及其 提取 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201010125010.X

    申请日:

    2010.03.12

    公开号:

    CN102193910A

    公开日:

    2011.09.21

    当前法律状态:

    撤回

    有效性:

    无权

    法律详情: 发明专利申请公布后的视为撤回IPC(主分类):G06F 17/27申请公布日:20110921|||实质审查的生效IPC(主分类):G06F 17/27申请日:20100312|||公开
    IPC分类号: G06F17/27 主分类号: G06F17/27
    申请人: 复旦大学
    发明人: 曾剑平; 吴承荣
    地址: 200433 上海市邯郸路220号
    优先权:
    专利代理机构: 上海正旦专利代理有限公司 31200 代理人: 包兆宜
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201010125010.X

    授权公告号:

    ||||||

    法律状态公告日:

    2013.07.10|||2011.12.28|||2011.09.21

    法律状态类型:

    发明专利申请公布后的视为撤回|||实质审查的生效|||公开

    摘要

    本发明属文本分析领域。具体涉及一种文本特征线及其提取方法。所述的文本特征线体为二维坐标系中的不规则曲线,该坐标系的横轴表示词,按该词在文本中出现的顺序排列;纵坐标表示文本中的段落,按该段落位置先后顺序排列;坐标系中的一个点表示相应的段落中出现了某个词,所述点构成描述过程动态性的特征线。本发明能反映文本中各个段落在描述话题时引入新词语的速度,反映文本中话题描述的动态性,和反映文本及作者兴趣的特征。本发明所提出文本特征线可为各种文本话题分析任务提供新的特征选择方法及分析思路。

    权利要求书

    1.一种文本特征线,其特征在于,所述的文本特征线体为二维坐标系中的不规则曲线,该坐标系的横轴表示词,该坐标系的纵坐标表示文本中的段落,坐标系中的一个点表示相应的段落中出现了某个词。2.按权利要求1所述的文本特征线,其特征在于,所述的横轴表示的词,按该词在文本中出现的顺序排列;所述的纵坐标中的段落,按该段落位置先后顺序排列;所述的坐标系中的点构成描述过程动态性的特征线。3.权利要求1所述的文本特征线提取方法,其特征在于,通过下述步骤:(1)对文本进行预处理,包括分词、词性标注以及停用词过滤;(2)自动识别处理后的文本中的段落,以回车换行符号作为一个段落的结束标志;(3)设置空列表,并对每个段落进行如下处理:提取段落中的词,判断该词是否存在于列表中,如果不存在,则将该词及段落标识插入列表中;(4)根据所产生的列表在二维坐标系中标注特征点,所述特征点构成相应的文本特征线。4.按权利要求1所述的文本特征线,其特征在于,所述的文本特征线为一条递减曲线。

    说明书

    一种文本特征线及其提取方法

    技术领域

    本发明属文本分析领域。涉及文本话题分析方法,具体涉及一种提取文本特征线的方法。

    背景技术

    互联网上每天都会产生大量的文本信息,如各种新闻报道、博客日志等等。此外,许多海量信息库,如专利信息库、科技论文文献库等,这些数据库中同样都包含了大量的文本信息。对这些文本进行各种自动化分析是目前及今后许多应用的主要需求之一,例如从文本中提取话题,从文本中发现作者的兴趣,从一系列的相关文本集中发现话题变化趋势,等等。

    由于文本是一种非结构化数据,在进行自动化分析之前,从文本中提取特征是必须的步骤。现有的文本特征主要是基于关键词分析,主要可以归纳为以下几类:一是以词频为基础,如词频特征、TF-IDF(termfrequency-inverse?document?frequency)[1];二是,以词语的词性为基础,如基于文本中的实体名词、动词等为特征词的方法[3];三是,以简单语义为基础,例如以文本中时间、地点、人物及事件过程的关键词为特征[2]。因此,相应的特征提取方法,首先是对中文文本进行分词及词性标注,在必要时运用实体识别技术进行实体提取,然后结合不同特征,计算相应的统计量,或构造语义结构。

    上述特征在文本话题的自动提取分析及文本内容的自动理解等方面,起了关键作用。随着文本话题分析需求的深入发展,人们需要一种方法能够刻画文本作者描述话题的动态过程,从而通过现有特征分析获得的作者兴趣的基础上,能更进一步地分析作者的一些话题描述方式。而现有的各种特征无法为这个需求提供支持,如:1.现有以词频为基础的各种特征是基于词包假设,不考虑词之间的相关性,也不考虑词在文本中的位置,因此,这类特征无法体现文本中话题描述过程中所体现出来的话题动态特性。2.基于语义及词性为基础的特征,虽然考虑了词的相关性,但是它们主要还是用于文本话题的理解,而目的不是在于文本话题描述过程的动态特征。

    由此可见,为了刻画作者描述话题过程的动态特征,需要引入一种新的文本特征,才能实现自动化分析。

    与本发明相关的现有技术有:

    [1]Salton,G..,&McGill,M.(1983).Introduction?to?ModernInformation?Retrieval.New?York:McGraw-Hill.[2]Makkonen,J.,Ahonen-myka,H.,&?Salmenkivi,M.(2004).Simple?Semantics?in?TopicDetection?and?tracking.Information?Retrieval,7,347-368.[3]佟晓筠,宋国龙,刘强,张俐,姜伟.中文分词及词性标注一体化模型研究.计算机科学,2007,34(9):174-175+212.[4]马光志,李专.基于特征词的自动分词研究.华中科技大学学报(自然科学版),2003,31(3):60-62.

    发明内容

    本发明的目的主要是针对现有技术中各种文本特征在刻画话题描述过程动态性方面的不足,提出一种新的文本特征。具体涉及一种文本特征线及其提取方法。本发明是基于数据分析方法从文本中提取的特征描述。与现有的用于文本话题分析的各种特征不同,该特征在一定程度上体现了文本中新话题出现的速度,

    具体而言,本发明提供的文本特征线,其特征在于,所述的文本特征线体现为二维坐标系中的不规则曲线,该坐标系的横轴表示词,按照词在文本中出现的顺序排列,该坐标系的纵坐标表示文本中的段落,按照段落位置先后顺序排列;坐标系中的一个点表示相应的段落中出现了某个词,所有这些点则构成一条反映文本话题描述过程动态性的特征线-文本特征线。

    本发明的文本特征线,通过下述步骤提?。?/p>

    (1)对文本进行预处理,包括分词、词性标注以及停用词过滤等;

    (2)自动识别处理后的文本中的段落,一般以回车换行符号作为一个段落的结束标志;

    (3)设置一个空列表,并对每个段落进行如下处理:

    提取段落中的词,判断这个词是否存在于列表中,如果不存在,则将该词及段落标识插入列表中;

    (4)根据所产生的列表在二维坐标系中标注特征点,由这些点所构成的线即为相应的文本特征线。

    本发明的文本特征线在总体上通常表现为一条递减曲线,在某个点或区域内的斜率则反映了递减的速度,而这个递减速度与作者描述新话题的倾向有关。

    本发明提出了新的文本特征线的概念,并作为文本话题描述动态性的一种特征,为文本分析任务提供了一种新的可选特征。

    本发明具有如下优点:(1)通过判断段落中是否出现新词,构造文本特征线,为文本话题分析提供了一种描述动态特性方面的特征;(2)文本特征线为现有的文本分析任务提供了一种新的可选特征,如按照文本特征线的相似性进行文本归类分析,按照文本特征线斜率变化进行文本作者兴趣分析等;(3)文本特征线的提出,使得文本分析可以突破简单内容分析的局限性,为文本话题分析的手段和方法提供了一种简单而有效的思路。

    为了便于理解,以下将通过具体的附图和实施例对本发明的进行详细地描述。需要特别指出的是,具体实例和附图仅是为了说明,显然本领域的普通技术人员可以根据本文说明,在本发明的范围内对本发明做出各种各样的修正和改变,这些修正和改变也纳入本发明的范围内。

    附图说明

    图1为文本特征提取总体流程图。

    图2为文本特征线示意图。

    具体实施方式

    实施例1文本特征提取

    (1)对文本进行预处理:运用现有的方法,对文本进行分词及词性标注,去除一些常见的停用词[如现有技术3,4中所描述],得到一个标注后的文本;

    (2)文本段落识别:识别文本中的回车换行符号,将文本分割为若干个独立的段落,假设得到的段落数为K;

    (3)设置一个列表T={(p,w)},表中的每个记录,即特征点,包含了段落标识p及词语标识w,开始T置为空,对于每个段落p,进行如下处理:

    按顺序提取段落p中的每个词语w,如果w不存在于T中,则生成记录(p,w)并插入到列表T中。否则继续处理下一个词语;

    (4)根据T构造文本特征线:设置一个二维坐标系,横坐标表示词语标识,从左到右与T中的词语顺序对应;纵坐标表示段落标识,从上到下与T中的段落对应,取出T中的每个记录(p,w),对应于坐标系中的一个点。因此,本发明中,横坐标的表示范围为1到N(N为文本中不同词的个数),纵坐标的表示范围为1到K。

    由上述所得的各个点所构成的线即为文本特征线。由于本发明采用了段落与词语的坐标系,文本特征线在总体上通常表现为一条递减曲线,在某个点或区域内的斜率则反映了递减的速度,而这个递减速度与作者描述新话题的倾向有关。

    从上述提取过程可以看出,本发明在由段落及词语构成的二维平面中构造文本特征线,能反映文本中各个段落在描述话题时引入新词语的速度,能在一定程度上反映文本中话题描述的动态性,和反映文本及作者兴趣的特征。本发明所提出文本特征线可为各种文本话题分析任务提供新的特征选择方法及分析思路。

    实施例2

    示例性的文本特征提取结果如图2所示:选择一篇关于文本话题方面的综述论文,经过文本的预处理,段落分析,生成列表T。T中共包含101个段落,585个不同的词语,即K=101,N-585。将T中的(p,w)映射到二维坐标系中,得到如图2所示的文本特征线。

    关于本文
    本文标题:一种文本特征线及其提取方法.pdf
    链接地址://www.4mum.com.cn/p-5866069.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 彩之网彩民互动首页 新疆时时三星和值 时时宝宝计划免费版 云南时时下载手机版下载安装 双色球开奖时间 赛车值计划软件手机版 幸运飞艇必中计划软件 pk10计划软件手机版 北京pk赛车龙虎技巧论坛 分分时时彩稳赚不赔方案 118手机平特论坛 时时彩独胆稳赚技巧 手机pk10免费计划软件苹果 快三一天稳赚2000 手机投注平台 中国体肓彩票七星彩开