• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 11
    • 下载费用:30 金币  

    重庆时时彩玩家交流群: 一种自动撰写特定稿件的方法.pdf

    关 键 词:
    一种 自动 撰写 特定 稿件 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201611207712.6

    申请日:

    2016.12.23

    公开号:

    CN106777193A

    公开日:

    2017.05.31

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20161223|||公开
    IPC分类号: G06F17/30; G06N99/00(2010.01)I 主分类号: G06F17/30
    申请人: 李鹏
    发明人: 李鹏
    地址: 100054 北京市丰台区菜户营甲86号院3号楼1单元602
    优先权:
    专利代理机构: 北京细软智谷知识产权代理有限责任公司 11471 代理人: 付登云
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201611207712.6

    授权公告号:

    |||

    法律状态公告日:

    2017.06.23|||2017.05.31

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明涉及一种自动撰写特定稿件的方法,属于信息处理领域。本发明根据标题相似度对文本文档进行聚类处理,基于TF??IDF建立VSM模型,将文本转换为向量模式,使本发明方案中考虑了词义,对中文文稿撰写来说更加合理化和准确;利用MI对向量空间模型VSM进行降维处理,选取提供给机器学习分类器的有效特征;通过机器学习分类器智能学习,获得初稿文章,通过ILP处理器对初稿文章语句进行整合,对整篇文章中的重复句子进行自动去除,形获得质量更好的终稿文章;本发明在撰写中文稿件时能够考虑语义、词义,具有智能学习的优点,通过对语句的优化以整合文章,本发明可适用于多种领域的特定稿件撰写。

    权利要求书

    1.一种自动撰写特定稿件的方法,其特征在于:包括如下步骤:
    步骤S1、确定待撰写特定稿件的所属领域,通过网络爬虫从网络爬取所述待撰写特定
    稿件所属领域的k个网页,k>2,每个所述网页具有n个子标题,n≥2,提取所述网页的第i个
    子标题以及第i个子标题的正文,并生成第i个文本文档,其中,第i个子标题作为第i个文本
    文档的标题,第i个子标题的正文作为第i个文本文档的正文,i=1、.....、n;
    步骤S2、设定标题相似度阈值,对比任意两个所述文本文档的标题相似度,将所述文本
    文档聚类处理为多个聚类,每个所述聚类中任意两个所述文本文档的标题相似度大于等于
    标题相似度阈值,每个所述聚类以所述聚类中出现频率最高的标题作为所述聚类的名称;
    步骤S3、统计各个所述聚类中所述文本文档的数量,根据各个所述聚类中所述文本文
    档数量由多至少顺序对各个所述聚类排序,选取前m个所述聚类的名称作为所述待撰写特
    定稿件的子标题,其中,m=(n1+n2+.....+nk)/k,k表示从网络爬取所述网页的数量,nk表示
    第k个网页的子标题数量;
    步骤S4、通过TF-IDF算法分别对前m个所述聚类中的所述文本文档进行处理,获取每个
    所述聚类中所述文本文档的特征词,将所述聚类中的所述文本文档建立向量空间模型VSM,
    利用MI对向量空间模型VSM进行降维处理,选取提供给机器学习分类器的有效特征;
    步骤S5、经过步骤S4处理的前m个所述聚类,将每个所述聚类对应唯一一个所述机器学
    习分类器,将每个所述聚类中的所述文本文档分成两个部分,其中,对一部分所述文本文档
    进行标注,训练所述机器学习分类器;另一部分所述文本文档用于测试训练过的所述机器
    学习分类器,得到相应的错误率,根据错误率对所述机器学习分类器进行调整;
    步骤S6、构造所述待撰写特定稿件的查询语句,根据所述查询语句从网络爬取备选内
    容,将经过调整的所述机器学习分类器对爬取的所述备选内容的段落进行分类,输出形成
    初稿文章;
    步骤S7、所述机器学习分类器对所述备选内容进行分类,输出形成所述初稿文章时,根
    据所述备选内容中的段落被所述机器学习分类器判定作为该所述机器学习分类器输出的
    概率,所述机器学习分类器对输出的段落进行评分,且将该段落的分数作为该段落内每个
    句子的分数;
    根据所述初稿文章中各个句子的分数,建立目标函数和第一约束条件,通过ILP处理器
    对所述初稿文章语句进行整合,形成终稿文章;
    其中,
    目标函数为:
    <mrow> <mi>arg</mi> <mi> </mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> <munder> <mo>&Sigma;</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> </munder> <msub> <mi>x</mi> <msub> <mi>s</mi> <mi>i</mi> </msub> </msub> <msub> <mi>e</mi> <msub> <mi>s</mi> <mi>i</mi> </msub> </msub> </mrow>
    <mrow> <mo>&ForAll;</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <msub> <mi>x</mi> <msub> <mi>s</mi> <mi>i</mi> </msub> </msub> <mo>&Element;</mo> <mo>{</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>}</mo> </mrow>
    式中,表示句子指示变量,表示句子的分数,si表示句子编号。
    第一约束条件为:
    <mrow> <mo>(</mo> <msub> <mi>x</mi> <msub> <mi>s</mi> <mi>i</mi> </msub> </msub> <mo>+</mo> <msub> <mi>x</mi> <msub> <mi>s</mi> <mi>j</mi> </msub> </msub> <mo>)</mo> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mo>(</mo> <msub> <mi>x</mi> <msub> <mi>s</mi> <mi>i</mi> </msub> </msub> <mo>,</mo> <msub> <mi>x</mi> <msub> <mi>s</mi> <mi>j</mi> </msub> </msub> <mo>)</mo> <mo>&le;</mo> <mn>1</mn> </mrow>
    式中,和分别表示两个句子。
    2.根据权利要求1所述的自动撰写特定稿件的方法,其特征在于:步骤S2中,采用
    Levenshtein算法计算任意两个所述文本文档的标题相似度。
    3.根据权利要求2所述的自动撰写特定稿件的方法,其特征在于:步骤S2中,所述相似
    度阈值为0.5。
    4.根据权利要求1所述的自动撰写特定稿件的方法,其特征在于:步骤S2中,还包括:对
    未形成聚类的所述文本文档作删除处理。
    5.根据权利要求1所述的自动撰写特定稿件的方法,其特征在于:步骤S4中,利用MI对
    向量空间模型VSM空间降维处理的步骤方法为:
    <mrow> <mtable> <mtr> <mtd> <mrow> <mi>I</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <mi>M</mi> <mi>I</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>log</mi> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>*</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> <mo>=</mo> <mi>log</mi> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>|</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
    <mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>I</mi> <mi>I</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <mi>M</mi> <mi>I</mi> <mo>=</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>M</mi> <mi>I</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>
    <mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>I</mi> <mi>I</mi> <mi>I</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <mi>&alpha;</mi> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>-</mo> <mover> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mo>&OverBar;</mo> </mover> <mo>|</mo> </mrow> <mover> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mo>&OverBar;</mo> </mover> </mfrac> </mrow> </mtd> </mtr> </mtable> </mfenced>
    IV.F=P(t|ci)
    C=P(ci|t)
    I~IV中,fi(t)表示在ci聚类中包含特征t的文件总数,表示平均每个聚类中包含
    特征t的文件数,α表示平衡因子,F代表类ci中出现单词t的概率,C代表出现特征t的段落属
    于类ci的概率。
    6.根据权利要求5所述的自动撰写特定稿件的方法,其特征在于:利用MI对向量空间模
    型VSM空间降维处理的步骤方法还包括:
    V.BMI=α*F*C*MI
    BMI表示最终使用的带平衡因子校正的互信息标准。
    7.根据权利要求1所述的自动撰写特定稿件的方法,其特征在于:步骤S6中,设定爬取
    所述备选内容的长度阈值,爬取长度大于等于长度阈值的所述备选内容。
    8.根据权利要求7所述的自动撰写特定稿件的方法,其特征在于:所述备选内容的长度
    阈值为15个字符。
    9.根据权利要求1至8任一项所述的自动撰写特定稿件的方法,其特征在于:步骤S7中,
    还包括第二约束条件:
    <mrow> <mo>&ForAll;</mo> <mi>e</mi> <mo>,</mo> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <mi>e</mi> </mrow> </munder> <msub> <mi>x</mi> <msub> <mi>s</mi> <mi>i</mi> </msub> </msub> <mo>&GreaterEqual;</mo> <mi>N</mi> <mrow> <mo>(</mo> <mi>e</mi> <mo>)</mo> </mrow> <mi>t</mi> </mrow>
    式中,N(e)表示被选择的段落中句子总数,t表示每个段落最少需要保留句子的比例。
    10.根据权利要求9所述的自动撰写特定稿件的方法,其特征在于:t设置为1/3。

    说明书

    一种自动撰写特定稿件的方法

    技术领域

    本发明属于信息处理领域,具体涉及一种自动撰写特定稿件的方法。

    背景技术

    所谓特定稿件是指有固定写作模式的特定领域文本,如维基百科、百度百科、产品
    宣传材料等等。特定稿件的撰写模式是根据媒体或者宣传要求约定俗成的客观存在的,这
    类特定稿件由一个总标题和若干子标题组成,每个子标题后有一段或多段文字对子标题内
    容进行扩展。

    现有技术虽然提供了特定稿件的自动撰写的方案,但却存在如下缺陷:

    1、现有技术特定稿件的自动撰写是基于英文文本和wiki百科的实现,但中文而
    言,自然语言处理在细节上会有很多不同,所以不能直接适用;

    2、现有技术特定稿件的自动撰写中采用的分类方法为最大熵分类,这样的分类不
    能智能地学习参数特征,然后智能分类;

    3、现有技术特定稿件的自动撰写时获取参数基于统计学的内容,比如有些参数为
    单词数量,文本中数字的多少等,忽略一些特定领域内词义的对分类的重要影响。

    4、现有技术特定稿件的自动撰写现有技术中只对美国演员和疾病两个方面做了
    尝试;

    5、现有技术特定稿件的自动撰写时,ILP步骤基于的是段落,这样很容易把特别合
    适的段落删除,而选取只是相似度低但并不是最贴切的段落。

    发明内容

    有鉴于此,本发明的目的在于克服现有技术的不足,提供一种智能化的自动撰写
    特定稿件的方法。

    为实现以上目的,本发明采用如下技术方案:

    一种自动撰写特定稿件的方法,包括如下步骤:

    步骤S1、确定待撰写特定稿件的所属领域,通过网络爬虫从网络爬取所述待撰写
    特定稿件所属领域的k个网页,k>2,每个所述网页具有n个子标题,n≥2,提取所述网页的
    第i个子标题以及第i个子标题的正文,并生成第i个文本文档,其中,第i个子标题作为第i
    个文本文档的标题,第i个子标题的正文作为第i个文本文档的正文,i=1、.....、n;

    步骤S2、设定标题相似度阈值,对比任意两个所述文本文档的标题相似度,将所述
    文本文档聚类处理为多个聚类,每个所述聚类中任意两个所述文本文档的标题相似度大于
    等于标题相似度阈值,每个所述聚类以所述聚类中出现频率最高的标题作为所述聚类的名
    称;

    步骤S3、统计各个所述聚类中所述文本文档的数量,根据各个所述聚类中所述文
    本文档数量由多至少顺序对各个所述聚类排序,选取前m个所述聚类的名称作为所述待撰
    写特定稿件的子标题,其中,m=(n1+n2+.....+nk)/k,k表示从网络爬取所述网页的数量,nk
    表示第k个网页的子标题数量;

    步骤S4、通过TF-IDF算法分别对前m个所述聚类中的所述文本文档进行处理,获取
    每个所述聚类中所述文本文档的特征词,将所述聚类中的所述文本文档建立向量空间模型
    VSM,利用MI对向量空间模型VSM进行降维处理,选取提供给机器学习分类器的有效特征;

    步骤S5、经过步骤S4处理的前m个所述聚类,将每个所述聚类对应唯一一个所述机
    器学习分类器,将每个所述聚类中的所述文本文档分成两个部分,其中,对一部分所述文本
    文档进行标注,训练所述机器学习分类器;另一部分所述文本文档用于测试训练过的所述
    机器学习分类器,得到相应的错误率,根据错误率对所述机器学习分类器进行调整;

    步骤S6、构造所述待撰写特定稿件的查询语句,根据所述查询语句从网络爬取备
    选内容,将经过调整的所述机器学习分类器对爬取的所述备选内容的段落进行分类,输出
    形成初稿文章;

    步骤S7、所述机器学习分类器对所述备选内容进行分类,输出形成所述初稿文章
    时,根据所述备选内容中的段落被所述机器学习分类器判定作为该所述机器学习分类器输
    出的概率,所述机器学习分类器对输出的段落进行评分,且将该段落的分数作为该段落内
    每个句子的分数;

    根据所述初稿文章中各个句子的分数,建立目标函数和第一约束条件,通过ILP处
    理器对所述初稿文章语句进行整合,形成终稿文章;

    其中,

    目标函数为:



    式中,表示句子指示变量,表示句子的分数,si表示句子编号。

    第一约束条件为:


    式中,和分别表示两个句子。

    进一步地,步骤S2中,采用Levenshtein算法计算任意两个所述文本文档的标题相
    似度。

    进一步地,步骤S2中,所述相似度阈值为0.5。

    进一步地,步骤S2中,还包括:对未形成聚类的所述文本文档作删除处理。

    进一步地,步骤S4中,利用MI对向量空间模型VSM空间降维处理的步骤方法为:

    I.

    II.

    III.

    IV.F=P(t|ci)

    C=P(ci|t)

    I~IV中,fi(t)表示在ci聚类中包含特征t的文件总数,表示平均每个聚类中
    包含特征t的文件数,α表示平衡因子,F代表类ci中出现单词t的概率,C代表出现特征t的段
    落属于类ci的概率。

    进一步地,利用MI对向量空间模型VSM空间降维处理的步骤方法还包括:

    V.BMI=α*F*C*MI

    BMI表示最终使用的带平衡因子校正的互信息标准。

    进一步地,步骤S6中,设定爬取所述备选内容的长度阈值,爬取长度大于等于长度
    阈值的所述备选内容。

    进一步地,所述备选内容的长度阈值为15个字符。

    进一步地,步骤S7中,还包括第二约束条件:


    式中,N(e)表示被选择的段落中句子总数,t表示每个段落最少需要保留句子的比
    例。

    进一步地,t设置为1/3。

    本发明采用以上技术方案,至少具备以下有益效果:

    本发明提供一种自动撰写特定稿件的方法,根据标题相似度对文本文档进行聚类
    处理,基于TF-IDF建立VSM模型,将文本转换为向量模式,这样使本发明方案中考虑了词义、
    语义,对中文文稿撰写来说更加合理化和准确;利用MI对向量空间模型VSM进行降维处理,
    选取提供给机器学习分类器的有效特征;本发明通过机器学习分类器智能学习,获得初稿
    文章,通过ILP处理器对初稿文章语句进行整合,对整篇文章中的重复句子进行自动去除,
    形获得质量更好的终稿文章;本发明在撰写中文稿件时能够考虑语义、词义,具有智能学习
    的优点,通过对语句的优化以整合文章,本发明可适用于多领域的特定稿件撰写,如手机评
    测文章、汽车评测文章、房地产宣传文章等等。

    附图说明

    为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现
    有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
    发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
    根据这些附图获得其他的附图。

    图1为本发明一种自动撰写特定稿件的方法的步骤流程示意图。

    具体实施方式

    为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行
    详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例?;?br />于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有
    其它实施方式,都属于本发明所?;さ姆段?。

    名词解释:

    TF-IDF,Term Frequency-Inverse Document Frequency缩写,中文叫做词频-逆
    文档频率。是一种用于信息检索与数据挖掘的常用加权,TF-IDF的主要思想是:如果某个词
    或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语
    具有很好的类别区分能力。

    VSM,Vector space model缩写,中文叫做向量空间模型。

    MI,Mutual Information缩写,中文叫做互信息,在概率论和信息论中,两个随机
    变量的互信息。

    ILP,Integer Linear Programming缩写,中文叫做整数线性规划,规划中的变量
    (全部或部分)限制为整数,称为整数规划。若在线性模型中,变量限制为整数,则称为整数
    线性规划。

    如图1所示,本发明提供一种自动撰写特定稿件的方法,包括如下步骤:

    步骤S1、确定待撰写特定稿件的所属领域,通过网络爬虫从网络爬取所述待撰写
    特定稿件所属领域的k个网页,k>2,每个所述网页具有n个子标题,n≥2,提取所述网页的
    第i个子标题以及第i个子标题的正文,并生成第i个文本文档,其中,第i个子标题作为第i
    个文本文档的标题,第i个子标题的正文作为第i个文本文档的正文,i=1、.....、n;

    通过该S1步骤可知,从网络中获取可供学习的文本库,本发明根据获取网页的子
    标题及子标题的正文生成文本文档,文本文档的标题对应为网页中的一个子标题,文本文
    档的正文为文本文档对应的子标题在网页中的正文,一方面可以通过标题对文本文档进行
    聚类,另一方面,文本文档的正文与其标题是互相一一对应的关系,这样文本文档经聚类处
    理后,文本文档的正文也属于一个聚类,而不会出现文本文档正文之间不相干的问题。

    步骤S2、设定标题相似度阈值,对比任意两个所述文本文档的标题相似度,将所述
    文本文档聚类处理为多个聚类,每个所述聚类中任意两个所述文本文档的标题相似度大于
    等于标题相似度阈值,每个所述聚类以所述聚类中出现频率最高的标题作为所述聚类的名
    称;

    通过该S2步骤可知,本发明通过标题相似度实现文本文档的聚类处理,通过设定
    标题相似度阈值对文本文档进行过滤处理,保证形成聚类的文本文档的相似性更高,能够
    更为精确地获取用于机器学习的有效特征,保证有效特征更为集中分布,而不会出现零散
    的分布的缺点。本发明中可以采用Levenshtein算法计算任意两个所述文本文档的标题相
    似度。为了保证形成聚类的文本文档的相似性更高,能够更为精确地获取用于机器学习的
    有效特征,保证有效特征更为集中分布,本发明中的所述相似度阈值可设定为0.5。

    另外,本发明步骤S2中,未形成聚类的所述文本文档对本发明来说,可能具有干扰
    性,本发明中可以对未形成聚类的所述文本文档作删除处理,实现删除干扰点,排除与本发
    明无关的文本文档。

    步骤S3、统计各个所述聚类中所述文本文档的数量,根据各个所述聚类中所述文
    本文档数量由多至少顺序对各个所述聚类排序,选取前m个所述聚类的名称作为所述待撰
    写特定稿件的子标题,其中,m=(n1+n2+.....+nk)/k,k表示从网络爬取所述网页的数量,nk
    表示第k个网页的子标题数量;

    通过该S3步骤可知,通过该步骤可以确定待撰写特定稿件的子标题框架,该步骤
    中,为了使本发明撰写出最为适合的文章,本发明对聚类按聚类中的文档数量由多至少顺
    序对各个聚类排序,优选前m个聚类的名称作为待撰写特定稿件的子标题,使本发明特定稿
    件的子标题的匹配度最高;另外,该步骤也给出了本发明待撰写特定稿件的子标题数量m的
    优选方案,该方案中通过将从网络爬取的网页的子标题数量的平均值作为本发明的特定稿
    件的子标题数量,使本发明形成的特定稿件子标题数量设置贴近现有技术的文章的子标题
    数量设置,保证本发明的特定稿件子标题数量合理和合适。

    步骤S4、通过TF-IDF算法分别对前m个所述聚类中的所述文本文档进行处理,获取
    每个所述聚类中所述文本文档的特征词,将所述聚类中的所述文本文档建立向量空间模型
    VSM,利用MI对向量空间模型VSM进行降维处理,选取提供给机器学习分类器的有效特征;

    通过该S4步骤可知,该步骤中将文本转换为向量模式,这样使本发明更全面完善
    地考虑了词义、语义,克服现有技术中获取参数基于单词数量,文本中数字的多少等,忽略
    词义的对分类的影响的不足,使本发明对中文文稿撰写来说更加合理化和准确;利用MI对
    向量空间模型VSM进行降维处理,选取提供给机器学习分类器的有效特征。

    对于步骤S4,本发明还提供了一种利用MI对向量空间模型VSM空间降维处理的优
    选步骤方法:

    I.

    II.

    III.

    IV.F=P(t|ci)

    C=P(ci|t)

    I~IV中,fi(t)表示在ci聚类中包含特征t的文件总数,表示平均每个聚类中
    包含特征t的文件数,α表示平衡因子,F代表类ci中出现单词t的概率,C代表出现特征t的段
    落属于类ci的概率。

    对于上述优选方案,没有考虑词频因素影响,会出现一味地找低频词的倾向,本发
    明还提供如下解决方案:

    利用MI对向量空间模型VSM空间降维处理的步骤方法还包括:

    V.BMI=α*F*C*MI

    BMI表示最终使用的带平衡因子校正的互信息标准,用于最终的特征选择。通过该
    方案,考虑了词频因素影响,平衡了一味地找低频词的倾向。

    步骤S5、经过步骤S4处理的前m个所述聚类,将每个所述聚类对应唯一一个所述机
    器学习分类器,将每个所述聚类中的所述文本文档分成两个部分,其中,对一部分所述文本
    文档进行标注,训练所述机器学习分类器;另一部分所述文本文档用于测试训练过的所述
    机器学习分类器,得到相应的错误率,根据错误率对所述机器学习分类器进行调整;

    通过该S5步骤可知,该步骤中采用监督式机器学习分类器进行分类,这样的分类
    能够更动态的学习参数特征,进而获得更有效更智能的分类结果。该步骤中,不同的机器学
    习分类器可以采用同一种机器学习算法,如SVM,Naive Bayes等机器学习算法中的一种,也
    可以采用不同的机器学习算法。

    步骤S6、构造所述待撰写特定稿件的查询语句,根据所述查询语句从网络爬取备
    选内容,将经过调整的所述机器学习分类器对爬取的所述备选内容的段落进行分类,输出
    形成初稿文章;

    通过该S6步骤可知,通过本步骤可获得初稿文章,为了使爬取的备选内容更加适
    用,本发明还提供如下改进方案,步骤S6中,设定爬取所述备选内容的长度阈值,爬取长度
    大于等于长度阈值的所述备选内容,该方案通过设定爬取备选内容的长度阈值,在爬取时
    对备选内容进行筛选过滤,仅爬取长度大于等于长度阈值的备选内容,这样一方面能较大
    程度地过滤到低质量的备选内容,另一方面也提高爬取效率。本发明中为了使长度阈值设
    定合理,获取有用的备选内容,所述备选内容的长度阈值可以设定为15个字符。

    步骤S7、所述机器学习分类器对所述备选内容进行分类,输出形成所述初稿文章
    时,根据所述备选内容中的段落被所述机器学习分类器判定作为该所述机器学习分类器输
    出的概率,所述机器学习分类器对输出的段落进行评分,且将该段落的分数作为该段落内
    每个句子的分数;

    根据所述初稿文章中各个句子的分数,建立目标函数和第一约束条件,对所述初
    稿文章语句进行整合,形成终稿文章;

    其中,

    目标函数为:



    式中,表示句子指示变量(句子存在表示1,不存在表示0),表示句子的分数,
    si表示句子编号。

    第一约束条件为:


    式中,和分别表示两个句子。

    本发明经过步骤S6获得初稿文章,由于初稿文章是有很多不同来源的段落组织而
    成,有可能这些段落内部有一些重复的句子,现有技术特定稿件的自动撰写时,假如有两个
    段落存在了重复语句,其解决方法是将存在重复语句的两个段落删除一个,这样就很容易
    发生把特别合适的段落删除,而选取只是相似度低但并不是最贴切的段落,现有技术基于
    段落处理重复语句的方法,得到的稿件质量并不是很高的。为了解决上述问题,使本发明的
    特定稿件质量更好,本发明设置步骤7解决该问题,对整篇文章中的重复句子本身进行自动
    筛选去除。

    步骤7中,通过第一约束条件解决了两个句子之间相似度的问题;但有可能会出现
    删除太多句子导致段落过于简单的问题,对此本发明还提供如下改进方案,具体为:步骤S7
    中,还包括第二约束条件:


    式中,N(e)表示被选择的段落中句子总数,t表示每个段落最少需要保留句子的比
    例。

    上述改进方案通过设置第二约束条件,可使每个段落中尽量保证至少有一定比例
    的句子能够得到保留。优选地,第二约束条件中,t可设置为1/3,可使每个段落中尽量保证
    至少有1/3比例的句子能够得到保留。

    本发明的特定稿件可以为手机评测文章、汽车评测文章、房地产宣传文章等等。

    以上所述,仅为本发明的具体实施方式,但本发明的?;し段Р⒉痪窒抻诖?,任何
    熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵
    盖在本发明的?;し段е?。因此,本发明的?;し段вσ运鋈ɡ蟮谋;し段?。

    关于本文
    本文标题:一种自动撰写特定稿件的方法.pdf
    链接地址://www.4mum.com.cn/p-6021007.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 金鹰团队pk106码计划 重庆时时三星单选走势图 北京pk10玩法技巧攻略 彩神全能计划 财富计划软件 万人龙虎计划 北京塞车pk10计划在线 360时时走势图 体育彩票最晚购买时间 组六3d技巧 掷骰子比大小规则 大乐透开奖结果彩票 赛车pk10技巧玩法分析 香港慈善网67555 论坛 福彩双色球网上投注 买什么彩稳赚不赔