• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 13
    • 下载费用:30 金币  

    重庆时时彩官网360: 一种基于语义的科技情报处理方法及系统.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201610986452.0

    申请日:

    2016.11.03

    公开号:

    CN106570171A

    公开日:

    2017.04.19

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20161103|||公开
    IPC分类号: G06F17/30; G06F17/27 主分类号: G06F17/30
    申请人: 中国电子科技集团公司第二十八研究所
    发明人: 袁林; 韩国辉; 贲兴龙; 陈晓琳; 梁增玉; 马旭; 冯燕来; 王睿; 苏雪阳; 黄明魁
    地址: 210007 江苏省南京市苜蓿园东街1号
    优先权:
    专利代理机构: 代理人:
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201610986452.0

    授权公告号:

    |||

    法律状态公告日:

    2017.05.17|||2017.04.19

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明公开了一种基于语义的科技情报处理方法及系统,属于数据处理技术领域,其中该方法包括以下步骤:获取网站数据;根据中英双语平行语料库,通过解码算法将网站数据进行中/英文翻译;根据翻译后的网站数据,生成摘要;根据摘要进行分类,生成分类标签;将翻译后的网站数据、摘要和分类标签存入全文检索数据库。本发明通过科技情报自动搜集、科技情报自动摘要、文本自动分类等技术,能够从互联网上通过公开信息渠道自动获取到有关科学发展、技术创新、最新动态的科技情报信息,提高了获取准确率,并消除跨语言的内容理解障碍,解决信息过载的问题,提高用户阅读理解情报的效率。

    权利要求书

    1.一种基于语义的科技情报处理方法,其特征在于,包括以下步骤:
    获取网站数据;
    根据中英双语平行语料库,通过解码算法将所述网站数据进行中/英文翻译;
    根据翻译后的网站数据,生成摘要;
    根据所述摘要进行分类,生成分类标签;
    将所述翻译后的网站数据、摘要和分类标签存入全文检索数据库。
    2.根据权利要求1所述的方法,其特征在于,所述获取网站数据的步骤包括:
    通过网络爬虫对目标网站进行数据抓取,获得第一数据;
    通过源搜索引擎对目标网站进行检索,获得第二数据;
    整合所述第一数据和第二数据,经过包括去重和过滤的预处理,获得网站数据。
    3.根据权利要求1或2所述的方法,其特征在于,所述根据中英双语平行语料库,通过解
    码算法将所述网站数据进行中/英文翻译的步骤包括:
    对所述网站数据中的语句进行分词和标注,获得源语言短语;
    根据中英双语平行语料库,利用短语-短语的翻译规则,对源语言短语进行中/英文翻
    译;
    利用使用目标语言的单语言语料库构建的语言模型,将翻译后的短语进行组织,生成
    符合语法规则的语句。
    4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据翻译后的网站数据,生
    成摘要的步骤包括:
    对翻译后的网站数据中的文本集合进行文字数据清洗,建立句子基于特征单元的向量
    表达式,构建向量空间;
    将每个句子的向量表达式作为一个样本,采用层次化方法对样本进行聚类;
    计算聚类后的句子在主题类别中的重要性,提取主题代表句作为文摘句;
    将提取出的文摘句按照一定规则进行排序,生成摘要。
    5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述摘要进行分类,生
    成分类标签的步骤包括:
    按照预定格式对摘要进行格式化;
    将格式化后的摘要进行文本分解,获得基本处理单元;
    从基本处理单元中抽取出反映主题的特征;
    根据所述特征,利用分类算法进行分类,生成分类标签。
    6.一种基于语义的科技情报处理系统,其特征在于,包括:
    获取???,用于获取网站数据;
    翻译???,用于根据中英双语平行语料库,通过解码算法将所述网站数据进行中/英文
    翻译;
    摘要???,用于根据翻译后的网站数据,生成摘要;
    分类???,用于根据所述摘要进行分类,生成分类标签;
    存储???,用于将所述翻译后的网站数据、摘要和分类标签存入全文检索数据库。
    7.根据权利要求6所述的系统,其特征在于,所述获取??榘ǎ?br />网络爬虫???,用于通过网络爬虫对目标网站进行数据抓取,获得第一数据;
    源搜索引擎???,用于通过源搜索引擎对目标网站进行检索,获得第二数据;
    预处理???,用于整合所述第一数据和第二数据,经过包括去重和过滤的预处理,获得
    网站数据。
    8.根据权利要求6或7所述的系统,其特征在于,所述翻译??榘ǎ?br />分词标注???,用于对所述网站数据中的语句进行分词和标注,获得源语言短语;
    短语翻译???,用于根据中英双语平行语料库,利用短语-短语的翻译规则,对源语言
    短语进行中/英文翻译;
    语句组织???,用于利用使用目标语言的单语言语料库构建的语言模型,将翻译后的
    短语进行组织,生成符合语法规则的语句。
    9.根据权利要求6-8任一项所述的系统,其特征在于,所述摘要??榘ǎ?br />数据清洗???,用于对翻译后的网站数据中的文本集合进行文字数据清洗,建立句子
    基于特征单元的向量表达式,构建向量空间;
    聚类???,用于将每个句子的向量表达式作为一个样本,采用层次化方法对样本进行
    聚类;
    文摘句提取???,用于计算聚类后的句子在主题类别中的重要性,提取主题代表句作
    为文摘句;
    排序???,用于将提取出的文摘句按照一定规则进行排序,生成摘要。
    10.根据权利要求6-9任一项所述的方法,其特征在于,所述分类??榘ǎ?br />格式化???,用于按照预定格式对摘要进行格式化;
    分解???,用于将格式化后的摘要进行文本分解,获得基本处理单元;
    特征抽取???,用于从基本处理单元中抽取出反映主题的特征;
    分类计算???,用于根据所述特征,利用分类算法进行分类,生成分类标签。

    说明书

    一种基于语义的科技情报处理方法及系统

    技术领域

    本发明涉及数据处理技术领域,具体涉及一种基于语义的科技情报处理方法及系
    统。

    背景技术

    科技情报指通过公开信息渠道获取的有关科学发展、技术创新、最新动态的有用
    知识??萍记楸ǖ氖占ぷ骼幢甘苁澜绺鞴母叨戎厥?,因为科技情报工作在国内外各
    方面的科研生产工作中均肩负着重要责任??萍记楸ㄑ芯康幕∈切畔⒆试吹乃鸭敕?br />析。随着计算机信息技术的发展,计算机信息检索系统为科技情报研究提供了有利的平台。
    科技情报研究需要情报人员根据情报目标,应用信息检索技术进行情报信息的有效收集,
    并对其显性信息和隐性信息进行挖掘,找出具有情报价值的信息。其中显性信息是直接从
    文献资源中获取的信息,是人们获取知识的重要来源;隐性信息主要借助特征描述、自动分
    类、语义标注等数据挖掘技术来获取。

    随着大数据时代的到来,数据规模呈海量化、指数化的速度增长,极大丰富了可利
    用的信息资源,但也对情报研究的综合能力提出了更高的要求。一要提高情报甄别能力;二
    要提高知识挖掘能力;三要提高技术运用能力??萍记楸ㄑ芯苛煊虻暮A课淖智楸ㄔ毯?br />要信息,但目前缺乏面向海量文字情报的快速准确分析研读能力,究其原因是目前科技情
    报搜集处理分析以人工为主,效率和准确性不高,缺乏语义分析与智能检索工具。

    发明内容

    因此,本发明实施例要解决的技术问题在于现有技术中的科技情报搜集处理分析
    以人工为主,效率和准确性不高。

    为此,本发明实施例的一种基于语义的科技情报处理方法,包括以下步骤:

    获取网站数据;

    根据中英双语平行语料库,通过解码算法将所述网站数据进行中/英文翻译;

    根据翻译后的网站数据,生成摘要;

    根据所述摘要进行分类,生成分类标签;

    将所述翻译后的网站数据、摘要和分类标签存入全文检索数据库。

    优选地,所述获取网站数据的步骤包括:

    通过网络爬虫对目标网站进行数据抓取,获得第一数据;

    通过源搜索引擎对目标网站进行检索,获得第二数据;

    整合所述第一数据和第二数据,经过包括去重和过滤的预处理,获得网站数据。

    优选地,所述根据中英双语平行语料库,通过解码算法将所述网站数据进行中/英
    文翻译的步骤包括:

    对所述网站数据中的语句进行分词和标注,获得源语言短语;

    根据中英双语平行语料库,利用短语-短语的翻译规则,对源语言短语进行中/英
    文翻译;

    利用使用目标语言的单语言语料库构建的语言模型,将翻译后的短语进行组织,
    生成符合语法规则的语句。

    优选地,所述根据翻译后的网站数据,生成摘要的步骤包括:

    对翻译后的网站数据中的文本集合进行文字数据清洗,建立句子基于特征单元的
    向量表达式,构建向量空间;

    将每个句子的向量表达式作为一个样本,采用层次化方法对样本进行聚类;

    计算聚类后的句子在主题类别中的重要性,提取主题代表句作为文摘句;

    将提取出的文摘句按照一定规则进行排序,生成摘要。

    优选地,所述根据所述摘要进行分类,生成分类标签的步骤包括:

    按照预定格式对摘要进行格式化;

    将格式化后的摘要进行文本分解,获得基本处理单元;

    从基本处理单元中抽取出反映主题的特征;

    根据所述特征,利用分类算法进行分类,生成分类标签。

    本发明实施例的一种基于语义的科技情报处理系统,包括:

    获取???,用于获取网站数据;

    翻译???,用于根据中英双语平行语料库,通过解码算法将所述网站数据进行中/
    英文翻译;

    摘要???,用于根据翻译后的网站数据,生成摘要;

    分类???,用于根据所述摘要进行分类,生成分类标签;

    存储???,用于将所述翻译后的网站数据、摘要和分类标签存入全文检索数据库。

    优选地,所述获取??榘ǎ?br />

    网络爬虫???,用于通过网络爬虫对目标网站进行数据抓取,获得第一数据;

    源搜索引擎???,用于通过源搜索引擎对目标网站进行检索,获得第二数据;

    预处理???,用于整合所述第一数据和第二数据,经过包括去重和过滤的预处理,
    获得网站数据。

    优选地,所述翻译??榘ǎ?br />

    分词标注???,用于对所述网站数据中的语句进行分词和标注,获得源语言短语;

    短语翻译???,用于根据中英双语平行语料库,利用短语-短语的翻译规则,对源
    语言短语进行中/英文翻译;

    语句组织???,用于利用使用目标语言的单语言语料库构建的语言模型,将翻译
    后的短语进行组织,生成符合语法规则的语句。

    优选地,所述摘要??榘ǎ?br />

    数据清洗???,用于对翻译后的网站数据中的文本集合进行文字数据清洗,建立
    句子基于特征单元的向量表达式,构建向量空间;

    聚类???,用于将每个句子的向量表达式作为一个样本,采用层次化方法对样本
    进行聚类;

    文摘句提取???,用于计算聚类后的句子在主题类别中的重要性,提取主题代表
    句作为文摘句;

    排序???,用于将提取出的文摘句按照一定规则进行排序,生成摘要。

    优选地,所述分类??榘ǎ?br />

    格式化???,用于按照预定格式对摘要进行格式化;

    分解???,用于将格式化后的摘要进行文本分解,获得基本处理单元;

    特征抽取???,用于从基本处理单元中抽取出反映主题的特征;

    分类计算???,用于根据所述特征,利用分类算法进行分类,生成分类标签。

    本发明实施例的技术方案,具有如下优点:

    1.本发明实施例提供的基于语义的科技情报处理方法及系统,通过将获取到的网
    站数据进行翻译,将英文科技情报翻译成中文,消除跨语言的内容理解障碍,帮助欠缺英文
    能力的科技工作者进行情报的理解。通过自动摘要生成,能够生成满足覆盖性和连贯性要
    求的摘要,解决信息过载的问题,提高用户阅读理解情报的效率。通过文本自动分类,大大
    提高了分析整理海量离散的科技信息的速度,提高分析、检索效率。以上通过科技情报自动
    搜集、科技情报自动摘要、文本自动分类等技术,能够从互联网上通过公开信息渠道自动获
    取到有关科学发展、技术创新、最新动态的科技情报信息,提高了获取准确率,并消除跨语
    言的内容理解障碍,解决信息过载的问题,提高用户阅读理解情报的效率。

    2.本发明实施例提供的基于语义的科技情报处理方法及系统,通过基于通用模板
    的网络爬虫抓取目标网站数据,补充了互联网源搜索引擎的检索结果,通过数据的整合,再
    对获取的数据(科技情报文本)进行去重、合并、过滤等,从中整合得到相关度较高、更加符
    合用户需要的科技情报信息。

    附图说明

    为了更清楚地说明本发明具体实施方式中的技术方案,下面将对具体实施方式描
    述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实
    施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附
    图获得其他的附图。

    图1为本发明实施例1中基于语义的科技情报处理方法的一个具体示例的流程图;

    图2为本发明实施例2中基于语义的科技情报处理系统的一个具体示例的原理框
    图;

    图3为本发明实施例2中基于语义的科技情报处理系统的一个具体示例的结构图。

    具体实施方式

    下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施
    例是本发明一部分实施例,而不是全部的实施例?;诒痉⒚髦械氖凳├?,本领域普通技术
    人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明?;さ姆段?。

    在本发明的描述中,需要说明的是,术语“第一”、“第二”等仅用于描述目的,而不
    能理解为指示或暗示相对重要性。

    此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构
    成冲突就可以相互结合。

    实施例1

    本实施例提供一种基于语义的科技情报处理方法,特别适用于科技情报的智能检
    索与分析,如图1所示,基于语义的科技情报处理方法包括如下步骤:

    S1、获取网站数据,网站数据可以包括多种内容,其中主要包括了网站的网页内
    容。

    S2、根据中英双语平行语料库,通过解码算法将上述网站数据进行中/英文翻译,
    中/英文翻译可以是将中文翻译成英文,也可以是将英文翻译成中文。中英双语平行语料库
    是一个包含大量中英句对的大型语料库,是构建翻译系统的基础。通过对双语资源进行语
    料清洗、中文分词、句子及词对齐、语言模型及翻译模型学习、解码及重排序等步骤,构建中
    英文科技情报翻译引擎,构建中英双语平行语料库。优选地,实现语言模型及翻译模型学习
    的步骤包括:首先,准备数据,包括将文本转换为语句的序列,以及删除无法对齐及太长的
    语句;然后,将两个并行的语句进行单词对齐,并据此抽取短语-短语(短语至短语)的翻译
    规则;最后,使用目标语言的单语言语料库构建语言模型,用于指导解码算法中输出符合语
    法规则的结果。

    S3、根据翻译后的网站数据,通过综合考虑语句的主题、内容、结构等要素及长度、
    位置特征,运用回归模型对语料进行训练,去除冗余,从而提取关键句生成摘要。

    S4、根据上述摘要,通过分词、提取特征,采用支持向量机模型进行自动分类,生成
    分类标签。

    S5、将上述翻译后的网站数据、摘要和分类标签存入全文检索数据库,基于上述全
    文检索数据库,以便能给用户提供情报信息服务,包括情报翻译、情报检索、情报展示等。

    上述基于语义的科技情报处理方法,通过将获取到的网站数据进行翻译,将英文
    科技情报翻译成中文,消除跨语言的内容理解障碍,帮助欠缺英文能力的科技工作者进行
    情报的理解。通过自动摘要生成,能够生成满足覆盖性和连贯性要求的摘要,解决信息过载
    的问题,提高用户阅读理解情报的效率。通过文本自动分类,大大提高了分析整理海量离散
    的科技信息的速度,提高分析、检索效率。以上通过科技情报自动搜集、科技情报自动摘要、
    文本自动分类等技术,能够从互联网上通过公开信息渠道自动获取到有关科学发展、技术
    创新、最新动态的科技情报信息,消除跨语言的内容理解障碍,解决信息过载的问题,提高
    用户阅读理解情报的效率。

    优选地,上述步骤S1的获取网站数据的步骤包括:

    S11、通过网络爬虫对目标网站进行数据抓取,获得第一数据。网络爬虫是一种按
    照一定的规则,自动地抓取网站信息的技术,按照系统结构和实现技术,大致可以分为以下
    几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等,在实际应用中
    的网络爬虫系统通??梢允羌钢稚鲜雠莱婕际跸嘟岷隙迪值?。自动抓取目标网站数据
    后,还可采用Xpath模板对网页内容进行解析。Xpath是W3C的一个标准,是一种表达式语言,
    它的返回值可能是节点、节点集合、原子值、以及节点和原子值的混合等。

    S12、通过源搜索引擎对目标网站进行检索,获得第二数据。

    S13、整合上述第一数据和第二数据,经过包括去重和过滤的预处理,获得网站数
    据。上述预处理还可包括分词和标注,以获得更好地预处理效果。优选地,上述去重的步骤
    包括:首先,比较两份网页URL或网页标题是否相同;若相同,则判断为重复,删除其中的一
    份;若不相同,则计算两份网页标题文档的相似度;若相似度大于或等于阈值,则判断为重
    复,删除其中的一份;若相似度小于阈值,则判断为不重复。

    上述基于语义的科技情报处理方法,通过基于通用模板的网络爬虫抓取目标网站
    数据,补充了互联网源搜索引擎的检索结果,通过数据的整合,再对获取的数据(科技情报
    文本)进行去重、合并、过滤等,从中整合得到相关度较高、更加符合用户需要的科技情报信
    息。

    优选地,上述步骤S2的根据中英双语平行语料库,通过解码算法将上述网站数据
    进行中/英文翻译的步骤包括:

    S21、对步骤S1中获得的网站数据中的语句进行分词和标注,获得源语言短语,经
    过分词和标注后的源语言短语将更加适于翻译过程。

    S22、根据中英双语平行语料库,利用短语-短语(短语至短语)的翻译规则,对源语
    言短语进行中/英文翻译,优选地,可以利用翻译模型,根据概率估计的方法,寻找到源语言
    短语的最佳翻译结果。

    S23、利用使用目标语言的单语言语料库构建的语言模型,将翻译后的短语进行组
    织,生成符合语法规则的语句。

    上述基于语义的科技情报处理方法,通过短语-短语的翻译规则,不仅提高了翻译
    的效率,而且还提高了翻译的准确率。

    优选地,上述步骤S3的根据翻译后的网站数据,生成摘要的步骤包括:

    S31、对翻译后的网站数据中的文本集合进行文字数据清洗,建立句子基于特征单
    元的向量表达式,构建向量空间。

    S32、将每个句子的向量表达式作为一个样本,采用层次化方法对样本进行聚类,
    发现潜在主题。层次聚类就是通过对数据集按照某种方法进行层次分解,直到满足某种条
    件为止。按照聚类原理的不同,可以分为凝聚和分裂两种方法。

    S33、计算聚类后的句子在主题类别中的重要性,提取主题代表句作为文摘句。重
    要性可以依据句子中词频等信息计算出的句子权重来衡量,对所有句子按权值高低降序排
    列,权值最高的若干句子被确定为文摘句。

    S34、将提取出的文摘句按照一定规则进行排序,生成摘要。该一定规则可以是采
    用人工智能技术,特别是自然语言理解技术,利用了领域知识对文本的语义进行分析,通过
    判断推理,得出文摘句的语义描述,根据语义描述自动生成摘要。

    上述基于语义的科技情报处理方法,通过自动摘要生成,能够生成满足覆盖性和
    连贯性要求的摘要,解决信息过载的问题,提高用户阅读理解情报的效率。

    优选地,上述步骤S4的根据上述摘要进行分类,生成分类标签的步骤包括:

    S41、按照预定格式对摘要进行格式化,统一将原始语料格式化为同一格式,便于
    后续的统一处理。

    S42、将格式化后的摘要进行文本分解,获得基本处理单元,基本处理单元可以采
    用数学模型来表示。

    S43、从基本处理单元中抽取出反映主题的特征,文档中所抽取出这些特征的同
    时,也可以确定出各特征的权重。

    S44、根据上述特征,利用分类算法进行分类,生成分类标签。分类算法包括支持向
    量机等。

    上述基于语义的科技情报处理方法,通过应用分类器,分类器可以是从文本训练
    集中找到科技情报的分类规则而得到的,在对今后未知的新情报时,该分类器能自动预测
    情报的类别属性,从而大大提高了分析整理海量离散的科技信息的速度。

    实施例2

    对应于实施例1,本实施例提供一种基于语义的科技情报处理系统,如图2所示,包
    括:

    获取???,用于获取网站数据;

    翻译???,用于根据中英双语平行语料库,通过解码算法将上述网站数据进行
    中/英文翻译;

    摘要???,用于根据翻译后的网站数据,生成摘要;

    分类???,用于根据上述摘要进行分类,生成分类标签;

    存储???,用于将上述翻译后的网站数据、摘要和分类标签存入全文检索数据
    库,参考如图3所示的系统结构图,翻译???、摘要???、分类??榉直鹩肴募焖魇菘饬?br />接。

    上述基于语义的科技情报处理系统,通过将获取到的网站数据进行翻译,将英文
    科技情报翻译成中文,消除跨语言的内容理解障碍,帮助欠缺英文能力的科技工作者进行
    情报的理解。通过自动摘要生成,能够生成满足覆盖性和连贯性要求的摘要,解决信息过载
    的问题,提高用户阅读理解情报的效率。通过文本自动分类,大大提高了分析整理海量离散
    的科技信息的速度,提高分析、检索效率。以上通过科技情报自动搜集、科技情报自动摘要、
    文本自动分类等技术,能够从互联网上通过公开信息渠道自动获取到有关科学发展、技术
    创新、最新动态的科技情报信息,消除跨语言的内容理解障碍,解决信息过载的问题,提高
    用户阅读理解情报的效率。

    优选地,上述获取??榘ǎ?br />

    网络爬虫???,用于通过网络爬虫对目标网站进行数据抓取,获得第一数据;

    源搜索引擎???,用于通过源搜索引擎对目标网站进行检索,获得第二数据;

    预处理???,用于整合上述第一数据和第二数据,经过包括去重和过滤的预处理,
    获得网站数据。

    上述基于语义的科技情报处理系统,通过基于通用模板的网络爬虫抓取目标网站
    数据,补充了互联网源搜索引擎的检索结果,通过数据的整合,再对获取的数据(科技情报
    文本)进行去重、合并、过滤等,从中整合得到相关度较高、更加符合用户需要的科技情报信
    息。

    优选地,上述翻译??榘ǎ?br />

    分词标注???,用于对上述网站数据中的语句进行分词和标注,获得源语言短语;

    短语翻译???,用于根据中英双语平行语料库,利用短语-短语的翻译规则,对源
    语言短语进行中/英文翻译;

    语句组织???,用于利用使用目标语言的单语言语料库构建的语言模型,将翻译
    后的短语进行组织,生成符合语法规则的语句。

    上述基于语义的科技情报处理系统,通过短语-短语的翻译规则,不仅提高了翻译
    的效率,而且还提高了翻译的准确率。

    优选地,上述摘要??榘ǎ?br />

    数据清洗???,用于对翻译后的网站数据中的文本集合进行文字数据清洗,建立
    句子基于特征单元的向量表达式,构建向量空间;

    聚类???,用于将每个句子的向量表达式作为一个样本,采用层次化方法对样本
    进行聚类;

    文摘句提取???,用于计算聚类后的句子在主题类别中的重要性,提取主题代表
    句作为文摘句;

    排序???,用于将提取出的文摘句按照一定规则进行排序,生成摘要。

    上述基于语义的科技情报处理系统,通过自动摘要生成,能够生成满足覆盖性和
    连贯性要求的摘要,解决信息过载的问题,提高用户阅读理解情报的效率。

    优选地,上述分类??榘ǎ?br />

    格式化???,用于按照预定格式对摘要进行格式化;

    分解???,用于将格式化后的摘要进行文本分解,获得基本处理单元;

    特征抽取???,用于从基本处理单元中抽取出反映主题的特征;

    分类计算???,用于根据上述特征,利用分类算法进行分类,生成分类标签。

    上述基于语义的科技情报处理系统,通过应用分类器,分类器可以是从文本训练
    集中找到科技情报的分类规则而得到的,在对今后未知的新情报时,该分类器能自动预测
    情报的类别属性,从而大大提高了分析整理海量离散的科技信息的速度。

    本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序
    产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实
    施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机
    可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产
    品的形式。

    本发明是参照根据本发明实施例的方法、系统和计算机程序产品的流程图和/或
    方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或
    方框、以及流程图和/或方框图中的流程和/或方框的结合??商峁┱庑┘扑慊绦蛑噶畹?br />通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个
    机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流
    程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

    这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特
    定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指
    令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或
    多个方框中指定的功能。

    这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计
    算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或
    其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一
    个方框或多个方框中指定的功能的步骤。

    显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对
    于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或
    变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或
    变动仍处于本发明创造的?;し段е?。

    关 键 词:
    一种 基于 语义 科技情报 处理 方法 系统
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:一种基于语义的科技情报处理方法及系统.pdf
    链接地址://www.4mum.com.cn/p-6092727.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03