• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 16
    • 下载费用:30 金币  

    重庆时时彩用户登录: 提供较小目标编码空间的码转换方法、计算机装置和程序产品.pdf

    关 键 词:
    提供 较小 目标 编码 空间 转换 方法 计算机 装置 程序 产品
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201310008670.3

    申请日:

    2013.01.09

    公开号:

    CN103914436A

    公开日:

    2014.07.09

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/22申请日:20130109|||公开
    IPC分类号: G06F17/22 主分类号: G06F17/22
    申请人: 国际商业机器公司
    发明人: 谢志毅; 廖怡翔; 林志远; 林佩仪
    地址: 美国纽约阿芒克
    优先权:
    专利代理机构: 北京市金杜律师事务所 11256 代理人: 酆迅;辛鸣
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201310008670.3

    授权公告号:

    ||||||

    法律状态公告日:

    2018.02.02|||2014.08.06|||2014.07.09

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明涉及提供较小目标编码空间的码转换的方法、计算机装置与程序产品。本发明公开一种提供来源编码空间(如Unicode)大于目标编码空间(如EBCDIC)时码转换的方法、计算机装置与程序产品。该方法包含接收对一来源文件执行由一来源编码空间至一目标编码空间的码转换的一要求,其中该来源文件依据一来源编码空间编码,且该来源编码空间大于目标编码空间;及依据一预先建立的码转换的映射表,而对该来源文件分别产生一主要转换文件及一延伸转换文件。

    权利要求书

    权利要求书
    1.  一种提供在较小目标编码空间的码转换的方法,该方法包括:
    接收对来源文件执行由来源编码空间至目标编码空间的码转换的要求,其中该来源文件依据来源编码空间编码,且该来源编码空间大于目标编码空间;及
    依据预先建立的码转换的映射表,而对该来源文件分别产生主要转换文件及延伸转换文件。

    2.  如权利要求1所述的方法,其中该来源编码空间是Unicode,而该目标编码空间是EBCDIC。

    3.  如权利要求1所述的方法,其中该映射表利用语言特性建立,该建立利用至少一个相同或相似的语言特性群组化一些来源编码空间的稀有字,以共享目标编码空间具有与该稀有字相同或相似的语言特性的替代(surrogate)字符的单一码点。

    4.  如权利要求3所述的方法,该稀有字是在目标编码空间中不存在对应码点的来源编码空间的字符,该稀有字的码点将映射至目标编码空间中的替代字符的码点,且该替代字符具有与该稀有字至少一个相同或相似的语言特性。

    5.  如权利要求4所述的方法,其中该主要转换文件根据预先建立的码转换映射表建立,而该延伸转换文件也根据该映射表而记录该稀有字的延伸码,以区别共享目标编码空间的相同单一码点而来自来源编码空间的不同字符。

    6.  如权利要求5所述的方法,其中该延伸码利用哈希(hash)函数,以不同语言特性为输入,而对每一共享相同码点的多个字符指定唯一数值作为延伸码。

    7.  如权利要求5所述的方法,其中其除了对有相同或相似拼音的语言特性,而共享目标编码空间的相同单一码点的稀有字,指定唯一延伸码外,对该共享的码点的替代字符也指定延伸码。

    8.  如权利要求2所述的方法,其中该语言特性可以是拼音 (pronunciation/Pinyin)、部首(radical)、笔画(number of strokes)、笔顺(stroke order)、字形(glyph)等等。

    9.  一种储存在计算机可用介质上的计算机程序产品,包括计算机可读程序,供在计算机上执行时,以实施如权利要求1至8中任一项所述的方法,以提供在较小目标编码空间的码转换。

    10.  一种提供在较小目标编码空间的码转换的装置,该装置包括:
    用于接收对来源文件执行由来源编码空间至目标编码空间的码转换的要求的装置,其中该来源文件依据来源编码空间编码,且该来源编码空间大于目标编码空间;及
    用于依据预先建立的码转换的映射表,而对该来源文件分别产生主要转换文件及延伸转换文件的装置。

    11.  如权利要求9所述的装置,其中该来源编码空间是Unicode,而该目标编码空间是EBCDIC。

    12.  如权利要求9所述的装置,其中该映射表利用语言特性建立,该建立利用至少一个相同或相似的语言特性群组化一些来源编码空间的稀有字,以共享目标编码空间具有与该稀有字相同或相似的语言特性的替代(surrogate)字符的单一码点。

    13.  如权利要求12所述的装置,该稀有字是在目标编码空间中不存在对应码点的来源编码空间的字符,该稀有字的码点将映射至目标编码空间中的替代字符的码点,且该替代字符具有与该稀有字至少一个相同或相似的语言特性。

    14.  如权利要求13所述的装置,其中该主要转换文件根据预先建立的码转换映射表建立,而该延伸转换文件也根据该映射表而记录该稀有字的延伸码,以区别共享目标编码空间的相同单一码点而来自来源编码空间的不同字符。

    15.  如权利要求14所述的装置,其中该延伸码利用哈希(hash)函数,以不同语言特性为输入,而对每一共享相同码点的多个字符指定唯一数值作为延伸码。

    16.  如权利要求14所述的装置,其中其除了对有相同或相似拼 音的语言特性,而共享目标编码空间的相同单一码点的稀有字,指定唯一延伸码外,对该共享的码点的替代字符也指定延伸码。

    17.  如权利要求11所述的装置,其中该语言特性可以是拼音(pronunciation/Pinyin)、部首(radical)、笔画(number of strokes)、笔顺(stroke order)、字形(glyph)等等。

    说明书

    说明书提供较小目标编码空间的码转换方法、计算机装置和程序产品
    技术领域
    本发明关于提供码转换的机制;尤其是提供来源编码空间(如Unicode)大于目标编码空间(如EBCDIC)时码转换的方法与计算机装置。 
    背景技术
    计算机及其它电子装置基本上使用文本(text)与使用者互动,而一般显示在监视器或其它类型的显示屏幕上。由于文本必须以计算机或其它电子装置内部的数字类型表示(representation),因此必须以字符集编码(Character Set Encoding)。一般,字符集编码对字符集的每一字符以一唯一的数字表示编码。该经编码的字符可以是字母、数字或各种文本符号。每一字符被指定一数值码以供计算机或其它电子装置使用。不同语言的计算机系统使用不同字符集。以中文为例,可使用BIG5,Unicode字符集。EBCDIC的已编码字符集标识符(Coded Character Set Identifier,CCSID)00835也指示一代表双字节传统中文的码页(codepage)。 
    然而,在涉及码页或字符转换时,将遭遇一问题。当转换来自较大码页的字符时,较小码页将限制码点(code point)的扩充。例如,Unicode与EBCDIC(CCSID=00835)间的转换。与Unicode比较,EBCDIC码页的码点范围较小。当来源编码空间(如Unicode)大于目标编码空间(如EBCDIC)时,将耗尽目标编码空间的码表中所有可用码点。因此,在目标编码空间中将有来源编码空间的码点遗失。如图1所示,来源编码空间(如Unicode)中的码点“坤”(U+5764)在目标编码空间(EBCDIC,CCSID=00835)中,存在 一对应码点“坤”(507D),然而Unicode的码点“蜫”(U+872B)在EBCDIC中,并不存在一对应码点。 
    一般,这些在EBCDIC中不存在对应码点的Unicode原始码点系语言中所谓稀有字(rare word)。传统的解决方式是将这些稀有字映射至目标编码空间的一预定义特定字符;或在已转换的目标编码文本中保留该要被转换的来源编码空间稀有字的原始码(即在来源编码空间的码点),虽然它在已转换的目标编码文本中不可读。然而,对4字节的Unicode  (UCS-4)与2字节的EBCDIC(CCSID=00835)间转换而言,因EBCDIC(CCSID=00835)仅使用2字节,而Unicode(UCS-4)是4字节,故后者将不可行。关于前者,虽该特定字符可在目标编码空间或码页下识别,但该稀有字的语言特性,都将遗失。以中文为例,该语言特性可以是拼音(pronunciation/Pinyin)、部首(radical)、笔画(number of strokes)、笔顺(stroke order)、字形(glyph)等等。 
    因此,存在一目标编码空间能读取稀有字且又能保有该稀有字的语言特性的需求。 
    发明内容
    本说明书中所提及的特色、优点、或类似表达方式并不暗示本发明可实现的所有特色及优点应在本发明的任何单一的具体实施例内。而是应明白,有关特色及优点的表达方式是指结合具体实施例所述的特定特色、优点、或特性包含在本发明的至少一具体实施例内。因此,本说明书中对于特色及优点、及类似表达方式的论述可与相同具体实施例有关,但也非必要。 
    此外,可以按照任何合适的方式,在一或多个具体实施例中结合本发明所述特色、优点、及特性。相关领域技术人员应明白,在没有特定具体实施例的一个或多个特定特色或优点的情况下,也可实施本发明。在其它例子中应明白,特定具体实施例中的其它特色及优点可能未在本发明的所有具体实施例中出现。 
    本发明提供一新的码转换机制。该机制利用一预先建立的码转换的映射表,而对一依据来源编码空间编码的来源文件分别产生一依据较小目标编码空间编码的主要转换(main converted)文件及一延伸转换文件,以供应用程序使用。该映射表利用语言特性建立,其机制利用一些特定语言特性群组化一些来源编码空间的稀有字,以共享目标编码空间的具有相同或相似的特定语言特性的相同单一码点。 
    当执行数据文件转换时,该主要转换文件按照已知方式根据预先建立的码转换映射表建立,而该延伸转换文件也按照该映射表而记录该稀有字的延伸码,以区别共享目标编码空间的相同单一码点而来自来源编码空间的不同字符。因此,通过结合主要转换文件及延伸转换文件,本发明延伸了目标编码空间的码区域,以供使用目标编码空间的程序利用。 
    对于仅能接受原始目标编码空间的已知应用程序而言,对应该共享目标编码空间的相同单一码点而有相同或相似的语言特性的一替代字符,可用来代表该稀有字。由于该替代字符与该稀有字有相同或相似的语言特性,因此也能帮助了解及猜测该数据文件的内容。至于,能利用本发明上述结合主要转换文件及延伸转换文件而建立的目标编码空间延伸码区域的新程序而言,可结合主要转换文件及延伸转换文件以找到该正确的稀有字,而正确呈现。 
    根据本发明一实施例,本发明公开一种提供在较小目标编码空间的码转换的的方法,该方法包含:接收对一来源文件执行由一来源编码空间至一目标编码空间之码转换的一要求,其中该来源文件系依据一来源编码空间编码,且该来源编码空间大于目标编码空间;及依据一预先建立之码转换之映射表,而对该来源文件分别产生一主要转换文件及一延伸转换文件。 
    根据本发明另一实施例,本发明公开一种提供在较小目标编码空间之码转换的计算机装置,包含: 
    一主机;该主机包含, 
    一总线系统; 
    一存储器,连接到该总线系统,其中该存储器包含一组指令; 
    一连接到该总线系统的处理单元,其中该处理单元执行该组指令,以执行前述的码转换的方法。 
    根据本发明另一实施例,本发明公开一种储存在一计算机可用介质上的计算机程序产品,包含一计算机可读程序,供在一计算机上执行时,实施前述的码转换的方法。 
    参考以下说明及随附权利要求书或利用如下文所提的本发明的实施方式,即可更加明了本发明的这些特色及优点。 
    附图说明
    为了立即了解本发明的优点,请参考如附图所示的特定具体实施例,详细说明上文简短叙述的本发明。在了解这些附图仅描绘本发明的典型具体实施例并因此不将其视为限制本发明范畴的情况下,参考附图以额外的明确性及细节来说明本发明,附图中: 
    图1为一种公知在Unicode与EBCDIC间进行码转换的例子; 
    图2为本发明的例示性计算机装置的硬件环境方块图; 
    图3为一种依据本发明一具体实施例的码转换??榈姆椒鞒掏?; 
    图4显示一依据本发明以建立码转换的映射表的第一具体实施例; 
    图5为一种依据本发明以建立码转换之一第二具体实施例。 
    具体实施方式
    本说明书中“一具体实施例”或类似表达方式的引用是指结合该具体实施例所述的特定特色、结构、或特性包括在本发明的至少一具体实施例中。因此,在本说明书中,“在一具体实施例中”及类似表达方式的用语的出现未必指相同的具体实施例。 
    本领域技术人员当知,本发明可实施为计算机装置、方法或作为计算机程序产品的计算机可读介质。因此,本发明可以实施为各种形 式,例如完全的硬件实施例、完全的软件实施例(包含固件、常驻软件、微程序代码等),或者也可实施为软件与硬件的实施形式,在以下会被称为“电路”、“??椤被颉跋低场?。此外,本发明也可以按照任何有形的介质形式实施为计算机程序产品,其具有计算机可使用程序代码储存于其上。 
    一个或更多个计算机可使用或可读取介质的组合都可以利用。举例来说,计算机可使用或可读取介质可以是(但并不限于)电子的、磁的、光学的、电磁的、红外线的或半导体的系统、装置、设备或传播介质。更具体的计算机可读取介质实施例可以包括下列所示(非限定的例示):由一个或多个连接线所组成的电连接、可携式计算机磁盘、硬盘驱动、随机存取存储器(RAM)、只读存储器(ROM)、可抹除程序化只读存储器(EPROM或闪存)、光纤、可携式光盘片(CD-ROM)、光学储存装置、传输介质(例如因特网(Internet)或内部网络(intranet)之基础连接)、或磁储存装置。需注意的是,计算机可使用或可读取介质更可以为纸张或任何可用于将程序行印于其上而使得该程序可以再度被电子化的适当介质,例如通过光学扫描该纸张或其它介质,然后再编译、解译或其它合适的必要处理方式,然后可再度被储存于计算机存储器中。在文本中,计算机可使用或可读取介质可以是任何用于保持、储存、传送、传播或传输程序代码的介质,以供与其相连接的指令执行系统、装置或设备来处理。计算机可使用介质可包括其中储存有计算机可使用程序代码的传播数据讯号,不论是以基带(baseband)或是部分载波的型态。计算机可使用程序代码的传输可以使用任何适体的介质,包括(但并不限于)无线、有线、光纤缆线、射频(RF)等。 
    用于执行本发明操作的计算机程序码可以使用一种或多种程序语言的组合来撰写,包括对象导向程序语言(例如Java、Smalltalk、C++或其它类似者)以及传统程序编程语言(例如C编程语言或其它类似的编程语言)。程序代码可以按照独立软件套件的形式完整的在使用者的计算机上执行或部分在使用者的计算机上执行,或部分在使 用者计算机而部分在远程计算机。 
    在以下本发明的相关叙述会参照依据本发明具体实施例的计算机装置、方法及计算机程序产品的流程图及/或方块图来进行说明。当可理解,每一个流程图及/或方块图中的每一个方块,以及流程图及/或方块图中方块的任何组合,可以使用计算机程序指令来实施。这些计算机程序指令可供通用型计算机或特殊计算机的处理器或其它可程序化数据处理装置所组成的机器来执行,而指令经由计算机或其它可程序化数据处理装置处理以便实施流程图及/或方块图中所说明的功能或操作。 
    这些计算机程序指令也可被储存在计算机可读取介质上,以便指示计算机或其它可程序化数据处理装置来进行特定的功能,而这些储存在计算机可读取介质上的指令构成一制品,其内包括的指令可实施流程图及/或方块图中所说明的功能或操作。 
    计算机程序指令也可被加载到计算机上或其它可程序化数据处理装置,以便在计算机或其它可程序化装置上进行一系统操作步骤,而在该计算机或其它可程序化装置上执行该指令时产生计算机实施程序以达成流程图及/或方块图中所说明的功能或操作。 
    其次,请参照图2至图5,在附图中显示依据本发明各种实施例的计算机装置、方法及计算机程序产品可实施的架构、功能及操作之流程图及方块图。因此,流程图或方块图中的每个方块可表示一???、区段、或部分的程序代码,其包含一个或多个可执行指令,以实施指定的逻辑功能。另当注意,某些其它的实施例中,方块所述的功能可以不按照图中所示的顺序进行。举例来说,两个图示相连接的方块事实上也可以同时执行,或依据所牵涉到的功能在某些情况下也可以按照图标相反的顺序执行。此外也需注意者,每个方块图及/或流程图的方块,以及方块图及/或流程图中方块的组合,可通过基于特殊目的硬件的系统来实施,或者通过特殊目的硬件与计算机指令的组合,来执行特定的功能或操作。 
    <计算机装置> 
    图2说明本发明的例示性计算机装置202的硬件环境方块图。在一个示范性的实施例中,计算机装置为一台通用型的台式计算机,可具有处理器以执行各种应用程序;储存装置以储存各种信息及程序代码;显示装置、通讯及输出/入装置做为与使用者沟通的接口;以及外围组件或其它特定用途组件。在其它实施例中,本发明也可实施为其它的形式,而具有更多或更少的其它装置或组件。网络也可实施为任何类型的联机,包括固定连接的局域网络(LAN)或广域网络(WAN)联机,或利用因特网服务提供者来暂时拨接至因特网,也不限于有线无线等各种连接方式,例如通过GSM、或Wi-Fi等无线网络与服务器端计算机通信。然而应了解,虽未绘示但其它硬件及软件组件(例如额外计算机系统、路由器、防火墙等)可包含于网络之中。 
    如图2所示,计算机装置202包括一耦合至系统总线206的处理器单元204。一视频适配器208(其控制一显示器210)也耦合至系统总线206。系统总线206通过一总线桥212耦合至一输入/输出(I/O)总线214。一I/O接口216耦合至I/O总线214。I/O接口216能与各个I/O装置通信,该I/O装置包括一键盘218、一鼠标220、一只读光驱(CD-ROM)222、一软盘机224及一闪存随身碟226。I/O装置还可以是数字相机??橛靡允淙胗跋袷莼蚴翘跣温胧?,或是I/O装置可与显示器210整合为触控屏幕,用以供使用者操作应用程序与编写信息。连接到I/O接口216的端口的规格,可以是熟悉计算机架构技术者所知的任一种,其包括(但不限于)通用串行总线(USB)端口。 
    使用一网络接口230,计算机装置202能通过一网络228与一服务器252通信,网络接口230耦合至系统总线206。网络228可为一外部网络(例如,因特网)或一内部网络(例如,一以太网络或一虚拟专用网络(VPN))。使用网络228,计算机装置202能使用本发明以与服务器252互动。 
    一硬盘驱动接口232也耦合至系统总线206上。硬盘驱动接口232与一硬盘驱动234介接。在一优选实施例中,硬盘驱动234进驻 (populates)系统存储器236,该系统存储器236也耦合至系统总线206。进驻系统存储器236的数据包括计算机装置202的操作系统(OS)238及应用程序244。 
    OS 238包括一用于供使用者存取诸如应用程序244等资源的壳层(shell)240及核心242??遣?40是一可在使用者与操作系统间提供一解译器与接口的程序。该壳层提供系统提示、解译由键盘、鼠标或其它使用者输入媒介所输入的命令及向该操作系统的适当的较低层级(例如,核心242)发送经解译的命令供进行处理。虽然壳层240一般是以文字为基础的行导向式使用者接口,但本发明也能支持其它使用者接口模式,诸如图形的、语音的、示意动作的模式等。核心242包括OS 238的较低层级功能,该较低层级功能包括由OS 238的其它部分及应用程序244所要求的基本服务,该基本服务包括:存储器管理、处理序及任务管理、磁盘管理及鼠标与键盘之管理。 
    服务器252可以使用与前述计算机装置202相同或类似的硬件架构,也或者可以利用其它的基础架构,本发明并不限制。举例来说,服务器可以是台式计算机等。然而图2所示以及上述的范例均非用于限制本发明的架构。服务器252可包括一浏览器。浏览器包括程序??榧爸噶?,该程序??榧爸噶钍褂贸谋敬托?HTTP)消息使万维网(WWW)客户端(即:计算机装置202)能够发送及接收网络消息至因特网。 
    应用程序244可包括一本发明的码转换???46及一供码转换的映射表(mapping table)248。码转换???46包括程序??榧爸噶?,该程序??榧爸噶钅芏砸焕丛次募葱新胱?,以获得一转换的目标文件。该码转换???46可以是应用程序内的???,或以常驻程序(Daemon)的方式实施。但在其它实施例中,也可以用其它形式的程序型态来实施。 
    在计算机装置202内绘示的硬件组件并非意欲包罗万象,而是代表本发明所使用的最重要组件。举例而言,计算机装置202可以另包括替代存储器储存装置,诸如磁带(magnetic cassette)、多样化数字 光盘(DVD)、(Bernoulli)卡匣及类似者。这些及其它变化将包含在本发明的精神及范畴内。 
    <码转换??榱鞒?gt; 
    图3配合图4与图5以显示本发明的码转换??榈姆椒ú街?。 
    图3为一种依据本发明一具体实施例的码转换??榈姆椒鞒掏?。 
    步骤310:接收对一来源文件执行码转换的一要求,该来源文件依据一来源编码空间编码。 
    步骤320:依据一预先建立的码转换的映射表248,而对该来源文件分别产生一主要转换文件及一延伸转换文件。其中该来源编码空间(如Unicode)大于目标编码空间(如EBCDIC)。该映射表248则利用语言特性建立,其机制是利用一些特定语言特性群组化(group)一些来源编码空间的稀有字,以共享目标编码空间的具有相同或相似的特定语言特性的相同单一码点。更多细节将参照图4或图5在之后描述。该主要转换文件按照公知方式根据预先建立的码转换映射表248建立,而该延伸转换文件也按照该映射表248而记录该稀有字的延伸码,以区别共享目标编码空间的相同单一码点而来自来源编码空间的不同字符。 
    图4显示一依据本发明以建立码转换的映射表248的第一具体实施例。如前述的图1所示,来源编码空间(如Unicode)中的码点“坤,,(U+5764)在目标编码空间(EBCDIC,CCSID=00835)中,存在一对应码点“坤”(507D),然而Unicode的码点“蜫”(U+872B)为在EBCDIC中不存在一对应码点的稀有字。 
    依据本发明图4的例子,首先,该在EBCDIC中不存在对应码点的Unicode的码点将映射至EBCDIC中之一代表一替代(surrogate)字符的码点,该替代字符具有与该稀有字相同或相似拼音的语言特性。如图4所示,Unicode中的码点“坤”(U+5764)在EBCDIC(CCSID=00835)中,存在一对应码点“坤”(507D)。而有相同拼音的语言特性的Unicode稀有字的码点“蜫”(U+872B) 也映射至“坤”(U+5764)在EBCDIC中的该对应码点“坤”(507D)。因此,有相同拼音的稀有字可被归类为同一群组以共享EBCDIC中的一相同码点代表的替代字符。 
    其次,使用一延伸码,供识别有相同或相似拼音的语言特性而共享目标编码空间的相同单一码点的稀有字。如图4所示,有相同拼音的语言特性的Unicode稀有字的码点“蜫”(U+872B)也映射至“坤”(U+5764)在EBCDIC中的该对应码点“坤”(507D),但利用相同的拼音的语言特性,额外记录一延伸码(H1)。延伸码(H1)的产生可简单地依序编码,如依据本发明图4的例子可简单地指定H1=01。因此,通过结合主要转换文件及延伸转换文件,本发明延伸了目标编码空间的码区域,供使用目标编码空间的程序利用。 
    图4的例子仅取拼音的单一语言特性做为群组化稀有字的依据。事实上,该替代字符可具有与该稀有字至少一个相同或相似的语言特性。以中文为例,该语言特性可以是拼音(pronunciation/Pinyin)、部首(radical)、笔画(number of strokes)、笔顺(stroke order)、字形(glyph)等等。因此,有相同之一个或多个语言特性的稀有字可被归类为同一群组,以共享EBCDIC中相同的一单一码点,即共享相同单一码点代表的替代字符。此时,延伸码之建立可利用习知之哈希(hash)函数,以不同语言特性为输入,而对每一共享相同码点的多个字符指定一唯一数值作为延伸码。 
    例如:假设部首及笔画的值是[0,255]间的整数,则下述哈希函数将产生唯一数值给一特定部首及笔画的组合。 
    F(部首,笔画)=Hex((部首)*256+(笔画)) 
    该哈希函数式可逆(reversible),因此能在延伸码中保有语言特性。 
    图5为一种依据本发明以建立码转换的一第二具体实施例。如图示,其除了对有相同或相似拼音的语言特性,而共享目标编码空间的相同单一码点的稀有字,指定唯一延伸码外,对该共享的码点的替代字符也指定一延伸码。例如,Unicode中的码点“昆”(U+6606) 在EBCDIC(CCSID=00835)中,存在一对应码点“昆”(50F9)。而有相同拼音的语言特性的Unicode稀有字的码点“蜫”(U+872B)及“昆”(U+5D10)也一并映射至“昆”(U+6606)在EBCDIC中的该对应码点“昆”(50F9),即共享目标编码空间的相同的对应码点“昆”(50F9)。但是,如图5所示,包含对应码点“昆”(50F9)在内,共享码点的所有字符均被指定唯一延伸码外,H1,H2及H3。相似地,如前述,依据本发明本实施例延伸码(H1,H2及H3)的产生可简单地依序编码,即可简单地分别指定H1=01、H2=02及H3=03。 
    依据前述图4或图5实施例,一码转换的映射表248可被预先建立。当执行数据文件转换时,依据一预先建立的码转换的映射表248,而对该来源文件分别产生一主要转换文件及一延伸转换文件。该主要转换文件是依公知方式根据一预先建立的码转换映射表248而建立,而该延伸转换文件也依据该映射表248而记录该稀有字的延伸码,以区别共享目标编码空间的相同单一码点的不同字符。因此,通过结合主要转换文件及延伸转换文件,本发明延伸了目标编码空间的码区域,供使用目标编码空间的程序利用。执行数据文件转换后建立的主要转换文件及一延伸转换文件可以如下列形式呈现。 
    来源文件: 

    主要转换文件: 

    延伸转换文件: 

    其中XYZ为在来源编码空间的字符,而xxxx yyyy zzzz分别为XYZ在目标编码空间中相应的码点。对于在目标编码空间中有相应码点的字符,在延伸转换文件中可以由一特殊字符hhhh代表。否则以相应的延伸码填入。需注意的是,上述延伸转换文件的格式仅是例示,本发明并不限制。其也可以按照偏移量(offset)方式记录(即文本中的第几个字),如 
    offset aaa H1 
    offset bbb H2 
    offset ccc H3 
    其中aaa,bbb,ccc分别代表“昆蜫昆”等字符在来源文件中的偏移量。 
    对于仅能接受原始目标编码空间的公知应用程序而言,对应该共享目标编码空间的相同单一码点而有相同或相似的语言特性的一替代字符,可用来代表该稀有字。由于该替代字符与该稀有字有相同或相似的语言特性,因此也能帮助了解及猜测该数据文件的内容。 
    需说明的是,依据本发明公开由于有延伸码区域可供扩充原目标编码空间相应的字符,以纳入来源编码空间所有的稀有字。因此,对能利用本发明上述结合主要转换文件及延伸转换文件而建立的目标编码空间延伸码区域的新程序而言,可结合主要转换文件及延伸转换文件,以找到该正确的稀有字而正确呈现。 
    在不脱离本发明精神或必要特性的情况下,可以按照其它特定形式来体现本发明。应将所述具体实施例各方面仅视为解说性而非限制性。因此,本发明的范畴如随附权利要求书所示而非如前述说明所示。所有落在申请专利范围之等效意义及范围内的变更应视为落在申请专利范围的范畴内。 
    【主要组件符号说明】 
    202计算机装置                204处理器单元 
    206系统总线                  208视频适配器 
    210显示器                    212总线桥 
    214输入/输出(I/O)总线        216 I/O接口 
    218键盘                      220鼠标 
    222读光驱(CD-ROM)            224软盘机 
    226闪存随身盘                228网络 
    230网络接口                  232硬盘驱动接口 
    234硬盘驱动                  236系统存储器 
    238操作系统(OS)              240壳层(shell) 
    242核心                      244应用程序 
    246码转换???nbsp;               248映射表(mapping table) 
    252服务器 

    关于本文
    本文标题:提供较小目标编码空间的码转换方法、计算机装置和程序产品.pdf
    链接地址://www.4mum.com.cn/p-6116802.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 手机支付宝赚钱软件 北京赛车刷流水攻略 四码二肖中特 河南11选5中奖金额 排列3预测 排列五计划 重庆时时彩开奖 地下城勇士手游官网 全球股票指数介绍 新疆时时彩 新潮彩票群 快速赛车75开奖记录 2007香港六合彩走势图 梦幻西游单开炼金赚钱 彩票大赢家 平特精版料图片2017