三合一汉字输入法
 
理论探讨-12
 
           
   

 

统一汉字编码路线图

刘春华

本文在《汉字编码进入小学语文课程的理论要求与方案设计》的基础上深化、发展而成,是三合一汉字编码和输入法理论的最完整表述。)

1. 统一汉字编码的战略目标

① 统一的汉字编码要同时适用于汉字的键盘输入和排序检索,并通用于所有汉字,适合处理全汉字集。

② 汉字编码用于键盘输入时,要与识字同步并终身适用,要同时满足各行各业的使用要求,全社会通用。

2. 统一汉字编码的自然之路

进入基础教育课程,是汉字编码及输入法最自然的统一之路。只要做到“教学用”与“社会用”无缝衔接,学生群体走出校门走入社会后,自然会“统一”使用同一种汉字编码及输入法。汉字编码属于语文课内容,应进入小学语文课程;输入法软件的使用属于信息技术课内容,应进入小学信息技术课程。

3. 汉字编码进入小学语文课程的方式

汉字编码进入小学语文课程的方式,宜以不改变现行识字教学模式为前提,使汉字编码知识“潜入”语文课程,与原有课程内容高度融合,即在不干扰现行小学语文教学方法和教学进度的条件下做到与识字同步,让学生在学习拼音识字、写字和偏旁部首等知识的同时也循序渐进地、同步地学会汉字编码。与汉字编码在语文课程中采用的非集中教学方式相对照,小学信息技术课程适合专列一项汉字输入法内容,集中教学输入法软件的使用方法。

汉字编码进入语文课程的教学进度,要与识字及写字的教学进度相一致,并与信息技术课程教学输入法软件操作合理衔接。按照《全日制义务教育语文课程标准(实验稿)》,在 1 ~ 2 年级阶段,要求学生学会汉语拼音,掌握汉字的基本笔画和常用的偏旁部首,能按笔顺规则用硬笔写字,能用音序和部首检字法查字典,认识常用汉字 1600 ~ 1800 个,其中 800 ~ 1000 个会写,等等,作为与识字同步的汉字编码知识也应安排在这一阶段基本学会,并可应用于汉字输入和字典查字(替代部首检字法)。

如果采用以五笔字型为代表的传统的拆分部件式的形码方案,即使部件拆分完全符合文字学规范,即使完全不考虑方案本身的学习难度,若要进入小学语文课程,都不得不要对现行 以分析偏旁结构为主的小学 识字教学模式进行“伤筋动骨”的改造,实际是要创立一种新的教学模式。这样做有两个难点,一是要创立一种新模式并能够取代现行模式在全国小学语文教学中普遍推广,即使没有汉字编码及输入法的“羁绊”,要做到这一点也不是一般的难,二是这种新的识字教学模式还要受到汉字编码和输入法本身性能要求的制约,换句话说,首先要让汉字编码及输入法方案本身能够满足相应的性能要求,然后由该汉字编码及输入法方案“衍生”创立的新的识字教学模式还要优于现行小学识字教学模式。显然,这是一种本末倒置的做法,是不可能实现的。适宜的做法不能是削足适履,为迁就汉字编码和输入法而试图创立一种新的识字教学模式,应该反过来以现行小学语文教学模式为基点,创造一种既能与现行识字教学模式高度融合,又能满足相应性能要求的新的汉字编码及输入法方案。

4. 汉字编码进入小学语文课程的条件

① 汉字编码符合规范化要求

编码要完全符合语言文字规范;编码应没有歧义,即每个汉字的符合规则的编码具有唯一性;编码应用要有利于促进语言文字应用规范化,例如,汉字输入软件要采用规范词库,要有“提示”或“纠错”功能,能够引导使用者正确读音和书写,正确用字和用词,等等。

② 汉字编码不增加语文基础教育负担

汉字编码进入小学语文课程后不能增加学习负担。要做到这一点,汉字编码就要与小学语文课程教学的汉字基础知识高度相关。这里所说的汉字基础知识主要指“识字与写字”方面的知识,包括字的读音(汉语拼音),笔画笔顺和偏旁部首等。如果将现行语文课程中要求学生掌握的汉字基础知识称作语文课程的“存量”知识,汉字编码内容中超出这个范围的称作“增量”知识,汉字编码应该以“存量”知识的组合应用为主,“存量”知识的组合应用需要一定的规则,这些规则就属于“增量”知识。规则越简单,“增量”就越小。如果新进入语文课程的汉字编码知识与“存量”知识之间高度相关,学习和使用汉字编码对学习这些“存量”知识的正面影响可抵消学习“增量”知识的负担,就可做到不增加甚至减轻语文基础教育负担。

③ 汉字编码与识字同步并终身适用

拼音文字从初学起即可同步输入,汉字编码用于汉字输入时要与识字同步,还要与语文教学进程动态适应,“无级”提速,并终身适用。如果学生走出校门后,还要另学一种输入法,这是不可接受的。“教学用”与“社会用”要无缝衔接。“教学用”与“社会用”的区别应仅仅局限于这样一些方面:“教学用”输入法的应用字集和词集适合教学,并更多地为学生用户提示有关的汉字基础知识(如读音、笔顺、部首等)。就好像学生字典的收字范围与语文教学相适应,字量少,解释提示多,但小学生们学会查学生字典后同样会查通用字典。对个体用户而言,汉字编码及输入法要与识字同步并终身适用;对全体用户而言,汉字编码及输入法要全社会通用。汉字输入法要做到终身适用、全社会通用,除其他要求外,还要满足两项极端要求,一是满足职业录入员对输入速度的要求,二是适合处理大汉字集直至全汉字集(不包括古文字)。

需要指出的是,上述汉字编码进入小学语文课程的条件与统一汉字编码的战略目标是一致的。

5. 编码设计的总体方案

编码设计要以满足进入小学语文课程的条件为目标要求,总体方案设计要重点解决既与识字同步又终身适用、全社会通用的问题。

作者在 1997 年第一次提出 [1][2] ,汉字编码的理想模式应是一种建立在汉字基础知识之上而与语文基础教学规律相一致的组合式编码系统,即应设法将音码、形码和音形结合码等不同类型的多种编码组合成一个统一体,依靠码元、键元及编码方式的科学组合,在汉字键盘输入时实现各种编码的不切换混用,使不同阶层的使用者以及同一使用者在其接受语文基础教育的不同阶段均能用上与其语文知识水平相适应的编码,而所有种类的编码又都同属于一个统一的编码系统,各种编码间的衔接具有与语文基础教育同步的、循序渐进的基本特征。十年后,作者于 2007 年进一步提出 [3] ,应该将汉字编码和输入法纳入到汉字教学和应用的大系统中统筹考虑。一方面,汉字编码和输入法要满足汉字教学的需要,要遵守国家语文规范,与语文基础教学内容和规律相适应,要与识字同步,小学生们可随机地、综合地利用在常规语文课程中学会的拼音、笔画、部首及词汇知识输入汉字。另一方面,汉字编码及输入法要满足汉字应用的需要,要与汉字排检方法统一,要通用于全部汉字。即汉字编码及输入法的战略目标为:统一适用于键盘输入和汉字排检的汉字编码;建立在汉字基础知识之上、应用拼音、笔画和部首,能够“无级变速”式的汉字输入法;适合处理全汉字集、通用于全社会的汉字输入法。无论音码,形码,还是音形结合码等,都不能以单一方式同时满足上述全部要求,须应用系统工程的方法,统筹设计一种多方式、不冲突、免切换汉字输入系统。

从与识字同步方面考虑,学习拼音识字时,需要音码(全拼),学习写字时,又需要笔画码。从终身适用、全社会通用方面考虑,应用字集不受限制,要适合处理大汉字集直至全汉字集,不能缺少形码。由于音码单字重码多,笔画码效率低,形码既要覆盖全部汉字又要简单易学,重码也不可能少,因此,从满足职业录入员的输入速度要求方面考虑,有必要增加一种音形码,以实现在通用字范围的高速盲打。此外,从简化系统和提高编码空间使用效率等方面考虑,宜选择一种编码作为主要方式,用于单字和词语输入,以词输入为主,其余为辅助方式,只用于单字输入,并使主要方式比辅助方式以及主要方式中的词码比字码获得更大的键元编码空间。按照上述思路,可提出编码系统的总体方案如下:

音形码:应用字集为 7000 通用字,用于单字和词语输入,词输入为主。

音 码:全拼方式,应用字集为 20902 字( GB13000.1 字符集) ,教学用可调整为 7000 通用字,只用于单字输入。

笔画码:纯笔画方式,应用字集根据需要确定,教学用可设为 3500 个常用字加上形码编码疑难字,只用于单字输入。

形 码:设计目标字集为全部汉字(不包括古文字),实际应用字集根据需要确定,只用于单字输入。形码还设计用作字典查字法。

上述系统要实现不切换混合使用,要求各种码的键元编码空间互不相交,字码空间与词码空间也互不相交,或者尽量减小它们之间的交集,以不影响实际使用为限,特别是不能干扰音形码在通用字范围的高速盲打,这是编码系统总体方案成败的关键。这需要在码元、码元键位和取码规则等方面统筹兼顾,综合设计。

6. 编码设计的技术要点

① 键元

《 GB/T 19246 — 2003 信息技术 通用键盘汉字输入通用要求》规定“应采用” 26 个字母键。键元限用 26 个字母键有利于与通用键盘兼容。

② 码元

系统中含有拼音方式,码元中应包括《汉语拼音方案》字母表中所列 26 个字母。其中的“ v ”在拼音输入方式中用于在适合时替代表示通用键盘上缺少的“ü”。

系统中还有笔画码,码元中也须包括笔画。汉字笔画细分种类不少,但汉字部首中仅含有 5 种单笔部首,为简便和统一起见,笔画码元宜采用横、竖、撇、点(捺)、折 5 种基本笔画。

形码码元普遍采用汉字部件。部件应用的主要难点包括:基础部件数量多,又可组合使用,记忆量大;汉字结构复杂,易导致拆分歧义;有很多无音部件无法用简单易记的方式安排键位;等等。传统汉字学常用“偏旁”和“部首”两个术语,“部件”则是现代才开始启用的新术语,并且还与传统的“偏旁”概念处理不好关系,造成混乱。在《 GF 3001 — 1997 信息处理用 GB13000.1 字符集汉字部件规范》发布实施十余年后,又发布了《 GF 0014 — 2009 现代常用字部件及部件名称规范》,前者“对中文信息处理,特别是对汉字键盘输入方法,具有规范作用”,“主要用于中文信息处理领域的设计、管理、科研、教学和出版等方面,也可供汉字教学参考”,后者“适用于汉字教学、辞书编篡等方面的汉字部件分析与解说,也可供汉字信息处理等参考”,两个部件规范分别针对不同的用途,说明部件用于汉字编码和用于汉字教学二者的要求是不一致的。有资料显示,在一种六年制小学语文教材中,一年级用字 667 个,涉及非成字基础部件 228 个,从这两个数字之比来看,部件无论用于语文教学还是用于汉字编码,“起步”的难度都比较大。根据以上分析,采用一般的汉字部件作为形码码元并不理想。

小学识字教育当前仍以分析偏旁结构为主,与小学语文教学的汉字基础知识具有最高关联度的形码码元选项,应该是偏旁和部首。但目前学术界对偏旁还没有一个统一的认识,偏旁数量也过多,不适合用于编码。与部件和偏旁相比,部首的规范程度最高(已基本统一),数量适中,并且长期用于流行的字典查字法,用作码元还有利于输入法与查字法的统一。因此,部首适合作为形码码元。由于部首不能覆盖汉字的所有结构部件,形码码元中还需要包括 5 种基本笔画,用于对非部首结构取码。

综上所述,码元宜包括: 26 个拼音字母、 5 种基本笔画、《 GF 0011 — 2009 汉字部首表》 201 部首(包括附形部首)。拼音字母、笔画和部首均属于语文基础教学内容,属于小学语文课程的“存量”知识,将它们用作码元,既可完全符合语文规范,与识字教育一致,不增加学习负担,又有利于在编码规则不作修改的前提下通用于全汉字集,因为汉字笔画和部首本身就通用于全部汉字。

③ 码元的键位

码元的键位与编码的易学性关系极大,安排码元键位也须尽量应用小学语文课程的“存量”知识。

拼音字母的键位应执行《 GF 3006 — 2001 汉语拼音方案的通用键盘表示规范》。

笔画种类少,记忆量也小,安排键位时重点不在易学性方面。对于多方式、不切换输入系统,安排笔画键位要考虑的重点是:与其他码元的键位及取码规则相配合,实现各种码之间以及字码与词码之间的键元编码空间互不相交,或者尽量减小它们之间的交集。作者采用的方法是将 5 种基本笔画对应 AEIOUV 等 6 个键(其中横画根据是否与其他笔画相交分别对应 A 和 E 两个键),它们或者不用于拼音首字母,或者虽用于拼音首字母但涉及字数少。

部首键位是影响易学性的关键。一般来说,码元“音托”最为简单,“形托”次之。因此,部首键位应以“音托”为主。部首包括成字部首和非字部首。其中成字部首应一律“音托”,例如:日 R 、月 Y ,等等。非字部首宜采用部首名称“音托”,例如:宀 B 、刂 D ,等等。

少数部首的键位可能极大地影响编码的重码率,有必要对它们采用指定键位。指定键位属于无理编码,必然会增加学习和记忆难度,但这是提高效率的必要成本。关键是要找到一个合适的平衡点,使难度和效率二者都在可普遍接受范围。首先,指定键位者只限于非字部首,不能用于成字部首。其次,指定键位者应具有较高的动态和静态组字频度。动态组字频度高,频繁使用容易记住;静态组字频度高,才可能对重码率产生大的影响。

成字部首一律“音托”,既是方便记忆的需要,也是从整个编码系统统筹考虑的结果。因为系统中含有多种输入方式,如果成字部首中有非“音托”键位者,当它作为独立汉字用拼音或音形码输入时的第一个输入键与它用作部首时的输入键就会不一样,容易造成混乱。部首“音托”,也是利用语文课程的“存量”知识,几乎不需要另外学习就能记住(其中的不常者除外)。

④ 取码规则

重点讨论形码和音形码的取码规则。

形码除用于汉字输入外,还要用于字典查字。传统的部首查字法也可看作是一种“形码”。部首查字法涉及部首和笔画数,形码涉及部首和笔画,可根据部首查字法的基本思路来设计形码规则。用部首查字法查字,先用部首的笔画数在部首目录中查到该部首的页码并在检字表的相应页中找到该部首,然后再用余部(不包括部首的部分)的笔画数在检字表中该部首项下找到目标字,基本思路为:部首笔画数→部首→余部笔画数→目标字。仿此,但用部首的首笔代替部首的笔画数,用余部的首笔和末笔代替余部的笔画数,得出形码的初步规则:“部首首笔、部首、余部首笔、余部末笔”。由于大多数汉字的余部末笔所在部位也是一种部首,如“始”的余部“台”的末笔部位是“口”,取该部首替代末笔可以提高效率(更直观且更少重码),形码规则可调整为:“部首首笔、部首、余部首笔、余部末位码”,其中,若余部的末笔部位也是一种部首,余部末位码取该部首,否则取末笔。形码举例:始 VNVK (其中 V 是折笔的键符, N 和 K 分别是“女”和“口”的拼音首字母)。

将形码的第一码“部首首笔”改为汉字的“拼音首字母”就变成音形码,即音形码字码规则为:“拼音首字母、部首、余部首笔、余部末位码”。音形码举例:始 SNVK 。词码以字码为基础:二字词取每个字的前二码,三字词取每个字的第一码和末字第二码,四字及以上词语取前三末一字的第一码。词语码举例:科学 KHXZ (科、禾、学、子),科学家 KXJB (科、学、家、宀),科学技术是第一生产力 KXJL (科、学、技、力),等等。

7. 编码方案的性能分析

在前述总体方案和技术要点的基础上作进一步的细节设计,即形成三合一汉字编码及输入法方案。该方案采用《 GF 0011 — 2009 汉字部首表》 201 部首(包括附形部首),除所有成字部首和大部分非字部首“音托”键位外,非字部首中有 3 个“形托”键位, 11 个指定键位。另外,非汉字字符编码类似于音形码,但取 3 位码长,与 4 位码长的音形码互不冲突,例如:℃ ssd (摄、氏、度),对比音形码词码:摄氏度 ssdg (摄、氏、度、广)。限于篇幅,其他细节不赘述。

下面对照汉字编码进入小学语文课程的条件以及统一汉字编码的战略目标,具体分析三合一汉字编码及输入法方案的技术性能。

笔画键元和取码规则二者配合利用 AEIOUV 等 6 个键,使各种输入方式之间以及字码与词码之间发生冲突的几率很小。简单分析其原理:音形码第一码是拼音首字母,形码第一码是部首首笔,二者只在 AEO 三个字母项下存在交集,但涉及字数很少,故音形码与形码发生冲突的几率很小;在音形码中,字码第三码是笔画而词码第三码是拼音首字母,基于同样道理,字码与词码冲突的几率也很小。笔画码和音码加入后发生冲突的几率同样很小,限于篇幅,不再详细分析。由于拼音首字母的键元数量数倍于部首首笔,因此音形码的键元编码空间也数倍于形码空间,音形码中的词码空间同样数倍于字码空间,键元编码空间分配符合“音形码为主、词输入为主”的目标要求。

所有码元均属于语文课程的“存量”知识,拼音全拼方式、成字部首“音托”和非字部首按名称“音托”键位所依据的字音、笔画码所依据的笔顺规范等也都属于“存量”知识。“增量”知识包括: 5 种基本笔画的键位、少量必要的非字部首的指定键位、形码和音形码的取码规则等。其中形码的取码规则脱胎于部首查字法,而音形码字码与形码只在第一码上有区别,可同时学会。音形码和形码都不需要拆分汉字(确定部首时若涉及汉字切分则属于部首规范本身的内容)。音形码以词输入为主,词输入以拼音首字母为主,部首为辅。由于部首的取部位置一般都在显著之处,因此绝大多数汉字的部首一目了然,取码方便快捷。

再结合语文课程标准要求以及 1 ~ 2 年级教学进度来考查编码系统的学习负担。从拼音识字起,单个汉字的全拼方式与课程一致。写字教学时,新增学习量仅限于 5 种基本笔画的键位。教学部首时,需要同时教学部首的键位,其中成字部首一律“音托”和非字部首按名称“音托”的键位可近似地认为不增加学习负担,只有少量非字部首的指定键位属于新增学习量。教学形码和音形码的取码规则可以安排在二年级上学期原来教学部首查字法时进行,并且以形码取代部首查字法用于字典查字(不再教学原部首查字法)。

音形码在 GB2312-80 字符集 3755 一级字范围的静态重码率为 6.36% ,若计入三级字简码(取常规 4 码的前 3 码),这个数字降为 1.8% 。已实现版本的形码字集 20902 字(音形码字集为其中 7000 通用字)、词集约 11.5 万条词语,其重码率 / 键选率水平仍可满足职业录入员的盲打要求。

基于上述分析,这样一种编码系统应可满足与识字同步、“无级提速”、终身适用的要求:小学生初学汉语拼音,可用拼音输入单个汉字;学习写字,又可用笔画输入单字;学习部首后,可随机改用效率更高的音形码输入单字和词语,还可用形码输入不认识的字等;由于各种输入方式的使用是随机性的,不需要切换操作,这是一个完全动态适应、无缝衔接的过程;音形码字集为通用字,形码字集根据需要可覆盖全部汉字,形码字集扩大不影响音形码在通用字范围的单字和词语的快速输入,词集扩大不影响单字输入,因此,学生走出校门后无论从事何种职业,均可继续使用同一输入法;形码用作字典查字法也终身适用。

按照本文讨论的方案,汉字编码进入小学语文课程并不以“使用电脑”为必要条件,而是以不改变现行识字教学模式为前提,原有语文教材内容可只作小的改动(主要包括增加笔画和部首的键位、用形码替代部首查字法等),课堂教学方式和进度也可基本保持不变,即便是不具备电脑的学校也同样适合教学,因为脱胎于部首查字法的形码可首先作为字典查字法教给学生,使之成为终身适用的语文基础知识,即使当时没有条件使用电脑,也能在以后任何有机会使用电脑时很轻松地学会使用相应的输入法。汉字编码以这种方式进入语文课程,有利于在包括教育设施不足的经济落后地区在内的全国范围的国民义务教育中普遍地、同步地实施,而不是只能局限于在发达地区的小学校中实施。

8. 汉字输入法的功能空间

三合一汉字输入法软件设有一些简单功能:用拼音输入汉字后,在编码窗口自动提示音形码或形码,方便掌握疑难字的部首和编码;用非拼音方式输入后,自动提示拼音,可随时认读不认识的字;学生版笔画码自动提示 3500 个常用字的规范笔顺;自定义词加标志,以提醒使用者注意自定义词中是否有错别字;等等。这些都属于很初级的辅助学习功能。实际上,在汉字输入法的“周边”,存在巨大的功能空间。限于篇幅,本文对此不作详细论述,仅抄录一段作者以前发表过的文章的一段话,表达一种基本概念:

借助日益先进的电脑多媒体技术,输入法软件有可能发展成为一种多功能的汉字学习和语文实用工具,甚至成为一种文化学习工具,也可作为外国人学习汉语汉字和中国文化的一种辅助工具。为实现这个目标,建议建立国家级、系统化、权威性的相关资源系统。不算字符集,输入法的广义的资源系统可包括词语资源库和文化资源库两个层级。词语资源库直接用于汉字输入和辅助汉语汉字学习。应建立国家规范的、分级的、适合输入法用途的学生词库、通用词库和各种专业词库,以利于提高汉字输入的效率和规范化水平。文化资源库则可作为词语资源库的延伸,一种百科全书式的知识库,方便输入法用户在输入汉字过程中随时查询、参考和学习。

9. 统一汉字编码路线图

以上面的讨论为基础,试着勾画出统一汉字编码路线图。

① 确立统一汉字编码的战略目标

主要从满足汉字教学和汉字应用两个方面的实际需要来确立统一汉字编码的战略目标。要满足汉字教学的需要,最低要求是应用汉字编码不干扰正常的汉字教学,最高境界是汉字编码可用于辅助汉字教学,减轻识字负担。要满足汉字应用的需要,其中包括汉字键盘输入与汉字排序检索方法要统一,要适合处理全汉字集、通用于全部汉字,统一的输入法方案要能同时满足各行各业的使用要求。

② 确定统一汉字编码的操作途径

进入国民基础教育课程是汉字编码和输入法最自然的统一之路,前提是“教学用”版本与“社会用”版本无缝衔接。

③ 设立汉字编码进入基础教育课程的条件

重点是设立汉字编码进入小学语文课程的条件,这个条件在大的方面与统一汉字编码的战略目标一致。

④ 设计汉字编码及相应的输入法方案

这个方案应具备两个基本特征,一是以拼音字母、基本笔画和统一部首为码元的汉字编码系统,满足与语文基础教育一致、可辅助汉字教学的要求;二是多方式、不冲突、免切换的汉字输入系统,满足与识字同步、终身适用、全社会通用的要求。

⑤ 教材准备

将汉字编码知识编入语文教科书;输入法软件使用方法编入小学信息技术教科书;编纂以汉字编码为查字法的学生字典。

⑥ 试点实验

选择若干小学校作为试点校,进行实验教学,总结经验,完善提高,直至获得满意的结果。

⑦ 制定国家标准

制定统一汉字编码和输入法的国家标准,并将汉字编码教学内容编入小学语文课程标准,输入法教学内容编入小学信息技术课程标准。后续工作还包括建立适合输入法软件应用的国家级的词语资源库和文化资源库等。

⑧ 全国小学校普遍实施

⑨ 最终实现统一

“教学用”版本与“社会用”版本无缝衔接,学生毕业后将使用统一的汉字编码和输入法。此前已经完成语文基础教育的社会各行各业人员是否也愿意学习使用统一方案,可悉听尊便,没必要限制其他方案的应用。统一方案与其他方案将有一段时间的“共存期”,但最终会自然实现统一。

10. 没有结束的结束语

汉字编码和输入法不统一所造成的各种资源浪费和社会隐性成本无法计算,统一汉字编码和输入法的社会效益和经济效益无论作这样高的估计都不为过。遗憾的是,经过了上世纪末期“万码奔腾”的喧嚣后,汉字编码和输入法的话题已很少有人提起。近年唯一的一次“热闹”是两个知名的网络公司因拼音输入法引起的一场争端,其中最具讽刺意味的是,两个输入法中存在的大量相同的错误词条竟成了一方指责另一方侵权的重要证据,据说二者相同的错误词条超过 10000 条!不同的错误词条还有多少呢?不得而知。“看热闹”的人群中,很少有人关心拼音输入法的词语错误。普通百姓忙于生计而漠视文字游戏无可指责,但那么多的语言文字专家和语文教育专家也“路过”而已,则实在令人悲哀和绝望!

汉字编码至今难以统一,原因何在?或者是缺少宏观战略思想的指导,不知路在何方;或者是战略有误,打算让音码单打独斗一统天下。对此,国家有关主管部门难辞其咎,有话语权的专家学者们也脱不了干系。国家有关部门曾在未经充分论证的情况下,轻率地向全国中小学生推荐过一种编码输入法,结果引起广泛非议,最后无疾而终。“一朝被蛇咬,十年怕井绳”,政府主管部门从此走向了另一个极端,对编码输入法问题唯恐避之不及,基本上不作为了。从我国汉字编码及输入法发展历史来看,软件界功勋卓著,语文界少有作为。从现状来看,中文信息领域 的精英们埋头于自然语言理解、机器翻译等高深、前沿课题,没功夫也不屑于关心汉字编码和输入法问题;学富五车的语言文字专家、语文教育专家们也一如既往地对汉字编码和输入法问题集体失语,很大度地放手让网络公司和软件开发商们八仙过海各显其能。

在相当一段时期,有相当一批专家,推崇通过市场竞争来优胜劣汰汉字输入法,作者曾对此极为反感,并曾在光明日报发表的一篇文章中对此提出非议。但现在反过来想一想,政府部门指望不上,专家学者也指望不上,还能指望谁呢?只有企业家了。想象中的康庄大道原来一直就不曾开通,也只有市场竞争一条险路了。幸好,在各种行业中,某个企业标准由于其领先性而上升为国家标准甚至国际标准的不乏先例。企业要以盈利为目的,否则无法生存。做汉字编码和输入法有市场吗?全国在校中小学生人数大约有 2 亿,每年新入学小学生还有一千多万,如果你的产品能够辅助汉字教学,就算只生产小霸王学习机一类的产品,其潜在的市场想小也难。如果你的产品做得足够好,甚至能够作为一种文化学习的辅助工具,有软件产品,有用汉字编码作为查字法的学生字典,再放眼“汉语热”逐渐升温的国际市场,等等等等,市场之大,无可怀疑。现在,就让我们以极大的热情,寄希望于企业家的远见卓识吧!中国的企业家们,该你们见义勇为,挺身而出了——以市场开路,推动并最终完成汉字编码和输入法的统一大业,让承载五千年中华文明的古老汉字,以青春焕发的崭新形象,屹立于世界文字之林,让源远流长的方块汉字,尽情闪烁标准化、信息化之光,与日月同辉!

参考文献:

[1] 刘春华 . 试论汉字编码的宏观要求及理想模式 [J]. 科技导报, 1997 , (7).

[2] 刘春华 . 组合式汉字编码系统研究 [J]. 科技导报, 1998 , (6).

[3] 刘春华 . 汉字编码和输入法的应用统筹思考 [N]. 光明日报, 2007 年 4 月 1 日 .

 

(2011.02.24上传)