三合一汉字编码及键盘输入法
刘春华
三合一汉字编码及键盘输入法,简称三合一,是一种集音码、形码和音形码于一体的汉字编码输入系统,不必切换,可随机使用各种方式输入汉字。
笔者多年来一直认为,汉字编码必须符合"规范、易学、高效、通用"四项要求[1][2],同时,汉字编码应该着眼于统筹解决汉字输入、汉语字典检索、为电脑辅助识字奠定基础三个问题,其理想模式应该是建立在汉字基础知识之上、集音码、形码和音形码于一体的组合式编码系统[3][4]。三合一正是基于上述设计思想而产生的结果。
本文简要介绍三合一的原理和特点。
1. 战略目标及其实现途径
战略目标:
- 汉字输入与字典检索方法统一,并为电脑辅助识字奠定基础;
- 通用于全汉字集;
- 通用于全社会;
- 与现行语文基础教育同步,与国民教育背景一致;
- 限用26个英文字母。
实现途径:
- 集音形码、音码、形码(含笔画码)于一体,不切换混用;
- 音形码为主,输入常用字和词语,音码和形码为辅,只输入单字,形码应用于全汉字集。
我们要站在传承汉字历史、满足现实需要、把握未来发展的高度,确立汉字编码及输入法的战略目标。
笔者将汉字输入、字典检索和识字教学看作三个历史性、基础性的汉字难题。随着电脑应用的日益普及,提高全民汉字输入效率意义重大,在某种程度上说,可以从提高社会生产力的高度来认识。汉语字典不能直接翻页查字,这也是长期困扰中国人的一大难题。虽然有争议,但汉字难学的说法较为普遍。二十一世纪,中国必将崛起。随着我国综合国力和国际地位的不断提高,汉语汉字在国际上的影响也会越来越大。我们要有所准备。汉字编码是建立一揽子解决方案的关键。汉字输入和字典查字实际上都是汉字检索,不同的是前者为机器检索,后者是人工检索,同一种汉字当然没必要用两种检索方法。应用多媒体技术的电脑辅助识字有可能在某种程度上将学习汉字变成一种乐趣,汉字编码应该为电脑辅助识字奠定基础。
汉字编码及输入法要以全部汉字为对象(古文字拟另行处理),我们才能在信息时代很好地继承几千年一脉相承的汉字文化遗产。否则我们将愧对历史,愧对子孙后代。
汉字编码及输入法必须通用于全社会,这本来是不需要讨论的常识。但由于汉字输入法"易学则速度慢,速度快则难学"的现实,致使汉字输入法有了"职业"和"普通"之分。另外,由于一些不符合文字规范的编码方案干扰了语文基础教育,又有了"教学用"和"社会用"的说法。这样的分类无疑是汉字的悲剧。很难设想,一种汉字编码及输入法,如果在社会上没有推广价值,学生学之何用?反之,如果一种方案因为不符合文字规范而不能让学生使用,又怎么可以允许在社会上推广呢?理想的汉字编码及输入法要通用于全社会:既适用于初学识字者,也适用于文字学家;既适用于普通人员,也适用于职业录入员。
汉字编码及输入法要与现行语文基础教育同步,是指小学生们能在接受常规语文基础教育的同时很容易学会和使用;与国民教育背景一致,是指已完成语文基础教育的人们根据已经掌握的语文基础知识很容易学会和使用。曾有输入法宣称,只要将其输入法纳入小学教育内容,学生毕业的时候就能非常熟练地使用,并且终身受益。问题的关键是要学习的输入法内容与现行语文基础教育内容是否一致。中国小学生的课业负担之重,语文课时所占比例之高,都是有目共睹的。除非要学习的输入法内容与语文基础知识一致,否则,任何将输入法纳入小学教育内容的做法都是不能接受的。汉字编码及输入法不仅不能成为语文基础教育的负担,而且应该成为辅助学习的有效工具。
汉字编码及输入法限用26个字母,才能与通用键盘高度兼容。
下面讨论实现目标的途径。如果说确立目标时要有"在战略上蔑视一切敌人"的气魄,要高瞻远瞩、胸怀大志,那末,在实现目标时则无疑要"在战术上重视一切敌人",要正视一切困难,冲破每一道障碍。
要实现既定战略目标,有两个基本障碍:一是字量障碍,二是词量障碍。
常用汉字只有几千个,但汉字总量却有几万甚至十几万个。要实现全汉字集处理,要么规则趋于复杂而难学,要么重码率高而"拖累"常用字。
汉语以字为最小单位,但人们的思维和表达却是以词为最小单位。编码输入要符合人的思维习惯并提高效率,还要在字编码的基础上"叠加"大量(比如说6万以上)词编码,但字与词在形式上又无法区别,因此,本身已经不堪重负的字编码还要受到词编码的"大举入侵",其影响将是毁灭性的。
显然,任何单一类型的编码,无论是音码、形码还是音形码,都无法同时克服字量和词量两大障碍。但如果将它们科学地组合在一起,就有可能实现优势互补,克服障碍,实现目标。
三合一的解决方案是:集音码、形码、音形码于一体,不切换混用各种方式输入汉字;音形码为主,输入常用字和词语;音码和形码为辅,只输入单字;形码应用于全汉字集。
音码是指全拼方式,由于单字重码率高,不宜用作主要输入方式;形码要通用于全汉字集,以易学为主,重码率不可能低,同样不宜作为主要方式;音形码如果设计得好,可在常用字或通用字范围、在易学的基础上实现单字和词语重码率"双低",因此被选作主要输入方式。
采用多种编码组合,最重要的一点,是要利用码元、键元和编码方式的科学组合,自然分隔各种码的编码空间,自然分隔字码与词码的编码空间,使它们互不干扰。否则,一切都无从谈起。
2. 规范性
- 采用《汉语拼音方案》、《汉字统一部首表(草案)》201部首和5种基本笔画实施编码;
- "兼容码"不是"容错码";
- 采用规范词库,自造词加标识;
- 自动提示常用字的规范笔顺。
规范性应该成为汉字编码及输入法的强制性标准,具有"一票否决权"。在这方面,希望国家有关部门和机构有所作为。任何汉字编码及输入法,如果不符合文字规范,都不应推广。所谓规范,当然是指汉字编码及输入法要符合文字规范。如果要求再高一些,汉字输入法还应该成为促进文字规范化的有效工具。
随着电脑的普及和互联网的发展,"打字"逐渐取代"写字"而成为书面表达的常态方式。汉字输入法对语言文字规范化的影响与日俱增。形码曾因"乱拆字"和"倒插笔"而倍受指责。于是,有专家力荐音码,认为音码才符合语文规范。后来又发现,音码普及却让错别字大量增加。原因是同音字太多,有些人胡乱用字,甚至还有人明知故犯,因为懒得在众多重码字中寻找正确的字。这种现象让人哭笑不得。但单靠宣传、"说教"好象不能解决问题。
汉字输入,目前以及在今后的相当时期,普遍使用的还将是键盘输入。因此,应该让汉字输入法本身成为促进语言文字规范化的有效工具。在人们正常输入汉字的过程中,让输入法把守第一关,自动排除语言文字方面的一些错误。久而久之,不敢说全民语文水平会有多大提高,至少能在全社会的语文活动中减少错别字以及其它不规范现象。
笔者多年前曾写过一篇小文章,呼吁"让电脑为语言文字规范化服务"[5]。我将这种思路进一步深化,并应用到三合一方案中,做了一些实践性的探索,现择其要点,简单论述三合一在符合文字规范并进而为促进文字规范化服务方面的一些思考和做法。
① 采用规范码元
音码有全拼和双拼。笔者向来以为双拼属于音码中的不规范码,不宜提倡。好在大多数人使用的是全拼。全拼有国家标准《汉语拼音方案》,不存在码元不规范的问题。所谓"万码奔腾",主要是形码和音形码。"编码运动"早期,人们各取所需,随意选取字根、字元等,将汉字拆得"七零八落",引来一片斥责声。后来出台了《信息处理用GB13000.1字符集汉字部件规范》,情况有所好转,但并没有完全解决问题。
从现行语文基础教育内容和国民教育背景来考察,部首优于部件。部首查字法源远流长、深入人心,是最普及的"形码"。
从语言文字规范化考虑,并与语文基础教育同步和保持一致,三合一完全而且只采用《汉语拼音方案》、《汉字统一部首表(草案)》201部首以及5种基本笔画实施编码。
② 采用规范的"兼容码"
无论音码、形码还是音形码,总会碰上一些"难打字",为了方便使用,很容易想到 "容错码"。什么"倒插笔"、"南方音",都无所谓,电脑宽容,软件大度,照样能打出字来。这种做法,方便是方便,但明摆着不利于语言文字规范化。有了电脑的"纵容",人们在语言文字方面一时或偶然的错,不但没机会认识和改正,还会得到强化而巩固,一直错下去。
三合一的做法是:"兼容",但不"容错"。
三合一以音形码为主要输入方式,同时又配备了形码、笔画码和拼音作为"兼容码"。不必切换,可随机采用各种方式输入汉字:知道部首的字和词语可用音形码输入;不认识的字可用形码输入;编码困难的字可用笔画或拼音输入。但所有的"兼容码"都是规范码,哪一种方式都不"容错":用笔画输入,"倒插笔"不行;用拼音输入,必须拼音正确;等等。
③ 采用规范词库,自造词加标识
汉字输入法普遍实行"字为基础、词为主导、智能处理",而且,词库有越来越大的倾向。自造词功能也早已是"标准配置"。词输入方式对减少错别字大有帮助,前提是电脑词库中的词都是正确的。但自造词就不同了。自造词功能非常受欢迎。但由此而"造"成的错别字也防不胜防。对学生的危害更大。如果一个学生在输入汉字时,随手造了一个含有错别字的"词",以后再用的时候,这个"词"就会堂而皇之地再次亮相,这样可能一错再错。更要命的是,如果使用的是公用电脑,还可能"谬种流传",殃及其他同学。
但显然不能取消自造词功能。
三合一的做法是:给自造词加标识,以示区别。输入过程中,如果是自造词,提示行显示时将加上星号"*",以提醒使用者注意。
三合一采用大词库(通用版近9万条词语),输入时以词语输入为主,希望能有效减少错别字的出现。
在一般输入法词库中,往往含有"据不完全统计"之类的短语,甚至还有一些根本就是"字串",以提高输入速度。但学生词库似乎应该更加注重词汇的规范性。为此,三合一专门为中小学生"量身定制"了学生版。学生版的词库囊括了李行键先生主编的《中学生规范词典》和《现代汉语成语规范词典》收录的词条,以满足学生使用规范词汇的要求。遗憾的是,这样的学生词库词汇量太少,远不能发挥三合一词码空间巨大的潜力。而且,词典收词标准与用于输入的词汇毕竟有不小的差异,有些很常用的词汇因为过于简单,词典可能觉得没必要解释而不收录,例如"小学生""中学生""大学生"这样的词汇,在上述词典中都没有收录,但显然在输入法词库中应该有它们。当然,这里所说的输入用词汇并非全部是严格意义上的“词”。
需要特别指出的是,"采用规范词库",只是三合一的愿望,希望国家尽快发布适合输入法用途的、标准的、权威的通用词库和学生词库,并适时修订。
④ 笔画码"超长"提示
一般笔画码的码长虽然对于输入法来说偏长,但相对于大多数汉字的笔画数又偏短,涉及到的只是汉字的一小部分笔画。例如,"五笔画"输入法只涉及汉字的"前4末1"笔画,而大多数汉字的笔画数都大大超过5。因此,一般的笔画码在学习和查询汉字笔顺方面效果不好。三合一学生版的笔画码则是在输入汉字过程中提示汉字的更多笔画,可以作为学习和查询汉字笔顺的辅助工具,使用者在输入汉字的同时,可以学习和掌握汉字的规范笔顺。不输入汉字的时候也可用于查询汉字的规范笔顺。
学生版笔画码采用按规范笔顺逐笔编码的方式,输入码码长8。输入汉字上屏前,在提示框中显示所有重码字的编码,如果汉字的笔画数超过最大码长8,超过部分的笔画也按同样规则编码(为叙述方便,这部分编码称之为提示码),并接在输入码后面同时显示。为了避免提示码对输入码在视觉上的干扰,在输入码与提示码之间加一连字符。由于有些汉字的笔画数过多,全部显示会使提示框过大,应确定一个合理的显示长度,超出这个长度就不再显示。3500个常用字中笔画数最大的字是24画,但超过20画的字只有12字,据此确定学生版笔画码提示汉字的前20画,其中前8画为输入码。
顺便提一下,三合一通用版的笔画码为4位等长码(前3末1笔画),因为通用版的笔画码只用于输入部首字和部首不明显的字,简易为主,不考虑"学习笔顺"的用途。
3. 易学性
- 与语文基础教育同步,实现"无级提速";
- 以读音为主安排部首键位;
- 不拆分汉字;
- 用拼音输入后,提示字的音形码或形码,用非拼音方式输入后,提示字的拼音;
- 形码与音形码主要在第一码上有区别,可同时学会。
- 无障碍输入:认识的字和词语,用音形码输入,不认识的字,用形码或笔画码输入,部首不明确或不会写的字,用拼音输入。
易学是普及的基础。所谓易学,一是要与语文基础教育同步,从初学识字起就能同时学会并使用编码,识字与打字相辅相成,二是对汉字基础知识(指拼音、笔画和部首等)越熟悉,就越容易学会并使用编码。如果一种汉字编码,文字水平不高的专业录入员完全依靠死记硬背来掌握,而"满腹经纶"的文字学家反而摸不着门,这样的编码只能给汉字"添乱"。一是"无门槛进入",二是对汉字基础知识越熟悉就越容易掌握,这是笔者对汉字编码及输入法易学性的理解。
三合一组合了多种输入方式,可与语文基础教育同步,实现"无级提速":初学拼音和写字,可用拼音和笔画输入汉字;学习部首后,可随机改用音形码,并可输入词语,效率随之提高;掌握的部首和词汇越多,输入效率越高;输入汉字的过程,也是学习、复习和巩固汉字部首、笔顺、拼音和词汇知识的过程,并可起到纠错作用。
规范是易学的必要条件,但不是充分条件。规范的重点是码元,在此基础上,易学的重点是码元的键位安排。三合一完全采用汉语拼音、汉字基本笔画和汉字部首实施编码,为易学创造了必要的条件。汉字基本笔画的种类少,其键位记忆不难,因此,重点是部首的键位安排。部首包括成字部首和非成字部首。在三合一中,成字部首一律按拼音首字母安排键位。大部分非成字部首按其习惯名称关键字的拼音首字母安排键位,例如:宀B、疒B、刂D、 阝E、钅J、犭Q、彳R、饣S、礻S、攵W、衤Y、爫Z,等等。
汉字拆分,始终是形码的一大难题。由于汉字结构的复杂性,很难将汉字拆分得中规中矩。退一步说,就算将汉字拆分得完全符合规范,也很难做到易学,因为普通大众不是文字学家,他们搞不懂、因此也就记不住几千几万个汉字为什么要这样拆而不能那样拆。还有,部件规范与人们熟悉的部首规范似乎也有些矛盾。例如,按部首规范,"前"的部首为"丷",但按部件规范"前"的第一个部件是"丷"下面加一横。如此,如果用部首作为码元,"前"(以及很多同类字)该如何拆分呢?
三合一的解决方案是:不拆分汉字。
下面简要介绍主要编码方法。
音形码:依次取拼音首字母、部首、余部首笔、余部末位码。余部指汉字不包括部首的剩余部分。如果余部末笔部位为部首结构,末位码取部首,否则取末笔。例如,"哪"的拼音首字母为N、部首是"口"(K)、余部"那"的首笔折(V)、余部末笔部位是部首结构"阝"(E),"哪"的音形码是NKVE。又如"骋"字余部的末笔部位"丂"不是部首结构,末位码取末笔折(V),音形码为CMIV。上面提到的"前"字,音形码为QBED,其中B为部首"丷"(八字头)的代码,E为余部首笔的代码,D为余部末位码(刂)。提取部首的方法与汉语字典的部首查字法一样,不涉及汉字拆分。
形码:将音形码第1码"拼音首字母"换成"部首首笔"即为形码。例如,"哪"的部首"口"首笔为竖(I),"哪"的形码为IKVE。同理,"骋"字形码为VMIV。
词码:按音形码取码,二字词取二字的前2码;三字词取三字的第1码和末字第2码;多字词取前三末一字的第1码。举例:科学KHXZ(科、禾、学、子);科学家KXJB(科、学、家、宀);等等。
笔画码上文已有介绍。音码即汉语拼音全拼方式。
三合一将上述各种方式组合在一起,不切换混用,可接近于无障碍输入:认识的字和词语,用音形码输入,不认识的字,用形码或笔画码输入,部首不明确或不会写的字,用拼音输入。
为了进一步提高易学性,三合一还设置了"编码互查"功能:用拼音输入一个汉字后,编码窗口自动提示字的音形码或形码,方便掌握疑难字的部首和编码;用非拼音方式输入后,自动提示字的拼音,可识读不认识的字。这样,输入汉字的过程,也是学习的过程,不认识的字会变得认识,部首不确定的字可明确部首,形成良性循环。
4. 高效性
- 音形码为主要输入方式,重码率低,字为基础,词为主导,满足专业录入员的输入速度要求。
高效性也应该是汉字编码及输入法的刚性要求。所谓普通用户只要求易学而不需要高速的说法透出的是"鱼和熊掌不可得兼"的无奈。
汉字编码的高效性体现在两个方面:一是用于键盘输入时,满足专业录入员的速度要求;二是用于汉字排(序)检(索)时,可实现中文字典的直接翻页查字。由于字典并非"一页一字",而且打开字典,我们一次看到的是两页,因此字典查字法对重码率的要求相对要宽松得多。
音形码是三合一的主要输入方式,在GB2312-80字符集3755一级字范围的静态重码比例为6.36%。引入简码后,还可大幅度降低常用字的重码率。
三合一音形码输入时以词语为主,词重码率对输入效率的影响并不亚于单字重码率。三合一通用版词库近9万条词语,重码率仍很低。
此外,音形码在GB2312-80字符集6763汉字、近9万条词语范围,尚有20多条单字与词语之间的重码。
全面考虑常用字单字重码率、大词库词语重码率、字简码和词简码等综合因素,熟练掌握后"盲打",三合一足可满足专业录入员的输入速度要求。
5. 通用性
- 字符集开放:编码规则不作任何修改,即可通用于全汉字集,字符集扩大不影响常用字的快速输入;
- 词语集开放:可根据需要调整、扩充词语库,不干扰单字输入;
- 多种编码兼容,优势互补;
- 可方便地输入常用的非汉字字符;
- 采用26个字母键,与通用键盘高度兼容;
- 形码还适用于汉字排检,实现中文字典直接翻页查字。
全汉字集处理对输入法来说是个很大的难题,难在既要保证常用字的快速输入又要覆盖全部汉字而规则简单。汉字总数高达几万甚至十几万个,但常用字只有几千。正是这一点使得难题的破解成为可能。
三合一采用分而治之的方案破解难题:用音形码输入常用字,用形码输入全部汉字。由于常用字数量少,音形码可以在规则简单的前提下保证低重码率。又由于非常用字使用频率低,形码可以不必斤斤计较重码率而做到规则简单。还由于三合一形码的码元是汉字的5种基本笔画和201个部首,它们本身是通用于全部汉字的,所以,三合一应用的字符集具有开放性,编码规则不必作任何修改即可通用于全汉字集。而且字符集的扩大并不影响常用字的快速输入,因为音形码与形码各自具有独立的编码空间,可混合使用而又互不干扰。
全汉字集再加大词库,是一道更大的难题。三合一的解决方案仍然是分而治之。音形码是三合一的"主力"输入方式,既输入常用字也输入词语。由于音形码的字编码空间与词编码空间也基本不交叉,因此,三合一应用的词语集也具有开放性,可根据需要调整、扩充词语库(如增加专业词库等),而不必担心影响单字输入。
和形码一样,三合一中的笔画码和拼音也是辅助输入方式,辅助方式只输入单字,不输入词语。音形码、形码、笔画码和拼音在三合一中互不干扰,实现了多种编码兼容,优势互补。
非汉字字符的输入也是汉字输入法需要考虑的一个问题。三合一采用音形码的形式,根据字符名称用三键(三码长)输入非汉字字符,与四码长的字码和词码互不干扰。
为了与通用键盘高度兼容,三合一只采用26个字母键(另加"?"为查询键)。
三合一的形码在相当程度上保留了部首查字法对汉字按部首分类排序的特点:在部首之前先取部首首笔,使得按码序排列的汉字具有良好的排序效果,所有汉字均按部首首笔分类(笔画本身按通行的横、竖、撇、点、折排序)、大部分汉字按部首分类排序,其中讠、氵、口、亻、忄、⺮、艹、扌、辶、攵、禾、女等所含字量大的部首项下的全部汉字按部首"清一色"排序。因此,形码还适用于字典查字法,实现中文字典直接翻页查字。识字、打字、查字三位一体,相辅相成。
通用于全汉字集,通用于全社会,通用于键盘输入和汉字排(序)检(索),这是笔者对汉字编码通用性的理解。
6. 问题
三合一的易学建立在规范的基础上,而三合一的规范性则建立在汉字本身规范性的基础上,因此,在汉字本身的规范性欠缺的方面,也正是三合一的难点。这主要是如何确定汉字部首。理想的状态应该是"一字一部"。新版《新华字典》虽然已改用201个部首,但对部分字仍然采用"多开门"的办法,也就是"一字多部"。汉字编码不宜"多开门"。由于汉字部首的确定方法尚未统一,作为权宜之计,三合一采用了李行键主编的《学生规范字典》、《中学生规范词典》和《现代汉语规范词典》三部辞书的部首检字表的归部方法确定汉字部首(它们都是"一字一部")。据说《汉字部首规范》正在研制中,盼望其尽快作为国家标准出台。从汉字编码的角度,希望对应国家标准的各字符集,其中的每个汉字都应该规定一个明确的部首。这对汉字教学也有利。
参考资料:
[1] 刘春华.统一汉字编码的途径、条件及前景.语文建设,1996年第3期:39-40
[2] 刘春华.汉字编码的性能要求. 语文建设,1996年第8期:44-46
[3] 刘春华.试论汉字编码的宏观要求及理想模式.科技导报,1997年第7期:13-15
[4] 刘春华.汉字排检与编码输入应合二为一.语文建设,1997年第2期:42-44
[5] 刘春华. 让电脑为语言文字规范化服务.语文建设,1997年第7期:45-46