汉字的轻装和包袱

游修龄
         关心汉字和使用字典的人都知道,汉字有个怪现象,即她的总字数很多,清《康熙字典》收字高达47000字,还不是全部,现代出版的《汉语大字典》破了《康熙字典》纪录,收字高达54678个。而人们常用的读书看报或自己动手写书文章所涉及的汉字,通常只两三千字而已.。如孙中山的《三民主义》,总字数约十六万,仅用了2134个不同的字;《毛泽东选集》一至四卷,总字数超过66万,也只用了2981个不同的字;老舍小说《骆驼祥子》,总字数十万多,所用总字数为2413字。所以文盲扫盲后认识2000多字,便可以看报纸和文学作品了。即便浩如烟海的古籍,它们涉及的字数,据统计,也只在六千左右。所以本文用“轻装”形容汉字的这一大优点。
        剩下来的那些近五万字的汉字,都是生僻的、退出日常使用的怪字,可视为退而不休、死而不亡的字,它们一直伴随着字典的更新搜集而不断增加,故我称之为“包袱”。譬如若你打开《康煕字典》,查一个普通的字,映入你眼前的都是些奇形怪状的陌生汉字,你要查的常用字,夹在这些陌生字中,找起来很费力,因为常用字与生僻字之比约1:20。生僻字这么多,是历史上不同时期有人在写作中创造了他自以为表达所必需的字,但得不到流行采纳,而负责编辑字典的人总留意尽量收集齐全,不使遗漏,所以越积越多。
        汉字“轻装”部分的优越性,非常突出,却常为人们所忽视。例如,《中文大字典》合成词达370,000之多。其中80%是由常用的5000~6000个汉字合成的。反之,拼音文字如英语,目前最大的《英汉辞海》收辞条达520,000条,其中合成词仅40,000条,再减去1/3的后缀派生词,还有310,000个单词,这不仅对母语非英语的人学习英语是个沉重的负担,就是母语为英语的人也不例外。无怪乎有人指出,美国的大学生,也不一定都能读懂“纽约时报”的每一篇文章。而中国人只要记得2000个单字,就可以读报、写信了。
        汉字在历史上逐漸增加的过程,可以从历代字典的诞生上看出一些规律性。下面是历代字典诞生的次序:
        东汉·许慎《说文解字》,収字9353个。
        南朝梁·顾野王《玉篇》,大同九年(543)。共収16917字,比《说文》多出7564字。
        宋·陈彭年、丘雍等《广韵》,大中祥符元年(1008年),共收字26195个。
        宋·丁度等《集韵》,仁宗宝元二年(1039),收字32381个。《集韵》收字增多,是由于所收的异体字特别多。一个字不管有多少不同的写法,又不管是正体,还是古体、或体、俗体,一概收录,有的一个字竟多到八、九个写法。缺点是对所收字的来源,不加说明,
        宋·司马光完成《类篇》,英宗治平四年(1067),共收31319字。
        明·梅膺祚编《字汇》,万历四十三年(1615年),收字33179个
        明·张自烈撰《正字通》,崇祯末年(1643),收字33000余个。
        清·张玉书、陈廷敬《康煕字典》,康熙五十五年(1716年)収字47000,主要据《字汇》和《正字通》补充而成。
        从以上可以看出,从《说文解字》到《康煕字典》的一千五百年间,字数不断增加,其中又可分为前后两个阶段,前期(唐以前)政治文化重心在北方,增长较慢,如《玉篇》只比《说文》增长了1.8倍,后期政治文化重心南移到长江流域及以南,字数的增长加快了,最后,《康煕字典》比《说文解字》增长了5.8倍,将近6倍。而我们后人看古籍所需的字数仍然保持在6000左右,其余的都属不常用的生僻字,其中动植物名称、大小地名等占了很多。如西汉·扬雄《蜀都赋》,提到的兽类:“兽则麙羊野麋,罢犛貘貒,鹿麝户豹能黄;胡蜼玃,猿蠝蠼猱,犹豰毕方”之类。今人初看,莫名其妙,必须靠注释或查字典才明白,无非是古今同物异名。
        如果把今人看古籍所涉及的6000字作为100,则《说文解字》所收9353字的利用率为68.58%;其余顺次是《玉篇》37.46%;《广韵》22.94%;《集韵》18.62%;《类篇》19.15%;《字汇》18.08%;《正字通》18.18%;《康煕字典》10.97%。字数越多,有效率越低,也即生僻字的包袱越重。
        古人造字的方法所谓六书,主要是象形、指事、会意和形声这四书。其中以象形字最有限,指事的字也有限,会意字最重要,是汉字的独创,最后,不得不依靠形声(80%)滋生大量汉字。形声字之所以最多,是客观上动植物名、地名、人名、山川名等极多之故。形声在一定程度上也即“拼音”。汉字之所以不同于西方的拼音文字,即因象形、指事、会意的主导作用不可取消,且远较单纯的拼音文字为优越。
        文字要表达具体的事物名称用形声法就够了,要表达抽象的观念和思想,必须转而依靠指事会意的综合运用,并不依赖生僻古怪的字。象老子《道德经》说的“知不知,尙矣;不知知,病也;夫维病病,是以不病。”又:“曲则全,枉则直;窪则盈,弊则新;少则得,多则惑。”庄子《秋水篇》:“井蛙不可以语于海者,拘于虚也;夏虫不可以语于冰者,笃于时也;曲士不可以语于道者,束于教也。”之类,它们表达抽象思想的内容深刻,而使用的文字则很普通。
        汉字在输入电脑之前,人们学习汉字和查检字义靠字典,查字典从部首入门,养成习惯后,非常方便。部首分类的应用,一直是在不断改进中,其趋势是尽量减少部首的种类,如东汉《说文》的部首为540部,明朝的《字汇》减少为214部,现今《辞海》再减为189部。为了弥补《辞海》减少太多,《汉字统一部首表》改増至201部,《汉语大字典》和〈汉语大词典〉采用200部。
        字数增加,部首减少,说明前人对汉字查检方法的改进是十分有成效的。事实上研究分析表明,定量統計的汉字包括台湾的標準常用字5,401个,大陆規范通用字7,000,淨得7,380个。除5个笔划部首所含的86字不计外,170个部首共含7,294个字,24个部首(人、心、木、月、土、虫等),共含4400字,占总字數7294的60%,平均相关度約94%。又, 170个部首的相关关字數6243个,总字數7294,平均相关度为6243/7294=86%,超过85%,说明部首与所属字义间的相关程度很高。非常便利于按部首查字。剩下少数的未能归入部首的,用难字表附在书后,难字可以按笔划数一查即得,并不存在查字难的问题。
        在电脑使用以前,人们掌握3000来个汉字字足够他书写阅读,若是看古书,查字典可以解决陌生字问题。使用电脑之后,带来如何在26个拉丁字母的键盘上输入毫无关系的汉字和检出的问题。而且既然要输入和检出,当然以一次性解决最为理想。从五笔划首先突破输入汉字以来,接着出现“万码奔腾”的各种输入法,它们各有优点,也各有局限,一直成为继续努力的方向,原因不在通用的7000左右字上,而在其余的数以万计的巨大包袱作祟。
        其实,即使发明出一种理想的输入法,包揽所有的非常怪僻的汉字在內,一查即得,实际上也并没有实用价值。可是,既然要让汉字进入电脑,就得一字不漏地输入所有希奇古怪的汉字。解决所谓查字难的问题,这是汉字历史包袱丢给电脑输入设计专家们一份吃力不讨好的尴尬任务。
        因而,不少研究汉字输入电脑的专家们还在动脑筋怎样设计出一种更理想的输入法,可以一举而查得任何生僻的汉字来。最近我看到一位研究者提出一种新设想。把所有汉字分为“部件”及“部件类”两个档次(详情从略),可以查出任何陌生的汉字来,举例说,翻查12,是“丌”字。翻查22,是“亓”字。翻到31O1,是“沍”字。翻到4OO是个“焒”字。…依此类推,“騳”,“妐”,“眎”,“尀”,“妛”,“窡”,“彑”,“阸”,“厼”,“尒”,“弖”,“孨”…等可以类推,一索即得。全部汉字进入他所拟的序列,就可以摆脱两千年来籍字典查字未曾解决的困难。我是外行,只能敬仰他的钻研精神,更不怀疑他的设计效率,问题是,象部件类所举的“沍”、“焒”、“騳”、“妐”、“眎”、“尀”、“妛”、窡”、“彑”等怪字,即使都能一查即得,又有什么实际应用意义或价值?