如今,我们用手机、电脑等电子设备处理中文信息已经习以为常,而在40多年前,这是一件难以想象的事情。
四十多年前,我国的计算机还主要用于科学运算和国防尖端工程,系统里没有精密汉字。报纸、书刊主要用铅制的活字排版印刷,手工挑字、人工排版效率很低。为此,新中国在1974年8月设立国家重点科技攻关项目“748工程”,研发汉字信息处理系统。最难的一步,就是让精密汉字进入计算机。当时还在北大当教员的王选和妻子陈堃銶,参与了这项工程的研究。
北京大学王选计算机研究所教授 中国科学院与中国工程院院士王选夫人陈堃銶:英文有二十六个字母,大小写共五十二个。我们(汉字)常用字就有六七千,至少有十几种字号,还有不同的字体,这样一算至少有好几千兆。当时我们用的计算机内存外存加起来六兆多,这个存储量当时就是一个非常大的难题。
1975年,王选用“参数表示规则笔画,轮廓表示不规则笔画”这种独一无二的方法,把几千兆的汉字字形信息,大大压缩后存进了只有几兆内存的计算机,这是新中国在世界上,首次把精密汉字存入了计算机。经过四年的连续攻关,王选团队又采用当时超前的激光照排技术,成功从计算机里输出了汉字。
1979年7月,新中国诞生第一张用“计算机-激光汉字编辑排版系统”整张输出的中文报纸。此后,从成功排出样书《伍豪之剑》,到在新华社中实用成功,汉字激光照相排版系统成为新中国第一个计算机中文信息处理系统,后来不仅风靡全国,也出口到日本和欧美等发达国家。
陈堃銶:他们日本说为什么要买中国的?就是觉得是最好。我们中国人是很聪明的,真是,就只要我们能够踏踏实实地干。王选有句话,要走向世界,中国人有这个能力。
改革开放40多年来,王选团队自主研发的一系列高科技成果,不仅颠覆性改造了新中国的新闻出版印刷行业,也在世界范围内推动了中文信息化的全面发展,电子书、新闻类应用软件等广泛应用在日常生活中。
北京大学王选计算机研究所所长郭宗明:在如今大数据、人工智能的时代,我们研究跨媒体的检索、生成等技术,让中文信息处理插上了人工智能的翅膀,使得人们的生活更加个性化、智能化。
如今,748工程已经过去了40多年,中文信息处理的研究已经从用计算机处理和显示汉字字形,转向了用计算机对汉字语义的理解和再生成。根据深度学习算法,计算机可以模仿手写笔迹造字,也可以写文章、作诗,还能把文字、音频、图像、视频,都转化为同一标准的表达方式,中文信息处理迈入人工智能时代。
本站内容未经许可,禁止任何网站及个人进行转载。