近日,丁晓青主任在她清华大学的实验室里接受了本报记者的采访。丁晓青快人快语,豪爽而充满活力,完全不像年近60岁的人。她首次向记者透露了自己20年鲜为人知的艰苦的科研历程。
    记者:赋予计算机识图认字的智能,能够使人们解脱汉字输入的繁重劳动,克服计算机汉语信息处理的汉字输入困难的问题,对我国信息化发展具有极特殊重要的意义。您能简述一下这项工作的困难程度吗?
    丁晓青:常用汉字将近一万余,结构十分繁杂,而且印刷文字有不同字体、不同大小之分、横排和竖排之别,加上各种复杂的表格列表,图像版面的排列,使印刷文本的自动识别非常困难。对于手写汉字的书写更是因人而异,形态变化十分巨大。
    记者:清华大学电子工程系是从什么时候开始关注并研究汉字识别问题的?
    丁晓青:1966年IBM公司的Casey和Nagy首次发表了汉字识别的文章。国内的汉字识别研究开始于70年代末。
    清华大学电子工程系于80年代中开始了汉字识别的研究工作。初期的研究工作仅局限于有限和规则汉字的识别。经过10余年的研究和努力,我们已经从理论和实践上解决了汉字识别的问题:实现了对各种实际文本图像的计算机自动识图认字,不仅解决了印刷文本的识别,而且还解决了手写的,包括联机手写和脱机手写汉字和数字的识别,并且在实际的国民经济重要战场上发挥了不可缺少的效用。
    记者:你们是如何进行汉字识别研究的?
    丁晓青:汉字识别的研究经历了一段摸索的过程。一开始,习惯的想法是,每一个汉字都是由不同的笔划结构构成,因此,汉字识别应当从汉字的笔划结构出发,进行汉字笔划的结构特征提取,并据此进行基于汉字笔划结构分析的分类和识别。这种看似理所当然的想法,在相当一段时间,几乎主导了汉字识别的研究。但是,在实践中首先遇到的是汉字笔划结构及其相互关系难以稳定提取的困难,简单依赖抽取笔划结构的识别方法无法解决实际文字识别问题,我们必须寻求新的出路。
    首先引起我们注意的是,人类视觉感知毫无疑问是一个鲁棒性(鲁棒性是指一个系统在非理想环境下的工作能力,这种环境里可能有许多其他信号干扰,或者收到的信号电平具有快速起伏的特征)很强的、能抵御实际中可能遇到的各种变形和各种干扰噪声的文字识别系统。我们用眼睛可以识别各种各样的文字和图像,而不计较它的任何干扰和变形。显然,研究和模仿人类的视觉感知过程不论对汉字识别,乃至图像识别都是具有极其重要意义的。
    在汉字识别的研究中,还需要加以澄清的是往往将人类认字的过程和人们写字的过程的混淆。人类认字过程不同于写字过程,字是一笔一划按一定顺序写成的,而认字时,人们并不需要、实际上也没有将每个字符的笔划和结构都分析清楚后才能将每个字正确辨认。人们的认字过程实际上是对汉字整体形象的把握,是对汉字图像全局的处理过程。
    理论和实验证明,模仿视觉感知,直接利用字符图像全局信息进行的汉字统计识别方法,解决了文字识别的抗干扰的鲁棒性识别问题,也为文字识别的实际应用打下了坚实的基础。
    记者:你们研究室主要用什么方法进行汉字识别模仿视觉感知形象思维的呢?
    丁晓青:我们采用了基于字符图像的统计模式识别方法进行汉字识别,因为,统计模式识别和视觉感知有一定相似之处,即是基于字符图像整体的全局性的辨识。诚然,区别于人类认知的巨大的抽象能力,计算机只能在纯粹数值计算上来逼近人类的类比认知。人类视觉在大小、远近、旋转、变形上的巨大抽象能力,是视觉思维的巨大潜力所在,是和任何计算机辨识识别的巨大差别。当然,也是统计模式识别方法无法达到的。为此,原始图像的必要的预处理和汉字大小、位置和取向的规一化都是非常必要的。
    记者:你们进行统计模式识别的理论基础是什么?
    丁晓青:我们提出了“模式识别信息熵理论”,即从信息的获取、传输和转换的角度对模式识别信息过程进行全面和实质的分析。一个识别系统,识别能力决定于识别熵减,而识别熵减等于其学习过程的学习熵减,都等于系统与特征的互信息熵。因此,互信息熵表述了系统学习和识别能力,并直接决定了识别错误率的上限。
    记者:我国近20年汉字识别研究取得的令人瞩目的进展。汉字识别领域不仅在理论和算法上,而且在软件开发上成功地开发出了一系列具有自主知识产权的国际领先水平的文字识别商用软件产品。汉字识别软件产品广泛销售从国内市场到国际市场,并在国民经济主战场发挥重要作用。你是如何总结这20年我国汉字识别研究的重要进展呢?
    丁晓青:我认为,我国汉字识别研究这20年最重要的进展主要有以下几个方面:
    1.超多类成千上万的东方文本的高性能、高抗干扰鲁棒模式识别问题获得较圆满的解决:不仅对繁简汉字(近两万字)的识别,而且对日文(6000余字)、韩文(7000余字)的识别,以及它们与英文混排的实际全字体文本的识别;对于汉字(仿宋、黑、楷、圆、隶书、魏碑等)近百种字体变化、以及质量低下文本的高度适应性等;经美国Scansoft和微软公司对上述东方文本识别性能的评测,识别性能达到国际领先水平。
    2.解决了模式样本巨大变化的超多类模式识别问题,不仅对具有笔迹信息的联机手写汉字识别,而且对于最困难的自由书写脱机手写汉字识别,也取得前所未有的突破和进展:
    联机自由书写手写汉字识别,识别率达98%左右;
    规则书写的脱机手写汉字识别,识别率达99%以上;
    自由书写的脱机手写汉字识别样张,识别率92%左右。
    3.复杂版面的分析、理解和重构。复杂版面(如报纸)可以自动分析、理解,以及数字文档的原文本版式重现的重构,为文本的自动全信息数字化提供了有效工具。
    4.广泛实际应用的文字识别应用系统。自90年代初开始,提供市场实用的汉字识别系统,到如今已能提供高性能的有关文字输入的各种应用系统,包括(汉、英、日、韩)印刷文本识别系统、联机手写汉字识别系统、各种报表、表格输入系统,自动原文重现电子出版物制作系统等,并在各种需要文字输入的设备和国民经济重要信息工程中得以广泛推广使用。
    记者:在文字识别的领域,你们今后还有什么关键问题需要继续攻克呢?
    丁晓青:如进一步提高低质量、变形巨大、复杂环境干扰条件下的文字识别技术;解决视频图像的文字检测和识别,文字的字体、签字和字迹的鉴别;其他少数民族文字(藏文、维吾尔文、蒙文等)的识别,以及各种图象识别技术和应用问题等。这些问题的深入解决,将有助于进一步解决在实际应用中出现的难题。在我们实验室与清华紫光的良好合作中,我们体会到,让实验室更专注于核心技术研发,而把技术产品化及市场推广部分交给企业,同心协力才能使先进的科技在国家信息化事业中发挥更大作用。