首页
会员中心
到顶部
到尾部
其他电子电气

汉字手写体识别方法研究

时间:2020/10/27 9:24:01  作者:  来源:  查看:0  评论:0
内容摘要:       汉字的模式表达形式和相应的字典形成方法有多种,每种形式又可以选择不同的特征或基元(Primitive),每种特征或基元又有不同的抽取方法,这就使得判别方法和准则以及所用的数学工具不同,形成了种类繁多、形式各...

       汉字的模式表达形式和相应的字典形成方法有多种,每种形式又可以选择不同的特征或基元(Primitive),每种特征或基元又有不同的抽取方法,这就使得判别方法和准则以及所用的数学工具不同,形成了种类繁多、形式各别的汉字识别方法。总的来说,不同的特征抽取和分类器的设计方法决定了识别系统采用不同的处理方法,通常可以分为结构模式识别方法、统计模式识别方法、统计与结构相结合的识别方法以及人工神经网络方法等

   手写体汉字的识别的难点
      在模式识别发展的初期,几乎所有的人都把文字识别作为自己的研究方向,其中一个主要原因在于,人们普遍认为文字识别是一个比较容易解决的问题。然而历史的发展出乎了许多人的预料,在取得一些初步的成果之后,文字识别的研究便遇到了巨大的困难,这些困难导致了人们研究兴趣的分流,不少人转而从事模式识别其他分支的研究。而坚持下来的人,则不得不改变当初的认识,重新审视这一问题。实际上,文字识别不是一项孤立的应用技术,涉及到的许多问题是模式识别其他各个领域都会遇到的共性问题。文字识别的深入研究,必然会促进模式识别及其相关学科的发展。另外,文字识别具有很强的应用背景,巨大的市场需求是文字识别能够存在和发展的主要原因。因此无论在理论上还是在应用上,文字识别的研究都具有重要的意义。[2]通俗地说,文字识别就是由计算机自动识别各种字符,如字母、数字、汉字或其他语言中的字符。根据识别对象的不同,文字识别又相应地分为西文识别、数字识别和汉字识别等。这些字符可以是手写体,也可以是印刷体,因此,文字识别又分为手写体文字识别和印刷体文字识别。根据采用的输入设备的不同,文字识别又可以分为联机识别和脱机识别,其中联机识别是指将字符书写在与计算机相连的书写板上,由计算机根据字符的书写轨迹进行实时识别,因此联机识别是针对手写体而言的;脱机识别是指将字符书写或打印在纸张上,用扫描仪或其他光电转换装置将其转换成电信号输入到计算机中,再由机器进行识别。因此,脱机识别又称为光学文字识别,简记为OCR(Optical Character Recognition),以强调其输入装置是光学设备。从对书写者的要求来分,手写体字符识别又分为限制性(Constrained)和非限制性(Unconstrained)手写体字符识别(或称自由手写体字符识别)。伴随着识别技术和计算机性能的提高,无论是联机还是脱机手写体字符识别,都经历了一个由限制性到非限制性识别两个阶段。目前,人类所使用的各种文字,绝大多数都只包含很小的字符集。如,英文字符集由26个字母组成,俄文由32个字母组成,这些字母及其变化的不同组合构成了具有不同含义的文字,字母是这类文字的基本组成部分。对于小类别数的字符集,如阿拉伯数字,手写体识别己经可以做到对书写者不加任何限制,但对于人类别数的字符集,如汉字,还必须对书写者施加某些限制,以保证较高的识别率。将来再随着技术的发展逐步放松限制,最终达到对自由手写体文本的识别。本课题将以汉字识别为代表,详细讨论字符识别的一般方法。汉字识别是一个典型的大类别数的模式识别问题。汉字字符集所具备的字量大、结构复杂、相似字多等特点,再加上手写产生的形变,使得汉字识别成为字符识别领域中公认的最为困难的问题之一,并被作为字符识别的最终目标。
 

Tags:手写



相关评论
广告联系QQ:45157718 点击这里给我发消息 电话:13516821613 杭州余杭东港路118号雷恩国际科技创新园  网站技术支持:黄菊华互联网工作室 浙ICP备06056032号