自动化科学与技术

自动化科学与技术 研究生示范课程课件第五章模式识别杨宜民

第五章模式识别 5.1 模式识别及其进展 5.1.1 模式识别的定义模式识别的定义：模式识别又称为模式信息处理，是一门研究用计算机对通常由人类感觉器官接受的图像、图形、表格、文字、语音等的模式信息进行处理、描述和分类的学科。

5.1.2 模式识别方法的研究进展 模式识别是基于统计方法而发展起来的。上世纪60年代，研究者们提出了以贝叶斯(Bayes)决策为基础的特征空间划分的分类器法，以K均值聚类为代表的聚类法和以K-L变换为基础的特征选择法。上世纪70年代、80年代，虽然句法模式识别和模糊识别方面有了许多新思想，但统计方法依然有生命力。到了90年代，主要研究“统计与句法相结合、句法与语义相结合”的模式识别方法。把语义作为属性引入，形成属性文法，可反映模式属性，通过语义规则降低文法中句法规则的复杂性，则可提高识别率。利用人工智能中的一些问题求解方法，如知识获取和表达、语义网络与产生式系统、框架和脚本(Script)、数据库和知识库等，正形成一类基于知识的模式识别法。

5.2 机器视觉（计算机视觉） 5.2.1 马尔视觉计算理论 1982年美国麻省理工学院的马尔(Marr)教授创立了“视觉计算理论”。马尔视觉计算理论认为，视觉的识别过程分为三个阶段。第一阶段是初始简图(Primal Sketch)，其目的是把二维图像中的边界、顶角、交边等重要信息表达清楚；第二阶段是“二维半计算”(2.5d Sketch)，描述出景物的三维可见表面，可称为“早期视觉”；第三阶段是三维景物的恢复与识别，这需要增加约束和利用经验知识。

5.2.2 机器视觉简介 1．机器视觉的组成及原理机器视觉的结构框图如图5.1所示。图像输入与数字化通常由CCD(Charge Coupling Device)摄像头（即机器视觉硬件）来完成。预处理的主要工作是图像的去噪声与信号增强。识别和理解是机器视觉研究中最主要的两大内容。图像识别除需一些算法外，有时还需要经验知识。图像理解主要是靠经验、知识来完成，因此系统中往往要加入知识库。图5.1 机器视觉的组成

2．一些常用的概念 • 图像的种类：黑白图像（灰度图像）和彩色图像。 • 图像分割：指把关注的物体与背景分开来。 • 几种颜色空间：RBG、XYZ、YIQ、HIS。 • 颜色空间的转换。

5.2.3 立体视觉 立体视觉指的是从不同位置摄取二幅或二幅以上的图像，并恢复三维信息，即完成三维物体识别、理解。可见，立体视觉可以由二台或者二台以上的CCD所组成，也可以由一台移动的CCD来完成。立体视觉要解决的问题： 1)抽取二幅图像的特征； 2)寻找二幅图像特征点的对应； 3)可视面的二维半恢复。

图像特征提取常用方法：Kalman滤波法、小波分析法、多尺度法。特征点对应可采用人为标志及内极线法、标记法、松弛法等处理技术。所谓二维半恢复就是根据二幅图对应点来恢复这些可见点、面的三维坐标，有时要用到经验、知识。图像特征提取常用方法：Kalman滤波法、小波分析法、多尺度法。特征点对应可采用人为标志及内极线法、标记法、松弛法等处理技术。所谓二维半恢复就是根据二幅图对应点来恢复这些可见点、面的三维坐标，有时要用到经验、知识。在机器人视觉中，摄像机定标指的是摄像机初始位置、方向、光轴中心、尺度因子等未知的参数的确定与校准。目前已提出多种摄像机定标算法。立体视觉是本学科当前研究热点和方向之一。

5.2.4 移动视觉 移动视觉能获取一系列的动态图像。动态系列图像分析就是通过对运动景物的图像序列分析、研究图像分割、运动参数估计及恢复三维景物的结构参数等。目前常用的是光流法和特征点匹配法。光流法主要通过图像三维速度场恢复三维运动参数及物体结构参数。特征点匹配法主要通过特征点对应求取运动参数和结构参数。

单目移动视觉沿较大曲率半径的曲线方向运动时，获取的动态序列图像可用于立体景物的识别与理解，此时单目移动视觉可以看成立体视觉。但图像三维恢复是不完全的，结构参数和速度矢量中总有一个不能确定的常数因子。此时需要增加附加条件：已知某点的三维坐标或已知物体中一条边长(或增加一台摄像机)。单目移动视觉沿较大曲率半径的曲线方向运动时，获取的动态序列图像可用于立体景物的识别与理解，此时单目移动视觉可以看成立体视觉。但图像三维恢复是不完全的，结构参数和速度矢量中总有一个不能确定的常数因子。此时需要增加附加条件：已知某点的三维坐标或已知物体中一条边长(或增加一台摄像机)。单目移动视觉沿近似直线方向运动（如高空摄影）时，获取的动态序列图像不能用于景物的立体恢复。此时单目移动视觉的作用是扩大视觉的观察范围。移动视觉的另一作用是用于动态目标的跟踪。移动视觉是本学科当前另一研究热点和方向。

5.2.5 文本识别与分析 文本识别与分析主要是利用计算机来阅读和处理各种文本、传真、电报、印章、签字等，是实现办公自动化不可缺少的重要技术。由于汉字类别数太多（要解决4000类的分类）、字体有多种，特别是手写体字形千变万化，这给自动汉字识别带来了相当的困难。一个有效途径是把已有的统计方法、句法方法、基于模糊、神经网络的智能信息处理方法等加以综合集成。目前，在汉字识别方法、系统及应用等方面，我国处于国际领先水平。例如在“商务通”、“手机”中已广泛应用。通常，文本中还包含有图形、图像、表格等内容。所以文本识别与分析除了进行文字识别外，还要对图形、图像、表格等进行识别与分析。

5.3 机器听觉 机器听觉的硬件是话筒。换言之，机器听觉通过话筒获取语音信息。语音识别与理解的研究目标是使计算机听懂人的说话，最终实现基于自然语言的人机通讯。上世纪70年代，科学家已提出了线性预测技术(LPC)、动态规划法(DP)、矢量量化技术(VQ)、隐Markov模型识别法(HMM)等语音识别方法。其中，HMM法由于有效地反映语音信号的动态特性，可在音素、半音节、音节、词或句子任一层建立对应的概率模型，适应于大词汇量和连续语音的识别，因而得到一定的应用。到了80年代、90年代，国外已出现大词汇量（1000个词）非特定人连续语音识别系统，我国也已成功研制出声控打字机。但是，由于所有语音识别方法对“受干扰或加入噪声的语音”无能为力，即机器听觉的鲁棒性差，所以限制了它的应用与推广。

语音识别与理解的研究动向： • 1)提高机器听觉的鲁棒性； • 2)语音识别与自然语言处理相结合； • 3)新的语音识别方法； • 4)语音识别系统的评价标准与评价方法。

5.4 模式识别的应用 模式识别有广泛的应用，见表5.1

表5.1 模式识别的应用

自动化科学与技术

自动化科学与技术

Presentation Transcript