目录
数字图像通常是由照相机、摄像机、扫描仪、坐标测量机等输入设备捕捉现实世界中的画面产生的,它以像素为基本元素,可以用数字计算机或数字电路存储和处理的图像。
数字图像由许多密集的细小点所组成,这些细点构成一幅图像的基本单元,称为像素。像素越多,画面就越清晰。像素(或称像素点、像元,Pixel)是数字图像的基本元素。每幅图片都是由色点组成的,每个色点称为一个像素。
如果一幅图片由30万个色点组成,这幅图片的像素就是30万。我们常说相机是多少像素的,其实是说这个照相机的感光器件有多少个,有10万个感光器件的相机就是10万像素的相机,有400万个感光器件的相机就是400万像素。
像素是在模拟图像数字化时对连续空间进行离散化得到的。每个像素具有整数行(高)和列(宽)位置坐标,同时每个像素都具有整数灰度值或颜色值。像素点是最小的图像单元,一幅图片由若干个像素点组成。如果一张图片在电脑的文件属性窗口是看到的尺寸是500×338,就是说这张图片是由500×338的像素点矩阵构成的,这幅图片的宽度是500个像素点、高度是338个像素点,共有169000(500×338)个像素点。
图像分辨率是指每英寸图像内的像素点数,单位是像素每英寸。分辨率越高,像素的点密度越高,图像越逼真,越接近现实世界的画面。
屏幕分辨率是屏幕每行的像素点数乘以每列的像素点数。每个屏幕都有自己的分辨率,屏幕分辨率越高,所呈现的色彩越多,清晰度越高。比如,一个屏幕分辨率是1024×768,也就是说这个屏幕的水平方向上有1024个像素点,垂直方向上有768个像素点。像素的大小是没有固定长度的,但是不同设备上一个单位像素色块的大小是不一样的。例如,尺寸面积大小相同的两块屏幕,分辨率大小可以是不一样的,分辨率高的屏幕上像素点(色块)就多,所以屏幕内可以展示的画面就更细致,单个色块面积更小。分辨率低的屏幕上像素点(色块)更少,单个像素面积更大,可以显示的画面就没那么细致。
灰度级有时会和灰度混淆。灰度(值)表示灰度图像单个像素点的亮度值,值越大,像素点越亮,反之越暗。灰度级表明图像中不同灰度值的最大数量。灰度级越大,图像的亮度范围越大。
在学术界,把白色与黑色之间按对数关系分为若干等级,称为灰度。灰度分为256阶,0为黑色。灰度就是没有色彩,RGB色彩分量全部相等,如RGB(100,100,100)就代表灰度为100,RGB(50,50,50)代表灰度为50。灰度级表示灰度图像的亮度层次,比如第一级、第二级、……、第255级等。
图像深度是指存储每个像素所用的位数,也用于量度图像的色彩分辨率。图像深度确定彩色图像的每个像素可能有的颜色数,或者确定灰度图像的每个像素可能有的灰度级数。它决定了彩色图像中可出现的最多颜色数,或灰度图像中的最大灰度等级。比如,一幅单色图像,若每个像素有8位,则最大灰度数目为2的8次方,即256。一幅彩色图像RGB三个分量的像素位数分别为4、4、2,则最大颜色数目为2的(4+4+2)次方,即1024,也就是说像素的深度为10位,每个像素可以是1024种颜色中的一种。例如,一幅画的尺寸是1024×768,深度为16,则它的数据量为1.5MB,计算如下:
二值图像(Binary Image)上的每一个像素只有两种可能的取值或灰度等级状态。二值图像只有两个值,即0和1,0代表黑、1代表白。其保存也相对简单一些,每个像素只需要1bit就可以完整存储信息。如果把每个像素看成随机变量,一共有N个像素,那么二值图像有2的N次方种变化,而8位灰度图有255的N次方种变化,8位三通道RGB图像有255×255×255的N次方种变化。也就是说同样尺寸的图像,二值图像保存的信息更少。
灰度图像(Gray Scale Image)是指用灰度表示的图像。除了常见的卫星图像、航空照片外,许多地球物理观测数据也以灰度表示。我们平时看到的灰度图像是由0到255个像素组成的。灰度图像是二值图像的进化版本,是彩色图像的退化版,也就是灰度图保存的信息没有彩色图像多,但比二值图像多。灰度图像只包含一个通道的信息,而彩色图像通常包含三个通道的信息,单一通道可以理解为单一波长的电磁波,所以红外遥感、X断层成像等单一通道电磁波产生的图像都为灰度图。灰度图像是每个像素只有一个采样颜色的图像,通常显示为从最暗黑色到最亮白色的灰度,尽管理论上这个采样可以是任何颜色的不同深浅,甚至可以是不同亮度上的不同颜色。灰度图像与黑白图像不同,在计算机图像领域中黑白图像只有黑色与白色两种颜色,但是灰度图像在黑色与白色之间还有许多级的颜色深度。灰度图像经常是在单个电磁波频谱(如可见光)内测量每个像素的亮度得到的,用于显示的灰度图像通常用每个采样像素8位的非线性尺度来保存,这样可以有256级灰度(如果用16位,则有65536级)。
彩色图像也就是RGB图像,每个像素由3个通道进行表示。彩色图像的每个像素通常是由红(R)、绿(G)、蓝(B)三个分量来表示的,分量介于(0,255)。
通道表示把图像分解成一个或多个颜色成分,通常可以分为单通道、三通道和四通道。单通道表示一个像素点只需要一个数值表示。单通道只能表示灰度,0为黑色。单通道图像就是图像中每个像素点只需一个数值表示。三通道表示把图像分为红、绿、蓝三个通道。三通道可以表示彩色,其中全0表示黑色。四通道表示在RGB基础上加上alpha通道。alpha通道表示透明度,为0时表示全透明。在计算机中用M×N的矩阵表示一幅尺寸大小为M×N的数字图像,矩阵元素的值就是该图像对应位置上的像素值。三通道图像数据在内存中的存储是连续的,每个通道元素按照矩阵行列顺序进行排列,通常计算机按照RGB方式存储三通道图像格式,而图像采集设备输出图像格式一般是BGR方式。
数字图像的噪声主要来源于图像获取的数字化过程。图像传感器的工作状态受各种因素的影响,如环境条件、传感器元件质量等。在图像传输过程中,所用的传输信道受到干扰,也会产生噪声污染。例如,通过无线网络传输的图像可能会因为光或其他大气因素的干扰而受到噪声污染。图像噪声的种类有多种,主要有高斯噪声、瑞利噪声、伽马以及脉冲噪声等。其中,脉冲噪声(又称为椒盐噪声或双极性噪声)在图像噪声中最为常见。在图像生成和传输过程中,经常会产生脉冲噪声,主要表现在成像的短暂停留中,对图像质量有较大的影响,需要采用图像滤波方法给予消除。
通过图像平滑可以有效地减少和消除图像中的噪声,以改善图像质量,有利于抽取对象特征进行分析。经典的平滑技术对噪声图像使用局部算子,当对某一个像素进行平滑处理时,仅对它的局部小邻域内的一些像素进行处理,其优点是计算效率高,而且可以对多个像素并行处理。近年来出现了一些新的图像平滑处理技术,结合人眼的视觉特性,运用模糊数学理论、小波分析、数学形态学、粗糙集理论等新技术进行图像平滑,取得了较好的效果。灰度图像常用的滤波方法主要分为线性和非线性两大类。线性滤波方法一般通过取模板做离散卷积来实现,这种方法在平滑脉冲噪声点的同时会导致图像模糊,损失了图像细节信息。非线性滤波方法中应用最多的是中值滤波。中值滤波可以有效地滤除脉冲噪声,具有相对好的边缘保持特性,并易于实现,因此被公认是一种有效的方法。中值滤波同时也会改变未受噪声污染的像素的灰度值,使图像变得模糊。随着滤波窗口的长度增加和噪声污染的加重,中值滤波效果明显变坏。
数字图像处理技术通俗地讲就是应用计算机以及数字设备对图像进行加工处理的技术,有时候图像本身存在噪声,我们需要进行处理,但数字图像处理最主要的目的是寻找图像中我们感兴趣的信息,这些信息人眼可能不能直接感知,需要进行进一步处理。具体的图像处理常用的方法有图像变换、图像编码压缩、图像增强和复原、图像分割、图像描述、图像分类(识别)和图像重建等。
由于图像阵列很大,直接在空间域中进行处理,涉及计算量很大,因此往往采用各种图像变换的方法(如傅里叶变换、沃尔什变换、离散余弦变换等间接处理技术),将空间域的处理转换为变换域处理,不仅可减少计算量,还可获得更有效的处理(如傅里叶变换可在频域中进行数字滤波处理)。目前新兴研究的小波变换,在时域和频域中都具有良好的局部化特性,它在图像处理中也有广泛而有效的应用。
图像增强的目的是为了提高图像的质量,比如去除噪声、提高图像的清晰度等。图像增强不考虑图像降质的原因,突出图像中感兴趣的部分。例如,强化图像高频分量,使图像中物体轮廓清晰,细节明显;强化低频分量,减少图像中噪声的影响。图像复原要求对图像降质的原因有一定的了解,一般应根据降质过程建立“降质模型”,再采用某种滤波方法,恢复或重建原来的图像。对于一个数字图像处理系统来说,一般可以将处理流程分为3个阶段:首先是图像预处理阶段,其次是特征抽取阶段,最后才是识别分析阶段。预处理阶段尤为重要,处理不好会直接导致后面的工作无法展开。图像增强是图像预处理阶段的重要步骤。
由于场景条件的影响,很多图像拍摄的视觉效果都不太好,需要用图像增强技术来改善人的视觉效果。比如突出图像中目标物体的某些特点、从数字图像中提取目标物的特征参数等,这些都有利于对图像中目标的识别、跟踪和理解。图像增强处理的主要内容是突出图像中感兴趣的部分,减弱或去除不需要的信息。这样使有用信息得到加强,从而得到一种更加实用的图像,或者转换成一种更适合人或机器进行分析处理的图像。另外,图像传递系统包括图像采集、图像压缩、图像编码、图像存储、图像通信、图像显示六个部分。在实际应用中每个部分都有可能导致图像品质变差,使图像传递的信息无法被正常读取和识别。例如,在采集图像过程中,由于光照环境或物体表面反光等原因造成图像整体光照不均,或是图像采集系统由于机械设备的缘故无法避免加入采集噪声,或是图像显示设备的局限性造成图像显示层次感降低或颜色减少等。因此,研究快速且有效的图像增强算法,成为推动图像分析和图像理解领域发展的关键内容之一。图像增强处理是数字图像处理的一个重要分支,也是图像预处理的一个关键步骤。
对图像进行特征提取、图像识别的前期处理通常由图像预处理来现,它是图像识别过程一个不可缺少的环节。在采集图像时,由于光照的稳定性与均匀性等噪声的影响、灰尘对CCD摄像机镜头的影响,以及图像传输过程中由于硬件设备而获得的噪声等使得获取的图像不够理想,往往存在噪声、对比度不够、目标不清晰、有其他物体的干扰等缺点。从图像质量的角度来说,预处理的主要目的就是提高图像能向人或机器提供信息的能力。因此,预处理的实质就是按实际情况对图像进行适当的变换,从而突出某些有用的信息,去除或削弱无用的信息,目的是为了更好地提取图像的特征来分类识别。图像增强是重要的预处理手段。图像增强就是增强图像中用户感兴趣的信息,主要目的有两个:一是改善图像的视觉效果,提高图像成分的清晰度;二是使图像变得更有利于计算机处理。
图像增强指的是利用各种数学方法和变换手段,提高图像中的感兴趣区域与背景的对比度与图像清晰度,从而更明显地突出感兴趣的区域。例如,强化图像高频分量,使图像中目标轮廓清晰、细节明显等。图像增强把图像转换成另一种形式,使之适合于人眼的观察判断和机器的分析处理。另外,图像增强不是以图像保真原则为基点来处理图像的,而是根据图像质量变坏的一般情况提出一些改善方法。例如,在图像处理中,可以采用图像均衡的方法来缩小图像灰度差别;采用平滑滤波的方法去除图像存在噪声;采用边缘增强的方法去改善图像轮廓的不明显。图像增强主要应用在图像特别暗时,或者因为曝光太亮而无法让目标突出,这时就需要把目标的亮度提高一点,然后把不必要的障碍(噪声)调暗,以把目标清晰度最大化。
图像增强的方法是通过一定手段对原始图像附加一些信息或变换数据,有选择地突出图像中感兴趣的特征,或者抑制(掩盖)图像中某些不需要的特征,使图像与视觉响应特性相匹配。在图像增强过程中,不分析图像降质的原因,处理后的图像不一定逼近原始图像。根据增强的信息不同,图像增强可以分为边缘增强、灰度增强、色彩饱和度增强等。其中,灰度增强又可以根据增强处理过程所在的空间不同分为空间域增强和频率域增强两大类,简称空域法和频域法两大类。空间域增强是通过空间上的函数变换实现图像的处理。实现空域变换的方式有两种:一是基于像素点的,即每次对图像处理针对每个像素进行,与其他像素无关,称之为图像的点运算;二是基于模板的,也就是对图像的每次处理针对图像的每个子图进行,每个子图都是以某个像素点为中心的几何形邻域,称之为邻域运算、模板运算或者邻域去噪算法。频率域增强是将图像经傅里叶变换后的频谱成分进行处理,然后逆傅里叶变换获得所需的图像,基于频域的算法是在图像的某种变换域内对图像的变换系数值进行某种修正,是一种间接增强的算法。
(1)空域法空域法主要是直接在空间域内对图像进行运算处理,分为点运算算法和邻域去噪算法。点运算通常包括灰度变换和直方图修正等,目的是使图像成像均匀,或扩大图像动态范围,扩展对比度。邻域增强算法分为图像平滑和锐化两种。平滑一般用于消除图像噪声,但是也容易引起边缘的模糊,常用算法有均值滤波、中值滤波。锐化的目的在于突出物体的边缘轮廓,便于目标识别,常用算法有梯度法、算子、高通滤波、掩膜匹配法、统计差值法等。
(2)频域法频域法是利用图像变换方法将原来的图像空间中的图像以某种形式转换到其他空间中,然后利用该空间的特有性质进行图像处理,最后转换回原来的图像空间中,从而得到处理后的图像。频域法增强技术的基础是卷积理论。其中,频域变换可以是傅里叶变换、小波变换、DCT变换、Walsh变换等。
图像分割是数字图像处理中的关键技术之一。图像分割是将图像中有意义的特征部分提取出来,包括图像中的边缘、区域等,这是进一步进行图像识别、分析和理解的基础。虽然目前已研究出不少边缘提取、区域分割的方法,但是还没有一种普遍适用于各种图像的有效方法。
对一些三维物体,应用X射线、超声波等物理方法,取得物体内部结构数据,再将这些数据进行运算处理而构成物体内部某些部位的图像。目前图像重建最成功的例子是CT技术(计算机断层扫描成像技术)、彩色超声波等。
图像分类(识别)属于模式识别的范畴,主要内容是图像经过某些预处理(增强、复原、压缩)后进行图像分割和特征提取,从而进行判决分类。图像分类常采用经典的模式识别方法,有统计模式分类和句法(结构)模式分类。近年来新发展起来的模糊模式识别和人工神经网络模式分类在图像识别中也越来越受重视。