计算机视觉中的数学方法


吴福朝 编著 计算机视觉中的数学方法 www.plcworld.cn 内容简介 本书由射影几何、矩阵与张量、模型估计三个部分组成,它们是三维计算机视觉所涉及到 的基本数学理论与方法。I. 射影几何学是三维计算机视觉的数学理论基础,是从事计算机视觉 研究所必备的数学知识。本书着重介绍射影几何学和它在视觉中的应用,主要内容包括:平面 与空间射影几何,摄像机几何,两视点几何,自标定技术和三维重构理论。II. 矩阵与张量是描 述和解决计算机视觉问题的必要数学工具,视觉领域研究人员都应该掌握这门数学。本书着重 介绍与视觉有关的矩阵、张量理论与它的应用,主要内容包括:矩阵分解,矩阵分析,张量代 数,运动与结构,多视点张量。III. 模型估计是三维计算机视觉的基本问题,通常涉及到变换或 某种数学量的估计。本书着重介绍与视觉估计有关的数学理论与方法,主要内容包括:迭代优 化理论,参数估计理论,视觉估计的代数方法、几何方法、鲁棒方法和贝叶斯方法。上述三部 分涉及的数学内容是相对独立的,但三维计算机视觉将它们组成一个有机的整体。通过阅读本 书,读者能掌握三维计算机视觉中的基本数学内容与方法,增强数学素养、提高分析和解决视 觉问题的数学能力。 www.plcworld.cn 1 目 录 第一篇 射影几何 第 1 章 平面射影几何 1.1 射影平面--------------------------------------------------- 3 1.1.1 射影平面----------------------------------------------- 3 1.1.2 两点、两线的叉积--------------------------------------- 5 1.1.3 共线点、共点线的交比----------------------------------- 5 1.2 二次曲线-------------------------------------------------- 8 1.2.1 矩阵表示--------------------------------------------- 9 1.2.2 切线------------------------------------------------- 9 1.2.3 配极对应--------------------------------------------- 10 1.2.4 对偶二次曲线----------------------------------------- 13 1.2.5 圆环点及其对偶--------------------------------------- 14 1.3 二维射影变换--------------------------------------------- 16 1.3.1 二维射影变换----------------------------------------- 16 1.3.2 直线与二次曲线的射影变换----------------------------- 20 1.4 变换群与不变量------------------------------------------- 21 1.4.1 等距变换群------------------------------------------- 21 1.4.2 相似变换群------------------------------------------- 23 1.4.3 仿射变换群------------------------------------------- 24 1.4.4 射影变换群------------------------------------------- 27 第 2 章 空间射影几何 2.1 射影空间------------------------------------------------- 31 2.1.1 空间点----------------------------------------------- 31 2.1.2 空间平面--------------------------------------------- 31 2.1.3 空间直线--------------------------------------------- 34 2.1.4 共线平面束的交比------------------------------------- 37 2.2 三维射影变换--------------------------------------------- 38 2.2.1 三维射影变换----------------------------------------- 38 2.2.2 平面与直线的变换规则--------------------------------- 39 2.3 二次曲面与变换规则--------------------------------------- 40 2.3.1 基本性质--------------------------------------------- 40 2.3.2 二次曲面的对偶--------------------------------------- 42 2.3.3 绝对二次曲线与绝对二次曲面--------------------------- 45 2.4 空间射影变换群的子群------------------------------------- 49 2.4.1 仿射变换群------------------------------------------- 49 www.plcworld.cn 2 2.4.2 相似变换群------------------------------------------- 51 2.4.3 等距变换群------------------------------------------- 52 2.4.4 二次曲面分类----------------------------------------- 53 2.5 射影坐标系与射影坐标变换--------------------------------- 56 第 3 章 摄像机几何 3.1 摄像机模型----------------------------------------------- 59 3.1.1 摄像机模型------------------------------------------- 59 3.1.2 摄像机矩阵元素的几何意义----------------------------- 63 3.1.3 摄像机矩阵估计--------------------------------------- 66 3.1.4 欧氏空间与射影空间----------------------------------- 67 3.2 投影与反投影--------------------------------------------- 69 3.2.1 空间点----------------------------------------------- 69 3.2.2 空间直线--------------------------------------------- 70 3.2.3 空间平面--------------------------------------------- 72 3.2.4 二次曲线--------------------------------------------- 73 3.2.5 二次曲面--------------------------------------------- 74 3.3 恢复平面景物的几何结构----------------------------------- 77 3.3.1 仿射结构--------------------------------------------- 77 3.3.2 相似结构--------------------------------------------- 78 3.3.3 绝对欧氏结构----------------------------------------- 79 第 4 章 两视点几何 4.1 基本矩阵------------------------------------------------- 81 4.1.1 极几何----------------------------------------------- 81 4.1.2 基本矩阵--------------------------------------------- 83 4.1.3 几何解释--------------------------------------------- 87 4.2 单应矩阵------------------------------------------------- 88 4.2.1 单应矩阵--------------------------------------------- 88 4.2.2 与基本矩阵的关系------------------------------------- 91 4.2.3 不动点与不动线--------------------------------------- 93 4.3 基本矩阵估计--------------------------------------------- 94 4.3.1 8-点算法-------------------------------------------- 94 4.3.2 最小点对应算法--------------------------------------- 96 4.4 恢复摄像机矩阵------------------------------------------- 97 4.4.1 射影相关--------------------------------------------- 97 4.4.1 摄像机矩阵的恢复------------------------------------- 100 第 5 章 自标定理论 5.1 正交性与摄像机内参数------------------------------------- 101 www.plcworld.cn 3 5.1.1 影消点与影消线--------------------------------------- 101 5.1.2 摄像机内参数----------------------------------------- 102 5.2 圆环点与摄像机内参数------------------------------------- 105 5.2.1 内参数约束方程--------------------------------------- 105 5.2.2 确定圆环点的图像------------------------------------- 105 5.2.3 圆环点与正交方向------------------------------------- 107 5.3 平行性与摄像机内参数------------------------------------- 108 5.3.1 平行四边形的射影------------------------------------- 108 5.3.2 平行六面体的射影------------------------------------- 111 5.3.2 摄像机内参数----------------------------------------- 113 5.4 Kruppa 方程与摄像机内参数--------------------------------- 117 5.4.1 Kruppa 方程------------------------------------------- 117 5.4.2 由 Kruppa 方程求焦距---------------------------------- 119 5.5 绝对二次曲线与摄像机内参数------------------------------- 121 5.5.1 基本约束方程----------------------------------------- 121 5.5.2 变化内参数------------------------------------------- 121 5.5.3 恒定内参数------------------------------------------- 122 5.5.4 尺度因子计算公式------------------------------------- 123 5.6 绝对二次曲面与摄像机内参数------------------------------- 125 5.6.1 基本约束方程----------------------------------------- 125 5.6.1 约束的等价性----------------------------------------- 126 第 6 章 三维重构理论 6.1 三角原理------------------------------------------------- 130 6.2 基本矩阵与射影重构--------------------------------------- 132 6.3 无穷远平面与仿射重构------------------------------------- 133 6.4 绝对二次曲线与度量重构----------------------------------- 135 6.5 绝对二次曲面与度量重构----------------------------------- 138 6.6 实现分层重构的实例--------------------------------------- 140 6.6.1 仿射点对应------------------------------------------- 141 6.6.2 准仿射重构------------------------------------------- 142 6.6.3 仿射重构--------------------------------------------- 143 6.6.4 度量重构--------------------------------------------- 146 6.7 多摄像机系统标定----------------------------------------- 147 6.7.1 一维标定物------------------------------------------- 147 6.7.2 确定仿射摄像机矩阵----------------------------------- 148 6.7.3 确定欧氏摄像机矩阵----------------------------------- 149 www.plcworld.cn 4 第二篇 矩阵与张量 第 7 章 正交对角化 7.1 内积空间与正交矩阵--------------------------------------- 154 7.1.1 内积空间--------------------------------------------- 154 7.1.2 正交矩阵--------------------------------------------- 155 7.2 酉空间与酉矩阵------------------------------------------- 158 7.2.1 酉空间----------------------------------------------- 158 7.2.1 酉矩阵----------------------------------------------- 159 7.3 正规矩阵------------------------------------------------- 162 7.3.1 Schur 引理-------------------------------------------- 162 7.3.2 正规矩阵--------------------------------------------- 163 7.3.3 正交谱分解------------------------------------------- 166 7.4 轭米特矩阵----------------------------------------------- 169 7.4.1 特征值的极性----------------------------------------- 169 7.4.2 半正定轭米特矩阵------------------------------------- 172 7.5 反对称矩阵----------------------------------------------- 176 第 8 章 矩阵分解 8.1 正交-三角分解------------------------------------------- 178 8.1.1 Givens 方法------------------------------------------- 179 8.1.2 Householder 方法-------------------------------------- 180 8.1.2 内参数与外参数的分解--------------------------------- 182 8.2 乔里斯基(Cholesky)分解--------------------------------- 183 8.3 奇异值分解----------------------------------------------- 184 8.3.1 正交对角分解----------------------------------------- 184 8.3.2 奇异值分解------------------------------------------- 185 8.3.3 奇异值的极性----------------------------------------- 187 8.3.4 极分解----------------------------------------------- 188 8.4 最小二乘问题--------------------------------------------- 189 8.4.1 满秩最小二乘问题------------------------------------- 191 8.4.2 亏秩最小二乘问题------------------------------------- 193 8.4.3 数值秩的定义和确定方法------------------------------- 193 8.4.4 齐次最小二乘问题------------------------------------- 194 8.4.5 约束齐次最小二乘问题--------------------------------- 196 第 9 章 矩阵分析 9.1 向量与矩阵范数------------------------------------------- 198 9.1.1 向量范数--------------------------------------------- 198 9.1.2 矩阵范数--------------------------------------------- 202 www.plcworld.cn 5 9.1.3 矩阵条件数------------------------------------------- 207 9.2 矩阵级数与矩阵函数--------------------------------------- 210 9.2.1 矩阵序列--------------------------------------------- 210 9.2.2 矩阵级数--------------------------------------------- 212 9.2.3 矩阵函数--------------------------------------------- 213 9.3 矩阵导数------------------------------------------------- 217 9.3.1 函数矩阵的导数--------------------------------------- 217 9.3.2 向量值映射关于向量的导数----------------------------- 219 9.3.3 函数关于矩阵的导数----------------------------------- 221 9.3.4 函数矩阵关于矩阵的导数------------------------------- 224 9.4 矩阵直积------------------------------------------------- 228 9.4.1 概念与基本性质--------------------------------------- 228 9.4.2 特征值与特征向量------------------------------------- 233 第 10 章 张量代数 10.1 张量概述------------------------------------------------ 236 10.2 张量积-------------------------------------------------- 240 10.2.1 线性映射-------------------------------------------- 240 10.2.2 多重线性映射---------------------------------------- 243 10.3 张量---------------------------------------------------- 259 10.3.1 张量及其代数运算------------------------------------ 259 10.3.2 对称与反对称张量------------------------------------ 253 10.4 外代数(Grassmann 代数)--------------------------------- 255 10.4.1 外积运算-------------------------------------------- 256 10.4.2 外代数---------------------------------------------- 260 10.4.3 Plucker-Grassmann 坐标------------------------------- 264 第 11 章 运动与结构 11.1 欧氏运动与结构------------------------------------------ 267 11.1.1 本质矩阵-------------------------------------------- 267 11.1.2 欧氏运动-------------------------------------------- 269 11.1.3 欧氏结构-------------------------------------------- 271 11.2 仿射运动与结构------------------------------------------ 273 11.2.1 仿射摄像机------------------------------------------ 273 11.2.2 仿射运动与结构-------------------------------------- 275 11.3 射影运动与结构------------------------------------------ 277 11.3.1 基本原理-------------------------------------------- 278 11.3.2 选择射影深度---------------------------------------- 279 11.3.3 迭代分解算法---------------------------------------- 280 www.plcworld.cn 6 第 12 章 多视点张量 12.1 双线性关系---------------------------------------------- 283 12.1.1 基本矩阵的张量形式---------------------------------- 283 12.1.2 极点的张量形式-------------------------------------- 285 12.2 三线性关系---------------------------------------------- 286 12.2.1 三点对应-------------------------------------------- 286 12.2.2 点、线对应------------------------------------------ 289 12.2.3 三线性约束的独立数---------------------------------- 291 12.2.4 恢复摄像机矩阵-------------------------------------- 293 12.3 四线性关系---------------------------------------------- 295 12.3.1 四线性关系------------------------------------------ 295 12.3.2 四线性约束的独立数---------------------------------- 298 第三篇 模型估计 第 13 章 迭代优化 13.1 最优性条件---------------------------------------------- 301 13.1.1 最优性条件------------------------------------------ 301 13.1.2 迭代格式-------------------------------------------- 305 13.2 一维搜索------------------------------------------------ 305 13.2.1 精确一维搜索---------------------------------------- 306 13.2.2 非精确一维搜索-------------------------------------- 308 13.3 无约束优化---------------------------------------------- 310 13.3.1 最速下降法------------------------------------------ 310 13.3.2 NEWTON 法-------------------------------------------- 310 13.3.3 变度量法-------------------------------------------- 311 13.3.4 共轭方向法------------------------------------------ 314 14.3.5 LM 法----------------------------------------------- 315 13.4 约束优化------------------------------------------------ 316 13.4.1 惩罚法---------------------------------------------- 316 13.4.2 乘子法---------------------------------------------- 319 第 14 章 参数估计 14.1 最大似然估计-------------------------------------------- 325 14.1.1 基本概念-------------------------------------------- 325 14.1.2 相合性与渐近正态性---------------------------------- 328 14.1.3 混合模型-------------------------------------------- 330 14.2 Bayes 估计----------------------------------------------- 332 www.plcworld.cn 7 14.2.1 贝叶斯估计模型-------------------------------------- 332 14.2.2 无信息先验密度-------------------------------------- 334 14.2.3 共轭先验密度---------------------------------------- 337 14.2.4 贝叶斯估计------------------------------------------ 339 14.3 期望最大化(EM)算法------------------------------------ 343 14.3.1 EM 算法---------------------------------------------- 343 14.3.2 收敛性与估计精度------------------------------------ 346 14.3.3 EM 法推广-------------------------------------------- 349 14.4 混合模型的 EM 算法--------------------------------------- 351 14.4.1 一般混合模型---------------------------------------- 351 14.4.2 混合高斯模型---------------------------------------- 354 第 15 章 代数方法 15.1 模型估计概述-------------------------------------------- 356 15.1.1 模型------------------------------------------------ 356 15.1.2 模型参数化------------------------------------------ 358 15.2 直接线性算法-------------------------------------------- 361 15.2.1 线性计算框架---------------------------------------- 361 15.2.2 视觉估计问题---------------------------------------- 361 15.3 因子化线性算法------------------------------------------ 365 15.3.1 因子化计算框架-------------------------------------- 365 15.3.2 视觉估计问题---------------------------------------- 366 15.4 归一化线性算法------------------------------------------ 374 第 16 章 几何方法 16.1 几何方法------------------------------------------------ 376 16.1.1 直线与二次曲线-------------------------------------- 376 16.1.2 几何距离最小化-------------------------------------- 379 16.2 视觉估计问题-------------------------------------------- 382 16.2.1 单应矩阵-------------------------------------------- 382 16.2.2 基本矩阵-------------------------------------------- 384 16.2.3 三焦张量-------------------------------------------- 387 16.2.4 FOE------------------------------------------------- 388 16.3 最大似然方法-------------------------------------------- 392 16.3.1 高斯分布-------------------------------------------- 392 16.3.2 最大似然方法---------------------------------------- 393 16.3.3 残差与估计误差-------------------------------------- 395 16.3.4 参数的协方差---------------------------------------- 400 第 17 章 鲁棒方法 www.plcworld.cn 8 17.1 RANSAC 方法---------------------------------------------- 408 17.1.1 直线估计-------------------------------------------- 408 17.1.2 RANSAC 方法------------------------------------------ 409 17.1.3 基本矩阵的 RANSAC 估计-------------------------------- 414 17.1.4 卡方分布-------------------------------------------- 415 17.2 M-估计方法-------------------------------------------- 416 17.3 最小中值方法-------------------------------------------- 419 17.4 鲁棒最大后验估计---------------------------------------- 420 17.4.1 鲁棒最大后验估计------------------------------------ 418 17.4.2 似然项与先验项的形式-------------------------------- 420 17.4.3 最大化边缘后验-------------------------------------- 423 17.4.3 MAPSAC 算法------------------------------------------ 426 第 18 章 模型选择 18.1 似然比检验---------------------------------------------- 429 18.1.1 基本运动模型---------------------------------------- 429 18.1.2 似然比检验------------------------------------------ 431 18.2 AIC 与模型选择------------------------------------------ 434 18.2.1 AIC 标准--------------------------------------------- 434 18.2.2 用 AIC 选择模型--------------------------------------- 436 18.3 BIC 与模型选择------------------------------------------ 440 18.3.1 Bayes 证据------------------------------------------ 440 18.3.1 BIC 标准--------------------------------------------- 414 18.3.2 用 BIC 选择模型--------------------------------------- 443 18.4 GRIC 与模型选择--------------------------------------------------------------- 444 18.4.1 GRIC 标准-------------------------------------------- 444 18.4.2 用 GRIC 选择模型-------------------------------------- 446 参考书目与文献-------------------------------------------------------------------------------------- 450 索引----------------------------------------------------------------------------------------------------- 453 www.plcworld.cn 第一篇 射影几何 www.plcworld.cn 2 本篇提要 本篇分为两个部分。第一部分由第 1、2 章所构成,主要介绍有关射影几何理论,这些理论不是 射影几何所涉及的全部内容,而是从事三维计算机视觉研究所必须掌握的那些几何知识。第二部分 由第 3-6 章所构成,主要论述射影几何理论在三维计算机视觉中的应用,读者将会看到射影几何的 重要作用。 各章具体内容如下: 第 1 章,介绍平面射影几何。主要内容包括点、线,二次曲线的齐次表示,二次曲线与对偶二 次曲线的性质;二维射影变换与基本几何元素的射影变换规则;二维射影变换群及其子群的不变量 与不变性质。 第 2 章,介绍三维射影几何。主要内容包括三维点、线、面和二次曲面的齐次表示,二次曲面 与对偶二次曲面的性质;三维射影变换与基本几何元素的射影变换规则;三维射影变换群及其子群 的不变量与不变性质。 第 3 章,介绍摄像机几何。首先,对摄像机进行数学建模;然后,应用前两章射影几何知识, 给出空间基本几何元素的投影性质,以及图像平面基本几何元素的反投影性质。这些投影与反投影 性质,是从图像恢复物体三维几何结构的基础,尤其是绝对二次曲线与绝对二次曲面的投影性质。 第 4 章,介绍两视点几何。应用射影几何知识引进两幅图像的点、线关联关系,即所谓的极几 何。基本矩阵是极几何的代数描述,同时它也给出了射影意义下的摄像机矩阵。 第 5 章,介绍摄像机自标定方法。主要着重介绍正交性、圆环点、平行性、KRUPPA 方程、绝 对二次曲线和绝对二次曲面自标定与摄像机内参数的关系。所有自标定方法均来源于射影几何理论, 它们都归结为绝对二次曲线或绝对二次曲面的投影性质。 第 6 章,介绍三维重构理论。三维重构是三维计算机视觉中的核心问题。本章应用射影几何知 识来建立三维重构理论。不需要图像以外的知识,仅从图像就能获得射影重构;仿射重构,确定无 穷远平面的射影坐标,确定无穷远单应三者是相互等价的;度量重构,确定绝对二次曲线,确定绝 对二次曲面,确定摄像机内参数四者是相互等价的。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 3 1.平面射影几何 1.1 射影平面 1.1.1 射影平面 齐次坐标 在本章中,除特别说明外,我们均假定在平面上建立了欧氏坐标系。平面上的点可用一个二维 有序数组 Tyx ),(~ =p 来表示,即该点的欧氏坐标。平面上的直线方程可以表示为 0=++ cbyax (1.1.1) 在方程(1.1.1)两边同乘以任一非零常数 t,得到下述方程: 0=++ ctbytaxt (1.1.2) 方程(1.1.1)与方程(1.1.2)有相同的几何意义,它们表示同一条直线。令 TT cbatytxt ),,(,),,( == lp 则方程(1.1.2)可写成 0=pl T (1.1.3) 其中 p 是变量,表示直线上的点;l 是一个固定的向量,代表该直线。 一般地, Ttytxt ),,(=p 称为点的齐次坐标, Tcba ),,(=l 称为直线的齐次坐标。这里的“齐 次”也可以这样来理解:在这种表示下,直线方程(1.1.3)关于点或直线变量都是齐次的,而方程(1.1.1) 则是非齐次的。 齐次坐标可以相差任意的非零常数因子,即 ∀ 0≠s , p 和 pq s= 表示同一个点,因为它们的非 齐次坐标相等: qp ~)/,/()/,/(~ === stsystsxtytx T 对于直线的齐次坐标也一样,因为方程 0)( =pl Ts 与方程(1.1.3)确定同一条直线。 射影平面 齐次坐标为 Tyx ),,( 0=∞p 的点称为无穷远点,其中 x, y 至少有一个不为零。注意:无穷远点没 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 4 有欧氏坐标,这是因为 ∞=∞= 0/,0/ yx ,同时也可以看出为什么将它称为无穷远点。平面上所 有无穷远点所构成的集合称为无穷远直线。由于所有无穷远点 Tyx ),,( 0=∞p 都满足方程: 00100 =⋅+⋅+⋅ yx 所以,无穷远直线的齐次坐标为 T)1,0,0(=∞l 。 由欧氏平面与无穷远直线的并集所形成的扩展平面称为射影平面,有时也称为二维射影空间。 1.1.2 两点、两线的叉积 三维向量的叉积 令 TT tyxtyx ),,(,),,( 22221111 == xx 是两个三维向量,它们的叉积定义为 T yx yx tx tx ty ty tyx tyx ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛−⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ =× 22 11 22 11 22 11 222 11121 det,det,detdet kji xx (1.1.4) 叉积和反对称矩阵相关联。由向量 Ttyx ),,(=x ,按下述方式定义反对称矩阵 ×][x : ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − − − =× 0 0 0 ][ xy xt yt x 并称为由向量 x 所确定的反对称矩阵。矩阵 ×][x 具有下述性质: (1) 对任意非零向量 x ,有 rank( ×][x )=2; (2) 对任意两个 3 维向量 21, xx ,有 2121 ][ xxxx ×=× ; (3) x 是 ×][x 的右零空间,同时也是它的左零空间,即 0][,0][ == ×× xxxx T ; (4) 对任意 3 维向量 y ,有 0][ =× yxyT 。 性质(1)是明显的,(3)与(4)可由性质(2)导出,因此下面仅验证性质(2): 令 TT tyxtyx ),,(,),,( 22221111 == xx ,则 21 ][ xx × = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ +− − +− = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − − − = 2121 2121 2121 2 2 2 11 11 11 0 0 0 yxxy txxt tyyt t y x xy xt yt 21 xx × 性质(2)表明,两个向量的叉积可以用其中一个向量的反对矩阵左乘另一个向量来表达。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 5 两点、两线的叉积 如果 21 , pp 是射影平面上两点,则 21 ppl ×= 表示通过这两点的直线。这是因为,对直线 l 上的 任一点,它的齐次坐标可以表示为 2211 ppp ss += ,根据反对称矩阵的性质(3)和(4),可以得到: 0)]([ 21 2 1 =∑= × = j T j j T s ppppl 若三点 321 ,, ppp 共线,则必有 0321312 =−= ×× pppppp TT )]([][ 。反之,若 0312 =× ppp ][T ,则 三点 321 ,, ppp 必共线。因此,我们有下述命题: 命题 1.1.1 (1)两点 21 , pp 连线的坐标是 21 ppl ×= ][ ;(2)三点 321 ,, ppp 共线的充要条件是 0312 =× ppp ][T 。 对偶原理 在射影平面内,点和线是一对互为对偶元素。在包含“点”和“线”元素的命题中, 如果将两个元素的角色互换,则对应的命题也成立,并称它们是一对互为对偶命题。 例如:命题 1.1.1 有如下对偶命题: 命题 1.1.2 (1)两线 21 ,ll 的交点的坐标是 21 llp ×= ][ ;(2)三线 321 ,, lll 共点的充要条件是 0][ 312 =× lll T 。 1.1.3 共线点、共点线的交比 共线点的参数化与交比 平面上的点有两个自由度,用三维非零向量(齐次坐标)来表示。而直线上的点仅有一个自由度, 因此,直线上点的齐次坐标仅需要二维向量来表示。如何用二维向量来表示直线上点的齐次坐标, 就是所谓共线点的参数化问题。 给定直线 l 上两个不同点的齐次坐标 p1, p2 *),则直线 l 上任何一个点 p 的坐标均可以表示为 21 ppp vu += 这样,利用直线 l 上两个点 p1, p2,直线 l 上所有点都可以用二维向量来表示: Tvu ),(ˆ =p 并称这个二维向量为直线 l 上点的参数化。 显然,p1, p2 的(二维)齐次坐标分别是 TT ),(ˆ,),(ˆ 1001 21 == pp 。因此,这种参数化过程实际上 *) “给定齐次坐标”的意义是指已经给出了齐次坐标分量的具体数值,在本书其它地方都遵循这个约定。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 6 是建立直线坐标系的过程。直线上点的参数化不是唯一的,不同的参数化对应不同的坐标系。 共线点的交比 假定 4321 ,,, pppp 是 4 个共线点,它们在某种参数化下的齐次坐标为 T jjj vu ),(ˆ =p 。定义: )ˆ,ˆdet( )ˆ,ˆdet(:)ˆ,ˆdet( )ˆ,ˆdet(),;,( 42 41 32 31 4321 pp pp pp pppppp = (1.1.10) 为该 4 点的交比。 下面证明:共线点 4321 ,,, pppp 交比不依赖于点参数化的选择,或者说不依赖于直线坐标系的 选择。 若点 4321 ,,, pppp 在两个给定点 21 ,qq 的参数化下的齐次坐标分别为 T jjj vu ),(ˆ =p ,j=1,2,3,4, 而在另外两个给定点 21 ,qq ′′ 的参数化下的齐次坐标分别为 T jjj vu ),(ˆ ′′=′p ,j=1,2,3,4。令点 21 ,qq ′′ 在 21 ,qq 的参数化下齐次坐标分别为 ,),(ˆ 111 Tβα=′q T),(ˆ 222 βα=q ,即 2212221111 qqqqqq βαβα +=′+=′ , 记 =H ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ 22 11 βα βα ,则 0)det( ≠H 。否则, }),(,),{( 2211 TT βαβα 必线性相关,从而 21 ,qq ′′ 表示直线上 的同一个点。于是, 22112121 qqqqp )()( ββαα jjjjjjj vuvuvu ′+′+′+′=′′+′′= 所以, ⎩ ⎨ ⎧ ′+′= ′+′= 21 21 ββ αα jjj jjj vuv vuu ,即 j T j H pp ˆˆ = 。因此,我们有 )ˆ,ˆdet( )ˆ,ˆdet(:)ˆ,ˆdet( )ˆ,ˆdet( 42 41 32 31 pp pp pp pp )ˆ,ˆdet( )ˆ,ˆdet(:)ˆ,ˆdet( )ˆ,ˆdet( ))ˆ,ˆ(det( ))ˆ,ˆ(det(: ))ˆ,ˆ(det( ))ˆ,ˆ(det( 42 41 32 31 42 41 32 31 pp pp pp pp pp pp pp pp ′′ ′′ ′′ ′′=′′ ′′ ′′ ′′= T T T T H H H H 故 4 个共线点 4321 ,,, pppp 的交比不依赖于参数化的选择。 根据交比不依赖于参数化选择的性质,可以简化交比的计算。 例如:在 4 个共线点 4321 ,,, pppp 中,可以将 p3, p4 在平面的齐次坐标分别表示为 2113 ppp λ+= , 2214 ppp λ+= ,则有 ,),(ˆ,),(ˆ TT 1001 21 == pp T),(ˆ),,(ˆ 2413 11 λλ == pp 于是, 2 1 42 41 32 31 4321 )ˆ,ˆdet( )ˆ,ˆdet(:)ˆ,ˆdet( )ˆ,ˆdet(),;,( λ λ== pp pp pp pppppp (1.1.11) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 7 这是常用的交比计算公式。 若 1234(, ; , ) 1= −pppp ,则称 p1, p2 与 p3, p4 成调和共轭。例如,通过圆心的直线交圆上的两个点 与圆心以及该直线上的无穷远点成调和共轭。 共点直线的参数化与交比 平面上的直线有两个自由度,用三维非零向量(齐次坐标)来表示。但是,对于共点直线束中的 直线仅有一个自由度,因此共点直线束中的直线可以用二维向量来表示。 给定共点直线束 λl 中两条不同直线的齐次坐标 l1, l2,则直线束 λl 中任何一条直线 l 的坐标均可 以表示为 21 lll ba += 这样,利用直线束 λl 中的两条直线,直线束 λl 中的所有直线 l 都可以用二维向量来表示: Tba ),(ˆ =l 称这个二维向量为直线束 λl 中直线 l 的参数化。 共点直线的交比 与定义共线点的交比一样,也可以定义 4 条共点直线的交比。假定 l1, l2 , l3, l4 是直线束 λl 中的 4 个条直线,它们在某种参数化下的齐次坐标为 T jjj ba ),(ˆ =l 。定义: )ˆ,ˆdet( )ˆ,ˆdet(: )ˆ,ˆdet( )ˆ,ˆdet(),;,( 42 41 32 31 4321 ll ll ll llllll = (1.1.10) 为该 4 直线的交比。同样,4 条共点直线的交比也不依赖于直线束参数化的选择。 在实际应用中,通常应用下述方法来计算 4 个共点直线的交比:在 4 个共点直线 4321 ,;, llll 中, 将 l3, l4 齐次坐标分别表示为 2113 lll λ+= , 2214 lll λ+= ,则它们的交比为 ),;,( 4321 llll = 2 1 λ λ (1.1.11) 命题 1.1.3 如果 4 条共(有穷)点直线 4321 ,;, llll 的斜率分别为 4321 kkkk ,,, ,则它们的交比为: ),;,( 4321 llll = 42 41 32 31 kk kk kk kk − − − − : (1.1.12) 证明:假定直线 4321 ,;, llll 共(有穷)点 ),(~ yx=p *),则直线 4321 ,;, llll 齐次坐标分别为 *) 以后用 p~ 表示有穷点的非齐次坐标 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 8 TTTT yxkkyxkkyxkkyxkk ),,(,),,(,),,(,),,( 00444003330022200111 1111 −−=−−=−−=−−= llll 以直线 l1, l2 为基准,对过点 p 的直线束进行参数化,我们有: 32 31 42 41 312412 12 12 12 12 ,kk kk kk kk kk kk kk kk −− −−=+ =+−− −−llllll 所以, 3231 4241 123 4 1212 1212 ˆˆˆ ˆ(1, 0) , (0, 1) , , , TT TTkkkk kkkk kkkk kkkk ⎛⎞⎛⎞−− −−=== =⎜⎟⎜⎟−− −−⎝⎠⎝⎠ lll l 因此, )ˆ,ˆdet( )ˆ,ˆdet(: )ˆ,ˆdet( )ˆ,ˆdet(),;,( 42 41 32 31 4321 ll ll ll llllll = 31 41 1312 12 14 32 42 2324 1212 :: kk kk kkkk kk kk kk kk kkkk kkkk − − −− −−==−−− −−− −− 证毕。 关于 4 条共点直线的交比与 4 共线点的交比之间的关系,我们有下述命题: 命题 1.1.4 如果 4 条共点直线 l1, l2 , l3, l4 被任一直线 l 截于 4 点 p1, p2, p3, p4,则 ),;,( 4321 llll = ),;,( 4321 pppp 在 1. 3 节,我们将会看到交比是射影变换的不变量。 1.2 二次曲线 1.2.1 矩阵表示 我们知道二次曲线的方程可表示为 022222 =+++++ feydxcxybyax 写成矩阵形式,有 0 1 )1,,( = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ y x fed ebc dca yx www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 9 令 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = fed ebc dca C ,它是一个对称矩阵。如果点使用齐次坐标,则二次曲线的方程可表示为 0=pp CT (1.2.1) 我们称对称矩阵 C 是二次曲线的矩阵表示。 矩阵 C 虽然有 6 个不同的元素,但由于方程(1.2.1)的齐次性,所以仅有 5 个独立的元素,即起 确定作用的是 5 个比值,例如:a/f, b/f, c/f, d/f, e/f。因此,二次曲线 C 有 5 个自由度。在一般情况下 *),射影平面上的 5 个点唯一确定一条二次曲线,并且可以通过求解下述线性方程组得出: 5210 ,...,,, == jC j T j pp (1.2.2) 二次曲线根据它的秩(即 C 的秩)是否是满秩分为非退化与退化的两种情况。非退化二次曲线 是正常二次曲线,退化二次曲线或者是由两条直线所构成(rankC=2),或者由二条重合直线所构成 (rankC=1)。 如果二次曲线 C 退化为两条直线 l 与 m,则它的矩阵表示为 TTC mllm += (1.2.3) 这是明显的:如果 lp∈ ,则 0== lppl TT ,因此, 0=+= pmllmppp )( TTTT C 。同 理 ,当 mp∈ 时, 也有 0=pp CT 。反之,如果点 p 使得 0=pp CT ,则 =+= pmlpplmppmpl TTTTTT ))((20=pp CT 因此, 0=pl T 或者 0=pmT ,即 lp∈ 或者 mp∈ 。所以,式(1.2.3)是退化二次曲线的矩阵表示。 1.2.2 切线 切点与切线 假定 C 是一条非退化二次曲线,下面讨论切点与切线的代数表示。 令 p 是 C 上的任一点,则 l=Cp 确定平面上的一条直线。下面证明直线 l 是 C 在点 p 处的切线。 首先,点 p 必在直线 l 上,这是因为 () 0TTTCC= ==lp p p p p 。如果能证明:除点 p 外,直线 l 与二 次曲线 C 不再有另外的交点,那么就证明了 l 是点 p 处的切线。反证:若直线 l 还交 C 于另外一点 q ,则必有 00 === qlqpqq TTT CC , 。将此式与 0=pp CT 结合起来,可导致等式: 0)()( =++ qpqp tsCts T 对任何标量 s, t 都成立,这表明直线 l 在二次曲线 C 上,与 C 非退化矛盾。 假定 l 是非退化二次曲线 C 的任一条切线,令切点为 p,由上面的讨论必有 l=Cp。因此,切点 *) 平面上给定 5 个点,如果任意 3 点不共线,则这 5 个点唯一确定一条二次曲线。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 10 是 lp 1−= C ,并且还可以得到 01 =− ll CT 。 如果直线 l 使得 01 =− ll CT ,则坐标为 lp 1−= C 的点一定在二次曲线 C 上,这是因为有 011 === −−− llllpp CCCCC TTTT 。由于 l=Cp,所以直线 l 是二次曲线 C 的切线。 总结上述讨论,我们有下述命题: 命题 1.2.1 (1)非退化二次曲线 C 在点 p 处切线为 l=Cp;(2)若直线 l 是非退化二次曲线 C 的切线,则切点为 lp 1−= C ;(3)直线 l 为非退化二次曲线 C 的切线当仅当 01 =− ll CT 。 由于退化二次曲线是由两条直线 l 与 m 所构成,它的矩阵表示为 TTC mllm += 。如果直线 l 与 m 相交(包括交点在无穷远处的情况),即二次曲线 C 的秩为 2,则除交点外每一点处的切线是该 点所在的直线。如果直线 l 与 m 重合,则每一点的切线是该直线本身。 若点 p 在退化二次曲线 C 上,例如在直线 l 上,则必有 lpmpmllmp )()( TTTC =+= ,这说明退 化二次曲线 C 在点 p 处的切线坐标仍为 pC ,即命题 1.2.1(1)对退化二次曲线仍成立。 过二次曲线外一点的两条切线 由初等几何,我们知道对于非退化二次曲线 C 外部任一点 p,必存在两条切线 l 与 m 过点 p, 它们构成平面上的一条退化二次曲线 T,如图 1.2.1 所示。 图 1.2.1 过二次曲线外部一点的两条切线 现在我们希望由 C 和 p 给出退化二次曲线 T 的矩阵表示,对此有下述命题: 命题 1.2.2 对于非退化二次曲线 C 外部任一点 p,过点 p 的两条切线 l 与 m 所构成的退化二次 曲线的矩阵表示是 × − ×= ][][ pp 1CT 。 证明 设 q 是 T 上的任一点,例如它是切线 l 上的点,则 qpl ×= ][ 。于是,我们有 011 === − × − × llqppqqq CCT TTT ][][ l C m p www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 11 即 T 上的任一点 q 满足方程 0=qq TT 。反之,若点 q 满足方程 0=qq TT ,即 01 =× − × qppq ][][ CT 由命题 1.2.1 (3),坐标为 qp ×][ 的直线是过点 p 的切线,因此 q 在切线 l 上,或者在切线 m 上。故 命题成立。证毕。 1.2.3 配极对应(变换) 配极对应 给定一条二次曲线 C,则对平面上的任一点 p,l=Cp 确定了一条直线。直线 l 称为点 p 关于 C 的极线,而点 p 称为直线 l 关于 C 的极点。如果点 p 在 C 上,则它关于 C 的极线是通过它的切线 l, 而切线 l 关于 C 的极点是切点 p。 图 1.2.2 二次曲线的配极对应。过点 p 的两条切线的切点的连线 q1 q2 是点 p 的极线 l=Cp。 由二次曲线所确定的这种点与直线之间的对应关系称为二次曲线的配极对应。可以证明:非退 化二次曲线的配极对应是点与直线之间的一一对应。配极对应,也可以给出它的几何描述: 命题 1..2.3 点 p 关于非退化二次曲线 C 的极线 l=Cp 交 C 于两个点*),且 C 在这两个交点的切 线交于点 p,如图 1.2.2 所示。 证明 直线 l 与二次曲线 C 总交于二个点,交点的坐标是方程组 ⎩ ⎨ ⎧ = = 0 0 ql qq T T C 的解。令 q 是一个交 点,则有 0=qp TC )( 。由矩阵 C 的对称性, 0=qp CT ,这说明 p 必在切线 Cq 上,同理 p 也在另一 *) 可能是两个虚点或重点。如果是虚点,则必为一对共轭虚点,而一对共轭虚点确定一条(实)直线;如果 是重点,则极线是切线。 p l=Cp q1 q2 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 12 个交点的切线上。证毕。 共轭点 如果两个点 p, q使得 0=qp CT ,则称点 p, q关于 C 互为共轭。不难看出点 p 关于 C 的所有共 轭点所构成的集合是点 p 关于 C 的极线。 命题 1.2.4 若点 p,q 关于二次曲线 C 是一对共轭点,直线 l=p× q 交 C 于两点 21 ,rr ,如图 1.2.3 所示,则 1),;,( 21 −=qprr 。 图 1.2.3:共轭点 p,q 证明 以 p,q 为基点,对直线 l=p× q 上的点进行参数化,则 TT ),(ˆ,),(ˆ 1001 == qp 。下面计算 21 ,rr 的参数化坐标。由于直线 l 上的任一点均可表示为 qpr vu += ,且点 p,q 是二次曲线 C 的一对共轭 点,所以有 qqpprr CvCuC TTT 22 += 因此,直线 l 与 C 的两个交点的坐标满足方程: 0=rr CT ,于是, 022 =+ qqpp CvCu TT 不妨假定 1=u ,则 21 ,rr 的参数化坐标必为 =21,ˆr T T T C C ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ −± qq pp,1 由交比计算公式(1.1.11),得到 1),;,( 21 −=qprr 。 p q r1 r2 C www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 13 自极三角形 如果一个三角形的三个顶点都是其对边关于二次曲线 C 的极点,则称它为 C 的自 极三角形。例如:二次曲线上的四点构成的完全四点形的对边三角形是该二次曲线的自极三角形, 如图 1.2.4 所示。 图 1.2.4 完全四点形 ABCD 的对边三角形 XYZ 是该二次曲线的自极三角形 1.2.4 对偶二次曲线 前面所讨论的二次曲线被看作是由平面上的点所构成的集合,以点作为二次曲线的基本元素。 平面上的点与直线构成一对互为对偶元素,如果将二次曲线方程 0=pp CT 中的点元素换成线元素, 矩阵 C 也换成对偶形式 C*,则我们得到线元素的二次方程: 0* =ll CT (1.2.5) 其中 C*是对称矩阵,它是矩阵 C 的对偶。 方程(1.2.5)也表示射影平面内的一条二次曲线,这条二次曲线 C*是由直线生成的。由直线生成 的二次曲线通常称为对偶二次曲线。在几何上,对偶二次曲线是直线族的包络,即 C*的几何元素是 二次曲线的切线,如图 1.2.5 所示。 图 1.2.5 二次曲线(左);对偶二次曲线(右) 下面讨论二次曲线与其对偶二次曲线之间的关系。 X A B C D Y Z www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 14 非退化情况 射影平面上任一条(点)二次曲线 C,都可以作为其切线的包络,即同时可用(线)二 次曲线来表示,记为 C*,并称 C 与 C*互为对偶。下面考虑 C*与 C 之间的代数关系。对于 C 上的 任一点 p,该点的切线为 l=Cp。由于 C 是满秩的,所以有 pl =−1C ,又因切点必在切线上,即 0T =lp , 于是有 01 =− ll CT 。因此 1* −= CC 。另外,还可以证明(C*)*=C。 综合上面所讨论的结果,我们有下述命题: 命题 1.2.5 非退化二次曲线 C 与其对偶 C*之间的关系是 1* −= CC ,并且(C*)*=C。 退化情况 退化二次曲线 C 由两条直线所组成。令这两条直线为 ml, ,则 C 可表示为 TTC mllm += 根据对偶原理,对偶二次曲线 C*包含两个点 x, y,并且 C*可表示为 TTC yxxy +=* 注意:对于退化情况, CC ≠** )( 。 1.2.5 圆环点及其对偶 圆环点 无穷远直线 ∞l 上的两个点: ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ −= ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 0 1 , 0 1 ii JI (1.2.6) 称为圆环点或绝对点。其中 1−=i ,所以它们是一对共轭虚点。圆环点的方程可以表示为 220 0 xy t ⎧ + = ⎨ =⎩ 因此,圆环点可以看作是平面上的一条(退化)二次曲线。注意:在平面上,圆环点必须用两个方程 来表示。如果限制在无穷远直线上,即,论域是无穷远直线而不是整个平面,则圆环点可由单个方 程: 022 =+ yx 来表达,它的矩阵表示是一个 2 阶单位矩阵。 圆环点的命名来源于平面上任何圆与无穷远直线均交于 I,J。事实上,圆的方程可表示为 02222 =++++ fteytdxtyx 而无穷远直线的方程是 0=t 。将这两个方程联立求解,可以得到 022 =+ yx 。因此,交点的齐次坐 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 15 标必为 I,J。现在,也可以解释为什么给定三个点能唯一确定一个圆,因为圆总是通过两个圆环点。 所以,3 点确定一个圆与 5 个点才能确定一条二次曲线并不矛盾。 圆环点的对偶 圆环点可以看作平面上的一条(退化)二次曲线,它的方程是 022 =+ yx 。它的对偶二次曲线 * ∞C 称为圆环点的对偶,可以表示为 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ =+=∞ 000 010 001 * TTC JIIJ (1.2.7) 对偶二次曲线 * ∞C 是由以圆环点 I,J 为中心的两个平行(虚)直线束所构成的,两个平行直线束的 斜率分别为i 和 i− 。这两个直线束中的直线称为迷向直线 (或极小直线)。通过平面内任一有穷点, 存在两条迷向直线,分别属于这两个直线束。 命题 1.2.6 令 TT cbacba ),,(,),,( 22221111 == ll 是两条非迷向直线,它们之间的交角记为θ ,则 2211 21 llll ll ** * cos ∞∞ ∞ ⋅ = CC C TT T θ (1.2.8) 证明 这个命题的证明是容易的。因为由欧氏几何,我们有 2 2 2 2 2 1 2 1 2121 baba bbaa +⋅+ +=θcos (1.2.9) 而 =∞ 21 ll *CT 2121 bbaa + , 11 ll * ∞CT = 2 1 2 1 ba + , =∞ 22 ll *CT 2 2 2 2 ba + 所以,式(1.2.8)成立。 命题 1.2.6 给出了对偶二次曲线 * ∞C 的度量性质,其重要性在于它在一般射影空间中仍成立。也 就是说,如果知道对偶二次曲线 * ∞C 在一般射影空间中的表示,仍可以利用式(1.2.8)来计算两条直线 之间的夹角,而公式(1.2.9)仅适用于欧氏坐标系。 如果两条直线中有一条是迷向直线(或两条都是迷向直线),则它们之间的夹角是不定的。例如: 1l 是一条迷向直线,则必有 T* 11C0∞ =ll (这是因为 1l 通过一个圆环点),于是得到 cos */ 0θ = 。因此, 包含迷向直线的两条直线的夹角是不能确定的,即迷向直线不象通常直线那样具有方向。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 16 拉格尔(Laguerre)定理 命题 1.2.7(拉格尔定理) 设两条非迷向直线的夹角为θ ,并且这两条直线与过它们交点以i , i− 为斜率的两条迷向直线所成的交比为 µ ,则必有 µθ lni2 1= (1.2.11) 证明 设两条非迷向直线 21 ll , 的斜率为 21 λλ , ,以 i , i− 为斜率的两条迷向直线为 21 mm , ,则有 21 12 21 12 2 1 2 1 2121 11 11 λλ λλ λλ λλ λ λ λ λµ + −− + −+ =+ + − −== i i i i i i :),;,( mmll 由于 21 12 1 λλ λλθ + −=tg ,所 以 , θ θµ itg itg − += 1 1 。又 因 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ + −= 1 11 2 2 θ θ θ i i e e itg ,即 θ θθ itg itge i − += 1 12 ,因此, µθ =ie 2 。 故 µθ lni2 1= 。 拉格尔定理与命题 1.2.6 一样(事实上,它们是相互等价的),也十分重要,因为这个定理用交 比射影概念表达了角度量概念,形成了角度的射影解释,从而将欧氏几何与射影几何联系起来。 推论 1.2.1 两条非迷向直线相互垂直的充要条件是这两条直线与过交点以 i , i− 为斜率的两条 迷向直线成调和共轭,或等价地说,两条非迷向直线相互垂直的充要条件是这两条直线上的无穷远 点与两个圆环点成调和共轭。 1.3 二维射影变换 1.3.1 二维射影变换 射影变换 射影变换是射影平面上的可逆齐次线性变换,这个变换可由 3× 3 的矩阵来描述: ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′ ′ 3 2 1 333231 232221 131211 3 2 1 x x x hhh hhh hhh x x x (1.3.1) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 17 或更简略地记为 xx H=′ 。 射影变换有时又称为单应,而矩阵 H 称为射影变换矩阵或称为单应矩阵。由于变换是齐次的(点 使用了齐次坐标),所以同一个射影变换矩阵 H 可以相差一个非零常数因子,因此射影变换仅有 8 个自由度,即射影变换矩阵可由它的元素所构成的 8 个比值所确定。 例 1.3.1 投影中心不在物体平面上的中心投影是一个射影变换(如图 1.3.1 所示)。中心投影将物 体平面上的点投影到图像平面上得到像点,像点是物体平面点和投影中心的连线与像平面的交点, 物体平面点到像点之间的变换是一个射影变换。物体平面上的无穷远点的像点是该无穷远点与投影 中心的连线(平行于物体平面)与像平面的交点,一般地该交点是像平面上的有限点(即该点在图 像平面中的齐次坐标的第三个分量不为零)。物体平面上的无穷远线的像是通过投影中心且平行于物 体平面的平面与像平面的交线,一般地它是像平面上的一条有限直线。 任何射影变换都将点变换到点,并且保持点的共线性质,因而将直线变为直线。射影变换将点 变换到点的性质是由其定义所确定的。下面说明射影变换保持点的共线性:令 321 ,, xxx 是三个共线 点,即 0),,det( 321 =xxx ,经射影变换 H 后的三个点分别为 321 ,, xxx ′′′ ,于是, )det(),,det(),,det( 321321 HHHH ==′′′ xxxxxx 0),,det( 321 =xxx 因此,三点 321 ,, xxx ′′′ 共线。任何射影变换的逆变换(对应于单应矩阵的逆)都是射影变换、任意两个 的合成(对应于两个单应矩阵的积)也都是射影变换(如图 1.3.2 所示),因此射影变换的全体构成射影 平面上的一个变换群。 图 1.3.1:投影中心不在物体平面上的中心投影 投影中心 物体平面 图像平面 无穷远线的像 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 18 例 1.3.2 中心投影变换的合成是射影变换。如图 1.3.2 所示,图中第一个中心投影变换是 H,第 二个中心投影变换是 G,由这两个投影得到一个从第一个像平面到第二个相平面的变换是 F。由于 H,G 都是射影变换,它们的逆变换是像点沿投影线反投到物体平面上的点,对应的变换矩阵分别 是 H 与 G 的逆矩阵,因此逆变换也是射影变换。变换 F 是 H 的逆变换与变换 G 的合成,它可以用 3× 3 的可逆矩阵 1−GH 来描述,所以也是一个射影变换。但它不再是中心投影变换而是一般的射影变 换。 如果被变换点 x 是欧氏坐标系下的齐次坐标,则无穷远点 Txx )0,,( 21=∞x 的射影变换是 TxhxhxhxhxhxhH ),,( 232131222121212111 +++==′ ∞∞ xx 一般地, 0232131 ≠+ xhxh 。这样,无穷远点变换后的坐标不再有第 3 个分量为零的形式。事实上, 射影变换(1.3.1)等价于坐标基的变换,变换后的坐标基称为射影坐标基。上述观察等价于无穷远点 在一般坐标基下,第 3 个分量不为零。由于射影几何主要是讨论射影变换群下的不变几何性质与不 变量的理论,这就是在研究射影性质时不使用无穷远点术语而把无穷远点和非无穷远点同等对待的 理由。但是无穷远点在计算机视觉中具有特别重要的作用,所以在本书中仍使用无穷远点的术语。 满足式(1.3.1)的一对点 },{ xx ′ 称为射影变换的一个点对应,记为 xx ′↔ 。在一般情况下,4 个点对应唯一确定一个二维射影变换。下述命题是更确切的陈述: 命题 1.3.1 从 4 个点对应唯一确定二维射影变换的充要条件是 4 个点对应中任意三点不共线, 并且可以由下述公式计算这个射影变换: 1 321 3 3 2 2 1 1 3214 ),,(,,),,( − ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′′′′′′= xxxxxx p p p p p pdiagsH (1.3.2) 图 1.3.2 中心投影变换合成是一般的投影变换。 H G F www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 19 其中: 4 1 3213214 1 321321 ),,(),,(,),,(),,( xxxxxxxx ′′′′=′′′= −− TT pppppp 。 证明 由于 )41(, ≤≤′↔ jjj xx 是 4 个点对应,所以存在常数 )41( ≤≤ js j 使得 )41(, ≤≤=′ jHs jjj xx (1.3.3) 充分性:由式(1.3.3),可得到: ),,(),,(),,(),,( 321321332211321 sssdiagsssH xxxxxxxxx ′′′=′′′= 于是, 1 321321321 ),,)(,,(),,( −′′′= xxxxxx sssdiagH (1.3.4) 由 444 xx Hs=′ ,得到: 1 321321321 ),,)(,,(),,( −′′′ xxxxxx sssdiag 4x 44 x′= s 所以, 1 321321 ),,)(,,( −xxxsssdiag 4x 4 1 3214 ),,( xxxx ′′′′= −s 令 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′ ′ =′′′′=′ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ == −− 3 2 1 4 1 321 3 2 1 4 1 321 ),,(,),,( p p p p p p xxxxpxxxxp 则对任意的 jp 必有 0≠jp 。否则,例如: 01 =p ,则有 3322 3 23214 0 ),,( xxxxxx pp p p += ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 因此 321 ,, xxx 共线,矛盾。于是, ()31,4 ≤≤ ′ = jp ps s j j j ,将它代入式(1.3.4)可得式(1.3.2)。 必要性:反证:若存在三个共线点,不妨假定 )31( ≤≤ jjx 是三个共线点,则必有 213 xxx ba += 于是, 213 xxx bHaHH +=λ 因此,(1.3.3)中至多有三组方程是独立的,故不可能在相差一个常数因子的意义下确定单应矩 阵 H。证毕。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 20 1.3.2 直线与二次曲线的射影变换 直线的变换规则 射影变换(1.3.1)是由点的变换规则来定义的,以后说射影变换 H 均是指满足点变换规则(1.3.1) 的射影变换。下面讨论直线在射影变换 H 下变换规则。 令l 是平面上的一条直线, l′ 是经过射影变换 H 后的直线。由于 lx ∈∀ , lxx ′∈=′ H ,所以, 0=′=′′ xlxl HTT (1.3.5) 因此, HTT ll ′= ,即 ll TH −=′ 。射影变换 TH − 称为变换 H 的对偶。于是,直线的变换规则由点变 换的对偶给出,即我们有下述命题: 命题 1.3.2 射影变换 H 对直线的变换规则,由 H 的对偶所确定: ll TH −=′ (1.3.6) 满足式(1.3.6)的一对直线 },{ ll ′ 称为射影变换 H 的一个线对应,并记作 ll ′↔ 。与点对应一样, 一般地,4 个线对应唯一确定一个射影变换并且有类似于式(1.3.2)的计算公式。 二次曲线的变换规则 令 C 是平面上的一条二次曲线, C′是经过射影变换后的曲线。由于 C∈∀x , CH ′∈=′ xx , 所以, 01 =′′= −− xxxx CHHC TTT 这样,必有 =′C 1−− CHH T 。因此,二次曲线 C 经过射影变换后仍是一条二次曲线。设 D 是一个可 逆矩阵,则称矩阵变换 Y TDXD= 为合同变换。因此,射影变换 H 对二次曲线的变换规则是对偶合 同。 命题 1.3.3 射影变换 H 对二次曲线的变换规则,由 H 的对偶合同所确定: 1−−=′ CHHC T (1.3.7) 应用对偶原理,有下述命题: 命题 1.3.4 射影变换 H 关于对偶二次曲线 C*的变换规则,由 H 合同所确定: THHCC **' = (1.3.8) 二次曲线的射影分类 二次曲线的射影分类是指二次曲线在射影变换下的等价类。二次曲线由对称矩阵 C 来表示,根 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 21 据第 7 章关于对称矩阵的特征分解理论,不难证明对任意对称矩阵 C,必存在可逆矩阵 H 使得 ),,( 321 1 sssdiagCHH T =−− , 其中 0,1 或±=js 。根据二次曲线的变换规则,任何二次曲线 C 都可以 通过射影变换变为具有上述对角矩阵形式的二次曲线。因此,可以得到二次曲线的如下射影分类: 表 1.1.1: (实)二次曲线的射影分类 对角元素 方 程 类 型 (1,1,1) 0222 =++ tyx 无实点(假二次曲线) (1,1,-1) 0222 =−+ tyx 圆 (1,1,0) 022 =+ yx 实点(0,0,1) (1,-1,0) 022 =− yx 两条直线 (1,0,0) 02 =x 二重直线 1.4 变换群与不变量 平面上的所有射影变换构成一个变换群,通常称这个群为射影变换群。几何学的主要内容是研 究在各种变换群作用下的几何不变量(包括不变几何性质),在射影变换群中包含两类重要的子群: 欧氏变换群与仿射变换群。本节重点介绍这两类子群以及相应的不变量。 1.4.1 等距变换群 等距变换群 等距变换是指保持距离不变的变换,其定义如下: ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′ 1100 cossin sincos 1 0 0 y x y x y x θθσ θθσ (1.4.1) 其中, 1±=σ 。使用非齐次坐标,上式可以写成下面的形式: )~~~(cossin sincos 0 0 0 xxx +=′⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛+⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′ ′ Uy x y x y x θθσ θθσ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 22 由此可以看出,等距变换是先作正交变换,然后再作平移变换所得到的变换。正交变换与平移变换 都保持距离不变,因此等距变换也保持距离不变。等距变换的逆变换仍是一个等距变换,两个等距 变换的合成变换也是一个等距变换,所以等距变换的全休构成一个变换群,称为等距变换群。 正交变换 U 根据它的行列式是否等于 1 而分为旋转变换与反射变换。当 1)det( =U 时,是旋转变 换; 1)det( −=U 时,是反射变换。它们的几何意义是旋转变换不但保持两点的距离不变,而且还保 持方向(保向)不变,而反射变换是一个逆向变换(如图 1.4.1 所示)。 欧氏变换群 在等距变换(1.4.1)中,如果矩阵 U 是一个旋转矩阵,则这个等距变换称为欧氏变换。不难验证 欧氏变换的全体也构成一个变换群,通常称它为欧氏变换群(简称欧氏群)。欧氏变换群是距变换群 的子群。欧氏群可以更简洁地表示为 xxx ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛==′ 10 tRH e (1.4.2) 平面欧氏变换有 3 个自由度(因为在平面上,旋转有 1 个自由度,平移有 2 个自由度)。因此, 两个点对应可确定欧氏变换。值得注意的是,矩阵 U 为反射的等距变换不能构成等距变换群的子群, 因为两个这样变换的合成是一个欧氏变换。 欧氏不变量 等距变换群的不变量主要有:两点的距离、两线的夹角、图形的面积等。由于欧氏群是等距变 图 1.4.1 保向变换与逆向变换:(a)保持点的顺序不变,是一个保向变换; (b)变换后对应三点的顺序与原来反向,是一个逆向变换。 x y z x’ y’ z’ 保向变换 x y z x’ y’ z’ 逆向变换 (a) (b) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 23 换群的子群,因此等距变换群的不变量也是欧氏不变量。下面给出一个在计算机视觉中经常使用的 欧氏不变性质: 命题 1.4.1 欧氏变换保持圆环点不变,因此也保持无穷远直线不变。 反射等距变换将两个圆环点互换,即反射等距变换只能保持两个圆环点的整体不变。当然,它 也是保持无穷远直线不变的。 1.4.2 相似变换群 相似变换 相似变换是等距变换与均匀伸缩变换的合成变换,所谓均匀伸缩变换是指下述变换: ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′ 1100 00 00 1 y x s s y x 其中 s 是均匀伸缩因子。 相似变换,顾名思义,它是保持图形相似的变换。在初等几何中,相似分为旋转相似(保向)和 对称相似(逆向)。旋转相似是欧氏变换与均匀伸缩变换的合成,而对称相似是反射等距变换与均匀 伸缩变换的合成。 在计算机视觉中最关心的是旋转相似,它可用下面的矩阵形式来表示: ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′ 1100 cossin sincos 1 0 0 y x yss xss y x θθ θθ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛==′ xxx 10 tsRH s (1.4.3) 旋转相似变换有 4 个自由度,因为它比欧氏变换多一个均匀伸缩因子。与欧氏变换一样,两个 点对应也可以确定相似变换。相似变换的全体也构成一个变换群,通常称为相似变换群。旋转相似 变换是相似变换群的子群,而欧氏群又是旋转相似变换群的子群。非旋转相似变换不能构成相似变 换群的子群。 相似不变量 相似变换群的不变量有:两直线的夹角,长度的比值,面积的比值。这些性质是非常容易验证 的。下面的命题是非常重要的,因为它在计算机视觉中扮演着非常重要的角色。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 24 命题 1.4.2 (1) 射影变换保持圆环点不动的充要条件是它为相似变换;(2) 射影变换保持对偶二 次曲线 * ∞C 不动的充要条件是它为相似变换。 证明 因为 I= ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − 0 1 0 1 100 cossin sincos 0 0 iseiyss xss iθθθ θθ 所以,相似变换保持圆环点不变。类似地,可以证明对另一个圆环点也保持不变。 反之,如果 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ 0 1 0 1 10 1 0 0 ii fe ydc xba iH λ 则必有 0,, =−=+=+ ifeiidciba λλ 最后的等式表明 e=f=0。令 21 λλλ i+= ,则由前两等式得到: 1221 ,,, λλλλ =−=== dcba 令 2 2 2 1 2 2 2 2 1 12 2 2 1 sin,cos, λλ λθ λλ λθλλ + −= + =+=s 则有 = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 1 0 0 fe ydc xba H ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − 100 cossin sincos 0 0 yss xss θθ θθ 因此,H 是一个相似变换。 (2)可由对偶原理从(1)直接得到,因为相似变换 H 的对偶 TH − 仍是一个相似变换。 1.4.3 仿射变换群 仿射变换 仿射变换定义为 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 25 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′ 11001 0 0 y x ydc xba y x ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛==′ xxx 10 tAH a (1.4.4) 其中 A 是一个 2 阶可逆矩阵。仿射变换有 6 个自由度,3 个不共线的点对应唯一确定仿射变换。仿 射变换的全体也构成一个变换群,称为仿射变换群。相似变换群是它的子群。 仿射变换的分解 除平移变换外,只须对矩阵 A 进行分解。对矩阵 A 作奇异值分解(SVD 分解,见第 8 章),我们 得到 A=UDVT,其中 U,V 是正交矩阵,D 是对角元为正数的对角矩阵 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= y x s s D 由此可以看出,仿射变换是一个等距变换 VT、一个非均匀伸缩变换 D 以及另一个等距变换 U 的合 成,因此它与相似变换的差别在于非均匀伸缩。 仿射变换(1.4.4)是否保向,根据矩阵 A 的行列式 det(A)是否大于零来确定。为了看出这一点,我 们将 A 写成 A=(UVT)(VDVT),由 于 (VDVT)总是一个保向的变换(不论 V 是否为旋转矩阵),(UVT)是否 保向是由它的行列式是否为 + 1(即是否为旋转矩阵)来确定,而行列式 det(A)的符号与(UVT)的符号是 一致的。 所有保向仿射变换构成仿射变换群的子群,而旋转(保向)相似变换群又是它的子群。 图 1.4.2 推移变换 P: 位于 x 轴上的点保持不动, 不在 x 轴上的点沿 x 轴平行移动(在轴两侧移动,方向相反) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 26 仿射变换的另一种分解。对 A 作 QR 分解*)得到 A=UK,其中 U 是一个正交阵,K 是一个对角 元素均大于零的上三角阵: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= y x s es K 再对 K 再作如下分解 1/ 1 x x y PD s esKDPs ⎛⎞⎛⎞==⎜⎟⎜⎟⎝⎠⎝⎠  ,于是,仿射变换可以表示为 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛+⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′ ′ 0 0 y x y xUDPy x 变换 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 1 /1 xseP 通常称为推移变换(如图 1.4.2 所示)。因此,仿射变换(除一个平移变换外)是推移 变换、非均匀伸缩变换与正交变换的合成。 仿射不变量 z 仿射变换保持平行性不变 不难验证:仿射变换将无穷远点变换到无穷远点。所以,仿射 变换保持平行性不变,也就是说平面上任何两条平行线(或线段)经过仿射变换后的两条直 线(或线段)仍然是平行的。因此,平行性是仿射变换的不变性质。 z 仿射变换保持面积的比值不变 不难验证:若仿射变换将图形 G 变换到图形 GH a=′G ,则 )(|)det(|)()G( GAGH a σσσ ⋅==′ ( σ 代表面积),这是因为,仿射变换的 Jacobi 行列式为 det(A)。所以,仿射变换保持面积的比值不变。 z 仿射变换保持平行线段长度的比值不变 这一性质可由前两个性质导出,请读者自己给出 证明。 此外,在计算机视觉中经常用到的一个结论是下述命题: 命题 1.4.3 射影变换 H 保持无穷远直线不动的充要条件是 H 为仿射变换。 注意:这里所说保持无穷远直线不动的意思是将无穷远点变换到无穷远点(可能不是同一点), 即将直线看作一个整体是保持不变的。 证明 令H ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 10T tA 是仿射变换,则根据射影变换对线的变换规则(命题 1.3.6),可知: *)见 8.1 节 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 27 00 0 00 1 11 T T TT AH A − − ∞ ∞− ⎛⎞ ⎛⎞⎛⎞⎜⎟ ⎜⎟′ == ==⎜⎟⎜⎟ ⎜⎟−⎝⎠⎜⎟ ⎜⎟⎝⎠ ⎝⎠ ll l t 反之,若射影变换 H ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 1T A b a 使得 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − 1 0 0 1 0 0 1 T T A b a 则必有 b=0。因此,H 为仿射变换。证毕。 二次曲线的仿射分类 对于(非退化)二次曲线在欧氏变换下的分类:椭圆、抛物线与双曲线,对仿射变换仍然是有效 的。由于椭圆与无穷远直线没有实交点、抛物线与无穷远直线相切,即有两个接融点、双曲线与无 穷远直线有两个实交点,而仿射变换保持无穷远直线不动且保持交点性质不变(实变实、虚变虚), 所以前面的性质是仿射不变的。因此,二次曲线的仿射分类仍然是:椭圆、抛物线与双曲线三类。 1.4.4 射影变换群 射影变换与其它变换一样也可以写成分块矩阵的形式: xv txx ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛==′ k AH T (1.4.5) 0=k 当仅当这个射影变换将无穷远直线变换为通过坐标原点的直线,因此在一般情况下, 0≠k 。 当 0≠k 时,H 可分解为下述形式: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= k IKksRH Tv t 0 10 0 10 / (1.4.6) 其中 K 是行列式等于 1 且对角元素均大于零的上三角矩阵,R 是正交矩阵。 显然, ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= k IH Tp v 0 是改变无穷远直线的射影变换, ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 10 0KH a 是保持面积比不变的仿射变 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 28 换,而 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 10 / ksRH s t 是相似变换。式(1.4.6)是不难证明的:因为 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − kk I k A k IH TTT /1/ 00 1 vv t v ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −= 10 / 10 // TT T ksRKkkA tttv ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 10 0 10 / KksR t 倒数第二个等式,是利用 QR 分解并将分解中的上三角矩阵行列式归一化所得的结果。所以,我们 有 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= k IKksRH Tv t 0 10 0 10 / 与仿射变换不同的是射影变换不再有保向与逆向之分,这是因为一般的射影变换将无穷远直线 l∞变到一条有限直线 ∞′l ,在源平面上的两个有序图形,如果被变换到直线 ∞′l 的两侧,则必存在一个 图形与原来的图形反序,而另一个图形与原来的同序。如图 1.4.3 所示。 图 1.4.3:(非仿射的)射影变换不是保向变换也不是逆向变换。 射影不变量 基本射影不变量是四共线点的交比。 关于共线点的交比,在 1.1.3 节已给出定义。 如果直线 l 上 4 个点 x1, x2, x3, x4 的齐次坐标为 T jjj xx ),( 21=x ,则它们的交比是 l∞ ∆1 ∆2 l’∞ ∆’1 ∆’2 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 29 ),det( ),det(:),det( ),det(),;,( 42 41 32 31 4321 xx xx xx xxxxxx = (1.4.7) 4 点交比在一维射影变换下是不变的(如图 1.4.4 所示),换句话说交比的定义不依赖于直线 l 的坐标 系的选择。 图 1.4.4:与图中两个线束相交的所有直线上的 4 个交点的交比均相等, 因为它们之间满足一维射影变换。 所谓一维射影变换,在代数上与二维射影变换类似,是指线 l 上的可逆齐次线性变换,这个变 换由 2× 2 的矩阵 H 来描述: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′ ′ 2 1 2221 1211 2 1 x x hh hh x x 显然 ),det()det(),det(),det( jijiji HHH xxxxxx ==′′ ,而 det(H)在交比的比值中自动消除。因此一维 射影变换保持交比不变。如果 4 个点都是有限点,则可以将它们第二个坐标归一化,写成 T jj x )1,( 1=x ,则 jiji xx 11),det( −=xx ,它表示两点之间的有向距离。这样,就可以通过有向距离 来计算交比。 在平面上,任何二维射影变换 H 都可以诱导出直线的一维射影变换,由此,立即得到平面射影 变换保持交比不变的结论。下面提供了一种诱导一维射影变换方法。在直线 l 上取两个不同的点, 并给定齐次坐标 21, xx 。令 )2,1( ==′ jH jj xx ,如 1.1.3 节的线参数化那样,利用下式: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′ ′′′=′+′′=′⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=+= v uvuv uvu ),(',),( 21212121 xxxxxxxxxx 定义点 x 和对应点 x′ 的齐次坐标分别为 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′ ′ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ v u v u , ,于是, www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 1 章:平面射影几何 30 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛==′=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′ ′′′ v uHHv u ),(),( 2121 xxxxxx 因此, ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛′′=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′ ′ + v uHv uHv u ˆ),(),( 2121 xxxx ),(),(ˆ 2121 xxxx HH +′′= 是一个 2 阶可逆矩阵(这里矩阵的上标“ + ”表示矩阵的广义逆),且它对线 l 的作用与 H 对线 l 的作用是相同的。因此,它是由 H 在线 l 上诱导的一维射影变换。 图 1.4.5:平面上 4 个共线点的有限点的交比, 可以通过它的非齐次坐标分量来计算,因为直线点到坐标轴的投影是一维射影变换。 如果 4 个共线点是平面上的有限点,我们不需要通过线参数化,再利用式(1.4.7)计算交比。因 为此时可以将点的第三个坐标归一化,写成 T jjj yx )1,,(=x ,于是 )( jj yx 是沿 y(x)方向在轴 x(y)上 的投影(如图 1.4.5 所示),而投影变换(直线到坐标轴的投影)是一维射影变换,因此 4 点的交比与它 们在各坐标轴上的投影点的交比相同。也就是说,我们可以通过非齐次坐标分量来计算平面上共线 点的交比。 T jjj yx )1,,(=x jy jx www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 31 2.空间射影几何 2.1 射影空间 2.1.1 空间点 假定在空间建立了欧氏坐标系,空间点的欧氏坐标记为 Tzyx ),,(~ =X ,令 0,,, 4 4 3 4 2 4 1 ≠=== xzx xyx xxx x 定义空间点的齐次坐标为 Txxxx ),,,( 4321=X 。 当 0≠s 时, Xs 与 X 表示同一空间点的齐次坐标,即空间点的齐次坐标可以相差一个非零常数 因子。令 04 →x ,除 0,0,0 321 === xxx 外,下述三式至少有一式成立: ∞→=∞→=∞→= 4 3 4 2 4 1 ,, x xzx xyx xx 因此,定义齐次坐标第 4 个分量 04 =x 的点为无穷远点。 这样,只要 4321 ,,, xxxx 不同时为零, Txxxx ),,,( 4321=X 就代表扩展空间(包括所有无穷远点的 三维空间)中的一个点,反之扩展空间中的每一点都可以用不同时为零的 4 个数构成的齐次坐标 Txxxx ),,,( 4321=X 来表示; 04 ≠x 时代表有穷点(非无穷远点), 04 =x 时代表无穷远点。称这样扩 展的三维空间为三维射影空间。注意: T)0,0,0,0( 不能作为三维射影空间中任何点的齐次坐标。 2.1.2 空间平面 在三维射影空间中,平面方程可以写成 04321 =+++ wzyx ππππ (2.1.1) 其中 Twzyx ),,,(=X 表示空间点的齐次坐标。称 4 维向量 T),,,( 4321 πππππ = 为该平面的齐次坐标。 显然,方程(2.1.1) 两边同乘以一个非零常数仍表示该平面,所以,平面的齐次坐标π 仅依赖于三对 独立的比值 }:::{ 4321 ππππ ,也就是说,平面在三维空间中有 3 自由度。方程(2.1.1)可以写成更简 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 32 洁的形式 0=XTπ (2.1.2) 如果 T)1,0,0,0(=π ,则方程(2.1.2)的解集为 }}0{~|)0,~({ 3 −∈= RT XXX 它是所有无穷远点所构成的集合。因此,称平面 T)1,0,0,0(=π 为无穷远平面,并记为 ∞π 如果 ∞≠ ππ ,则该平面上的有限点 TT )1,~(XX = 满足方程: 0~ =+ dT Xn 其中 T),,( 321 πππ=n , 4π=d , |||| || n d 是坐标原点到该平面的距离。不难看出它是欧氏几何中的平 面法式方程。该平面上的无穷远直线由下述方程给出: 0 0 ~~ =⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= XXn TT π 即,平面π 法向量 n 是该平面上无穷远直线的表示。因此,平面上的无穷远直线代表了该平面的法 向。 下述结论是明显的几何事实: 1. 两平面平行的充要条件是它们的交线为无穷远直线,或者说它们有相同的方向; 2. 直线与直线(面)平行的充要条件是它们相交于无穷远点。 三点确定一个平面 假定 3,2,1, =jjX 是平面π 上的三个点,则必有 0 3 2 1 = ⎟⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎝ ⎛ π T T T X X X (2.1.3) 如果三点 X1, X2, X3 不共线(通常称它们处于一般位置),则 方 程 (2.1.3)中系数矩阵的秩必为 3,此 时平面π 是系数矩阵的一维(右)零空间的元素(相差一个齐次因子),因此一般位置上的三个点唯一确 定一个平面。 如果三点 X1, X2, X3 共一条直线 L,则系数矩阵的秩为 2,因此系数矩阵有二维(右)零空间,此 时不能唯一确定平面π 。实际上,通过直线 L 的所有平面都满足方程(2.1.3),即方程(2.1.3)确定了以 直线 L 为轴的平面束。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 33 假定三点 X1, X2, X3 处于一般位置,令 Twzyx ),,,(=X 是这三个点所确定的平面π 上的任一点, 则 X 是 X1,X2,X3 的线性组合,即 det(X, X1, X2 , X3)=0,而 det(X, X1, X2 , X3)= 123124134234 wdzdydxd −+− 其中 djkl 是由矩阵(X1, X2, X3)的第 j, k, l 行所构成的行列式。所以,三点 X1, X2, X3 所确定的平面π 的 坐标为 Tdddd ),,,( 123124134234 −−=π (2.1.4) 实际上,它是方程(2.1.3)的非零解向量。 如果三点 X1,X2,X3 是有穷点,则它的齐次坐标可以写成下面的形式: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 1 ~ , 1 ~ , 1 ~ 3 3 2 2 1 1 XXXXXX 根据式(2.1.4),它们所确定的平面π 坐标为 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ×− −×−= )~~(~ )~~()~~( 213 3231 XXX XXXX Tπ (2.1.5) 这与欧氏几何中的结果是一致的,例如平面π 的法向量为 13 23()()=−×−nXX XX 。 三个平面确定一点 在空间中点与平面是对偶的,而直线是自对偶的。对换式(2.1.3)中的点与面元素,我们有 0 3 2 1 = ⎟⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎝ ⎛ X T T T π π π (2.1.6) 如果三个面 321 ,, πππ 不共线(此时称三个面处于一般位置),则其系数矩阵的秩为 3,此时点 X 是方程(2.1.6)系数矩阵的一维(右)零空间中的元素,因而能唯一确定(相差一个齐次因子),即一般位 置上的三个平面能唯一确定一个点(有可能是无穷远点)。 如果三个面 321 ,, πππ 共一条直线 L,则方程(2.1.6)系数矩阵的秩为 2,此时系数矩阵有二维(右) 零空间,因而不能唯一确定点 X,实际上在直线 L 上的所有点都满足方程(2.1.6)。如果三个面 321 ,, πππ 处于一般位置, 就可以由系数矩阵的 3 阶子行列式来计算点 X,其计算公式类似于公式(2.1.4)。 平面点的参数化 空间平面π 上的点仅有两个自由度,如果将空间平面π 上的点 X 作为一个射影平面上的点,则 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 34 点 X 可以用三维向量 x 来表示,三维向量 x 称为平面π 上的点 X 的参数化表示。 给定平面π 上不共线三个点的齐次坐标 X1, X2, X3,则平面π 上的任一点 X 可以表示成 () ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ =++= γ β α γβα 321321 ,, XXXXXXX (2.1.7) 这样,就得到了平面π 上的点 X 的一种参数化表示 T),,( γβα=x ,有时也称它为平面点的二维齐次 坐标。显然,平面点的参数化不是唯一的。 2.1.3 空间直线 在三维空间中,直线不如点、平面那样可以非常简单地用一个四维向量(齐次坐标)来表示,因 为三维空间中的直线有 4 个自由度。下面将介绍直线的若干种表示方法。 直线的点表示 以点为基本几何元素来表示直线,即将直线作为两个点的连线。 假定 21 , XX 是空间中两个不重合点,令 W 是以这两个点的齐次坐标作为行所构成 2×4 矩阵 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= T T W 2 1 X X 。于是,有下述结论: 1. 点束 == XL { }),( 2RW T ∈⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ βαβ α 是连结两个空间点 21 , XX 的一条直线 (通常简述为矩 阵 W 生成点束 L); 1. 矩阵 W 的二维右零空间是以直线 L 为轴的平面束。因为这个右零空间中的平面都通过空 间点 21 , XX ,所以连结这两点的直线 L 必在这些平面上。 由直线 L 上的另外两点 21, XX ′′ 所定义的W ′ 和 W 有相同的右零空间,即它们生成同一个点束。 因此,空间直线 L 可以由它上面的两个点所构成的矩阵 W 来表示。在这种表示下,连结两点的直线 L 也说成是直线 W。 直线的面表示 类似地,也可以用平面作为基本几何元素来表示直线,即将直线定义为两个平面 1π , 2π 的交, 它是直线的对偶表示。由不重合的面 1π , 2π 定义一个 2×4 矩阵 W*: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 35 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=∗ T T W 2 1 π π 我们有下述结论: 1. 21 βπαπ + = * ,,TWRα αββ ⎛⎞ ∈⎜⎟⎝⎠ ,是以一条直线 L 为轴的平面束; 2. ∗W 的二维右零空间是一条直线 L 构成的空间点束。 空间中的点 X 和直线 W 按下述方式定义了一个 3× 4 矩阵: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= T WM X 如果点 X 不在直线 W 上,则 M 的右零空间是一维的,这个零空间确定一个平面,即没有结合 性质的点与直线确定一个平面,或者不共线的三点确定一个平面;如果点 X 在直线 W 上,则 M 的 右零空间是二维的。 空间中的直线 W*与平面π 也定义了一个 3× 4 矩阵: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= ∗ T WM π * 如果直线 *W 不在平面π 上,则 *M 的右零空间是一维的,并且这个零空间确定一个点 X,即 直线 *W 与平面π 的交点;直线 *W 在平面π 上,则 *M 的右零空间是二维的。 直线的 Plucker 矩阵表示 连结两点A,B 的直线可由下述 Plucker 矩阵 L 表示: TT BAAB −=L (2.1.8) 它是一个 4×4 反对称矩阵。 在平面上两点的连线可表示为 yxl ×= ,因此, TT BAAB −=L 是二维平面中直线向量积的表 示在三维空间中的推广。 连结 A,B 的直线是矩阵 L 的二维(右)零空间所确定的平面束的轴线。事实上,若 π∈BA, ,即 0== ππ TT BA ,所以 0)()( =−= BAAB πππ TTL 。反之,若 0=πL ,则 0)()( =− BAAB ππ TT , 由于 A,B 是两个不同点的齐次坐标,所以必有 0== ππ TT BA ,即 π∈BA, 。因此,连结 A,B 的 直线是矩阵 L 的二维(右)零空间所确定的平面束的轴线。 直线的Plucker 矩阵 L 表示与选取该直线上点 A,B 无关。这是因为对于直线上任何一个异于 A, www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 36 B 的点 C,有 BAC s+= ,从而得到 ))()( TTT ss ABABAACAAC TT +−+=− 从这里也可以看出空间直线有 4 个自由度。因为反对称矩阵 L 有 6 个非零元素,但仅有 5 个比率是 有意义的,另外 L 满足约束 det(L)=0,所以直线的自由度是 4。 直线的对偶 Plucker 表示 L*由两个平面 P,Q 的交所确定: TT QPPQ −=*L (2.1.9) 由于矩阵 L*与 L 在空间中表示同一条直线,所以必有 )(* TT QPPQ −=LL 0)( =− TT BAAB 由此,可推知矩阵 L*与 L 有下述关系: * 12 * 13 * 14 * 23 * 42 * 34344223141312 :::::::::: llllllllllll = (2.1.10) 关系规则非常简单:对偶和原来元素的下标总包含所有的数字{1,2,3,4},如果原来元素的下标是 ij, 那么对偶元素的下标是{1,2,3,4}中不包含 ij 的数,例如 12 6 34。 直线在 Plucker 矩阵的表示下,有下述结论: 1. 如果点 X 不在直线 L 上,则它们所确定的平面是π =L*X;而 L*X=0 的充要条件是 X 在直线 L 上; 2. 直线 L 和平面π 交点是 X=Lπ ;而 Lπ =0 的充要条件是直线 L 在π 上; 3. 两(或更多)条线 L1, L2 的性质,可以由矩阵 =M (L1, L2, …)的零空间推出。例如:三线 321 ,, LLL 共面的充要条件是 M T TLLL ),,( 321= 有一维零空间。 直线的 Plucker 坐标*) Plucker 直线坐标是 4×4 反对称 Plucker 矩阵 L 的六个非零元素,即 L=(l12, l13, l14, l23, l42, l34) (2.1.11) 它是齐次 6 维向量,因而是 5 维射影空间中的元素。 由于 detL=0,并且不难计算: detL=( l12l34 + l13l42 + l14l23)2 所以,Plucker 直线坐标满足下述方程: *) 参考 10.4.3 节,在那里使用外积给出点、线、面坐标的统一表达,即 Plucjer-Grassmann 坐标。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 37 l12l34 + l13l42 + l14l23 = 0 (2.1.12) 反之,如果向量 L 满足(2.1.12),则它对应于三维空间中的一条直线。 假定两直线 L, Lˆ 分别是点 A,B 和 BA ˆ,ˆ 的连线,定义: =)ˆ( L|L 12 ˆl l34 + l12 34 ˆl + l13 42 ˆl + 13 ˆl l42 + l14 23 ˆl + 14 ˆl l23 不难验证: =)ˆ( L|L )ˆ,ˆ,,( BABADet (2.1.13) 由于两直线 L, Lˆ 相交的充要条件是 4 点 A, B, BA ˆ,ˆ 共面,而 4 点共面等价于 )ˆ,ˆ,,det( BABA =0。 于是,我们有下述结论: 1. 两直线 L, Lˆ 相交(即共面)的充要条件是 =)ˆ( L|L 0; 2. 假定两线 L, Lˆ 分别是平面 P, Q 和 QP ˆ,ˆ 的交线,则 =)ˆ( L|L )ˆ,ˆ,,( QPQPDet ; 3. 如果 L 是两平面 P, Q 的交线, Lˆ 是两点 A,B 的连线,则有 =)ˆ( L|L (PTA)(QTB) –(QTA)(PTB) (2.1.14) 2.1.4 共线平面束的交比 由命题 1.1.3 知,平面内四条共点直线所构成的线束(line pencil) { : 1,...,4}j j =l 被任一条直线 所截,得到四共线点{ : 1,...,4}j j =x ,四该共线点的交比等于该线束的交比。设线束的交点为 o, ˆ{ : 1,...,4}j j =x 分别为这四条直线上不同于 o 的点,则四共点线的交比可由 Möbius 公式计算: ),,det(),,det( ),,det(),,det(),;,( 4232 4131 4321 xxoxxo xxoxxollll ⋅ ⋅= (2.1.15) 令{ : 1,...,4}j jΠ = 是四个共线的平面所构成的面束,Π 5 是第 5 个平面,它与平面束{ : 1,...,4}j jΠ = 相截得到四条共点直线{ : 1,...,4}j j =l ,见图 2.1.1 所示。定义平面束的交比为 ),;,(),;,( 43214321 llll=ΠΠΠΠ (2.1.16) 由于平面束被不同平面相截得到线束的交比均相等,所以上述定义确实是有意义的。设 ,P Q 是 平面束轴线上的不同两点,令 jX 为第 j 个平面不在轴线上的点, 1,...,4j = ,则共线平面束的交比可 由 Möbius 公式计算: ),,,det(),,,det( ),,,det(),,,det(),;,( 4132 4131 4321 XXQPXXQP XXQPXXQP ⋅ ⋅=ΠΠΠΠ (2.1.17) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 38 图 2.1.1 共线四面的交比 2.2 三维射影变换 2.2.1 三维射影变换 三维射影变换是射影空间上的可逆齐次线性变换,这个变换可由 4× 4 的矩阵 H 来描述: XX H=′ (2.2.1) 矩阵 H 称为射影变换矩阵或称为单应矩阵。由于变换是齐次的,所以射影变换矩阵 H 可以相差 一个非零常数因子,因此三维射影变换有 15 个自由度,即射影变换矩阵可由它的元素所构成的 15 个比值唯一确定。 三维射影变换将空间上的点(线、面)变换到点(线、面),并且保持点的共线(面)性、线的共面性 等性质。任何三维射影变换的逆变换都是三维射影变换、任意两个三维射影变换的合成(对应于两个 单应矩阵的积)也是三维射影变换。因此,三维射影变换的全体构成三维射影空间上的一个变换群, 称它为三维射影变换群。 5 点确定三维射影变换 P QX1 X2 X3 X4 O l3 Π 1 Π 2 Π 3 Π 4 Π 5 l4 l2 l1 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 39 满足式(2.2.1)的点对 XX ′↔ 称为射影变换 H 的一个点对应。给定点对应的齐次坐标,由于(2.2.1) 是一个齐次等式,即,式(2.2.1)表示在相差一个常数意义下的相等,所以有 XX Hs =′ 其中 s 为未知的非零齐次因子。消去上式中齐次因子 s,可得到关于 H 的 3 个线性齐次方程。因此, 在一般情况下,5 个点对应唯一确定一个三维射影变换。下述命题是更确切的陈述。 命题 2.2.1 如果 5 个点对应中任意 4 点不共面,则它们唯一确定一个三维射影变换。 由于两个三维射影变换的合成仍是一个射影变换,因此为了证明此命题,只须证明它的下述特 殊形式: 设 521 ,...,, XXX ′′′ 为三维射影空间中任意给定的 5 个点,其中任何 4 个点不共面,则存在唯一的 射影变换 H 将下述 5 个点: ,)0,0,1,0(,)0,0,0,1( 21 TT == XX TTT )1,1,1,1(,)1,0,0,0(,)0,1,0,0( 543 === XXX 依次变为 521 ,...,, XXX ′′′ 。 证明 因为 jjj Hs XX =′ , 5,...,2,1,0 =≠ js j ,所以有 ),,,(),,,( 432144332211 XXXXXXXX Hssss =′′′′ 因此, ),,,(),,,(),,,)(,,,(),,,( 43214321 1 432143214321 ssssdiagssssdiagH XXXXXXXXXXXX ′′′′=′′′′= − 于是,有 SXXXXXXXXXX ),,,(),,,(),,,( 432154321432155 ′′′′=′′′′=′ ssssdiags 其中 Tssss ),,,( 4321=S 。由于 4321 ,,, XXXX ′′′ 不共面,所以( 4321 ,,, XXXX ′′′ )是可逆矩阵,因此, 5 1 43215 ),,,( XXXXXS ′′′′′= −s 于是, )),,,((),,,( 5 1 432143215 XXXXXXXXX ′′′′′′′′′= −diagsH 即 H 在相差一个常数因子的意义下有唯一解。证毕。 2.2.2 平面与直线的变换规则 变换H 的对偶是 TH − ,由于在空间中点与平面是一对互为对偶元素,所以有下述命题: 命题 2.2.2 射影变换 H 对平面的变换规则是 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 40 ππ TH −=′ (2.2.2) 如果直线用 Plucker 矩阵表示,则有如下变换规则: 命题 2.2.3 射影变换H 对直线 L 的变换规则是 THLHL =′ (2.2.3) 其对偶形式是 1** −−=′ HLHL T (2.2.4) 证明是容易的,因为 L′ =HA(HB)T – HB(HA)T=H(ABT – BAT)HT= HLHT。 2.3 二次曲面与变换规则 2.3.1 基本性质 二次曲面由下述方程所定义: XTQX=0 (2.3.1) 其中 Q 是 4×4 的对称矩阵。如果 Q 是降秩的,则称它为退化二次曲面,否则称为非退化二次曲面。 为了陈述方便,通常用“二次曲面 Q”来代替陈述“由对称矩阵 Q 所确定的二次曲面”。图 2.3.1 给 出了欧氏空间中的几种常见的二次曲面。 下面是二次曲面的一些常用性质: 1. 二次曲面有 9 个自由度,即由它的 10 个不同元素的比值所确定,因此空间中 9 个点可确 定一个二次曲面;如果二次曲面是退化的,则可用较少的点来确定; 2. 直线与二次曲面交于两个点(可能是重点或虚点); 3. 平面π 与二次曲面 Q 的交是一条二次曲线; 4. 在一般情况下,两个二次曲面的交是一条空间 4 次曲线。如果两个二次曲面都是锥面,则 它们的交线由两条二次曲线所构成。 5. 对于非退化的二次曲面 Q 上的每一点 X 都存在切平面π ,切平面的坐标由π =QX 给出; 如果平面π 是切平面,则切点 X 的坐标由 π1−= QX 给出。锥面 Q 在顶点处不存在切平面, 其他任何一点 X 都存在切平面π ,切平面的坐标也由π =QX。与非退化二次曲面不同的 是锥面同一条母线上的点有相同的切平面,也就是说给定锥面的切平面不能唯一确定它的 切点。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 41 球面 椭球面 椭圆抛物面 双叶双曲面 单叶双曲面 双曲抛物面 锥面 抛物柱面 相交平面 图 2.3.1:欧氏空间中的几种常见曲面 6. 给定一个二次曲面 Q,则π =QX 确定了空间点与平面的的一个对应关系,通常称为由二 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 42 次曲面 Q 的配极对应。如果二次曲面 Q 是非退化的,则它的配极对应是点与平面之间的 一一对应。在几何上,如果点 X 在二次曲面 Q 上,则它的极平面是点 X 的切平面;如果 点 X 不在(非退化)二次曲面 Q 上,则点 X 的极平面是以 X 为顶点的锥面与 Q 的切点所在 的平面(如图 2.3.2 所示); 7. 在射影变换 X ′ =HX 下,二次曲面变换规则是 Q′ =H T− QH 1− (2.3.2) 图 2.3.2: 点 X 关于二次曲面的极平面是过该点的锥与 Q 的切点所在的平面π 。 2.3.2 二次曲面的对偶 空间曲面的对偶是指以该曲面的切平面为基本元素在对偶空间(面空间)中所构成的曲面,通常 称对偶曲面。下面着重考虑二次曲面的对偶。在一般情况下,二次曲面的对偶仍为一个二次曲面。 令 Q 是一个二次曲面,它的对偶曲面记为 Q*,按照对偶曲面的定义 Q*的基本元素是 Q 的切平面, 也就是说它是 Q 的所有切平面所构成的平面集合,而 Q 是 Q*中的所有平面所形成的包络。在计算 机视觉中,二次曲面的对偶,尤其是锥面与空间二次曲线的对偶具有特别的重要性。 非退化二次曲面的对偶 考虑非退化二次曲面的对偶。令 Q 是一个非退化的二次曲面,即 0)det( ≠Q ,它在(点)空间的方 程为 0=XX T Q 。根据上面的定义,它的对偶是它的所有切平面构成的集合,下面证明这个集合在 对偶空间中也构成一个非退化的二次曲面。 任取 Q 的一个切平面π ,切点为 X ,则必有 XQ=π ,因此, X=− π1Q 。又因 X 在平面π 上, 所以必有 0=XTπ 。于 是 ,得 到 01 ==− XTT Q πππ 。因 此 ,对 Q 的任一切平面π ,等 式 01 =− ππ QT X π Q www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 43 成立。反之,假定平面π 满足方程 01 =− ππ QT ,下面证明平面π 必为 Q 的切平面。令 X= π1−Q ,则 必有 XQ=π 。为了证明π 为 Q 的切平面,现在只须证明点 X 在二次曲面上。由于 == − ))( 1 ππ TT QQXX 01 == −− ππππ QQ TTT ,其中倒数第二个等式利用了 Q 的对称性,因此,点 X 在二次曲面 Q 上。从上面的论证,有下述命题: 命题 2.3.1:非退化二次曲面的对偶 Q*仍是二次曲面,并且 Q*=Q 1− 。 注:非退化二次曲面与它的对偶二次曲面互为对偶,即有(Q*)*=Q。 锥面的对偶 令 Q 是一个锥面,即 3)( =Qrank ,它是一个退化二次曲面。下面考虑它的对偶 Q*。由于 3)( =Qrank ,所以 Q 有一维零空间,并且零空间的元素是锥面 Q 的顶点 V 的齐次坐标,即锥面 Q 的顶点 V 是方程 QV=0 的非零解。现在考虑 Q 的切平面集合在对偶空间中所构成的曲面形式。首先 注意到:锥面 Q 在顶点 V 处不存在切平面。从代数上也可以看出这一点:由于顶点 V 使得 QV=0, 而四维零向量不能作为任何平面的齐次坐标,因此锥面 Q 在顶点 V 处不存在切平面。 (a) 点空间中的锥面; (b) 锥面对偶在面空间(对偶空间)是一条二次曲线。 图 2.3.3:锥面及其对偶。 参考图 2.3.3:点 V 的对偶在对偶空间中表示一个“平面” V,即在对偶空间中满足方程 VT π =0 的所有“点”π 的集合。锥面母线 L 上的点,除顶点外,都有相同的切平面 Lπ ,即母线 L 上所有 点的对偶是同一“点” Lπ ,换话说,母线 L 在对偶空间中被压缩成一个“点” Lπ 。由于在点空间 VT π =0 Lπ V L C Lπ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 44 中平面 Lπ 过顶点 V,所以在对偶空间中“点” Lπ 必在“平面” V上。当母线 L 绕基线 C 运动时, Lπ 在对偶空间中的轨迹将是“平面” V上的一条“点”曲线。所以,锥面的对偶是一条平面曲线。 下面证明这条曲线是一条二次曲线。令 X 是锥面 Q 上任一异于顶点 V 的点,则它的切平面为 XQ=π 。显然,一个点 Y 在母线 VX 上,当且仅当 Q π=Y 。令 π+= QX~ ,则它必在母线 VX 上, 这是因为 ππ ==== ++ QXQQQQQQ XX~ 因此,母线的参数方程为 XVX s+=~ 。于是,我们有 0)( ==+=+ XXXVX QsQQ TTTT ππ 所以,锥面的对偶由下述方程表示: T+ T Q=0 =0 ππ π ⎧ ⎨ ⎩V 。由于 3)( =+Qrank ,所以锥面的对偶(在对偶空间 中)是一个锥面与平面的交线,因此它是一条平面二次曲线。 命题 2.3.2:锥 面 Q 的对偶在对偶空间中是一条二次曲线,这条二次曲线的支撑面是锥面顶点的 对偶,锥面 Q 的母线在对偶空间中被压缩为二次曲线上的一个点。锥面 Q 的对偶可以用下述方程来 描述: T+ T Q=0 =0 ππ π ⎧ ⎨ ⎩V (2.3.3) (a) 点空间中的二次曲线 (b) 二次曲线的对偶在面空间(对偶空间)是锥面 图 2.3.4:空间二次曲线及其对偶 L C 0π π 1π0π 1π π X www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 45 空间二次曲线的对偶 参考图 2.3.4,令平面 0π 是空间二次曲线的支撑平面,它的对偶在对偶空间中表示一个“点” 0π 。 二次曲线上任一点 X 的切平面是以该点的切线为轴的一个平面束(但不包括支撑平面 0π )。 令 1π 是这个面束中的一个成员,则这个平面束的参数方程为: 10 πππ s+= 。在对偶空间中, 它表示经过“点” 0π 的一条直线 L 10)( ππ ss += 。当点 X 沿二次曲线运动时,L 在对偶空间中的轨 迹将是将形成一个锥面。 命题 2.3.3:空间二次曲线的对偶曲面是一个锥面,二次曲线的支撑平面的对偶是这个锥面的顶 点,二次曲线上的一个点在对偶空间中被扩展为锥面的一条母线,二次曲线的切线与锥面的母线构 成一一对应关系。 对偶二次曲面的变换规则 在(点)变换 X ′ =HX 下,应用平面的变换规则 ππ TH −=′ ,立即得到对偶二次曲面 *Q 的变换规 则: THHQQ ** =′ (2.3.4) 注意:由于锥面的对偶曲面 *Q 是一条空间二次曲线,它不能由一个矩阵来表示,即它的变换 规则不能统一在上述公式中,但可以由对偶锥面和平面的变换规则来联合表达: 0 0 T T Qππ π +⎧ = →⎨ =⎩V 0 0 TT TT HQ H H ππ π +⎧ ′ ′ = ⎨ ′ =⎩V 2.3.3 绝对二次曲线与绝对二次曲面 绝对二次曲线 绝对二次曲线 ∞Ω 是 ∞π 上的一条(点)二次曲线。在欧氏坐标系下 ∞π =(0, 0, 0,1)T, ∞Ω 是下述方 程的解集: 222 123 2 4 0 0 xxx x ⎧ + +=⎪⎨ =⎪⎩ (2.3.5) 它是 ∞π 上的一条虚二次曲线。尽管 ∞Ω 没有实点,但它具有二次曲线的共同性质,如:切线、配极 对应等等。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 46 下面不加证明地引进一些常用性质: 1. 无穷远直线交绝对二次曲线于两点,这两个点是通过该无穷远线的平面上的两个圆环点; 2. 绝对二次曲线是空间中所有平面的圆环点所构成的集合,因而任意一个圆与绝对二次曲线 相交于两个圆环点; 3. 任意一个球与无穷远平面的交是绝对二次曲线; 4. 如果绝对二次曲线在无穷远平面上的矩阵表示为 ∞Ω (在欧氏坐标系下, ∞Ω 是一个 3 阶单位 矩阵),则它的任一点 ∞x 的切线为 ∞∞∞ = xl Ω ,反之若 ∞l 是 ∞Ω 的任一条切线,则切点为 ∞ − ∞∞ = lx 1Ω ; 5. 如果绝对二次曲线在无穷远平面上的矩阵表示为 ∞Ω ,则 ∞∞∞ = xl Ω 确定了绝对二次曲线的 配极对应; 6. 空间两条正交直线的方向(即两条正交直线与无穷远平面的交点)是绝对二次曲线的一对共 轭点(如图 2.3.5 所示),三正交方向(即三条两两正交直线与无穷远平面的三个交点)构成绝对 二次曲线的一个自极三角形。 在一般三维射影空间中,通过绝对二次曲线 ∞Ω 可以度量两条直线的夹角,确切地说,我们有 下述命题。 命题 2.3.4 三维射影空间中,令 d1 和 d2 是两条直线与二次曲线 ∞Ω 所在平面 ∞π 的交点,它表 图 2.3.5:d1,d2 是空间中两条相互正交直线与无穷远平面的交点,则它们的连线 是一条无穷远直线 L。直线 L 交绝对二次曲线与两个点 I,J,它们是以 L 为无穷 远直线的空间平面π 上的两个圆环点,在平面π 上通过无穷远点的 d1,d2 两条直 线必相互正交,因此 d1,d2 与圆环点 I,J 调和共轭,所以 d2 必在 d1 的极线上。 故 d1,d2 是绝对二次曲线的一对共轭点。 d2 d1 I J L ∞Ω www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 47 示这两条直线在射影空间中的方向, ∞Ω 是绝对二次曲线在平面 ∞π 上的矩阵表示。则两条直线交角 可以通过下述公式来计算: ))(( )(cos 2211 21 dddd dd ∞∞ ∞= ΩΩ Ωθ TT T (2.3.6) 证明:先验证欧氏空间的情形:由于在欧氏空间中 ∞Ω 在无穷远平面上的矩阵表示为 ∞Ω =I,两 条直线与无穷远平面的交点 TTTT )0,(,)0,( 2211 dDdD == 在无穷远平面上的表示必为 d1 和 d2,它们是 两条直线的欧氏方向。由欧氏几何,立即得到两直线的交角公式: ))(( )(cos 2211 21 dddd dd TT T =θ ))(( )( 2211 21 dddd dd ∞∞ ∞= ΩΩ Ω TT T 因此,公式(2.3.6)成立。下面证明一般情况: 由于通过一个射影变换 H 可以将欧氏空间变换到一般射影空间,并且射影变换将平面映射为平 面。记无穷平面 ∞π 被映射到平面 ∞′π ,则射影变换 H 必诱导出从平面 ∞π 到平面 ∞′π 上的一个二维射 影变换 33 ~ ×H 。于是,根据二次曲线的变换规则,绝对二次曲线 ∞Ω 在平面 ∞′π 上的矩阵表示必为 1 3333 ~~ − × − ×∞ =′ HIH TΩ ,且两直线的方向 d1,d2 被变换到射影方向: 23321331 ~,~ dddd ×× =′=′ HH 。因此,我们 有 θcos = ′′′′ ′′= − × − × − × − × − × − × 2 1 333321 1 33331 2 1 33331 ~~ ~ dddd dd HHHH HH TTTT TT ))(( )( 2211 21 dddd dd ′′′′′′ ′′′ ∞∞ ∞ ΩΩ Ω TT T 即公式(2.3.6) )成立。证毕。 利用这个命题,可以直接得到绝对二次曲线的基本性质(6)。 绝对二次曲面 绝对二次曲线 ∞Ω 的对偶是三维空间中的退化对偶二次曲面,称它为绝对二次曲面并记为 * ∞Q 。 在几何上, * ∞Q 是所有与 ∞Ω 相切的平面所构成的集合。在代数上, * ∞Q 可由秩 3 的 4×4 的齐次矩阵 来表示,在欧氏坐标系下它的表示为 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=∞ 00 0* T IQ (2.3.7) 平面π 在 * ∞Q 上的充要条件是π T * ∞Q π =0。令平面的坐标为π =(vT, k)T,给定 * ∞Q 形式(2.3.7)后, π T * ∞Q π =0 等价于 vTv=0。而 v 表示平面π = (vT, k)T 与无穷远平面的交线,该直线与绝对二次曲线相 切的充要条件是 vTIv=0。因此, * ∞Q 正好由这些与绝对二次曲线相切的平面所组成。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 48 通过式(2.3.7),可直接验证无穷远平面是 * ∞Q 的右零空间,即 * ∞Q ∞π =0。 绝对二次曲面在射影坐标系下有 8 个自由度,因为它是退化的对偶二次曲面。这 8 个自由度也 是在一般射影坐标系下确定度量性质所要确定的自由度。 命题 2.3.5 在三维射影空间中,若绝对二次曲面的矩阵表示为 * ∞Q ,则两平面π1 和π2 之间的 夹角由下式给出: ))(( cos 2 * 21 * 1 2 * 1 πππ ππ ∞∞ ∞= QQ Q TT T π θ (2.3.8) 特别地,在欧氏空间中,若两平面的坐标 TTTT dd ),(,),( 222111 nn == ππ ,则两平面的夹角计算公式 简化为: ))(( cos 2211 21 nnnn nn TT T =θ 证明是容易的,欧氏空间的夹角公式直接由欧氏几何得到,对于一般射影空间可由射影变换关 于对偶二次曲面的变换规则和平面的变换规则得到。 关于绝对二次曲线和绝对二次曲面的一些更深刻的度量性质将在第 2.4 节给出。 代数表示的几何解释 由于无穷远平面的特殊性,所以绝对二次曲线和绝对二次曲面也有很多特殊性质。在三维计算 机视觉中,尤其在摄像机自标定与三维重构理论中,绝对二次曲线和绝对二次曲面处于十分重要的 地位。为了理解它们在欧氏坐标下的表示,下面从另一个角度来考虑。 首先,考虑绝对二次曲线。令 rQ 是中心在原点半径 r 为的球面,则它的矩阵表示为 ),1,1,1( 2rdiagQr −= 即球面 rQ 上的点 TwzyxX ),,,(= 满足方程: 2 222 wr z r y r x =⎟ ⎠ ⎞⎜ ⎝ ⎛+⎟ ⎠ ⎞⎜ ⎝ ⎛+⎟ ⎠ ⎞⎜ ⎝ ⎛ 当 r 逐渐增大时,球面 rQ 上的点就逐渐接近与无穷远平面。记 ∞Q 是球面 rQ 在 ∞→r 时的极限。当 ∞→r 时,对任意 x, y, z,有 0,0,0 →→→ r z r y r x 。由上式,必有 0→w ,因此, ∞Q 上的点 TwzyxX ),,,(= 必是无穷远点,且满足方程: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 49 2220 0 xyz w ⎧ + += ⎨ =⎩ 这正是绝对二次曲线在欧氏坐标系下的方程,所以可以将绝对二次曲线作为球面 rQ 在 ∞→r 时的极 限。 再考虑对偶二次曲面 * ∞Q 。由于绝对二次曲面 * ∞Q 是绝对二次曲线的对偶,所以从上面的讨论可 以将它可以看作为球面 rQ 对偶 * rQ 的极限。由于 rQ 的对偶可以表示成 )/1,1,1,1( 2* rdiagQr −= 当 ∞→r 时,必有 *2* )0,1,1,1()/1,1,1,1( ∞=→−= QdiagrdiagQr 这样,就得到了绝对二次曲面在欧氏坐标系下表示式(2.3.7)。从这里也可以看出,我们为什么将绝 对二次曲面记成 * ∞Q 而不是按习惯那样记成 * ∞Ω 2.4 三维射影变换群的子群 2.4.1 仿射变换群 三维仿射变换是 XXX ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛==′ 10 tAH a (2.4.1) 其中 A 是一个 3 阶可逆矩阵。三维仿射变换有 12 个自由度。 所有三维仿射变换的全体构成一个变换群,称为仿射群。也就是说,仿射变换的逆变换也是仿 射变换,两个仿射变换的合成也是仿射变换。 仿射不变量 对于仿射不变量,我们有下述结论: 1. 保持无穷远平面不变,即将无穷远点变换到无穷远点; 2. 保持直线与直线、直线与平面以及平面与平面之间的平行性; 3. 保持物体的体积比、平行图形(或在同一平面上的图形)的面积比、平行线段(或在同一直线 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 50 上的线段)的长度比不变。 性质(1)与(2)是明显的。下面证明:仿射变换保持体积比的不变性质。假定 21,VV 是两个空间物 体,其体积分别为 )(),( 21 VvVv ,经过仿射变换(2.4.1)后的物体记为 21,VV ′′ ,其体积分别为 )(),( 21 VvVv ′′ 。 将仿射变换(2.4.1)写成非齐次形式: ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ + ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′ 3 2 1 t t t z y x A z y x 则仿射变换的 Jacobi 行列式为: (, ,)det det( )(, ,) xyzJ Axyz ′′′⎛⎞∂==⎜⎟∂⎝⎠ 所以, ∫∫∫ ′′′=′ ′jV j zdydxdVv )( )(|)det(||)det(|),,( ),,( j VV VvAdxdydzAdxdydzzyx zyx jj =∫∫∫=∫∫∫ ∂ ′′′∂= 因此,我们有 )( )( )( )( 2 1 2 1 Vv Vv Vv Vv ′ ′= 平行图形面积比的不变性质可由体积比不变性质导出,而平行线段长度比不变性质可由面积比 不变性质导出。请读者自已证明。 命题 2.4.1 射影变换 H 保持无穷远平面不变的充要条件是 H 为仿射变换。 证明 仿射变换保持无穷远平面不变,所以仅需证明必要性。为此,将射影变换 H 写成分块形式: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= d AH Tc b 假定 H 保持无穷远平面 TT )1,0(=∞π 不变。由平面的射影变换规则,我们有 ∞ − ∞ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= ππ T T d A c b 即, ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ 1 0 1 0 d A T T b c www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 51 因此, 1,0 == dc ,所以 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 10T AH b 是一个仿射变换。证毕。 命题 2.4.1 表明,保持无穷远平面不变是仿射变换的基本特征。 2.4.2 相似变换群 相似变换由下述变换所定义 XX ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=′ 10T tsU (2.4.2) 其中,U 是三维正交矩阵,s 是相似比例因子。所有三维相似变换的全体构成一个群,通常称为相 似变换群,它是三维仿射群的子群。如果限制 U 是一个三维旋转矩阵,则上述变换称为旋转相似变 换。旋转相似变换的全体构成相似变换群的子群。 相似不变量 相似变换除了仿射不变量作为它的不变量之外,最本质的不变性质是绝对二次曲线与绝对二次 曲面。 命题 2.4.2 射影变换 H 保持绝对二次曲线不变的充要条件是 H 为相似变换*)。 证明 相似变换必为仿射变换,所以 H 可以写成下述形式: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 10 tAH 仿射变换将无穷远点变为无穷远点,因此 H 限制在无穷远平面上的二维变换是 A。而绝对二次 曲线 ∞Ω 是无穷远平面上的二次曲线,在无穷远平面上它的矩阵表示是一个 3 阶单位矩阵 I,因此 H 将 ∞Ω 变为 ∞Ω 的充要条件是 sIIAA T =−− 1 ,而 sIIAA T =−− 1 等价于 IAsAT = , IAsAT = 等价于 A 是 一个与正交矩阵相差常数倍的矩阵。所以,射影变换 H 保持绝对二次曲线不变的充要条件是 H 为相 似变换。证毕。 下面的命题是命题 2.4.2 的对偶命题: 命题 2.4.3 射影变换 H 保持绝对二次曲面 * ∞Q 不变的充要条件是 H 为相似变换。 *) 这里的保持绝对二次曲线不变,是指整体不变性,而不是说二次曲线上的每一点都保持不变。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 52 可以给出命题 2.4.3 的直接证明:因为 * ∞Q 是对偶二次曲面,所以它的变换规则为式(2.3.4)。于 是, * ∞Q 在变换 H 下不变的充要条件是 THHQQ ** ∞∞ = 。令 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= k AH Tv t ,下述齐次等式: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ vvA AAA k AI k AI TTT T T T TTT v v t v v t 00 0 00 0 成立的充要条件是 v=0 且 A 与正交矩阵相差一个非零常数因子,从而 H 是一个相似变换。 2.4.3 等距变换群 等距变换由下式所定义: XtX ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=′ 10T U (2.4.3) 其中 U 是三维正交矩阵。所有三维等距变换的全体构成一个群,通常称为等距变换群,它是三维射 影群的子群。如果限制 U 是一个三维旋转矩阵,则上述变换称为欧氏变换。欧氏变换的全体构成等 距变换群的子群。等距变换群的重要不变量是保持物体形状和体积不变。等距变换是特殊的相似变 换,它具有相似变换的一切特性,如保持绝对二次曲线和绝对二次曲面不变。 下面给出关于欧氏变换的不动点性质。一个射影变换的不动点是指在这个变换下保持不动的空 间点。在代数上,一个空间点 X 是射影变换 H 的不动点的充要条件是 X 为 H 的特征向量,即 HX =X (注意:这是一个齐次等式,齐次因子是与特征向量 X 对应的特征值)。 命题 2.4.4 (1) 设 E 是一个欧氏变换,则正交于旋转轴的平面上的两个圆环点是 E 的两个不动 点,它们是 E 的两个互为共轭复特征向量;旋转轴与无穷远平面的交点是 E 的另一个不动点,它是 E 的特征值 1 的特征向量。如果 E 为一般欧氏运动,E 仅有上述三个不动点。(2) 如果平移向量在与 旋转轴正交的平面上(通常称为平面运动),则 E 还存在另外的不动点,它是 E 的特征值 1 的另一个 特征向量。 在几何上,空间旋转变换 R 有两个不变子空间,一个是旋转轴构成 R 的一维不变子空间,其上 的每一点在旋转变换 R 下是不动的;另一个是与旋转轴正交且通过坐标原点的平面,它构成 R 的一 个二维不变子空间(R 在这个不变子空间上不是点点不动的),由于 R 限制在这个平面上是一个二维 旋转变换,所以这个平面上的两个圆环点是保持不动的。空间的平移变换是一个保持平行性的变换, 并且在无穷平面上保持点点不动。由于欧氏变换 E 是先进行旋转 R 再作平移所构成的变换,所以旋 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 53 转轴上的无穷远点是它的一个不动点,与旋转轴正交平面上的两个圆环点也是它的不动点。如果平 移向量在与旋转轴正交的平面上,除了这三个不动点外还有另一个的不动点,这个不动点是由平移 向量所确定的。 下面将给出这个命题的代数证明: 证明 令欧氏变换为 E= ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ 1T R 0 t 考虑欧氏变换 E 的特征向量。由于 )det()1()det( 3344 RsIsEsI −−=− ×× ,所以 E 的特征值必为 {eiθ,e-iθ,1,1},其中θ是 R 的旋转角。显然,E 有如下三个线性无关的特征向量: TT R T R T R )0,(,)0,(,)0,( 321 aEiEiE === 其中: RR ii , 是 R 的共轭复特征值的特征向量,所以 21, EE 在与旋转轴正交的平面 Eπ 上,并且 Eπ 是 R 的不变子空间,因此 21, EE 是平面 Eπ 上的两个无穷远点。由于 E 在 Eπ 上的限制 E Eπ 是一个二维 欧氏变换,平面 Eπ 上的两个圆环点在变换 E Eπ 下保持不变,于是 21, EE 必是平面 Eπ 上的两个圆环 点。 Ra 是 R 的特征值 1 的特征向量,它是 R 的旋转轴方向,所以 3E 是旋转轴与无穷远平面的交点。 如果 E 对应于特征值 1 还有另外的特征向量 E4,则 E4 必有形式 TT )1,(4 xE = 。于是从 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ 111 xx 0 t T R 可知 tx =− )( RI ,所以 0)()( 1 =−=−=−= − xaxaxaxaxata T R T R T R T R T R T R RRI ,这表示平移向量 t 在 与旋转轴正交的平面 Eπ 上(注意:这里使用了三维欧氏坐标)。反之,若平移向量 t 在与旋转轴正交 的平面 Eπ 上,则 E 必有形如 E4 的特征向量。证毕。 2.3.5 二次曲面的分类 度量分类 在三维欧氏空间中,二次曲面的一般方程为 lBQ TTT ++=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= xcxxxxx 21)1,()(ϕ 其中: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 54 Tzyxkhg cfe fbd eda B lkhg kcfe hfbd geda Q ),,(,),,(,, == ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = xc T 由于 B 是一个对称矩阵,所以存在旋转变换 y=Rx,使 xx BT 化为标准形 yy ),,( 321 ddddiagT 于是,二次曲面 )(xϕ 化为 lddddiag TT +′+= ycyyy 2),,()( 321ϕ 欧氏变换不改变矩阵的秩,通过 Q,B 的秩、行列式以及 B 的特征值的符号,可得到二次曲面的度 量分类,见表 2.3.1。注意,度量分类是二次曲面的一种形状分类,它不是欧氏变换的等价性质,即 同一种类型的二次曲面不能通过欧氏变换相互转化。 表 2.3.1:二次曲面的度量分类 rankB rankQ 曲面 有附加条件的细分类 椭球面,d1,d2,d3 都有和 detA/detB 异号 虚椭球面,d1,d2,d3 都有和 detA/detB 同号 单叶双曲面,d1,d2,d3 中仅有一个和 detA/detB 同号 3 4 有唯一中心的 曲面 双叶双曲面,d1,d2,d3 中正好有两个和 detA/detB 同号 退化锥面,d1,d2,d3 同号 3 3 锥 面 非退化锥面,d1,d2,d3 异号 椭圆抛物面,d1,d2 同号 2 4 抛物面 双曲抛物面,d1,d2 异号 双曲柱面,d1,d2 异号 2 3 中心为一条直 线的柱面 椭圆柱面(实或虚),d1,d2 同号 2 2 相交二平面 实的,d1,d2 异号 d3=0 虚的,d1,d2 同号 1 4 不可能出现 1 3 抛物柱面 1 2 平行两平面 (实或虚) 1 1 二重合平面 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 55 仿射分类 在仿射空间(斜坐标系)内,二次曲面一般方程为 02)( =++= cB TT xbxxxϕ ,其中 T ij xxxaB ),,(,)( 32133 == × x 其中 B 是 3 阶对称矩阵。 存在满秩变换(仿射变换) xy 1−= P ,使得二次曲面方程变为 02),,()( 321 =′+′+= cddddiag TT ybyyyϕ 其中 1,0 ±=jd ,但不全为零。再对它进行平移与伸缩变换(它们都是仿射变换),上述方程可变为下 述 17 个标准形之一,见表 2.3.2。 表 2.3.2: 二次曲面的仿射分类 序号 方程 曲面 1 012 3 2 2 2 1 =+++ xxx 虚椭球面(虚曲面) 2 012 3 2 2 2 1 =−++ xxx 椭球面 3 012 3 2 2 2 1 =+−+ xxx 双叶双曲面 4 012 3 2 2 2 1 =−−+ xxx 单叶双曲面 5 02 3 2 2 2 1 =++ xxx 仅有一个实点的虚锥面 6 02 3 2 2 2 1 =−+ xxx 二次锥面 7 03 2 2 2 1 =−+ xxx 椭圆抛物面 8 03 2 2 2 1 =+− xxx 双曲抛物面 9 012 2 2 1 =++ xx 虚柱面 10 012 2 2 1 =−+ xx 椭圆柱面 11 012 2 2 1 =+− xx 双曲柱面 12 02 2 1 =+ xx 抛物柱面 13 02 2 2 1 =+ xx 交一实直线的二个虚面 14 02 2 2 1 =− xx 相交的二个平面 15 012 1 =+x 一对平行虚面 16 012 1 =−x 一对平行实面 17 02 1 =x 二个重合的平面 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 56 射影分类 由于二次曲面的矩阵 Q 是对称的,所以它可以分解为 Q=UDUT,这 里 U 是一个实正交矩阵而 D 是一个实对角矩阵。通过对 U 的四列各自进行适当的伸缩,可以将 Q 分解成 Q=H T− DH 1− ,这里 D 是对角元素取 0, 1, 或 1− 的对角矩阵,并且使 D 的零对角元素出现在对角线的最后,+1 出现在最前 面,而 1− 次之 (如表 2.3.3 所给的那种形式)。显然,H 是一个射影变换,因此二次曲面 Q 通过射影 变换 H 必(射影)等价于二次曲面 D。因此,对角矩阵 D 的每一种形式代表了二次曲面的一种射影等 价类,见表 2.3.3。 表 2.3.3:二次曲面的射影分类(注:符号差是指 D 的对角元素中 1 的个数与 1− 个数的差) Q 的秩 符号差 方程 曲面 4 4 02 4 2 3 2 2 2 1 =+++ xxxx 虚椭球面(虚曲面) 4 2 02 4 2 3 2 2 2 1 =−++ xxxx 椭球面或双叶双曲面或椭圆抛物面 4 0 02 4 2 3 2 2 2 1 =−−+ xxxx 单叶双曲面或双叶抛物面 3 3 02 3 2 2 2 1 =++ xxx 虚锥面 3 1 02 3 2 2 2 1 =−+ xxx 实锥面或柱面 2 2 02 2 2 1 =+ xx 一对虚平面(虚曲面) 2 0 02 2 2 1 =− xx 一对实平面 1 1 02 1 =x 二个重合的平面 2.5 射影坐标系与射影坐标变换 在前面各节中,我们所使用的坐标系都是欧氏坐标系。本节将讨论一般射影坐标系以及射影坐 标系之间的变换(射影坐标变换)。 射影坐标系 这里不打算用纯几何的方法来建立射影坐标系,而是从给定的欧氏齐次坐标系σ 来建立一般射 影坐标系。 设A,B,C,D 是空间中的 4 个不共面的点,它们在欧氏坐标系σ 下的齐次坐标分别为 eeee 4321 ,,, XXXX ,则对于空间任一点 P 的欧氏齐次坐标均可以表示成 eeeee uuuu 44332211 XXXXX +++= (2.5.1) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 57 其中 ju 不全为零。这样,任一点 P 有一个分量不全为零的 4 维有序数组{ ju }与之对应。但是,{ ju } 还不能作为 P 点的新齐次坐标,因为 ju 的比值 4321 ::: uuuu 不能唯一确定,例如对欧氏坐标系下的 齐次坐标 e jX 选择不同的齐次因子 js ,则 ju 将变成 jj su / ,且 )/(:)/(:)/(:)/(::: 443322114321 susususuuuuu ≠ 为了确定比值,必须再加约束条件。设空间中的第五个点 E,它在欧氏坐标系σ 下的齐次坐标记为 e 5X ,并且它与原来 4 点中的任何 3 个点都不共面,因此存在 4 个都不全为零的数 4321 ,,, vvvv ,使 得 eeeee vvvv 443322115 XXXXX +++= 令 e jj e j v XX =ˆ ,则式(2.5.1)可以写成 )/(,ˆˆˆˆ 44332211 jjj eeeee vuxxxxx =+++= XXXXX (2.5.2) 这样对于 }{ jx 中的 4 个元素就有确定的比值,即不依赖于 )4,3,2,1( =je jX 的齐次因子 js 的选择。因 为对任意的{ js },总有 )/(:)/(:)/(:)/(::: 443322114321 vuvuvuvuxxxx = )/(:)/(:)/(:)/( 4444333322221111 svsusvsusvsusvsu= 于是,对于每一个空间点 P 都有一个新的齐次坐标 Txxxx ),,,( 4321 。特别地,A,B,C,D、E 的新 齐次坐标分别为 ,)0,0,1,0(,)0,0,0,1( 21 TpTp == XX ,)1,0,0,0(,)0,1,0,0( 43 TpTp == XX Tp )1,1,1,1(5 =X 这样建立起来的坐标系称为射影坐标系,并称 A,B,C,D 所构成的 4 面形为射影坐标系的 4 面形; E 称为单位点;A,B,C,D、E 称为射影坐标系的基点(如图 2.5.1 所示)。不难看出以欧氏坐标(或 仿射坐标)为基础的齐次坐标系是一种特殊的射影坐标系,其坐标 4 面形的顶点是三个坐标轴的无穷 远点和坐标原点,而单位点是非齐次坐标为 T)1,1,1( 的空间点。 图 2.5.1:射影坐标系的 4 面形{A,B,C,D}与单位点 E A B C D E www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 2 章 空间射影几何 58 值得说明的是以下几点: 1. 在以一般射影坐标系为基础的三维射影空间中,无穷远点、无穷远直线与无穷远平面在以 欧氏坐标系(或仿射坐标系)为基础的代数形式都消失了,即不再有表示它们的那种(欧氏坐 标系中的)特殊代数形式,所有的几何元素的地位都是同等的。 2. 可以在一般射影坐标系下讨论平面的齐次坐标,二次曲面,射影变换等等。 3. 在以一般射影坐标系为基础的三维射影空间中的射影变换不再有层次之分,如相似变换、 仿射变换、欧氏变换等等。因此,上节中关于射影变换的分层以及特殊变换的特征,都只 是在以欧氏坐标系为基础的射影空间中才成立,正如我们不能在仿射坐标系下讨论欧氏变 换一样。 射影坐标变换 同一个空间点在两个不同射影坐标系中的射影坐标之间的变换,是非常容易获得到。令 YX σσ , 是两个一般射影坐标系, eσ 是以欧氏坐标为基础的特殊射影坐标系,点 P 在这三个坐标系下的坐标 分别为 eXYX ,, ,根据式(2.5.2), eYeX σσσσ →→ , 的射影坐标变换分别为 XXXXXXXXXX )ˆ,ˆ,ˆ,ˆ(ˆˆˆˆ 432144332211 eeeeeeeee xxxx =+++= YYYYYYYXYX )ˆ,ˆ,ˆ,ˆ(ˆˆˆˆ 432144332211 eeeeeeeee yyyy =+++= 因此 1 4321 )ˆ,ˆ,ˆ,ˆ( −= eeee YYYYYXXXXX )ˆ,ˆ,ˆ,ˆ( 4321 eeee ,这样就证明了 YX σσ → 的射影坐标变换是一个可逆 的齐次线性变换。给定空间 5 个点,其中任意 4 个点不共面,如果已知它们在 YX σσ , 的坐标为 jj YX , , 则由命题 2.2.1 就可以唯一确定这个可逆的齐次线性变换。 可以看出射影坐标变换也具有射影变换的形式。射影坐标变换具有射影变换的形式,不是偶然 的,因为可以给射影变换以两种解释。第一种解释:射影变换是同一个坐标系中空间点之间的变换, 坐标系没有发生变化,图形发生变化,不但位置发生了变化,连整个图形的形状也发生了变化。当 然,变换前、后的图形在同一个坐标系下的代数形式也发生了变化。另一解释:射影变换是不同坐 标系之间的变换,图形不发生变化,而是坐标系发生变化,这种变化使得同一个图形具有不同的代 数形式。为区别前一种解释,后一种解释的射影变换通常称为射影坐标变换。这两种对射影变换的 解释没有本质上的差异,只是观察的角度不同而已。前一种是立足于坐标系观察变换(运动),后一 种是立足于变换(运动)观察坐标系。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 59 3.摄像机几何 三维计算机视觉的主要任务是利用三维物体的二维图像所包含的信息,获取三维物体的空间位 置与形状等几何信息,并在此基础上识别三维物体。图像上每一点的亮度与物体某个表面点的反射 光的强度有关,而图像点在图像平面上的位置仅与摄像机与空间物体的相对方位和摄像机的内部结 构有关,摄像机的内部结构是由摄像机的内部参数所决定的。为了描述摄像机的几何成像关系,需 要对摄像机进行数学建模。本章所介绍的摄像机模型是计算机视觉中广泛使用的针孔模型,通常也 称为线性模型。这种模型在数学上是三维空间到二维平面的中心投影,由一个 43× 矩阵来描述,可 以说这种模型是一个(退化的)射影变换,因此通常又称它为射影摄像机。在本章,利用前两章的射 影几何知识,给出摄像机关于空间点、直线、平面、二次曲线和二次曲面的投影性质,以及图像平 面点、直线与二次曲线的反投影性质。这些投影与反投影性质,是从图像恢复物体三维几何结构的 基础,尤其是绝对二次曲线与绝对二次曲面的投影性质。从本章可以看出,摄像机关于空间平面的 投影是平面到平面的一个二维中心投影变换,因此可以使用第一章所介绍的二维射影变换的知识从 平面景物图像恢复它的几何结构。对于空间物体,由于摄像机将三维物体表面投影到二维平面上, 是一个(退化的)射影变换,因此不可能从三维物体的单幅图像恢复其三维结构。能否从多幅图像恢 复物体的三维结构?这是三维计算机视觉中三维重构问题,将在第 6 章讨论。 3.1 摄像机模型 3.1.1 摄像机模型 基本模型 摄像机的基本成像模型,通常称为基本针孔模型,由三维空间到平面的中心投影变换所给出。 令空间点 cO 是投影中心,它到平面π 的距离为 f。空间点 cX 在平面π 上的投影(或像)m 是以点 cO 为 端点并经过点 cX 的射线与平面π 的交点,如图 3.1.1(a)所示。平面π 称为摄像机的像平面,点 cO 称 为摄像机中心(或光心),f 称为摄像机的焦距,以点 cO 为端点且垂直于像平面的射线称为光轴或主 轴,主轴与像平面的交点 p 称为摄像机的主点。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 60 (a) (b) 图 3.1.1:基本针孔模型 为了从代数上描述这种投影关系,需要建立摄像机(欧氏)坐标系和图像平面(欧氏)坐标系。在图 像平面上,以主点 p 为像平面坐标系的坐标原点 o,以水平线与铅直线分别为 x 轴和 y 轴,建立图 像坐标系 o-xy。在空间中,以摄像机中心 cO 为摄像机坐标系的坐标原点,以主轴为 cz 轴,以平行于 x 轴且通过摄像机中心 cO 的直线为 cx 轴,以平行于 y 轴且通过摄像机中心 cO 的直线为轴 cy ,建立 摄像机坐标系 cO - cx cy cz ,如图 3.1.1(b)所示。空间点 cX 在摄像机坐标系中的欧氏坐标记为 T cccc zyx ),,(~ =X ,它的像点 m 在图像坐标系中的坐标记为 Tyx ),(~ =m 。根据三角形相似原理,可 推知空间点 cX 与它的像点 m 满足下述关系: ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ = = c c c c z fyy z fxx (3.1.1) 上式可表述为下述矩阵形式: c c c c c f f z fy fx z Xm ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 0100 000 000 (3.1.2) 其中 T cccc zyx )1,,,(=X , Tyx )1,,(=m 分别为空间点和图像点的齐次坐标。它是从空间到像平面的 一个齐次线性变换。如果记 ),)(1,,( 0IffdiagP = (3.1.3) 则这个齐次线性变换可表示为更简洁的形式: π Xc m f Oc p yc zc xc yc y x π Xc m f Oc p xc zc y x www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 61 cPXm = (3.1.4) 其中,矩阵 P 是一个 3× 4 矩阵,通常称它为摄像机矩阵。这就是基本成像模型的代数表示。注意: (3.1.4)是一个齐次等式,表示在相差一个非零常数因子的意义下相等。 主点偏离图像中心 在实际应用中,由于事先不知道主点的确切位置,通常都是以图像中心或者图像的左上角作为 图像坐标系的原点来建立图像坐标系的(在本书中除特别说明外都是以图像中心作为图像坐标系的 原点),在此坐标系下,由于主点可能不是图像坐标系的原点,因此摄像机矩阵不再可能具有(3.1.3) 的形式。 若主点在上述坐标系下的坐标为 Tyx )1,,( 00=p ,则摄像机的投影关系变为: ccc Pyf xf z XXm = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 0100 00 00 0 0 (3.1.5) 摄像机矩阵的形式为 ),( 0IKP = ,其中 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 100 0 0 0 0 yf xf K (3.1.6) 并称它为摄像机内参数矩阵。 CCD 摄像机 用于计算机处理的图像通常都是用 CCD 摄像机所获取的数字图像,或者是由模拟信号摄像机获 取的图像再经过特别设备进行数字离散化的数字图像。一般地,CCD 摄像机内参数矩阵不具有(3.1.6) 的形式。为了得到 CCD 摄像机的模型,必须刻划 CCD 摄像机的数字离散化过程。 假定 CCD 摄像机数字离散化后的像素是一个矩形,矩形的长与宽分别为 yx dd , 。设图像点 Tyx )1,,( 在离散化后的坐标为 Tvu )1,,( ,则必有 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ 1100 0/10 00/1 1 y x d d v u y x 如果离散化后的图像坐标仍用 m 表示,则摄像机的投影关系可以写成: (,0) ccKI P= =mXX (3.1.8) 其中 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 62 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 100 0 0 0 0 vf uf K y x (3.1.9) 矩阵 K 称为 CCD 摄像机的内参数矩阵, /, /x xy yf fd f fd= = 称为 CCD 摄像机在 u 轴和 v 轴方向上 的尺度因子, T yx T dydxvu )/,/(),( 0000 = 称为 CCD 摄像机的主点。 由于制造工艺的限制,一般情况下,CCD 摄像机数字离散化后的像素不是一个矩形而是一个平 行四边形,四边形的一边平行于 u 轴,而另一边与 u 轴形成一个θ 角。令平行四边形两边长分别为 xd , yd ,图像点 Tyx )1,,( 离散化后的坐标为 Tvu )1,,( ,则必有 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ 1100 0/0 0//1 1 y x dsin dctgd v u y xx θ θ 结合(3.1.5)式,可得到 cyy xxx c dsinydfsin dctgyxdfctgdf v u z X ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ −− = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ 0100 0//0 0/)(// 1 0 00 θθ θθ 如果离散化后的图像坐标仍用 m 表示,则上式可写成: cc PIK XXm == )0,( (3.1.9) 其中: ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 100 0 0 0 vf usf K y x (3.1.10) 是摄像机内参数矩阵, yyxx dffdff /sin,/ θ== 称为一般 CCD 摄像机在 u 轴和 v 轴方向上的尺度 因子, T yx T dydctgyxvu )/sin,/)((),( 00000 θθ−= 称为一般 CCD 摄像机的主点,而 xdfctgs /θ−= 称 为一般 CCD 摄像机的畸变因子或倾斜因子。 摄像机矩阵的一般形式 上面所介绍的摄像机矩阵是在摄像机坐标系下的结果。由于摄像机的中心和主轴等事先都是未 知的,这个坐标系不能给出空间点的具体坐标值,另外摄像机可安放在环境中的任何位置,所以需 要一个基准坐标系来描述空间点和摄像机的位置。这个基准坐标系通常称为世界坐标系。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 63 图 3.1.2:世界坐标系与摄像机坐标系之间的欧氏变换 世界坐标系与摄像机坐标系之间的关系可以用一个旋转矩阵和一个平移向量来描述,如图 3.1.2 所示。令空间点在世界坐标系与摄像机坐标系的坐标分别为 Tzyx )1,,,(=X , T cccc zyx )1,,,(=X , 则它们之间的关系为 X 10 CX c ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −= T RR ~ (3.1.11) 其中C~ 表示摄像机中心在世界坐标系中的非齐次坐标,即摄像机中心的齐次坐标为 TT )1,~(CC = 。以 后,点 X 的非齐次坐标总用 X~ 来表示。将(3.1.11)代入式(3.1.9),则有 (),0 ( , ) 1T RRKI KRI⎛⎞−==−⎜⎟ ⎝⎠ CmXCX 0   (3.1.12) 这样,就得到了摄像机矩阵的一般形式: )~,( C−= IKRP (3.1.13) 矩阵 (, )RI − C 称为摄像机的外参数矩阵。有时,也用 c R= +XXt来描述世界坐标系与摄像机 坐标系之间的关系,此时摄像机矩阵为 (,)PKR= t (3.1.14) 其中, R=−tC 。 摄像机矩阵是一个秩 3 的 3× 4 矩阵,因为它的前三列所构成的子矩阵是一个可逆矩阵。另外, 由于摄像机矩阵的齐次性,所以它仅有 11 个独立元素。 3.1.2 摄像机矩阵元素的几何意义 摄像机中心 zc π Xc (X) m (R,t) zc yc xc xc yc www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 64 考虑摄像机中心在世界坐标系中的坐标。由下式: 0)~,~( 1 ~ )~,( =−=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −= CCCCC KRIKRP 可知摄像机中心 C TT )1,~(C= 是方程 PC=0 的一个解。另一方面,P 仅有一维右零空间,因为它的秩 等于 3。于是,摄像机中心的齐次坐标构成 P 的右零空间。在已知摄像机矩阵 P 的情况下,可以通 过求解方程 PX=0 得到摄像机中心在世界坐标系中的坐标。事实上,如果令 ),( 4pHP = ,其 中 H 为 P 的前三列所构成的 3× 3 矩阵, 4p 是 P 的第四个列向量,则从方程 PX=0 可得到摄像机中心在世界 坐标系中的齐次坐标: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −= − 1 4 1 pC H (3.1.15) 坐标原点与坐标轴方向 记摄像机矩阵为 ),,,( 4321 pppp=P ,其中 jp 为 P 的第 j 列向量。 世界坐标系的原点坐标为 T)1,0,0,0(=X ,所以它的图像点坐标为 4432100 1 0 0 0 ),,,( pppppXm = ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ == Ps 即摄像机矩阵的第 4 列向量是世界坐标原点图像的齐次坐标。 考虑世界坐标系三个坐标轴方向的图像,即三个坐标轴与无穷远平面交点的图像。显然,三个 坐标轴与无穷远平面交点分别为 ()( ) ( )TTT 0,1,0,0,0,0,1,0,0,0,0,1 === ZYX 所以,它们的图像分别为 Xm Ps =11 1p= , Ym Ps =222p= , Zm Ps =333p= 因此,摄像机矩阵的前三个列向量分别是世界坐标系三个坐标轴方向的图像点的齐次坐标。 主平面与轴平面 记摄像机矩阵为 ⎟⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎝ ⎛ = T T T p p p 3 2 1 P ,其中 TTT ppp 321 ,, 分别为 P 的三个行向量。 主平面 摄像机的坐标平面 cO - cx cy ,即与像平面平行的坐标平面,通常称为主平面。主平面在 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 65 世界坐标系中可用摄像机矩阵的第 3 行向量 Tp3 来表示。因为主平面与像平面平行,所以它们的交 线是一条无穷远直线,即主平面的像是像平面上的无穷远直线。令 X 为主平面上的任一点,则它在 摄像机下的图像必为 ⎟⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎝ ⎛ == ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ Xp Xp Xp X T T T 3 2 1 0 Pv u 所以 03 =Xp T ,于是主平面在世界坐标系中的坐标为摄像机矩阵的第 3 行 Tp3 。 轴平面 考虑由方程 01 =Xp T 所确定的平面,即在世界坐标系中坐标为 Tp1 的平面。它是图像平 面的 v 轴与摄像机中心所确定的平面,通常称它为轴平面。令 X 为这个轴平面上的任一点,则它在 摄像机下的图像必为 ⎟⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎝ ⎛ = ⎟⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎝ ⎛ == ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ Xp Xp Xp Xp Xp X T T T T T 3 2 3 2 1 0 1 Pv u 因此,这个轴平面的图像点集合是 })1,,0{( Tv ,即像平面上的 v 轴。 同理,由 02 =Xp T 所确定的另一个轴平面是图像平面的 u 轴与摄像机中心所构成的平面。轴 平面与主平面的不同之处在于它依赖于图像坐标系的选择,即对于不同的图像坐标系,对应的轴平 面是不同的。 主轴与主点 主轴 主轴与主平面是正交的,因此主轴必为主平面的法线。一般地,一个平面 T),,,( 4321 πππππ = 的法线有两个方向(正向与负向),它们是 T),,(ˆ 321 ππππ ±= ,在无穷远平面上它 们表示同一个点,即法线与无穷远平面的交点。由于主平面是 TT pppp ),,,( 34333231 3 =p ,所以主轴 两个方向为 Tppp ),,(ˆ 333231 3 ±=p 。通常所讲的主轴方向是它的正方向,即指向摄像机前方的方向, 由于摄像机矩阵可以相差一个常数因子,所以 ( )Tppp 333231 3 ,,ˆ ±=p 中的正号并不代表主轴的正向。 如果摄像机矩阵 ),( 4pHP = 与标准摄像机矩阵 K(R, t)相差一个正常数,必有 det(H)>0,否则 det(H)<0。因此,主轴的正向是 )det(H=v 3h (3.1.16) 其中 T3h 是矩阵 H 的第三行向量。 主点 主点是主轴与像平面的交点,由于主轴过摄像机中心,因此主点必为主轴方向的图像点, 所以主点坐标为 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 66 33 )0,( hhp HP TT == (3.1.17) 3.1.3 摄像机矩阵估计 在经典立体视觉中,需要在欧氏坐标系下估计摄像机矩阵,才能够完成立体视觉系统的标定。 常用的方法是根据一些空间点在欧氏坐标系下的坐标与其图像坐标之间的对应关系,建立摄像机矩 阵的约束方程,从而确定摄像机矩阵。在实践中,为了得到一些空间点的欧氏坐标,需要制作一个 标定参考物,在标定参考物上经过精确测定的特征点作为估计摄像机矩阵时所需要的空间点,如图 3.1.3 所示。 记摄像机矩阵为 ⎟⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎝ ⎛ = T T T P 3 2 1 p p p 其中 jTp 为矩阵 P 的第 j 行向量。令 T jjjj zyx )1,,,(=X 是特征点在世界坐标系下的坐标,对应的图 像点坐标为 T jjj vu )1,,(=m ,于是根椐摄像机的投影关系,得到 ⎟⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎝ ⎛ == j T j T j T jjj Ps Xp Xp Xp Xm 3 2 1 (3.1.18) 因此,消去上式中的常数因子后,可得到下述方程: 图 3.1.3:用于求解摄像机矩阵的立方体:正交的三条棱作为世界坐标系的三个坐 标轴,各面上直线的交点的三维欧氏坐标已精确测定,根据这些特征点与其图像 点的对应可以求解摄像机投影矩阵。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 67 ⎪ ⎩ ⎪ ⎨ ⎧ =− =− =− 0 0 0 21 31 32 j T jj T j j T jj T j T jj T uv u v XpXp XpXp XpXp (3.1.19) 在这个方程组中,第三个方程可由前两个方程线性表示,因此只有两个方程是线性独立的。因 此,给定 6≥N 个以上的特征点与其图像点的对应,可线性求解摄像机矩阵 P。 最小二乘解 当图像数据存在测量误差时,方程组(3.1.19)一般不存在非零解。此时,通常以它的最小二乘解 作为摄像机矩阵的估计。对每一个点对应,记 ⎟⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎝ ⎛ − − − = 0 0 0 T jj T jj T jj T j T jj T j j uv u v A XX XX XX (3.1.20) 它是一个 2× 12 的矩阵 jA 。给定 n 个点对应,得到 n 个形如这样的矩阵,再将这 n 个矩阵组合起来 得到一个 2n× 12 的矩阵 TT N T AAA ),...,( 1= ,对 A 作奇异值分解 TUDVA = ,则 V 的最后一个列向量 12vp = 是方程 0p =A 的最小二乘解*),再将 p 写成矩阵的形式就得到摄像机矩阵 P。 3.1.4 欧氏空间与射影空间 如果世界坐标系是一般射影坐标系,摄像机矩阵又具有什么样的形式呢?这是不难回答的。因 为摄像机坐标系和射影坐标系之间的变换仍然可以用一个 4×4 的齐次矩阵 H 表示,即 Xc=HX,并 且由三维射影空间到图像平面的映射仍然可以用一个秩为 3 的 3×4 矩阵 P 表示。事实上,对于最 一般的情形,摄像机模型可以被看作是从三维射影空间到二维射影平面的映射,并且这个映射能够 用下述矩阵合成的方式来表达: P=K ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ 0100 0010 0001 H (3.1.21) 如果 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 10T AH b ,其中 rank(A)=3,它表示三维空间的一个仿射变换,式(3.1.21)变为 *) 见 8.4 节 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 68 P=K ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ 0100 0010 0001 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ 10T A b (3.1.22) 它是世界坐标系为仿射坐标系的摄像机矩阵,称它为仿射空间中的摄像机矩阵。 (2) 如果 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 10T sRH t ,其中 R 是旋转矩阵,s 为非零常数,它表示三维空间的一个相似变换, 此时式(3.1.21)变为 P=K ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ 0100 0010 0001 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ 10T sR t (3.1.23) 它是世界坐标系为欧氏坐标系(但度量单位为 s)的摄像机矩阵,称它为相似空间中的摄像机矩阵。 (3) 如果 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 10T RH t ,其中 R 是旋转矩阵,它表示三维空间的一个欧氏变换,此时式(3.1.21) 变为 P=K ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ 0100 0010 0001 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ 10T R t (3.1.24) 它是世界坐标系为欧氏坐标系(其度量是绝对度量)的摄像机矩阵,称它为欧氏空间中的摄像机矩阵, 即在以前各节所介绍的摄像机矩阵。 (4) 如果 H=(I, 0),此时式(3.1.21)变成 P=K ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ 0100 0010 0001 (3.1.25) 它是以摄像机坐标系为世界坐标系的摄像机矩阵。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 69 3.2 投影与反投影 3.2.1 空间点 正向投影 空间点 X 通过摄像机 P 被作用到图像平面的图像点 Xm P= ,这种投影关系称为摄 像机的正向投影,简称为投影。在正向投影中,无穷远点的投影是非常重要的,这是因为从无穷远 点的投影可以恢复景物的仿射结构。由于无穷远点的齐次坐标为 TT )0,(dX =∞ 其中 d 是三维向量,它表示通过点 ∞X 的直线方向,所以在摄像机矩阵 ),( 4pHP = 的作用下,无穷 远点在像平面上的投影为 dXp4 HHPX == ∞∞ ),( (3.2.1) 因此,无穷远点的投影仅与摄像机矩阵的前三列有关,而与第 4 列无关。 反向投影 反向投影是针对图像平面的基本几何元素而言的,图像平面点 m 的反投影是指 在摄像机 P 的作用下具有像点 m 的所有空间点的集合,即 }|{ XmX Plb == 在几何上,不难看出图像点 m 的反投影是从摄像机中心出发并通过图像点 m 的一条射线。这时 我们将图像平面视为三维空间中的一张平面,即将图像点看作三维空间中的点,如图 3.2.1 所示。 图 3.2.1:图像点 m 的反投影是射线 lb 下面考虑图像点 m 的反投影 lb 在世界坐标系中的方程。这是非常重要的,因为三维计算机视觉 中将从多幅图像的对应点的反投影射线恢复空间点的三维坐标。由于两点确定一条直线,所以,如 果能确定摄像机中心 C 和射线 lb 上另一点的空间坐标,就可以得到射线 lb 在空间中的方程。由式 (3.1.15),我们知道摄像机中心 C 在世界坐标系的坐标为 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛−= − 1 4 1 pC H π m lb www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 70 再考虑由图像点 m 和 P 的广义逆 1−+ = )( TT PPPP 所定义的另一空间点 m+P ,该空间点必在射线上 lb 上,因为 mmm TT == −+ 1)()( PPPPPP 。于是,根据 lb 上的两个点 C 和 m+P 就得到 lb 的下述参数 方程: CmX += + )()( Puu (3.2.2) 另一种方法是通过射线 lb 上的无穷远点来确定它的参数方程。令 TT )0,(dX =∞ 是这条射线上的 无穷远点,则 mX =∞P 。因此,根据式(3.2.1), md 1−= H 。于是,射线 lb 的参数方程为: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛−+⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= −−− 1 )( 10 )( 4 1 4 11 pmpmX uHHHuu (3.2.3) 3.2.2 空间直线 正向投影 由于空间直线 L 可从它上面的两个点唯一确定,因此 L 的参数方程可以通过它 上的两个点的坐标 21, XX 来表达: 21)( XXX uu += 它在摄像机矩阵 P 的作用下,必有 212121 )()( mmXXXXm uuPPuPu +=+=+= (3.2.4) 其中 21,mm 分别是 21, XX 的图像点。所以,直线 L 的图像是连结这两个像点 21,mm 的直线。因此, 空间直线在摄像机的作用下的是像平面上的直线。 利用空间直线的 Plucker 矩阵和 Plucker 坐标也可以表达空间直线的投影,确切地说,我们有下 述结论: 命题 3.2.1 如果空间直线的 Plucker 矩阵为 L,即 TTL 1221 XXXX −= ,其中 21, XX 是 L 上的两 个点,则它的像直线 l 的坐标满足: TPLP=×][l (3.2.5) 证明 令 21,mm 分别是 21, XX 的图像点,即 2211 , mXmX == PP 。由于 21 mml ×= ,所以, TTT PLP=−=×= ×× 122121 ][][ mmmmmml 证毕。 对于图像直线 l 的坐标,也可以象空间点的投影那样由直线投影矩阵给出。由摄像机矩阵 P, 我们定义一个秩 3 的 3× 6 矩阵: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 71 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ∧ ∧ ∧ = 21 13 32 PP PP PP LP (3.2.6) 其中 jTp 为摄像机矩阵 P 的第 j 行向量, ji PP ∧ 是两平面{ iP , jP }交线的 Plucker 坐标。由上一节 的讨论我们知道 21, PP 是摄像机的两个轴平面, 3P 是摄像机的主平面。 命题 3.2.2 如果空间直线使用 Plucker 坐标 L 表示,则它在摄像机 P 下的像直线 l 是: ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ∧ ∧ ∧ == )( )( )( 21 13 32 L|PP L|PP L|PP Ll LP (3.2.7) 证明 记 21, XX 是 L 上的两个点,其像点 2211 , mXmX == PP ,则 21 mml ×= ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − − − =×= ))(())(( ))(())(( ))(())(( )()( 1 2 2 1 2 2 1 1 1 1 2 3 2 1 1 3 1 3 2 2 2 3 1 2 21 XpXpXpXp XpXpXpXp XpXpXpXp XX TTTT TTTT TTTT PP 而, ))(())(()( 1221 XPXPXPXPL|PP jTiTjTiTji −=∧ 所以, 21 mml ×= L L|PP L|PP L|PP LP= ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ∧ ∧ ∧ = )( )( )( 21 13 32 证毕。 图 3.2.2:图像直线 l 的反投影平面是 lTP=π 。 π l www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 72 反向投影 在几何上,像平面上一条直线的反投影是空间中通过摄像机中心的一张平面,如图 3.2.2 所示。下面的命题是这一几何事实的代数描述。 命题 3.2.3 在摄像机 P 下的图像直线 l 的反投影是空间平面 lTP=π 。 证明 令 X 是摄像机 P 将它投影到直线 l 上的任一空间点,则必有 0)()( == PXllPX T TT 。因此, 像直线 l 的反投影是空间平面 lTP=π 。证毕。 3.2.3 空间平面 考虑摄像机关于空间平面π 的投影。空间点 X 在摄像机 P 的作用下,其图像点是 Xm P= ,由 于图像点 m 在图像平面的坐标仅依赖于图像坐标系的选择而与世界坐标系的选择无关。因此,可以 自由地选择世界坐标系。以空间平面π 为世界坐标系的 O-xy 平面,如图 3.2.3 所示,则平面π 上点 X 的坐标为 Tyx )1,0,,(=X ,因此, ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ == 1 ),,( 1 0),,,( 4214321 y xy x P pppppppXm 记 ),,( 421 ppp=H , ()Tyx 1,,=πX ,则上式可简写成 πXm H= (3.2.8) (a) (b) 显然,rank(H)>1,这是因为摄像机矩阵是秩 3 的。rank(H)=2 的充要条件是平面π 通过摄像机 中心。事实上, Tzyx )1,,,(=C 为摄像机光心当且仅当 0=CP 。若 rank(H)=2,则 H 有一维右零空间, 图 3.2.3:(a)空间平面到图像平面的单应变换 H;(b)退化情况:摄像机中心在空间平面 上。此时空间平面的像是该平面与像平面的交线,rank(H)=2。 ππ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 73 于是存在 ()ππ ∈= Tyx 1,,C 使得 () 01,0,, == πCHyxP T ,因此平面π 一定通过摄像机光心。反之, 若平面π 通过摄像机光心,则 H 有一维右零空间,于是 rank(H)=2。 当通过摄像机光心时,平面π 的投影是一条直线,这条直线是平面π 与像平面的交线;当平面 π 不通过摄像机光心时, H 是一个秩 3 的矩阵,因此它是从平面π 到像平面二维射影变换,而且 是中心投影变换,如图 3.2.3(a)所示。以后在讨论平面投影时,除特别说明外均假定该平面不通 过摄像机光心。 通常称矩阵 H 为平面π 到像平面的单应矩阵,或简称单应。由于单应矩阵是齐次的,因此它有 8 个自由度。 无穷远单应 假定无穷远点 Tzyx )0,,,(=X 的图像为 m,则有 ∞== XpppXm ),,( 321P 其中 Tzyx ),,(=∞X 。所以,无穷远平面到像平面的单应,简称无穷远单应,可表示为 KRH ==∞ ),,( 321 ppp (3.2.9) 式(3.2.9)同时也说明无穷远单应是摄像机矩阵前三列所构成的子矩阵。由此,摄像机矩阵可表示为 ),( 4p∞= HP 。下述命题是明显的: 命题 3.2.6 令 TKK=*ϖ ,则 *ϖ=∞∞ THH 。 3.2.4 二次曲线 正向投影 考虑空间中二次曲线在摄像机下的投影。二次曲线是平面曲线,将二次曲线的支撑平面记为π , 如上节那样建立世界坐标系,则摄像机对平面π 的作用可由一个单应矩阵 H 来描述,即 πXm H= 。 二次曲线可以用一个 3× 3 对称矩阵 C 来表示,即它的方程可写成 0=ππ XX CT ,( ( ) ππ ∈= Tyx 1,,X ) 由于对任意 C∈πX ,其图像点 πXm H= ,所以 01 ==−− ππ XXmm CCHH TTT (3.2.13) 由于 1−−= CHHC T m 仍为一个 3× 3 对称矩阵,所以它表示图像平面上的一条二次曲线。因此,二次 曲线的图像仍是二次曲线。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 74 命题 3.2.6 二次曲线 C 的图像仍是一条二次曲线 mC 。如果二次曲线 C 的支撑平面到像平面的单 应矩阵为 H,则有 1−−= CHHC T m (3.2.14) 绝对二次曲线的图像(IAC) 绝对二次曲线 ∞Ω 的支撑平面是无穷远平 ∞π ,可由下述方程来描 述: (x, y, z)I(x, y, z)T=0 (3.2.15) 它是 ∞π 上一条虚二次曲线。下面考虑绝对二次曲线在摄像机下的像曲线。 令摄像机矩阵为 ),,,( 4321 pppp=P 。从式(3.2.9),无穷远单应矩阵为 ),,( 321 ppp=∞H 。于是, 由命题 3.2.6, ∞Ω 的图像是二次曲线: TT IHH − ∞ − ∞=ϖ 。因 KRH α==∞ ),,( 321 ppp ,所以, 1−−= KK Tϖ (3.2.16) 这里略去了常数因子 2α ,因为二次曲线的矩阵表示与常数因子无关,即 C 与 sC 表示同一条二次曲 线)。这样,就得到了下述非常重要的命题: 命题 3.2.7 绝对二次曲线在摄像机下的像曲线为 1−−= KK Tϖ 。 绝对二次曲线的图像(IAC)与世界坐标系的选择无关(或者说与摄像机位置无关),仅与摄像机 内参数有关。命题 3.2.7 是摄像机自标定的理论基础。 反向投影 令 mC 是图像平面上的二次曲线,考虑它在摄像机 P 下的反投影。在几何上, mC 的反投影是顶 点在摄像机中心并通过二次曲线 mC 的一个锥面 Q,它是一个退化的二次曲面。这一结论的代数表述 是下面的命题: 命题 3.2.8 设摄像机矩阵为 P,则二次曲线 mC 的反投影 Q 为 PCPQ m T= (3.2.17) 证明 图像点 m 在二次曲线 mC 上,当且仅当 0=mm m T C 。由于空间点 X 的投影是 Xm P= ,所 以 X 被投影到二次曲线 mC 上当且仅当 0=XX PCP m TT 。由于对称矩阵 PCP m T 是秩 3 的,所以二次 曲线 mC 的反投影是锥面 PCPQ m T= 。证毕。 2.2.4 二次曲面 二次曲面 Q 可用一个 4× 4 的对称矩阵来表示,它的方程为 0=XX QT 。当 rank(Q)=4 时,Q 表 示一个非退化的二次曲面;当 rank(Q)=3 时,Q 是一个锥面;当 rank(Q)=2 时,Q 表示两张不重合的 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 75 平面;当 rank(Q)=1 时,Q 表示两张重合的平面。在考虑摄像机对二次曲面的作用时,一般假定 Q 是非退化的或是一个锥面。 令 O 是空间中的一个点, cQ 是以O 为顶点且与 Q 相切的所有射线组成的集合,它是一个以 O 为 顶点的锥面,通常称 cQ 为二次曲面 Q 的视锥面。锥面 cQ 与二次曲面 Q 相切于一条二次曲线 Γ ,它 是 cQ 中所有母线与 Q 的切点的集合,如图 3.2.4 所示。称 Γ 是 Q 的一条轮廓线。显然,Q 的轮廓线 与视锥面的顶点有关。 二次曲面的投影 在几何上,二次曲面 Q 的轮廓 Γ 在图像平面上的投影 C 是顶点在摄像机光心的视锥面与像平 面的交线。二次曲面 Q 的图像是交线 C 所包含的区域,如图 3.2.4 所示。通常称 C 是二次曲面图像 的轮廓线。因 Γ 是一条二次曲线,所以 C 也是一条二次曲线。如果二次曲面上没有纹理,它的轮廓 线 Γ 的图像 C 是唯一可以利用的图像信息。因此,以后称 C 是二次曲面 Q 的图像。在代数上,我 们有下述命题。 图 3.2.4:二次曲面的投影 命题 3.2.9 (1)令摄像机矩阵为 P,二次曲面 Q 的对偶为 *Q ,它的图像 C 的对偶为 *C ,则有 TPPQC ** = (3.2.18) (2)二次曲面的轮廓线 Γ 所在的平面为 OQ=Γπ ,其中 O 是摄像机的光心坐标。 证明 结论(2)可从二次曲面对极关系推出,因为摄像机的中心 C 关于二次曲面的极面是 Γπ 。下 面仅证明(1)。令 l 是 C 的任一条切线,则必有 0* =ll CT (3.2.19) 由命题 3.2.3,l 的反投影面为 lTP=π ,并且它与二次曲面 Q 相切。因此,有 Q ΓC O Qc www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 76 0* =ll TT PPQ 结合(3.2.19)式,就得到 TPPQC ** = 。证毕。 关于二次曲面的反投影锥面 cQ ,由式(3.2.17) 直接给出。 绝对二次曲面的图像(DIAC) 绝对二次曲线 ∞Ω 的对偶是三维空间中一个退化的对偶二次曲 面,称为绝对二次曲面并记为 * ∞Q 。在几何上, * ∞Q 由 ∞Ω 的切平面所组成。在代数上 * ∞Q 由一个秩为 3 的 4×4 的齐次矩阵来表示: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=∞ 0 * T IQ 0 0 (3.2.20) 绝对二次曲面是绝对二次曲线的对偶,所以它在摄像机 P 下的图像是绝对二次曲线图像的对偶。因 此,绝对二次曲面 * ∞Q 的图像是 TKK== −1* ϖϖ (3.2.21) 这样,就得到了下述命题: 命题 3.2.10 绝对二次曲面在摄像机下的图像为 TKK=*ϖ 。 与绝对二次曲线图像(IAC)一样,绝对二次曲线的对偶图像(DIAC),即绝对二次曲面的图像,也 是图像平面上的一条(对偶)二次曲线,与摄像机位置无关而仅与内参数有关。因此,它也构成了摄 像机自标定的理论基础。 3.3 恢复平面景物的几何结构 本节主要讨论如何从平面景物的图像,恢复景物的仿射结构、相似(或度量)结构以及绝对欧氏 结构。从上一节我们知道,摄像机关于平面景物的成像过程是景物平面到图像平面之间的二维射影 变换,这个可用一个 3 阶可逆矩阵 H 来表示。如果从图像能获得在景物平面的某个仿射坐标系下的 二维射影变换 H,则这个变换的逆 1−H 作用到图像点 m 就可以得到它所对应的景物点在景物平面的 仿射坐标系下的坐标 X= 1−H m,从而可以得到平面景物的仿射结构。类似地,如果从图像能获得在 景物平面的欧氏坐标系下的二维射影变换 H,如果这个欧氏坐标系的度量单位与绝对(或实际)度量 相差一个常数倍,则可以通过景物的图像点和变换 H 可以得到景物的相似结构;如果这个欧氏坐标 系的度量单位与绝对度量相等,则通过景物的图像点和变换 H 可以得到景物的绝对欧氏结构。因此, 恢复平面景物的仿射结构,等价于某个仿射坐标系下确定景物平面到图像平面的射影变换;恢复平 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 77 面景物的度量结构,等价于在某个欧氏坐标系下确定景物平面到图像平面的射影变换;恢复平面景 物的绝对欧氏结构,等价于在某个绝对欧氏坐标系下确定景物平面到图像平面的射影变换。 3.3.1 仿射结构 并非对任何平面埸景的图像都能恢复它的仿射结构,那么需要什么信息才能确定仿射结构呢? 对此,我们有下述命题。 命题 3.3.1 从图像能恢复平面景物仿射结构的充要条件是能确定物体平面上无穷远直线的图像 直线。 证明 必要性:令 }{ )( A jX 是平面景物的图像 },......,2,1|{ njj =m 的仿射结构,即 }{ )( A jX 是平面景 物点在某个仿射坐标系下的坐标,由点对应 }{ )( j A j mX ↔ 可以得到景物平面到像平面的射影变换 )( AH 。齐次坐标为 TA )0,0,1()( 1 =X , TA )0,1,0()( 2 =X 的点是景物平面上的两个无穷远点,并且它们 的图像点坐标分别为 AAAH 1 )( 1 )( 1 hXv == , AAAH 2 )( 2 )( 2 hXv == ,因此景物体平面上无穷远直线的图 像直线为 )( 2 )( 1 AA hhl ×= 。 图 3.3.1:从无穷远直线的图像直线恢复景物的仿射几何。 充分性:已知景物体平面上无穷远直线的图像直线 l 。在 l 上任取两个点 21,vv ,另 外 在 直 线 l 外 再在图像平面内选取两个点 21,mm 。这样,在图像平面上可得到 4 条直线 21121111 , mvlmvl ×=×= , 22221221 , mvlmvl ×=×= ,显然,与它们对应的景物平面直线构成两组平行线,因此可得到景物平 面上的一个平行四边形{ 4321 ,,, XXXX }和它的图像{ 4321 ,,, mmmm },如图 3.3.1 所示。在景物 平面上建立仿射坐标系,使得这个平行四边形的四个顶点的分别坐标为 )1,1,1(),1,1,0(,)1,0,1(,)1,0,0( 2431 ==== XXXX TT m1 m2 m3 m4 v1 v2 X1 X3 X2 X4 l l21 l22 l12 l11 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 78 四个点对应 4,3,2,1, =↔ jjj mX ,确定了物体平面到像平面的唯一射影变换 )( AH ,即存在唯一的射 影变换 )( AH 使得 4,3,2,1, == jH jj Xm 。该射影变换可使用 1.1.3 节所给的方法计算出来。令 },......,2,1|ˆ{ njj =m 为所有景物点的图像所构成的集合,由射影变换 )( AH 可计算出这些图像点所对 应的景物点在上述仿射坐标系下的仿射坐标 ( ) njH j AA j ,......,2,1,1)()( == − mX 。这样,我们就得到了 景物的仿射几何结构。 3.3.2 相似结构 命题 3.3.2 从图像能恢复平面景物的相似结构的充要条件是在像平面内能确定景物平面两个圆 环点的图像。 证明 必要性:令 }{ )(s jX 是平面景物的图像 },......,2,1|{ njj =m 的相似结构,即 }{ )(s jX 是平面景物 点在某个欧氏坐标系下的坐标,由点对应 }{ )( j A j mX ↔ 可以得到景物平面到像平面的射影变换 )(SH 。由于两个圆环点在任何欧氏坐标系下的坐标总是 TsTs ii )0,,1(,)0,,1( )( 2 )( 1 −== XX ,所以, 两个圆环点的图像分别为 )( 2 )( 1 )( 2 )()( 2 )( 1 )( 1 )( , ssss J ssss I iHiH hhXmhhXm −==+== 。 图 3.3.2:从两个圆环点的图像恢复景物的相似结构 充分性:已知物体平面圆环点图像 JI mm , ,则无穷远直线的图像直线必为 l JI mm ×= 。在 l 上 取两个点 21,vv 使得它们与 JI mm , 成调和共轭,则通过 21,vv 的任意两条直线所对应的景物平面上的 两条直线是相互正交的,如图 3.3.2 所示。另外,再在直线 l 上取一个点 1m 使得 4/2/)];[ln( π=iJmmmv I11 ,则由拉盖尔(Laguerre)定理,分别通过 11,mv 的任意两条直线所对应 v1 mJ mIv2 m1 m13 l1 l2 l3 l4 m14 m23 m24 X13 X14 X24 X23 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 79 的景物平面上的两条直线之间的夹角等于 4/π 。令 21, ll 是分别通过 21,vv 的两条直线, 43 , ll 是通过 1m 的两条直线,则图像平面上的四个点: 4224322341143113 ,,, llmllmllmllm ×=×=×=×= 所对应的景物平面上的 4 个点 24231413 ,,, XXXX 必为一个正方形的 4 个顶点。在景物平面上, 以正方形的两条邻边为坐标轴、以边长为度量单位建立欧氏坐标系(如图 3.3.2 所示),则正方形的四 个顶点的坐标分别为 14 23 24 13(0,0,1) , (1,0,1) , (0,1,1) , (1,1,1)TTTT====XXXX 上述 4 个点对应唯一确定景物平面到像平面的一个射影变换 H。令 },......,2,1|{ njj =m 为平面景物所 有点的图像所构成的集合。由单应矩阵 H 可计算出景物体点在上述欧氏坐标系下的欧氏坐标 njH j s j ,......,2,1,1)( == − mX 。这样,我们就得到了景物的相似结构。 3.3.3 绝对欧氏结构 命题 3.3.3 从图像能恢复平面景物的欧氏结构的充要条件是能确定物体平面两个圆环点的图 像,并且已知某两个图像点所对应的两个物体平面点之间的距离。 证明 必要性:令 }{ )(e jX 是平面景物图像 },......,2,1|{ njj =m 的一个欧氏结构,即 }{ )(e jX 是景物点 在绝对欧氏坐标系下的坐标。由点对应 }{ )( j e j mX ↔ 可以得到景物平面到像平面的射影变换 )(eH 。 于是,物体平面上两个圆环点的图像为 () ( ) )( 2 )( 1 )()( 2 )( 1 )( 0,,1,0,,1 eeTe J eeTe I iiHiiH hhmhhm −==+== 并且对任意两个图像点 21 , mm 所对应的景物平面上两个点 )( 2 )( 1 , ee XX 之间的实际距离为 ),(),( 2 1)( 1 1)()( 2 )( 1 mmXX −−= eeee HHdd 充分性:已知 21 ,mm 所对应的物体平面上两个点 21, XX 之间的实际欧氏距离为 d,以及两个圆 环点图像 JI mm , 。在图像上,直线 211 mml ×= 必相交于直线 l JI mm ×= 上的一个点 1v 。令 o 在直 线 l 上,并且使得 ov ,1 与 21,mm 成调和共轭,于是 o 所对应的物体平面点 O 必是 21 , XX 的中点。在 l 上选取另一个点 2v 使得 21,vv 与 JI mm , 成调和共轭,则直线 1l , 22 vol ×= 所对应的物体平面上的 两条直线相互正交,如图 3.3.3 所示。与命题 3.3.2 的证明类似,再在直线 l 取一个点 m 使得 4/2/)][ln( π=iJmmm,v I1 ,令 43 , ll 是分别通过 ),(),,( 21 mmmm 的两条直线,则图像平面上的 4 个点: 424323312411 ,,, llmllmllmllm ×=×=×=×= 所对应的物体平面上的 4 个点 4321 ,,, XXXX 必构成一个对角线长度为 d 的正方形顶点。在物体平 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第3章:摄像机几何 80 面上建立欧氏坐标系如图 3.3.3 所示,则正方形 4321 ,,, XXXX 的坐标分别为 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ −= ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛− = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 1 2/ 0 1 2/ 0 1 0 2/ 1 0 2/ 4321 dd dd X,X,X,X 图 3.3.3:恢复绝对欧氏结构 从点对应 4,3,2,1, =↔ jjj mX 可计算出景物平面到像平面的一个射影变换 H 。 },......,2,1|{ njj =m 为景物所有点的图像所构成的集合,由射影变换 H 可计算出这些图像点所对应的 物体平面点的欧氏坐标 njH j e j ,......,2,1,1)( == − mX 。由于此时物体平面坐标系是一个欧氏坐标系, 并且与真实欧氏坐标系有相同的度量单位,所以 },......,2,1|{ )( nje j =X 是景物的绝对欧氏结构。 mJ mI v1 v2 m m2 l1 l2 l3 l4 m1 m3 m4 X2 X1 X4 X3 o O www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 4 章 两视点几何 81 4.两视点几何 在本章,主要介绍两个视点图像间的几何关系,即所谓的两幅图像间的极几何。极几何是两幅 图像的点、线关联关系(对应点在对应极线上),这种关联关系可用所谓的基本矩阵进行代数描述。 基本矩阵有 7 个自由度,从 8 对图像点对应可以线性唯一确定。在射影(等价)意义下,基本矩阵确 定了两幅图像所对应的摄像机矩阵。 4.1 基本矩阵 4.1.1 极几何 先介绍极几何中所涉及的有关几何元素。 极平面(Epipolar Plane) 通过两个摄像机光心的平面称为极平面。两个摄像机光心的连线称为基线,任意两张极平面均 相交于基线,所以极平面的全体构成共基线的平面束。两个摄像机的极几何(Epipolar Geometry)由极 平面导入。 极线(Epipolar Line) 极平面与摄像机像平面的交线称为极线。同一张极平面π 与两个摄像机像平面的交线 ll ′, 称为 一对极线对应,如图 4.1.1 所示。显然,极平面π 上任一点 X 在第一个摄像机像平面上的投影 m 必 位于极线 l 上,即 lm ∈ 。同样,点 X 在第二个摄像机像平面上的投影 m′ 必位于极线 l′ 上,即 lm ′∈′ 。 极点(Epipolar Point) 基线与像平面的交点称为极点。两个摄像机像平面上的极点分别记为 ee ′, 。显然,e 是第二个 摄像机光心在第一个摄像机像平面上的投影, e′ 是第一个摄像机光心在第二个摄像机像平面上的投 影。由于所有极平面都通过基线,所以第一个像平面上的所有极线都相交于极点 e,从而第一个像 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 4 章 两视点几何 82 平面上的所有极线构成共极点 e 的平面线束,同样第二个像平面上的所有极线构成共极点 e′ 的平面 线束。 图 4.1.1:两个摄像机的极几何 令 mm ′, 是空间点 X 分别在两个摄像机下的投影,通常称它们为点对应(Point Correspondence), 并记作 mm ′↔ 。若 mm ′↔ ,则 m 的反投影线 )(b ml 与 m′ 的反投影线 )(b m′l 必相交于一个空间点 X。 因此,反投影线 )(b ml , )(b m′l 确定一张通过两摄像机光心的平面π ,它是一张极平面,由它所确定的一 对对应极线分别记为 mm ll ′′ , ,通常称 mm ll ′′ , 为极线对应(Epipolar Line Correspondence),并记作 mm ll ′↔′ 。显然 ml′ 是反投影线 )(b ml 在第二个摄像机下的投影,且 m′ 在极线 ml′ 上,同样 m′l 是反投影 线 )(b m′l 在第一个摄像机下的投影,且 m 在极线 m′l 上。如图 4.1.2 所示。极线 ml′ 称为像点 m 对应的极 线, m′l 称为像点 m′ 对应的极线。 极几何约束 总结上述讨论,得到下述所谓的极几何约束。 命题 4.1.1 令 mm ′↔ 是一个点对应,则 m′ 必位于 m 对应的极线 ml′ 上, m 必位于 m′ 对应的极 线 ml′ 上,即 mlm ′∈′ , m′∈ lm 。 给定两个摄像机下的图像 ),( II ′ ,极几何约束表明: 1. I∈∀m ,在 I′ 上存在一条极线 ml′ 与之对应,并且与它对应的像点 mlm ′∈′ ; 2. I′∈′∀m ,在 I 上存在一条极线 m′l 与之对应,并且与它对应的像点 m′∈ lm 。 在上述讨论中,没有利用埸景的任何几何结构信息,因此极几何约束与埸景的几何结构无关, π X m m′ l e l′ e′ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 4 章 两视点几何 83 它是两幅图像间的固有射影性质。 图 4.1.2:极线对应 mm ll ′↔′ 4.1.2 基本矩阵 极几何所描述的图像点与其极线的对应关系,可以用所谓的基本矩阵(Fundamental Matrix)来 刻划,换句话说基本矩阵是极几何的代数表示。 基本矩阵 假定两个摄像机矩阵分别为 PP ′, ,记两个摄像机的像平面分别为 II ′, ,则 I∈∀m 的反投影线 )(b ml 的参数方程为 ),(,)( ∞−∞∈+= + ssPs CmX 其中, +P 是 P 的广义逆,即 IPP =+ ,C 是第一个摄像机的光心,即 0C =P 。于是可推知: memCCmCXCmel + × ++ ′′=′×′=′+′×′=′×′=′×′=′ PPPPPPsPPPsPPm ][)()()()())(()( 即, mel + × ′′=′ PPm ][ 记 + × ′′= PPF ][e (4.1.1) 并称它为两个摄像机间或两幅图像 ),( II ′ 间的基本矩阵。基本矩阵 F 描述了图像点 m 与其对应极线 ml′ 间的对应关系: ml Fm =′ (4.1.2) 由于图像点 m 在第二幅图像上的对应点 m′ 在极线 ml′ 上,所以必有 0=′ mm FT (4.1.3) X m m′l e m′ )(b ml )(b m′l ml′ e′ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 4 章 两视点几何 84 并且 0,0 =′= ee TFF (4.1.4) 因此,基本矩阵 F 刻划了两幅图像间的极几何。 基本矩阵 F 将二维空间(第一个图像平面)点(齐次)线性映射到共点线束(第二幅图像平面上的极 线束),而共点线束构成一维空间,因此 F 的秩必为 2。基本矩阵是一个齐次变换矩阵,它有 8 个参 数需要确定,而 2)( =Frank 导致 F 的一个约束 0)det( =F ,因此基本矩阵有 7 个自由度。对每一个 图像点对应,式(4.1.3)为基本矩阵提供一个约束。所以,在一般情况下,利用 7 对以上的图像点对 应就可以确定基本矩阵。 基本矩阵的性质 下述命题概括了基本矩阵的一些性质。 命题 4.1.2 令 F 是两幅图像 ),( II ′ 间的基本矩阵, ee ′, 是极点, mm ′↔ 是任意一个点对应, 则 1. ml Fm =′ 是 m 对应的极线, ml ′= T m F 是 m′ 对应的极线;或等价地表示为 0=′ mm FT ; 2. 两极点分别满足下述方程: 0,0 =′= ee TFF ; 3. 基本矩阵有 7 个自由度且 2)( =Frank 。 例 4.1.1 假定第一个摄像机的内参数矩阵为 K,第二个摄像机的内参数矩阵为 K ′ ,第二个摄像 机相对于第一个摄像机的方位为 ),( tR ,即第二个摄像机与第一个摄像机坐标系之间的关系为 tXX +=′ R ,其中 R 是旋转矩阵,t 是平移向量,则第一与第二个摄像机的投影矩阵可表示为 ),(),,( t0 RKPIKP ′=′= (4.1.5) 由于 1 T KP − + ⎛⎞= ⎜⎟ ⎝⎠0 ,且 te K′=′ ,所以 () 1 [] [] , T KFKPPK KRK − + ×× ⎛⎞′′ ′ ′ ′== ⎜⎟ ⎝⎠ ttt 0 1][ − × ′′= RKKK t 因 ×′ ][ tK 是一个秩为 2 的矩阵,而 1−′RKK 是一个秩为 3 的矩阵,所以从这里再次得到基本矩阵 F 的 秩为 2 的结论。 对 1][ − × ′′ RKKK t 通过代数运算,还可以得到下述一系列等式: × −− × −− × ′=′=′′= ][][][ 11 ttt TTTT KRRKKRKKRKKKF (4.1.6) 事实上,式(4.1.6)利用摄像机内参数和相对方位给出了基本矩阵的三种表示。由于 te TKR= , www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 4 章 两视点几何 85 te K′=′ ,所以,由式(4.1.6)又可以得到 0,0 =′= ee TFF 。 显然, 1][ − × ′= KKRKRF TTT t 。矩阵 TF 描述了图像点 m′ 与它对应的极线 ml 间的对应关系 ml ′= T m F 。 极线对应 下面利用基本矩阵来描述极线之间的对应关系。 如前所述,一张极平面π 与两个摄像机像平面的交线 ll ′, 构成一个极线对应,这样极平面在几 何上确定了两幅图像极线之间的对应关系。如何使用基本矩阵来刻划这个对应关系呢?为此,令 q 是第一幅图像上不通过极点的任一条直线, ll ′↔ 是任一极线对应,如图 4.1.3 所示。因 lqlq ×=× ][ 是两直线 lq, 的交点 m,因而在 l 上。于是, lqlql ×=×=′ ][)( FF 。特别地,取 eq = ,它是以极点 e 作为线坐标的直线,从而不通过极点 e(因为 eTe 0≠ )。因此,有下述命题: 命题 4.1.3 令 F 是两摄像机间的基本矩阵, ee ′, 分别是两个摄像机的极点。对任一极线对应 ll ′↔ ,必有 lellel ′′==′ ×× ][,][ TFF (4.1.7) 图 4.1.3:极线对应关系 lql ×=′ ][F 纯平移运动下的基本矩阵 两个摄像机在不同位置下所拍摄的图像可以视为同一个摄像机运动前、后所拍摄的图像。如果 两个摄像机的内参数不相同,此时可以看作同一个摄像机作刚体运动时内参数同时发生变化。在本 书中,这种等价性简称为这两个摄像机是刚体运动下的两个摄像机。如果两个摄像机的摄像机内参 数相同,我们称这两个摄像机是纯刚体运动下的摄像机,这里的“纯”是指摄像机在作刚体运动时, 其内参数保持不变。下面讨论在纯平移运动下的基本矩阵。 q l e m e′ l′ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 4 章 两视点几何 86 由(4.1.6)式,可知纯平移运动 ),( tI 下两个摄像机间的基本矩阵为 × − × ′=′= ][][ 1 ee KKF (4.1.8) 这就是说,纯平移运动的基本矩阵 F 是由极点所确定的反对称矩阵 ×′][e ,并且两幅图像上的极点相 同,即 ee =′ 。 例 4.1.2 当摄像机沿 x 轴作纯平移时,两幅图像的极点 T)001(==′ ee ,因此基本矩阵必为 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ −=′= × 010 100 000 ][eF 此时,对任意一点对应 TT vuvu )1,,()1,,( ′′↔ 均有 vv ′= 。这说明两幅图像上的极线都是相互平行 的,且对应极线为同一条水平线。这是立体视觉中的一种典型的摄像机配置。 图 4.1.4:纯平移运动摄像机的极几何 关于纯平移运动的基本矩阵,可以作如下几何解释:当摄像机作平移运动且内参数保持不变时, 某个静止物体的两幅图像可视为物体作相对平移运动而摄像机在固定位置下所得到的两幅图像,如 图 4.1.4 所示。平移运动物体上的任何一对对应点的连线必与平移方向平行,因此所有对应点的连线 在空间中相交于同一(无穷远)点,该点表示了平移方向。因此两幅图像对应点的连线也必交于一点, 该点是平移方向在图像平面上的投影,由极几何可以知道它是两幅图像的极点。于是,摄像机作纯 平移运动时,两幅图像的极点相同并且是平移方向在图像平面上的投影,对应的极线为同一条直线。 在运动分析中,平移运动下的极点通常又称为汇聚点((Focus of Expansion ,FOE)。 e www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 4 章 两视点几何 87 4.1.3 几何解释 记 as FF , 分别为基本矩阵 F 的对称部分和反对称部分,即 )(,2,2 as T a T s FFFFFFFFF +=−=+= 考虑图像对的不动点集合。所谓图像对的不动点是指有相同图像坐标的图像对应点 mm ′= 。所 有 不 动点构成的集合可以表示为: }0|{ == mmm T FFΦ 由于 mmmmmm TTT as FFF += ,而 aF 是反对称矩阵,对任意的 m 均有 0=mm T aF ,所以不动点 集合由 F 的对称部分所确定,即 }0|{ == mmm T sF FΦ 在一般的情况下 3=srankF ,这就是说在一般的情况下图像对的不动点集合是一条非退化的二 次曲线 sF ,它是三维空间中的一条三次扭线在两个摄像机下的图像*)。由于 0==+= eeeeeeee FFFF T a T s T s T 0'' =′′=+′′=′′ eeeeeeee TTT a TT s T s T FFFF 所以,图像的两个极点 ee ′, 在二次曲线 sF 上。 (a) (b) 图 4.1.5:基本矩阵的几何解释 再考虑 F 的反对称部分 aF 。由于它是反对称矩阵,所以存在三维向量 az 使得 ×= ][ aaF z 。因 *) 三次扭线是空间中的一类曲线,其参数方程为 23(1, , , )TAttt=X ,其中 A 是可逆 4 阶矩阵,t 是参数。三次 扭线在摄像机退化配置的研究中具有非常重要的作用。如果摄像机运动是平面运动(即平移分量在与旋转轴正 交的平面上), 2srankF = 。 e sF az e′ e m, l m′ e′ l′ sF www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 4 章 两视点几何 88 eeeeze ssaa FFFF =−== ×][ ,所以将 az 作为一个图像点的齐次坐标,极点 e 关于二次曲线 sF 的极 线 esF 是直线 ez ×a 。由 于 极 点 e 在二次曲线 sF 上,所以 esF = ez ×a 是点 e 处的切线。同理, ez ′×a 是点 e′ 处的切线。所以点 az 关于二次曲线的极线是直线 eel ′×=a 。如图 4.1.5(a)所示。 最后,考虑两幅图像的极线对应关系。令 m 是二次曲线上 sF 的一个点,由于它是两幅图像的 不动点,即 mmm =′↔ 是一个点对应,因此 melmel ×′=′↔×= 是一个极线对应。如图 4.1.5(b) 所示。于是,极线对应关系由二个极点和二次曲线 sF 所确定,它是一维射影对应。 4.2 单应矩阵 上节所讨论的极几何约束与埸景结构无关,也就是说极几何约束对于任何三维埸景结构的两幅 图像都成立,因此它不能给出两幅图像点间的一一对应关系,只能给出点对应的必要条件,即图像 点在另一幅图像上的对应点位于对应的极线上,不可能给出对应点的确切位置。如果已知埸景结构 的某些信息,无疑两幅图像对应点的约束会得到加强。本节主要讨论空间平面在两个摄像机下的投 影几何。空间平面在两个摄像机下图像点具有一一对应关系,这个一一对应关系是齐次线性的,可 由一个 3 阶矩阵即所谓的单应矩阵来描述。在本节,还给出了单应矩阵与基本矩阵之间的关系。 4.2.1 单应矩阵 设π 是不通过两摄像机任一光心的空间平面,它在两个摄像机下的图像分别记为 II ′, ,如图 4.2.1 所示。令 X 是平面π 上的任一点,它在两个摄像机下的像分别记为 mm ′, 。 图 4.2.1:两幅图像的单应变换 m X H1 H2 H2 1 1 −H m′ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 4 章 两视点几何 89 从 3.2.3 节可知,在空间平面π 到两个像平面之间存在两个单应矩阵 21, HH 使得 Xm 1H= , Xm 2H=′ 。由于平面π 不通过两摄像机的任一光心,所以 21, HH 实现平面π 到对应的像平面之间 的一一变换。因此 mm ′, 之间存在一个二维射影变换 1 12 −= HHH 使得 mm H=′ (4.2.1) 即平面在两个摄像机下的图像之间的关系也是一个二维射影变换。矩阵 H 实现从第一个像平面与第 二个像平面的一一变换,从而矩阵 H 为可逆矩阵。 由于两个摄像机的极点 ee ′, 是摄像机基线与平面π 的交点在两个摄像机下的投影,因此它们是 一个点对应,于是总有 ee H=′ 。即变换 H 总是将第一幅图像上的极点变换到第二幅图像上的极点。 满足式(4.2.1)的矩阵称为平面π 诱导的两个摄像机间(或两幅图像间)的单应矩阵,或简称平 面π 的单应矩阵,相应的变换称为单应。单应矩阵 H 是一个齐次矩阵,它有 8 个自由度。根据(4.2.1) 式,利用单应矩阵 H,从一幅图像上的点可以得到另一幅图像上的对应点,这是基本矩阵所不具备 的性质。 对于单应矩阵的代数表示,有下述命题: 命题 4.2.1 假定第一个摄像机的内参数矩阵为 K,第二个摄像机的内参数矩阵为 K′,第二个摄 像机相对于第一个摄像机的方位为 ),( tR 。若 n 为平面π 在第一个摄像机坐标系下的单位法向量,d 为坐标原点到平面π 的距离,如图 4.2.2 所示,则平面π 的单应矩阵可表示为 1)( −+′= KRKH T dtn (4.2.2) 图 4.2.2:平面π 在第一个摄像机坐标系下的单位法向量为 n, 坐标原点到平面的距离为 d。 d n m m′ π X www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 4 章 两视点几何 90 其中: dd nn = 。 证明 取第一个摄像机坐标系为世界坐标系,根据假定,第一和第二个摄像机矩阵分别为 ),(),,( t0 RKPIKP ′=′= 对于平面π 上的任一点 TT )1,~(XX = ,考虑它在两个摄像机下的投影。显然,在第一个摄像机下的投 影必为 XXm ~ 1 ~ KP =⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 因此,平面π 到第一个像平面的单应矩阵为 KH =1 。在第二个摄像机下的投影为 =′m ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛′=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛′ 1 ~ ),( 1 ~ XtX RKP )~( tX +′= RK 由于平面π 的方程为 dT =Xn ~ ,即 1~ =XnT d ,因此 t 可以写成 Xtnt ~T d= 。于是,在第二个摄像机下 机的投影为 XtntXm ~)()~( T dRKRK +′=+′=′ 即平面π 到第二个像平面的单应矩阵 )(2 T dRKH tn+′= ,所以两幅图像间的单应矩阵可表示为 11 12 )( −− +′== KRKHHH T dtn 证毕。 无穷远单应 由无穷远平面所诱导的两幅图像的单应矩阵,简称为无穷远单应矩阵。由于无穷远平面与坐标 原点的距离为无穷大,所以在式(4.2.2)中取 ∞→d 的极限值,就可以得到无穷远单应矩阵。显然, 11)( −− ′→+′= RKKKRKH T dtn ( ∞→d ) 因此,无穷远单应矩阵可表示为 1− ∞ ′= RKKH *) (4.2.3) 从上式可以看出:无穷远单应矩阵与摄像机的平移运动无关,仅与旋转运动参数有关。 结合式(4.2.2)与(4.2.3),任何平面π 的单应矩阵都可以写成下面的形式 *)在第 3 章曾用符号 ∞H 来标记无穷远平面到像平面的单应矩阵,这里也使用符号 ∞H 来标记无穷远平面所诱导 的两幅图像间的单应矩阵。这可从上下文来理解符号 ∞H 意义,而这不致于引起混淆。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 4 章 两视点几何 91 3, RHH T ∈′+= ∞ aae (4.2.4) 其中: z 1− ∞ ′= RKKH 无穷远单应矩阵:与平面π 无关,仅与两个摄像机内参数和相对姿态 (旋转)有关; z tK′=′e 第二幅图像的极点:与平面π 无关,仅与第二个摄像机内参数和相对平移 有关; z d T nK −=a 平面π 在第一幅图像上的隐消线(即平面上无穷远直线在第一幅图像上 的像直线):与平面π 相对第一个摄像机的位置和第一个摄像机内参数有关,而与第二个 摄像机无关。 式(4.2.4)表明,任何一个平面的单应矩阵,均可以由无穷远单应、极点的一个三维向量来表示。 从下面的命题可以看出,任何一个平面的单应都可以充当式(4.2.4)中无穷远单应的角色。 命题 4.2.2 令 *H 为两个摄像机下任一给定平面 *π 的单应矩阵,则 3 阶矩阵 H 为某个平面π 的 单应矩阵的充要条件是存在三维向量 3R∈a 使得 THH ae′+= * (4.2.5) 证明 必要性:由式(4.2.4),存在三维向量 3 21 , R∈aa 使得 )(),( 2211 * TT HsHHsH aeae ′+=′+= ∞∞ 这里,显式地给出了齐次因子 21, ss 。于是, )(11 12 * 12 TTHsHs aae −′=− () 3 121 * 121 * 1 2 )(,)( RsHsHs sH TTT ∈−=′+=−′+= aaaaeaae 充分性:由 11** )()()( * −− ′++′=′+= KKKKRKsHsH TTT d T attnae λ ( ) 1* )(( * −++′= KKRKs TT d ant λ 知 H 是以方程 1~))(( * * =+ Xan TT d Kλ 所确定的平面的单应矩阵。证毕。 注: 式(4.2.5)中的三维向量 a 不再是平面π 在第一幅图像上的隐消线,而是平面 *π 与平面π 的 交线在第一幅图像上的像直线。 4.2.2 与基本矩阵的关系 令π 是不通过两摄像机光心的任一张空间平面,其图像间的单应矩阵为 H, mm ′↔ 是两幅图 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 4 章 两视点几何 92 像的任一点对应,则有 mm H=′ ,因此 m 对应的极线为 memememl HHFm ×′=×′=′×′==′ ][ 所以基本矩阵可以表示为 HF ×′= ][e (4.2.6) 从下式: 1][ − × ′′= RKKKF t HHH T ×∞×∞× ′=′+′=′= ][)(][][ eaeee 同样可以得到式(4.2.6)。 由于 × − × −− × =′=′ ][][][ 1 eee TT HHHH ,所以基本矩阵又可以表示为 × −= ][eTHF (4.2.7) 式(4.2.6)与(4.2.7)表明基本矩阵由平面单应矩阵与极点唯一确定。事实上,有下述更深刻的结论: 命题 4.2.3 3 阶矩阵 H 使得 H×′][e ( × − ][eTH )为基本矩阵的充要条件是 H 为某个平面的单应矩 阵。 证明 从上面的讨论,充分性已经得到了证明。下面证明必要性:令基本矩阵 HF ×′= ][e 。不难 证明齐次矩阵方程 0][ =′ × Xe 的通解为 3, RX T ∈′= aae 显然, ∞= HX 是方程 XF ×′= ][e 的一个特解,因此 XF ×′= ][e 的通解为 3, RHX T ∈′+= ∞ aae 所以存在三维向量 *a 使得 THH *ae′+= ∞ 由命题 4.2.2,H 必为平面的单应矩阵。证毕。 表 4.2.1 给出了在各种条件下,基本矩阵的计算公式。 表 4.2.1:基本矩阵计算公式 已知条件 基本矩阵 两个摄像机矩阵 PP, ′ 0,][ =′′= + × CC PPPPF 两个摄像机的内参数 KK, ′ , 两个摄像机的相对运动 ( )t,R × −− × −− × ′=′=′′= ][][][ 11 ttt TTTT KRRKKRKKRKKKF 单应矩阵 H,极点 ee ′, × − × =′= ][][ ee THHF www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 4 章 两视点几何 93 4.2.3 不动点与不动线 下面考虑一些特殊单应的不动点与不动直线性质。 纯平移运动 对于纯平移运动下的两个摄像机,平面的单应矩阵有下述更简单的表示式: TIH ea+= 其中 te K= 是两个像平面的共同极点*), d T nK −=a 是平面π 在第一幅图像上的隐消线。 不难看出: eeaeeae )1()( TTIH +=+= ,因此极点是平面单应的一个不动点。令 m 是隐消线 d T nK −=a 上的任一点,则 0=maT ,所以 mmeam =+= )( TIH ,因此隐消线上的任一点都是平面 单应的不动点,而隐消线构成一条不动直线(保持点点不动)。于是,我们有下述命题: 命题 4.2.4 对于纯平移运动下的两个摄像机,极点是平面单应的一个不动点,它是平面单应矩 阵 H 的单重特征值的特征向量;隐消线是平面单应的不动直线(保持点点不动的),它是平面单应矩 阵 H 的二重特征值对应的二维特征子空间。 在纯平移运动下,平面单应除平面的隐消线作为它的一条(点点不动的)不动直线外,还有另外 的不动直线吗?为此,考虑过点 m 的极线 mel ×= 。 lx ∈∀ ,即 0)( =× xme T 。由于 ==+=× ×× xmxeamxme ][)(][)( eIeH TTTT 0)( =× xme T ,所以 lx ∈H 。因此,每一条极线都是平 面单应的一条不动直线。也就是说,平面单应的所有(非点点不动的)不动直线构成极线束。由于二 维射影变换对直线的变换规则由它的对偶所确定,因此有下述命题: 命题 4.2.5 对于纯平移运动下的两个摄像机,平面隐消线是平面单应的(保持点点不动的)不动直 线,它是对偶单应矩阵 TH − 单重特征值的特征向量;极线束是单应的(非点点不动的)不动直线束, 它是对偶单应矩阵 TH − 二重特征值的二维特征子空间。 相对单应矩阵 考虑在一般运动 ),( tR 下的两个摄像机。假定平面 21,ππ 在这两个摄像机下的单应矩阵分别为 21, HH ,则 矩 阵 1 1 212 HHH −= 确定了第一个像平面到自身的一个二维射影变换(如图 4.2.3 所示),这 个变换称为相对(平面 2π 的)单应,矩阵 1 1 212 HHH −= 称为相对(平面 2π 的)单应矩阵。 由命题 4.2.3,可知: 3 21 , RHH T ∈′+= aae ,于是,相对单应矩阵可表示为 1 1 212 HHH −= 3 2 1 2 ,)( RIHH TT ∈+=′+= − aeaae ee ′= −1 2H 是第一幅图像上的极点。从上式可以看出相对单应矩阵等价于纯平移运动下的单应矩阵, 因此相对单应有与类似命题 4.2.4 和 4.2.5 的不动点与不动线性质。事实上,只需要将这两个命题中 *) 实际上,在纯平移运动下,由于两个摄像机的内参数相同,所以它们的像平面是同一张空间平面。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 4 章 两视点几何 94 的“平面单应”替代为“相对单应”和“平面隐消线”替代为“平面 21,ππ 的交线在第一幅图像上 的像直线”,对应的命题成立。 4.3 基本矩阵估计 4.3.1 8-点算法(8-Point Algorithm) 给定一对点对应 TT vuvu )1,,(,)1,,( ′′=′= mm ,基本矩阵 F 满足下述方程 0=′ mm T F (4.3.1) 给定充分多(至少 ≥ 8)的点对应,由上式可线性估计基本矩阵 F。 令 ( )ijfF = ,则基本矩阵的约束方程(4.2.1)可以写成下述形式: 0333231232221131211 =+++′+′+′+′+′+′ fvfuffvvfvufvfuvfuufu 记 ()Tfffffffff 333231232221131211 ,,,,,,,,=f 图 4.2.3: 相对单应:对第一个图像平面上的点 m,单应 H1 将它变到第二幅图像的点 m1,它是平面 1π 上 的点 X1 在第二个摄像机下的投影。 1 2 −H 再将 m1 变换到第一幅图像上的点 m12,它是 m1 的反投影线与平 面 2π 的交点 X2 在第一个摄像机下的投影。因此,相对单应 1 1 212 HHH −= 是第一幅图像上的一个射影变换。 可以看出:m12 是极线 e× m 上的点,因为 X1 ,X2 在同一个极平面上。相对单应总是将第一幅图像点 m 变换到它所确定的极线 e× m 上,因此极线是相对单应的不动直线。除此之外,相对单应还有一条保持点 点不动的不动直线,它是两平面交线的图像直线。 1π m X1 H1 m1 X2 m12 1 2 −H 2π e www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 4 章 两视点几何 95 它是由 F 的 3 个行向量所构成的 9 维列向量,则上述方程可写成向量内积的形式: 0)1,,,,,,,,( =′′′′′′ fvuvvvuvuvuuu 这样,给定 N 个对应点可以得到线性方程组: 0 1 1111111111111 = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′′′′′′ ′′′′′′ = ff NNNNNNNNNNNN vuvvvuvuvuuu vuvvvuvuvuuu A # (4.3.2) 其中 A 是一个 9×N 矩阵。 由于基本矩阵是非零的,所以 f 是一个非零向量,即线性方程组有非零解。因此在一般情况下, 当点对应精确时,rank(A)=8,f 是矩阵 A 的零空间,或者说是矩阵 A 的零特征值对应的特征向量。 因此,当点对应精确时,直接通过求解线性方程组可以确定基本矩阵 F。然而,在实际情况中,不 可能得到精确的图像点对应。在点对应不精确时,矩阵 A 通常是一个秩 9 的矩阵(这里点对应数>8。 因为当点对应数=8 时,A 是一个 98× 矩阵。不论点对应是否有误差, A的秩总等于 8),这样方程组 只有零解。 在实际情况中,不能直接通过求解线性方程组来确定基本矩阵,而是求在约束条件 1|||| =f 下方 程组(4.2.2)的最小二乘解,即求解下述问题: ⎩ ⎨ ⎧ = 1||||tosubject ||||min f fA (4.3.3) 问题(4.3.3)的解是 A 的最小奇异值的右奇异向量。令 A 的奇异值分解为 TUDVA = ,则(4.2.3)的解是 V 的最后一个列向量,即 9vf = ,于是由 9vf = 可构造矩阵 F。 秩2约束 基本矩阵秩为 2 的约束是它的一个重要性质。如果用一个秩不等于 2 的矩阵作为基本 矩阵,并用它估计图像极线,则所估计的极线不交于同一个图像点。这就是说如果用秩不为 2 的矩 阵作为基本矩阵的估计,我们不能得到两幅图像的极几何,这是因为在极几何中所有的极线均交于 极点。然而,通过(4.3.3)所确定的矩阵 F 一般是满秩的,因此还必须用一个秩 2 的矩阵 F 去逼近矩 阵 F 作为基本矩阵的估计,也就是说将下述最小化问题: ⎩ ⎨ ⎧ = − 2)(tosubject ||||min Frank FF (4.3.4) 的解作为基本矩阵的最终估计。问题(4.3.4)的解可通过对 F 进行奇异值分解得到。令 F 的最小奇异 值分解为 )(,),,( 321321 sssVsssUdiagF T ≥≥= ,则(4.3.4)的解为 TVssUdiagF )0,,( 21= 。 总结上述讨论,有下述估计基本矩阵的 8-点算法: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 4 章 两视点几何 96 算法 4.3.1:估计基本矩阵的 8-点算法 目标:给定 N(>=8)个点对应 jj mm ′↔ ,计算基本矩阵 F 8-点算法: (1) 由 N 个对应点集构造矩阵 A; (2) 对 A 进行奇异值分解 TUDVA = ,并由 V 的最后一个列向量 9v 可构造矩阵 F; (3) 对 F 进行奇异值分解 )(,),,( 321321 sssVsssUdiagF T ≥≥= ,得基本矩阵的估计 TVssUdiagF )0,,( 21= 。 4.3.2 最小点对应算法 7-点算法 7-点算法是指仅用 7 个点对应来估计基本矩阵的方法。在一般情形下,7 个点对应是能够估计 基本矩阵所需要的最少点对应数,它的重要性在于: 在图像中仅有 7 个点对应时,只能用这种方法;在基本矩阵的鲁棒估计中,RANSAC 方法的随 机抽样通常需要抽取最小的点对应集。这将在 17.1 节详细介绍。 正如 8-点算法那样,使用 7 个点对应可得到下述方程: 0 1 1 777777777777 111111111111 = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′′′′′′ ′′′′′′ = ff vuvvvuvuvuuu vuvvvuvuvuuu A # 一般地,系数矩阵 A 的秩为 7,所以上述方程的解集是 9 维空间中的通过坐标原点的一张 2 维 平面。令 21, ff 是方程的两个单位正交解,则它的单位解集合是一个单参数簇 21 )1( fff ss −+= ,于 是基本矩阵可以表示为 21 )1( FssFF −+= 其中, 21, FF 是由 21, ff 确定的 3 阶矩阵。由于基本矩阵的秩为 2,因此获得参数 s 的一个约束方程: ( ) 0)1(det 21 =−+ FssF 这是一个关于参数 s 的 3 次方程,因此有一个解或有 3 个解(如果有复解则删去,因为基本矩阵是一 个实矩阵)。于是,我们有下述结论: 命题 4.2.1 使用 7 个点对应,基本矩阵有一个解或者有 3 个可能的解。 若图像中仅有 7 个对应点,当基本矩阵有 3 个解时,不能断定哪一个是真解。如果图像中有多 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 4 章 两视点几何 97 于 7 个点对应,当基本矩阵有 3 个解时,可选取匹配点对应数最多的矩阵作为基本矩阵的真解。 6-点算法 如果埸景能提供某些可以利用的信息的话,则在估计基本矩阵时可以减少点对应的个数。例如, 当埸景中包含有平面信息时,仅利用 6 个点对应,其中 4 个是来自同一平面上的点对应,就可以计 算基本矩阵。 首先,利用平面上的 4 个点对应计算该平面的单应矩阵 H。由于基本矩阵可表示为 HF ×′= ][e , 而极点 e′ 仅有两个自由度,所以根据另外的两个对应点 2,1, =′↔ jjj mm ,通过下述方程: 2,1,0][ ==′′ × jH j T j mem (4.3.5) 可以线性地确定极点 e′ 。 值得指出的是,利用一张平面上的点对应,无论有多少个都不可能确定基本矩阵。这是因为对 于该平面上的任一个点对应 mm ′↔ ,总是有 mm H=′ ,于是式(4.3.5) 化为恒等式: 0][][ ≡′′′=′′ ×× memmem TT H ,因而不能构成对极点 e′ 的约束。 关于基本矩阵更精细的估计,请参考第三篇:模型估计。 4.4 恢复摄像机矩阵 4.4.1 射影相关 设 >′<>′< P,PPP, ˆˆ, 为两个摄像机对,若存在一个可逆的 4 阶矩阵 M 使得下式成立: MPPPMP ′=′= ˆ,ˆ (4.4.1) 则称 >′<>′< P,PPP, ˆˆ, 是两个射影相关的摄像机对,并记为 >′<>∝′< P,PPP, ˆˆ 。 可逆的 4 阶矩阵 M 确定一个三维空间的射影变换,所谓射影相关实际上就是摄像机对之间的射 影变换。射影相关是摄像机对的一种等价关系,即它满足下述性质: 自反性: >′<>∝′< PP,PP, 对称性: >′<>∝′< P,PPP, ˆˆ ⇒ >′>∝<′< PP,P,P ˆˆ 传递性: >′>∝<′< 2P,PP,P 211 , >′>∝<′< 32 P,PP,P 32 ⇒ >′>∝<′< 31 P,PP,P 31 因此,根据射影相关可以将摄像机对分为不同的射影相关类,同一类的摄像机对都是射影相关的, 不同类的摄像机对是不射影相关的。由于射影相关是一种等价关系,所以有时又称射影相关为射影 等价。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 4 章 两视点几何 98 令 >′< PP, 是一个摄像机对,由于摄像机矩阵 P 是一个秩 3 的 43× 矩阵,所以由矩阵 P 可以构 造一个 4 阶可逆矩阵 1− ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= Tq PM p ,其中 q 是与 P 的行向量组线性无关的一个向量,使得 ),( 0IPM p = 。令 >′>=<′< pp MPPMP,P ,~~ ,则 >′< PP, 必与下述形式的摄像机对射影相关: ),(~),,(~ b0 APIP =′= (4.4.2) 由此,可以看出 >′< P,P ~~ 属于 >′< PP, 所在的射影相关类。摄像机对 >′< P,P ~~ 称为该射影相关类的 典型摄像机对。 注意:同一个射影相关类的典型摄像机对不是唯一的。但是,有下述命题: 引理 4.4.1 >=′=< ),(~),,(~ 1111 b0 APIP 与 >=′=< ),(~),,(~ 2222 b0 APIP 为同一射影相关类的两个典 型摄像机对的充要条件是存在三维向量 3R∈a 使得 12112 , bbab =+= TAA (4.4.3) 证明 必要性: 由 MPP 12 ~~ = 知 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= k IM Ta 0 ,其 中 0≠k ,a 是一个三维向量。再由 MPP 12 ~~ ′=′ 可 以得到式(4.4.3)。充分性:令 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= k IM Ta 0 ,由于 0≠k ,所以 M 为可逆矩阵。显然 MPP 12 ~~ = ,由 式(4.4.3)可得 MPP 12 ~~ ′=′ ,所以 >′< 11 ~,~ PP ∝ >′< 22 ~,~ PP ,因此它们属于同一射影相关类。证毕。 基本矩阵与射影相关类 命题 4.4.2 若 >′<>∝′< P,PPP, ˆˆ ,则它们有相同的基本矩阵。 证明 因 >′<>′< PPPP ˆ,ˆ,, 射影相关,所以存在一个可逆的 4 阶矩阵 M 使 MPPPMP ′=′= ˆ,ˆ 。 令 mm ′↔ 是对应于摄像机对 >′< PP, 的一个点对应,即存在空间点 X 使得 XmXm PP ′=′= , 于是, XXmXXXm 11 ˆ)(,ˆ)( −−−− ′=′=′=′=== MPMMPXPMPMPMP 11 即 mm ′↔ 也是摄像机对 >′< PP ˆ,ˆ 的一个点对应。同理可知摄像机对 >′< PP ˆ,ˆ 的点对应也是摄像机 对 >′< PP, 的点对应。所以, >′< PP, 与 >′< PP ˆ,ˆ 确定相同的点对应集合,从而有相同的基本矩 阵。证毕。 注 命题 4.4.2 说明每一个射影相关类的摄像机对有相同的基本矩阵。基本矩阵不依赖于世界 坐标系的选择。一个可逆的 4 阶矩阵 M 确定一个三维投影变换,反之一个三维射影变换也可以通过 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 4 章 两视点几何 99 一个可逆的 4 阶矩阵 M 来表示。在命题 4.4.2 的证明中,变换 XX 1−= M  表示从 >′< PP, 世界坐标 系到 >′< PP ˆ,ˆ 世界坐标系之间的变换。因此,命题 4.4.2 说明,基本矩阵不依赖于世界坐标系的选 择。 例 4.4.1 两个摄像机对 >′< PP, , >′< PP ˆ,ˆ 定义如下: ),(),,( 1 t0 KRKKPIP ′′=′= − ; ),(ˆ),,(ˆ t0 RKPIKP ′=′= 令 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 10 0KM ,则 >′>=<′< MPPMPP ,ˆ,ˆ ,因此 >′<>∝′< P,PPP, ˆˆ ,从而上述两个摄像机对有 相同的基本矩阵。矩阵 M 的逆: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= − − 10 01 1 KM 是 >′< PP, 的世界坐标系到 >′< PP ˆ,ˆ 的世界坐标系的变换。因 >′< PP ˆ,ˆ 的世界坐标系是一个欧氏坐 标系(第一个摄像机坐标系),而变换 M 是一个仿射变换,因此 >′< PP, 的世界坐标系是一个仿射坐 标系。 命题 4.4.3 令 >=′=< ),(~),,(~ b0 APIP 是一个典型的摄像机对,则 A 是一个平面的单应矩阵, eb ′= ,从而这个摄像机的基本矩阵为 AF ×= ][b (4.4.4) 证明 记两个摄像机的内参数矩阵分别为 KK ′, ,它们之间的相对运动为 ),( tR ,则 >′′=′=< − ),(),,( 1 t0 KRKKPIP 是一个与 >′< PP ~,~ 射影相关的摄像机对,由引理 4.4.1, A= TT HKRKK aeta ~1 ′+=′+′ ∞ − 是一个平面的单应矩阵,且 etb ′=′= K ,由命题 4.2.3, AF ×= ][b 。证毕。 命题 4.4.4 若摄像机对 >′<>′< PPPP ˆ,ˆ,, 有相同的基本矩阵 F,则 >′<>∝′< PPPP ˆ,ˆ, 。 证明 令 >=′=< ),(~),,(~ 1111 b0 APIP >′∝< PP, >=′=< ),(~),,(~ 2222 b0 APIP >′∝< PP ˆ,ˆ 我们只须证明 >′<>∝′< 2211 ~,~~,~ PPPP 。由命题 4.4.3, 2211 ][][ AAF ×× == bb ,所以 021 == bb TT FF www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 4 章 两视点几何 100 由于 rank(F)=2,所以存在非零常数 k 使得 12 bb k= 。于是 )(][][ 1222 kAA ×× = bb ,由此得 3 11112 , RkAkkAA T T ∈⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ ⎟ ⎠ ⎞⎜ ⎝ ⎛+=+= aabab 由引理 4.4.1, >′<>∝′< 2211 ~,~~,~ PPPP 。证毕。 将命题 4.4.2 与命题 4.4.4 结合起来,有下述结论: 命题 4.4.5 摄像机对 >′<>′< PPPP ˆ,ˆ,, 有相同的基本矩阵 F,当且仅当 >′<>∝′< PPPP ˆ,ˆ, 。 4.4.2 摄像机矩阵的恢复 基本矩阵由两幅图像间的点对应所确定,两组摄像机对射影相关的充要条件是它们有相同的基 本矩阵,所以,由两幅图像点对应,可以在射影的意义下确定两幅图像的摄像机对,即利用基本矩 阵可以恢复射影意义下的摄像机对。在射影意义下恢复摄像机对,通常也称为两幅图像的射影重构。 给定基本矩阵的一个分解 HF ×′= ][e ,构造典型摄像机对 ),(~0),,(~ e′=′= HPIP 。由 命 题 4.4.3, 这个摄像机对的基本矩阵必为 F,再由引理 4.4.1,与这个摄像机对射影相关的所有典型摄像机对均 可表示为 3,0),,(),(~),0,(~ RssHsPI T ∈≠′′+== aeaeaP 于是,从上节的讨论,我们有下述命题: 命题 4.4.6 给定基本矩阵 F,则它对应的所有摄像机对为 (,0), (, ) ( , )PI MPs H M′==ae (4.4.5) 其中 M 为 4 阶可逆矩阵。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 101 5.自标定理论 摄像机内参数刻划了摄像机的内部结构。为了从图像恢复物体的度量结构,确定摄像机内参数 是不可缺少的步骤,因为从图像恢复物体的度量结构与确定摄像机内参数是等价的(见第 6 章)。确 定摄像机内参数通常又称为摄像机标定。传统标定方法是使用经过精密加工的标定块,通过标定块 上三维坐标已知的点与其图象点间的对应关系计算出摄像机矩阵,然后将摄像机矩阵进行分解得到 内参数。所谓自标定,是指仅从埸景的多幅图像来确定摄像机内参数,这种方法不需精密加工的标 定块。本章主要介绍摄像机自标定技术,在本质上所有自标定技术均来源于射影几何理论,说得更 具体些,所有自标定技术理论基础是绝对二次曲线和绝对二次曲面的投影性质。本章除了介绍基于 绝对二次曲线与绝对二次曲面的自标定方法外,还介绍了基于正交性、圆环点与平行性的自标定方 法,虽然这些方法可以归结为基于绝对二次曲线或绝对二次曲面的方法,但它大多是线性的。 5.1 正交性与摄像机内参数 5.1.1 隐消点与隐消线 隐消点 直线上无穷远点的图像称为该直线的隐消点。由于平行直线与无穷远平面相交于同一个 无穷远点,因此平行直线有一个相同的隐消点,即隐消点只与直线的方向有关而与直线的位置无关。 令 TT )0,(dD = 是直线 L 的隐消点,则向量 d 是该直线的方向,有时也用 D 来表示直线的方向。因 此,隐消点通常也说成是直线方向的隐消点。设摄像机矩阵为 ),( 4p∞= HP ,其 中 ∞H 是无穷远单应 矩阵,于是直线 L 的隐消点为 dv ∞= H 。 记两条直线 21 , LL 的方向分别为 21,dd ,由欧氏几何可知它们之间的夹角可通过下述公式来计 算: 2211 21cos dddd dd TT T ⋅ =θ (5.1.1) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 102 若直线 21 , LL 的隐消点分别为 21 ,vv ,则根据式(3.2.9),得到 2 11 2 1 21 11 1 1 1 , vvdvvd −−− ∞ −−− ∞ ==== KRHKRH 于是, 2 1 21 1 1 2 1 1 )()( )(cos vvvv vv − ∞ − ∞ − ∞ − ∞ − ∞ − ∞ ⋅ = HHHH HH TTTT TT θ 2211 21 vvvv vv ϖϖ ϖ TT T ⋅ = (5.1.2) 其中 1−−= KK Tϖ 是绝对二次曲线的图像(IAC)。 如果已知两条直线的夹角和它们的隐消点,则式(5.1.2)就构成摄像机内参数的约束,从而可被 用于标定摄像机内参数。 隐消线 平面π 上的无穷远直线 L∞ 在像平面上的投影称为该平面的隐消线。平行平面相交于无 穷远平面上的同一条直线,因而平行平面有相同的隐消线。隐消线只与平面的法向量(或称为平面的 方向)有关而与平面的位置无关。在几何上,平面π 的隐消线 l 是与平面π 平行且通过摄像机光心的 平面与像平面的交线。下面给出隐消线的代数表达。 令 21 , LL 是平面π 上的相交于有限点的两条直线,其无穷远点分别记为 TTTT )0,(,)0,( 2211 dDdD == 则平面π 上的无穷远直线必通过 21 , DD ,并且平面 π 的方向是 21 ddn ×= 。令 l 是平面π 的隐消线, 则直线 21 , LL 的隐消点 21 ,vv 是 l 上两个不同的点。于是, 2121 ddvvl ∞∞ ×=×= HH nndd RKHH TTT −− ∞ − ∞ ==×= )( 21 (5.1.3) 其中: 21 ddn ×= 是平面π 的法方向。 令平面 21,ππ 的方向分别为 21,nn ,则它们之间的夹角可表示为 2211 21cos nnnn nn TT T ⋅ =θ (5.1.4) 如果 21,ll 分别为平面 21,ππ 的隐消线,则利用式(5.1.3)和(5.1.4),就可得到下述平面夹角表达式: =θcos 2 * 21 * 1 2 * 1 llll ll ϖϖ ϖ TT T ⋅ (5.1.5) 其中 TKK=*ϖ 是绝对二次曲面的图像,它是绝对二次曲线图像ϖ 的对偶(DIAC)。 同样,在已知平面夹角和隐消线的情况下,式(5.1.5)也可以被用于确定摄像机内参数。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 103 5.1.2 正交性与摄像机内参数 两条正交直线的隐消点,称为一对正交隐消点(注意:这里的正交是指隐消点对应的空间直线相 互正交,并非指表示两个隐消点的向量相互正交)。类似地,也有正交隐消线的概念。在一般情况下 式(5.1.2)与式(5.1.5)是摄像机的 IAC,DIAC 的二次约束,对于正交隐消点或正交隐消线,可以建立 摄像机的 IAC 或 DIAC 的线性约束方程,从而能线性标定摄像机内参数。 命题 5.1.1 (1)假定 21,vv 是相互正交的隐消点,则 012 =vv ϖT ;(2)假定 21,ll 为相互正交的隐消线, 则 01 * 2 =ll ϖT ;(3)假定隐消点 v 与隐消线 l 是相互正交的,则 vl ϖ= ,或等价地, lv *ϖ= 。 注意:上述等式都是齐次等式,即对于给定点(或直线) 的齐次坐标,上述等式在相差一个非零 常数因子意义下成立。 结论(1)与结论(2)直接由公式(5.1.2)和(5.1.5)得到。下面给出结论(3)的证明:由于隐消点 v 与隐 消线 l 是相互正交的,所以对任意的 lvv ∈21, , },,{ 1vv },{ 2vv 是两对正交隐消点。于是,从式(5.1.2), 可知: 0,0 21 == vvvv ϖϖ TT 从而,可推知 lvvvvv * 21 * 21 )( ϖϖϖϖ =×=×= 证毕。 上述结论表明,如果从图像中能获得 5 组以上的正交隐消点或隐消线,就能得到 5 个以上的关 于 IAC 或 DIAC 的线性约束方程,由于 IAC 或 DIAC 只含有 5 个独立的参数,所以将这些方程联立 起来就可以解出 IAC 或 DIAC,从而再通过 IAC 或 DIAC 的 Cholesky 分解*)就可以确定摄像机的内 参数矩阵。例如通过 Cholesky 分解将ϖ 分解成ϖ = 1~~ −− KK T (其中 K~ 是对角元均大于零的上三角矩 阵)。此时, K~ 与摄像机内参数 K 相差一个常数因子。由于 K 的最后一个元素是 1,所以摄像机内 参数必为 KkK ~~ 1 33 −= 。 三正交隐消点 如果 321 ,, vvv 是两两相互正交的隐消点,则称它们为三正交隐消点。对于三正交 隐消点,在形式上可提供下述三组关于内参数的约束方程: 132231321 ,, vvvvvvvvv ϖϖϖ =×=×=× zyx 这里,显式地写出了常数因子 x,y,z,它们都是未知的非零常数。因此,在上述每一组中消去 常数因子后可以得到二个关于内参数的独立约束方程,但下述命题表明:在它们联立的 6 个约束方 程中仅有三个是独立的。 *)见 8.2 节 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 104 命题 5.1.2 令 321 ,, vvv 是三正交方向的隐消点,则摄像机的 IAC 和 DIAC 的解分别为 TTT ss ))(())(())(( 32322313112121 vvvvvvvvvvvv ××+××+××=ϖ (5.1.6) TTT ss 33 * 222 * 111 * vvvvvv ++=ϖ (5.1.7) 其中 js 是未知常数。 证明 由于 321 ,, vvv 是三正交隐消点,所以存在未知常数 x,y,z 使得 132231321 ,, vvvvvvvvv ϖϖϖ =×=×=× zyx 因此, ),,(),,( 213132321 vvvvvvvvv ×××= xyzϖ 从 321 ,, vvv 不共线,可得到 1 321213132 ),,)(( −×××= vvvvvvvvv xyzϖ 所以, ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ × × × ×××= T T T xyz )( )( )( ),,(),,det( 1 21 13 32 213132 321 vv vv vv vvvvvvvvvϖ ),,det( ))(())(())(( 321 212131313232 vvv vvvvvvvvvvvv TTT xyz ××+××+××= 于是,在相差一个常数因子的意义下,摄像机的 IAC 可以表示为 TTT ss ))(())(())(( 32322313112121 vvvvvvvvvvvv ××+××+××=ϖ 同理可证摄像机的 DIAC 为 TTT ss 33 * 222 * 111 * vvvvvv ++=ϖ 。证毕。 命题 5.1.2 不但给出了 IAC 和 DIAC 的计算公式,同时也说明从单幅图像上三正交隐消点只能 提供关于内参数的三个独立约束,尽管在形式上提供了 6 个方程。因此,需要两组三正交隐消点, 才能完全确定摄像机内参数。当摄像机的畸变因子为零,且像素的纵横比为 1 时,可根据这些约束 完全确定式(5.1.6)和(5.1.7)中的未知常数,即此时从单幅图像上的三正交隐消点可以标定摄像机。值 得指出的是,如果像素的纵横比等于 1,即摄像机的两个尺度因子相等,则摄像机的主点是以 { 321 ,, vvv }为顶点的三角形三条高线的交点。 例 5.1.1 利用两个长方体的图像确定摄像机内参数。 利用长方体平行棱相交于同一个无穷远点的性质,可以从图像上得到三正交隐消点 321 ,, vvv 。 根据命题 5.1.2,可得到ϖ 的双参数簇: TTT ss ))(())(())(( 32322313112121 vvvvvvvvvvvv ××+××+××=ϖ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 105 如果另一个长方体不与当前的长方体平行,则根据它的图像可确定另一组三正交隐消点,并得 到ϖ 的另一组线性约束方程,从而能唯一确定常数 21,ss 。这样,就确定了ϖ 。 例 5.1.2 从摄像机的正交纯平移运动确定内参数。当摄像机作纯平移运动(在平移运动中,内 参数保持不变),对某个静止物体的两幅图像可视为物体作相对平移运动而摄像机在固定位置下所得 到的两幅图像,如图 4.1.4 所示。平移运动物体上的任何一对对应点的连线必与平移方向平行,因此 所有对应点的连线在空间中相交于同一(无穷远)点,该点表示平移方向。因此两幅图像对应点的连 线也必交于一点,该点是平移方向在图像平面上的投影,由极几何可以知道它是两幅图像的极点。 于是,当摄像机作纯平移运动时,两幅图像的极点相同并且是平移方向在图像平面上的投影。 令 },{ 21 tt 是摄像机一组正交纯平移运动,即平移运动参数满足 021 =tt T 。令 21, ee 分别为作运动 },{ 21 tt 后所摄取的图像关于初始图像的极点,它们是一对正交隐消点,于是可得到内参数的约束方 程 021 =ee ϖT 。这样,从 5 组正交平移运动就可以求解摄像机内参数。 5.2 圆环点与摄像机内参数 5.2.1 内参数的约束方程 平面π 上的两个圆环点 JI, 的坐标可以分别为 TT ii )0,,1(,)0,,1( −== JI 。由 于 平 面 π 的两个 圆环点 JI, 都在绝对二次曲线(AC)上,所以它们的像 JI mm , 必在 IAC 上。因此,可得到下述 IAC 的约束方程: 0,0 == J T JI T I mmmm ϖϖ (5.2.1) 由于 JI mm , 是一对共轭点,在上述两个方程中,实际上只能提供下述两个关于 IAC 的实线性约束方 程: 0)Im(,0)Re( == I T II T I mmmm ϖϖ (5.2.2) 其中:Re,Im 分别表示复数的实部和虚部。 如果能从图像上获得两两不平行的三个平面上的圆环点图像,则可以得到 IAC 上的 6 个点。由 于平面上 5 个点确定一条二次曲线,因此这 6 个点足以拟合出 IAC,从而可以确定摄像机内参数。 这里要求每两个平面不平行,是因为平行平面有相同的圆环点。 5.2.2 确定圆环点的图像 基于圆环点的标定方法的关键问题是如何在图像平面上确定圆环点的图像。由于圆环点是虚点 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 106 从而无法直接从图像获取,因此需要借助图像中所包含的相关场景结构信息才能得到圆环点图像。 正方形 令正方形的 4 个顶点坐标分别为: ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 1 0 1 , 1 0 0 21 XX , ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 1 1 1 , 1 1 0 43 XX 应用这些顶点的图像坐标,可以求出正方形所在平面到像平面的单应矩阵 H。于是,该平面圆环点 的像坐标为: 21, 0 1 hhm iiHJI ±= ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ±= 两个圆 两个相交的圆有两个实交点与两个虚交点,显然这两个虚交点即为圆环点,因为平面上 任何一个圆都相交于圆环点。于是两条图像曲线(二次曲线)的两个虚交点即为圆环点在图像平面上 的投影。已知一个圆及其中心的图像,也可以确定圆环点的图像。 圆与直线 两条通过圆心直线分别交无穷远直线于 P、 P′ 两点,则交比(AB; OP)= 1− , );( POBA ′′′ = 1− 。其中{A,B},{ BA ′′, }分别是两条直线与圆的两个交点,O 是圆心。由于投影变 换保持交比不变,所以可求出 P 和 P′ 的图像点坐标,从而可求得圆支撑平面的隐消线方程。圆的图 像是一条二次曲线,并且可以用曲线拟合的方法,求出它在像平面上的方程。由隐消线方程与这个 二次曲线方程联立求解,就得到圆环点的图像坐标。当然,也可以从两条像直线的交点获得圆心的 图像,从而由配极对应得到隐消线。 在包含圆与直线的埸景中,确定圆环点图像的条件是通过圆的图像曲线和直线的图像直线能够 确定平面的消影线,或能够确定圆心的图像。 平面相似图形 设 A,B 是同一张平面π 上的两个相似图形,记 12 4{ , ,..., ,....}X = XX X , Y ,...},...,,{ 421 YYY= 是一组相似的点对应,于是存在二维相似变换 S 使得 jj SXY = 。令 X,Y 的图像 点分别为 12 4{ , ,..., ,...}x =M xx x , 12 4{ , ,..., ,...}y =M yy y ,则存在二维射影变换 H 使得 jjjj HH YyXx == , 。于是,我们有 jj HSH xy 1−= ,即 x y↔MM是一组射影对应。记 1−= HSHH p ,当 x y↔MM中包含 4 个以上的点对应时,可以唯一确定射影变换 pH 。在一般情况 下, pH 的两个互为共轭复特征向量是平面π 上的两个圆环点的图像。事实上,由于平面π 上任一 点 X 的图像必为 x=HX,所 以 平 面 π 的一个圆环点 J 的像点是 Jm =HJ。因相似变换 S 保持圆环点不 变,即 SJ=J,所以有 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 107 ==== JJJm HHSHHH pJpJm 又因,圆环点 J 是虚点,并且 pH 是一个实矩阵,所以 Jm 是 pH 的复特征向量。因此 pH 的两个互 为共轭复特征向量是平面π 上的两个圆环点的图像。值得指出的是,两个相似图形之间必须有平面 旋转运动并且旋转角不是 2/π 的整数倍,否则这个结论不成立。 5.2.3 圆环点与其正交方向 假定平面π 上的两个圆环点{I,J}的图像分别为 II mm , ,且平面π 方向 D 的隐消点为 v 。由 于通过 I,J 的无穷远直线的图像是平面π 的隐消线,所以根据命题 5.1.1(3),我们有 vmm I ϖxI =× )( 平面π 的方向 D 关于绝对二次曲线的极线是通过 I,J 的无穷远直线,而 I,J 在绝对二次曲线上, 因此通过{D,I }与{D,J}的两条直线是绝对二次曲线的两条切线,所以, Iy mvm I ϖ=× )( II y mvm ϖ=× )( 其中: X 表示 X 的共轭。这样,就得到 IAC 的线性约束方程: ⎪⎩ ⎪⎨ ⎧ =× =× =× II I I y y x mvm mvm vmm I I ϖ ϖ ϖ )( )( )( (5.2.3) 上述方程的对偶是 ⎪⎩ ⎪⎨ ⎧ =× =× =× II I I y y x mvm mvm vmm I I )( )( )( * * * ϖ ϖ ϖ (5.2.4) 命题 5.2.2 方程(5.2.3)和(5.2.4)的解分别为 ϖ TTT ))(())(())((2 vbvbvavababa ××+××+××= λ (5.2.5) =*ϖ TTT vvbbaa ++ )(2λ (5.2.6) 其中 λ 为一个非零实数, ba, 分别为 Im 的实部和虚部。 证明 仅证明(5.2.6),因为用类似的方法可得到(5.2.5)。由 ⎪⎩ ⎪⎨ ⎧ =× =× =× II I I y y x mvm mvm vmm I I )( )( )( * * * ϖ ϖ ϖ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 108 可推知: 1* ),,)(,,( −×××= vmvmmmmmv II IIII yyxϖ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ −⋅= T I T I T II II yyx m m v mmvmmv ),,det( 1),,( )(),,det( 1 T II T II T II yyx mmmmvvmmv +−= ( 21 iyyy += ) T II T II T iyyiyyx mmmmvv )()( 2121 −++−= (齐次等式,即相差一个常数意义下相等) )()( 21 T II T II T II T II T iyyx mmmmmmmmvv +−−−= )(2 T II T II T iyx mmmmvv +−= (因为 *ϖ 对称,可知 01 =y ) )( T II T II T mmmmvv ++= λ (齐次等式。 λ 为一个非零实数,因为 x 是个纯虚数) )(2 TTT bbaavv ++= λ 命题 5.2.2 表明:通过一个平面上的圆环点与其正交方向,可以提供关于摄像机内参数的四个独 立约束。如果摄像机使用 4 参数模型,例如畸变因子为零,则根据命题 5.2.2,可以确定摄像机内参 数矩阵 K。因为,此时 IAC 中的元素 012 =ϖ ,所以由这个约束可以确定(5.2.6)式中的未知常数 λ 。 例 8.2.1 从圆柱的图像标定内参数。假定摄像机畸变因子为零,则从一个圆柱的图像就足以确定 内参数。从圆柱上、下面的两个圆的图像,可确定两个圆环点的图像,而与两个圆环点正交方向的 隐消点是两条母线的图像的交点,因此可从圆柱图像的轮廓线中获取。 5.3 平行性与摄像机内参数 5.3.1 平行四边形的不变量与射影 平行四边形的不变量 下面讨论平行四边形的不变量以及射影性质。尽管引进的不变量是简单的,但是从它们可以得 到一些有趣性质和重要结果。假定{:1,2,3,4}i i =X 为空间中平行四边形的四顶点的欧氏坐标,如图 5.1.1 所示,并且约定 12 34=XX XX JJJJJJGJJJJJJG 。令 31 21 || || || || t −= − XX XX   (5.3.1) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 109 31 21 31 21 ()()cos || || || || T θ −−= −⋅ − XX XX XX XX     (5.3.2) 由于相似变换保持线段长度和夹角不变,因此参数{,t θ }均为平行四边形的相似不变量。进一步, 参数{,t θ }确定了平行四边形的形状,即如果两个平行四边形有相同的参数{,t θ },则它们一定是相 似的。我们再给出平行四边形的一个仿射不变量,它在确定摄像机内参数中具有极其重要的作用。 图 5.1.1:平行四边形和它的图像 从 12 34=XX XX JJJJJJG JJJJJJG 知, 43 21()−= −XX XX  因此, 4213123( , , )( 1,1,1)T=−+= −XXXXXXX 记 123(, , )X = XXX,则有 1 4 ( 1,1,1)TX − =−X (5.3.4) 因仿射变换保持平行性且保持平行线段的长度比,所以式(5.3.4)是平行四边形的仿射不变量。实事 上,也可以给出如下的直接的证明:令 A′ = +XXt是任一三维仿射变换,则 44 123()AAAA′ =+=−++ +XXtXXXt  123()′′ ′= −++−+−+XtXtXtt  O X1 X2 X4 X3 m1 m2 m3 m4 t 1 θ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 110 123′ ′′=− + +XX X  因此, 1 4 (1,1,1)TX −′′=−X 。所以,式(5.3.4)是平行四边形的仿射不变量。 式(5.3.4)描述了平行四边形的基本属性,这是因为有下述命题: 命题 5.3.1 四边形{:1,2,3,4}i i =X 为平行四边形的充要条件为(5.3.4)成立。 平行四边形的射影 利用仿射不变量(5.3.4),极易导入平行四边形的射影、及其与相似不变量{,t θ }之间的关系。 命题 5.3.2 假定{:1,2,3,4}i i =X 为平行四边形的四个顶点,其图像点为{:1,2,3,4}i i =m ,则 (1) 令 1 123 1 2 3 4(, , ) ( , , ) ,Tqqq −=−mmm m 在摄像机坐标系下,有 1 4 ,1,2,3,4jjjqK jα −==Xm *) (5.3.5) (2) 令 2 2 11 33 11(,)Lq q q q=− −mmmm,则相似不变量与摄像机内参数之间有下述关系: 22 21 4(|| || / ) TL Lα ηϖ−=XX (5.3.6) 其中: 4α 是空间点 4X 的深度, 2 1tcos tcos t θη θ ⎛⎞= ⎜⎟⎝⎠ 称为平行四边形的相似参数矩阵, 1TKKϖ −−= 是绝对二次曲线的图像。 证明:在摄像机坐标系下,有 ,1,2,3,4jj jKjα ==mX 即, 1 , 1,2,3,4jj jKjα −==Xm (5.3.7) 所以, 1 123 123 123(, , ) (, , ) (,,)X K diag α αα−==XXX mmm 于是, 11 123123(1 / ,1 / ,1 / )( , , )Xdiag Kααα−−= mmm 因此, 1 4X − X 11 123123 4 4(1 / ,1 / ,1 / )( , , ) ( )diag K Kααα α−−= mmm m 1 414243 123 4(/,/,/)(,,)diag αααααα −= mmm m 414243 123(/,/,/)(,,)Tdiag q q qαααααα=− 41 1 42 2 43 3(/,/,/)Tqq qαααααα=− *)约定 4 1q = www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 111 根据式(5.3.4),我们有 4 ,1,2,3jjqjα α= = (5.3.8) 代入式(5.3.7),得到式(5.3.5)。从式(5.3.5),有 ()1 214 2211Kq qα −−= −XX m m (5.3.9) ()1 314 3311Kq qα −−= −XX m m (5.3.10) 由此可推知 2 21 21 21 31 21 21 31 31 31 ()()()()|| || ()()()() TT TTη ⎛⎞−− −−−=⎜⎟−− −−⎝⎠ XX XX XX XXXX XX XX XX XX         2 4 TL Lα ϖ= 因此,式(5.3.6)成立。 注 由于 43 21−=−XXXX和 42 31,−=−XX XX 所以从 (5.3.5),可得到 22 11 44 33 1qqqq−= −mm mmv , 33 11 44 22 2qqqq−= −mm m mv . 图像点 1v ( 2v ) 是平行边 12 34//XX XX ( 13 24//XX XX )的隐消点,这是因为 11 2 13 4()()0TT×= ×=vm m vm m , 21 3 22 4()()0TT× =×=vm m vm m 在摄像机内参数已知的情况下,有下述推论: 推论 5.3.1:从平行四边形{:1,2,3,4}i i =X 的图像点{:1,2,3,4}i i =m 能恢复平行四边形的形状, 即可以确定相似不变量{ ,t θ }。 5.3.2 平行六面体的不变量及其射影 考虑平行六面体的射影,如图 5.3.2 所示。令 31 1 21 || || || || t −= − XX XX  , 51 2 21 || || || || t −= − XX XX  , (5.3.11) 31 21 31 21 ()()cos || || || || T θ −−= −⋅ − XX XX XX XX    , 51 21 51 21 ()()cos || || || || T φ −−= −⋅ − XX XX XX XX    , 51 31 51 31 ()()cos || || || || T ϕ −−= −⋅− XX XX XX XX     (5.3.12) 则参数 12{, ,,,}ttθ φϕ 是平行六面体的相似不变量,它确定了平行六面体的形状。 在通常情况下至少有三条平行棱上的 6 个顶点是可见的,在图像平面上可通过这 6 个可见点的 图像恢复出不可见点的图像。在这里,我们说平面六面体的图像是指三条平行棱上的 6 个可见顶点 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 112 {:1,2,,6}i i =X “ 的图像,并且约定 12 34 56==XX XX XX JJJJJJG JJJJJJG JJJJJJG 。 图 5.2.1 平行六面体和它的图像 设平行六面体{:1,2,,6}i i =X “ 的图像为{ : 1,2,...,6}i i =m ,记 1 123 1 2 3 4(, , ) ( , , ) ,Tqqq −=−mmm m 1 563 5 6 3 4(, , ) ( , , )Tqqq −=−mmm m 根据命题 5.3.2,有 11 43 3 3 43 3qK qKαα−−==mX m 所以,必有 33qq=  。于是, 41 12356 4 (,,,,) ( )TT Tqqqqq AAA− ⎛⎞= ⎜⎟⎝⎠ m m (5.3.13) 其中 123 356 A −⎛⎞= ⎜⎟−⎝⎠ mm m 0 0 00mmm (5.3.14) 因此,在摄像机坐标系下,平行六面体的顶点 iX 可表示为 1 4 ,1,2,...,6iiiqK iα −==Xm (5.3.15) 令 m3 m4 m1 m2 m6m5 O X3 X4 X1 X5 X6 X2 1 t1 t2 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 113 213151(,,)X =−−−XXXXXX (5.3.16) 2 2 11 33 11 5 5 11(, ,)Mq q q q q q=− − −mmmmmm (5.3.17) 根据式(5.3.15),有 1 4XKMα −= (5.3.18) 由于 X 是可逆矩阵,所以 M 也是可逆矩阵,因此, 12 12 44 TT TMXXM KKα αϖ−−−−== (5.3.19) 并且 21 21 21 31 21 51 31 21 31 31 31 51 51 21 51 31 51 51 ()()()()()() ()()()()()() ()()()()(()() TT T TT T T TT T XX ⎛⎞−− −− −−⎜⎟ ⎜⎟=− − − − − −⎜⎟ ⎜⎟−− −− −−⎝⎠ XX XX XX XX XX XX XX XX XX XX XX XX XX XX XX XX XX XX                   2 21|| || µ−XX (5.3.20) 其中 12 2 1112 2 2122 1coscos cos cos cos cos tt tttt tttt θ φ µ θϕ φϕ ⎛⎞ ⎜⎟ = ⎜⎟ ⎜⎟⎜⎟⎝⎠ (5.3.21) 于是,有 2 1 4 2 21|| || TMM αµ ϖ−−= −XX (5.3.22) 总结上述讨论,有下述命题: 命题 5.3.4 设平行六面体{:1,2,,6}i i =X “ 的图像为{ : 1,2,...,6}i i =m ,则 (1) 在摄像机坐标系下,顶点 iX 由式(5.3.15)表示; (2) 相似不变量与摄像机内参数矩阵之间具有约束关系(5.3.22)。 注:矩阵 M 与相似不变量无关,可直接从图像点得到。通常,称矩阵 µ 为平行六面体的相似参 数矩阵,式(5.3.22)说明平行六面体的参数矩阵与摄像机内参矩阵是互为对偶的,对偶关系由矩阵 M 来刻划。 推论 5.3.2 从平行六面体图像确定摄像机内参数矩阵与确定相似不变量 12{, ,,,}ttθ φϕ 是等价的。 推论 5.3.3 令 ,1,2,...,6a iiiqi==Xm ,则 ,1,2,...,6a iiiqi==Xm 是平行六面体的{:1,2,,6}i i =X “ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 114 的仿射重构*)。 5.3.3 摄像机内参数 下面仅讨论如何从平行四边形图像求解摄像机内参数问题,因为平行六面体可归结为多个平行 四边形的情况。 m 个共面平行四边形的 n 幅图像 给定 m 个共面平行四边形{:1,2,3,4}ki i =X 的 n 幅图像 (){:1,2,3,4;1,2...}j ki ijn==m ,k=1, 2… m。 令 () () () () () () 1 () 123 1 2 3 4(,,)( , , )jjjT jjj j kkk k k k kqqq −=−mmm m, () () () () () () () () 22 11 33 11(,)jj jj jj jj kjkk kk kk kkLq q q q=− −mmmm 根据命题 5.3.2,有 () () 2 () 21 4|| || , 1,2... ; 1,2...jj jT kkkkkjjkjL Lj nk mηα ϖ−= ==XX , (5.3.23) 其中 () () () 1 () 4 :1,2,3,4jjjj ki k ki j kiqK iα −==Xm (5.3.24) 是第 k 个平行四边形顶点在第 j 个摄像机坐标系下的坐标。从式 () () 21 21|| || || ||, 1,2... ,jj kk kkj n−=− =XX XX  得到 () (1) 44111, 2,3... ; 1,2...jT T kkjjkjkk kL LLLjnkmαϖ αϖ===. 消去上述方程中的标量因子,得到 2m(n-1) 个内参数的二次约束方程 11 1211 111 11 112 22 1 1 1 22 22 1 1 1 22 () ()() (),. ()()()() TTTT kj j kj kj j kjkk kk TTTT kj j kj k k kj j kj k k LL LLLL LL LL LL LL LL ϖϖϖϖ ϖϖϖϖ == (5.3.25) 在上述 2m(n-1) 个二次约束方程至多有 2n 个是独立的,因为度量平面(即圆环点图像已被确定 的平面)的 n 幅图像仅能提供 jϖ 的 2n 个独立约束,所以在给定共面四边形的 n 幅图像情况下, 独 立约束数不可能超过 2n。 对于共面平行四边形,下述命题是有用的。 命题 5.3.5. 如果两个平行四边形有相同的相似不变量,则从它们的 n 幅图像能导致 2n 个线性 *) 仿射重构的概念见 6.3 节。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 115 约束方程。 证明 令 (){:1,2,3,4;1,2...}j ki ijn==m 两个平行四边形{, 1,2}ki k =X 的 n 幅图像, 根据命题 5.3.2, 第 k 个四边形顶点 kiX 在第 j 个摄像机坐标系下的坐标为 () () () 1 () 4 , 1,2,3,4; 1,2jjjj ki k ki j kiqK i kα −===Xm . (5.3.26) 先考虑标量因子 () 24 jα , () 14 jα 之间的关系。 不难看出点集 () () () () 4 ˆ{ : 1, 2, 3, 4; 1, 2}jjjj ki k ki kiqi kα===Xm 是点集{ : 1, 2, 3, 4; 1, 2}ki ik==X 的仿射重 构,因此它们必是共面点。所以,有 () () () () () () () () () () () () () () () () () () 24 21 21 14 11 11 14 12 12 14 11 11 14 13 13 14 11 11det( , , ) 0jj j jj j jj j jj j jj j jj jqqqqqqαααααα−−−=mmmmmm. 解这个方程,得到 () () () () () () () () ()11 11 12 12 13 13 24 14 14() () () () () () () () () () 21 21 12 12 11 11 13 13 11 11 det[ , , ] det[ , , ] jj jj jj j jj jjj jj jj jj jj qqq p qq qq q α αα= −− mmm mm mm m  . (5.3.27) 令 () () () () 2211,,1,2,3,4jjjj ijiiiqpqqqi=== ,则等式(5.3.26)能被改写成 () () () 1 () 14 , 1,2,3,4; 1,2jjjj ki ki j kiqK i kα −===Xm  并且点集 () () ()ˆ{ : 1, 2, 3, 4; 1, 2}jjj ki ki kiqi k===Xm (5.3.28) 仍是{ : 1, 2, 3, 4; 1, 2}ki ik==X 的仿射重构。根据命题 5.3.2,有 () () 2 () 21 14|| || , 1,2... ; 1,2.jj jT kkk kjjkjLLj nkηα ϖ−= ==XX  其中 () () () () () () () () 22 11 33 11[,]jj jj jj jj kjkk kk kk kkLq q q q=− −mmmm 。于是,由 21η η= 和 () () 21 21|| || || ||jj kk kk−=−XX XX , 得到 22 11,1,2...TT jj j jjjL LsLLj nϖϖ==  , (5.3.29) 其中 22 22 21 12 11|| || / || ||s =− −XX XX 。如果能确定标量因子 s,则方程(5.3.29) 能提供 2n 个线性约束。 下面讨论如何确定这个标量因子。 因两个平行四边形是相似的,所以有 2 222 21 2 112 11 ({ : 1,2,3,4})|| || ({ : 1,2,3,4})|| || i i is i σ σ =−== =− XXX XXX   , 其中σ 表示平行四边形的面积。 由于仿射变换保持两个共面图形的面积比,所以从仿射重构(5.3.28) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 116 得到标量因子: () () () () () () () () () 2 23232121 22222121 () () () () () () () () () 1 13131111 12121111 ({:1,2,3,4})||()()|| ({:1,2,3,4})||()()|| jjjjjjjjj i jjjjjjjjj i iqqqqs iqqqq σ σ =−×−== =−×− Xmmmm Xmmmm       (5.3.30) 注 在上述命题中, 两个相似平行四边形之间应存在一个 2D 旋转,否则该命题不真。此外, 这个命题能推广到任意两个共面的相似四点形,见 5.2 节关于从相似图形确定圆环点图像的论述。 命题 5.3.6. 如果两个共面平行四边形有相同的边长(不一定相似)则从它们的 n 幅图像能导致 2n 个线性约束方程。 证明 令 (){:1,2,3,4;1,2...}j ki ijn==m 两个平行四边形{, 1,2}ki k =X 的 n 幅图像。不失一般性,假 定 22 21 12 11|| || || ||−=−XX XX , 23 21 13 11|| || || ||−=−XX XX 。 根据命题 5.3.5 的证明,有 2() 21 14|| || , 1,2... ; 1,2.jT kkk kjjkjLLj nkηα ϖ−= ==XX  于是,可得到 2n 个线性约束方程 2 211111122221122()(),()(),1,2....TTTT jj j jjj jj j jjjL LLLLLLLjnϖϖϖϖ===    (5.3.31) m 个非共面平行四边形的 n 幅图像 下面主要讨论如何利用摄像机或平行四边形的先验知识,从 m 个非共面平行四边形的 n 幅图 像线性确定摄像机内参数、平行四边形的相似不变量。 假定在空间中有 m 个平行四边形{},kiX k=1, 2… m,在它们当中至少存两个不共面,它们的 n 幅 图像记为 (){}j kim 。令 () () () () () () 1 () 123 1 2 3 4(,,)( , , ) ,jjjT j j j j kkk kkk kqqq −=−mmm m () () () () () () () () 22 11 33 11(,)jj jj jj jj kjkk kk kk kkLq q q q=− −mmmm. 由命题 5.3.2,第 k 个四边形顶点 kiX 在第 j 个摄像机坐标系下的坐标为 () () () 1 () 4 : 1,2,3,4jjjj ki k ki j kiqK iα −==Xm . (5.3.32) 根据命题 5.3.2 的注,图像点 () () () () () 12211 jjjjj kkkkkqq=−vmm, () () () () () 23311 jjjjj kkkkkqq=−vmm是第 k 个四边形两平对 平行边在第 j 个像平面上的消隐点,因此从点对应 (1) ( j) k1 k1{,↔vv (1) ( j) k2 k2 ,↔vv 1, 2... }km= ,能线性确 定第一幅图像与第 j 幅图像间的无穷远单应 1 jH 。于是,得到 5n-5 个关于 jϖ 的约束方程(参考 5.5 节): 1 111,2,3...T jjj js HHj nωϖ−−==, (5.3.33) 其中 js 是未知标量。另一方面根据命题 5.3.2,得到关于 (, )kjη ϖ 的约束: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 117 , 1,2... ; 1,2...T kkjkjjkjtL L j nk mηϖ===, (5.3.34) 其中 () 2 421( / || ||)j kj k k kt α=−XX 也是未知标量。 注意式 (5.3.33) 和(5.3.34) 中的所有约束都是非线性的。然而,利用摄像机的先验知识,从 (5.3.33) 能得到关于 1ϖ 线性约束(见表 5.3.1);利用平行四边形的先验知识,从 (5.3.34) 也能得到关 于 1ϖ 线性约束(见表 5.3.2)。 从上面讨论,可以看出使用摄像机或平行四边形先验知识,可线性确定 1ϖ 。 一旦 1ϖ 被确定, jϖ 可由等式 5.3.33)确定,于是 kη 能从式(5.3.34)确定。 表 5.3.1 来自摄像机先验的线性约束 摄像机先验 1ϖ 的线性约束 零畸变因子 1 11112()0T jjHHϖ−−= 主点在原点 11 1111311123()()0TT jj jjHH HHϖϖ−− −−= = 已知纵横比 /vuf fτ = 21 1 1112211111()()0TT jj jjHH HHτϖ ϖ−− −−− = 表 5.3.2 来自平行四边形先验的线性约束 平行四边形先验 1ϖ 的线性约束 k /2θ π= 11 112()0T kkLLϖ = k1t1= 11 111 11 122()()TT kk kkLL LLϖϖ= 共面相似 线性约束方程(5.3.29) 共面等边长 线性约束方程(5.3.31) 5.4 Kruppa 方程与摄像机内参数 5.4.1 Kruppa 方程 令空间二次曲线 A 在两个视点下的像曲线分别为 rl AA , ,并假定二次曲线 A 支撑平面的单应矩 阵为 H。参考图 5.4.1, ba ππ , 是与二次曲线 A 相切的两个外极面,它们与两个像平面的交线分别为 lbla ll , 和 rbra ll , ,显然, rblbrala llll ↔↔ , 是两对对应极线。 由于 lbla ll , 均为二次曲线 lA (它是 A 在第一个摄像机下的图像二次曲线)的切线,并且相交于极 点 le ,所以根据命题 1.2.2,两条直线 lbla ll , 所确定的退化二次曲线为 T llllab AA × − ×= ][][ 1 ee 。同样 rbra ll , www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 118 所确定的退化二次曲线为 T rrrrab AA × − ×= ][][ 1 ee 。 根据二次曲线的射影变换规则,有 1−−= HAHA lab T rab 所以, === −− × − × 11 ][][ HAHAA lab T rab T rrr ee 11 ][][ − × − × − HAH T lll T ee 因两幅图像间的基本矩阵为 × −= ][ l THF e ,所以, T rrr T l AsFFA × − × − = ][][ 11 ee (5.4.1) 这里,显式地写出了齐次因子 s。 图 5.4.1:二次曲线的极切线。 Kruppa 方程 由于绝对二次曲线在两个视点下的像曲线分别为 11, −−−− ′′=′= KKKK TT ϖϖ ,所以将它们代入式 (5.4.1)得到 DIAC 的约束方程: T r * r T* sFF ×× ′= ][][ ee ϖϖ (5.4.2) 通常称这个方程为 Kruppa 方程。不难看出,Kruppa 方程的标量因子 s 必是非零正数。 根据基本矩阵 F 的秩为 2 的性质,F 的 SVD 分解必有下述形式: F=UDVT=U )0,,( 21 σσdiag VT 其中 u3 和 v3 满足 FTu3=0 和 Fv3=0 ,即极点 le=v3 和 re =u3。将它们代入式(5.4.2)得到: rA lA aπ bπ ral lbl lal rbl le re A www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 119 [u3]× *ϖ ′ [u3]×=UDVTϖ *(UDVT )T (5.4.3) 对上式左乘以 UT 并且右乘以 U,根据 U 的正交性,方程(5.4.3)的两边分别化为: UT[u3]× *ϖ ′ [u3]×U = )0,,( 12 uu − T *ϖ ′ )0,,( 12 uu − = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′− ′−′ 000 0 0 1121 2122 uuuu uuuu *T*T *T*T ϖϖ ϖϖ DVT *ϖ VD=diag(0,, 21 σσ )VT *ϖ V diag(0,, 21 σσ )= ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ 000 0 0 22 2 22121 212111 2 1 vvvv vvvv *T*T *T*T ϖσϖσσ ϖσσϖσ 因此,有 ⎟⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎝ ⎛ ′ ′− ′ 11 21 22 uu uu uu *T *T *T ϖ ϖ ϖ ⎟⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎝ ⎛ = 22 2 2 2121 11 2 1 vv vv vv *T *T *T s ϖσ ϖσσ ϖσ 消去上式标量因子 s 后,可知 Kruppa 方程(5.4.1)等价于下述两个二次方程: 11 22 uu uu *T *T ϖ ϖ ′ ′ 22 2 2 11 2 1 vv vv *T *T ϖσ ϖσ= , 11 22 uu uu *T *T ϖ ϖ ′ ′ 222 211 vv vv *T *T ϖσ ϖσ−= (5.4.4) Kruppa 方程是对 DIAC 的约束,它与场景的几何结构无关,仅依赖于两个视点的极几何。每个 Kruppa 方程仅能提供关于 DIAC 的 6 个未知参数的两个独立约束。 因此,给定三幅视图并已知每 对视图之间的基本矩阵时,一般可得到 6 个二次约束。如果摄像机内参数在运动过程中保持不变, 则这 6 个二次约束能够确定 *ϖ ,从而能获得摄像机内参数。如果没有摄像机内参数的知识,则不 论多少幅图像都无法确定摄像机内参数,见第 5.5 节的讨论。 值得指出的是:在纯平移情形下,式(5.4.1)变为[ re ]×ϖ *[ re ]×=[ re ]×ϖ *[ re ]× ,它是一个恒等 式。因此纯平移运动的 Kruppa 方程不能对内参数构成约束。 5.4.2 由 Kruppa 方程求焦距 两幅图像的 Kruppa 方程至多能提供内参数的两个约束,下述命题在两个摄像机的畸变因子为 零,并且像素的纵横比等于 1 的情况下,给出了由主点表示焦距的显式表达式。它的重要性在于当 主点已知时,可以利用它直接计算焦距。 命题 5.4.1 假定两个摄像机的畸变因子为零,并且像素的纵横比等于 1,即左、右摄像机内参数 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 120 矩阵有下述形式: ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 100 0 0 0 0 vf uf K , ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′′ ′′ =′ 100 0 0 0 0 vf uf K 则可由 Kruppa 方程计算出焦距: '][' ']['2 pep pppep T r T TT r T FIFI FFIf × ×−= (5.4.5) pep pppep FIFI FFIf T l T TT l T × × ′′−=′ ][ ][2 (5.4.6) 其中, TvudiagI )1,,(),0,1,1( 00== p , Tvu )1,,( 00 ′′=p' 。 证明 由于两个摄像机的畸变因子为零,并且像素的纵横比等于 1,所以两个视点的 DIAC 可分 别表示成 T* If pp+= 2ϖ , T* If pp ′′+′=′ 2ϖ 将它们代入 Kruppa 方程,我们有 TT r T rr TTT sIfsFFFIFf ×××× ′′+′=+ ][][][][22 eppeeepp 两边同时右乘以主点 Tvu )1,,( 00 ′′=p' ,可得 '][]['' 22 peepppp T rr TTT IfsFFFIFf ××′=+ 两边再同时左乘以 Ir T ×][ep' ,可知 pppeppep ′′+′′ ×× TT r TT r T FFIFIFIf ][][2 ( ) 0][][][2 =′′′= ××× peeep T rrr T IIfs 因此,我们得到 '][' ']['2 pep pppep T r T TT r T FIFI FFIf × ×−= 类似地,可推知: pep pppep FIFI FFIf T l T TT l T × × ′′−=′ ][ ][2 证毕。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 121 5.5 绝对二次曲线与摄像机内参数 5.5.1 基本约束方程 无穷远单应矩阵 H∞是无穷远平面 π∞诱导出的两幅图像间的二维射影变换,由二次曲线的射影 变换规则,两个视点下的 IAC{ ϖϖ ′, }必满足下述关系: ϖ ′ = s 1− ∞ − ∞ HH Tϖ (5.5.1) 这里显式地写出了齐次因子 s。这样,就得到了 IAC 的约束方程。 对(5.5.1)两边求逆,有 *ϖ ′ = THuH ∞∞ *ϖ (5.5.2) 其中齐次因子 u=1/s。这是关于 DIAC 的约束方程。 不难看出,约束方程(5.5.1)与(5.5.2)是相互等价的。这两个约束方程是摄像机自标定中重要的约 束关系,同时也是由仿射重构提升到度量重构的基础。一旦确定了ϖ 或 *ϖ ,利用(5.5.1)或(5.5.2), 可以确定ϖ ′ 或 *ϖ ′ ,再对它们进行 Cholesky 分解就可以得到 K 和 K′ 。 对于两个视点,不论是 IAC 约束还是 DIAC 约束,在摄像机内参数不变的情况都至多能提供内 参数的 4 个独立约束。因此,至少需要三个视点才可能确定摄像机的 5 个内参数,但求解方法是线 性的。在变化内参数情况下,对于每对视点,不论是 IAC 约束还是 DIAC 约束,都至多能提供内参 数的 5 个独立约束,每增加一个视点会增加关于摄像机的 5 个新参数,因此如果没有内参数或其它 的先验知识,不论使用多少幅图像,都不可能确定所有摄像机的内参数。 5.5.2 变化内参数 在这种情况下,由于每个形如(5.5.1,5.5.2) 的方程至多能提供内参数的 5 个独立约束。正如上 面所述,如果没有关于内参数的一些先验知识,无法确定摄像机的所有内参数。因此,本节主要讨 论在已知某些有关内参数知识的情况下,如何标定变参数的摄像机。 基本原理 将第 j 个摄像机的 IAC 或 DIAC 元素的约束关系,通过式(5.5.1,5.5.2)传递给第 1 个 摄像机的 IAC 或 DIAC,从而得到第 1 个摄像机的 IAC 或 DIAC 的约束。当视点足够多时,可得到 第 1 个摄像机 IAC 或 DIAC 的足够多约束,于是可求解第 1 个摄像机的 IAC 或 DIAC,再通过式(5.5.1) 或(5.5.2)得到其它摄像机的 IAC 或 DIAC。 假定有 n 个视点,无穷远平面关于第 1 个视点与第 j 个视点间的单应矩阵记为 ∞jH ,第 j 个视点 的 IAC 和 DIAC 矩阵分别记为 jϖ 和 * jϖ 。先考虑 IAC 约束,由(5.5.1),有 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 122 jϖ = js 1− ∞ − ∞ j T j HH ϖ , j=2,3,...,n (5.5.3) 其中:ϖ 是第 1 个摄像机的 IAC。 记 ))(( )( cj klg = 1− ∞ − ∞ j T j HH ϖ ,其中 11 12 13 22 23 33(, , , , , )Tϖϖϖϖϖϖ=c 。于是,有 js′ jϖ = ))(( )( cj klg , j=2,3,...,n (5.5.4) 其中 1−=′ jj ss 。显然, )()( cj klg 均为 c 的线性函数。 畸变因子为零 当摄像机的畸变因子为零时,可知第 j 个摄像机的 IAC 矩阵 jϖ 元素 0)( 12 =jϖ ,由(5.5.4)式,有 0)()( 12 =cjg , j=2,3,...,n (5.5.5) 这样,就有关于 c 的齐次线性约束方程组。当 n ≥ 6 时可以确定 c,从而确定了ϖ ,将它代入(5.5.1) 式,就得到了 jϖ 。 主点在原点 当摄像机的主点在原点时,可知 0)()( 2313 == jj ϖϖ ,于是根据(5.5.4)式得到 c 的齐次线性约束方程组: 0)()( )( 23 )( 13 == cc jj gg ,j=2,3,...,n (5.5.6) 已知摄像机的畸变因子为零并且已知像素的纵橫比 假定第 j 个摄像机像素的纵橫比 u v j f fr = , 可以知 11 2 22 )()( jjj r ϖϖ = ,于是根据(5.5.4)式得到 c 的齐次线性约束方程组: 0)()( )( 11 2)( 22 =− cc j j j grg , 0)()( 12 =cjg ,j=2,3,...,n (5.5.7) 已知摄像机的畸变因子为零并且每个摄像机像素纵橫比相同(但未知) 根据上面的类似讨论, 可得到 c 的约束方程组: 0)()( 12 =cjg ,j=2,3,...,n; 0)()()()( )1( 11 )( 22 )1( 22 )( 11 =− cccc gggg jj ,j=3,4,...,n (5.5.8) 注意,后一组约束方程是非线性的。 对于 DIAC,可以作类似的分析。 5.5.3 恒定内参数 如果内参数是恒定的,即 * jϖ = *ϖ , j=1,…,n,那么 *ϖ 的约束方程(5.5.2)变成为 *ϖ = jη T jj HH ∞∞ *ϖ ,j=1,…,n (5.5.9) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 123 与变参数的情况不同,这里的齐次因子 jη 可以不通过求解方程(5.5.9)而事先确定。事实上,对(5.5.9) 两边取行列式,就可以得到 2 3 )det( 1 ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ = ∞j j H η (5.5.10) 令 3 )det( ∞ ∞ ∞ = j j j H H H ,则 1)det( =∞jH 且 (5.5.9)变为 T jj HH ∞∞= ** ϖϖ 。这就是说,事先将 ∞H 的行 列式规一化 1)det( =∞H ,方程(5.5.9)总可写成下面的形式: T j * j * HH ∞∞= ϖϖ (5.5.11) 式(5.5.11)构成关于对称矩阵 *ϖ 的 6 个元素的 6 个线性约束方程,将这 6 个方程写成齐次线性形式: Ac*=0 (5.5.12) 其中 A 是由 Hj∞的元素组成的一个 6×6 矩阵, 而 c*是二次曲线 *ϖ 构成的 6 维向量。c*不能由单个 这样的方程组所唯一确定,因为此时 A 的秩最多为 4。如果将 n≥2 对视点所对应的线性约束方程 (5.5.12)联立起来, 使得 A 是一个 6n×6 的矩阵,并且视点之间的旋转具有不同的旋转轴,则在一般 情况下 c*能被唯一确定。 5.5.4 两幅图像求解尺度因子 下面给出两个视点在畸变因子为零且主点已知时的求解尺度因子的计算公式。 命题 5.5.1 已知两个视点的畸变因子为零,则有下述求解尺度因子 vuvu ffff ′′ ,,, 的计算公式: 2 uf ′ )(~ )~~)(( 2113 13121 hhpeh ppehphhhp × ′−×′= TT TTTT , 2 vf ′ )(~ )~~)(( 2123 23221 hhpeh ppehphhhp × ′−×′= TT TTTT , )(~ )~~)(( 2113 131212 ggepg pepgpgggp ×′ ′−×= TT TTTT uf , )(~ )~~)(( 2123 232212 ggepg pepgpgggp ×′ ′−×= TT TTTT uf 其中: TT vuvu )1,,(,)1,,( 0000 ′′=′= pp 分别为第 1 个和第 2 个摄像机的主点; jh , jh~ 分别为 H∞的 第 j 列 和 第 j 行向量; jg , T jg~ 分别为 1− ∞H 的第 j 列 和 第 j 行向量; T)0,0,1(1 =e , ,)0,1,0(2 T=e T)1,0,0(3 =e 。 证明 根据假定,两个摄像机的 DIAC 矩阵可表示为 T vu T vu ffdiagffdiag pppp ′′+′′=′+= )0,,(,)0,,( 2222 ϖϖ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 124 将上式代入(5.5.2),有 )()0,,( 22 2 11 222 TTT v T u T vu HHffffdiag ∞∞++=′′+′′ pphhhhpp η 用向量 )( 21 hh × 右乘上式两边,得到 )()())(0,,( 212121 22 hhpphhpphh ×=×′′+×′′ ∞∞ TTT vu HHffdiag η 而 )det( )( 0 0 )( 213 21 ∞∞ = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ × =× HH T TTT hhh phhp ,所以, phhpphh ∞∞=×′′+×′′ HHffdiag T vu )det()())(0,,( 2121 22 η (5.5.13) 显然, 2 21121 22 1 )())(0,,( u T vu T fffdiag ′×=×′′ hhehhe 2 21221 22 2 )())(0,,( v T vu T fffdiag ′×=×′′ hhehhe 0))(0,,( 21 22 3 =×′′ hhe vu T ffdiag 用 T 3e 左乘式(5.5.13),有 pehhppe ∞∞=×′′ HH TTT 3213 )det()( η ph hhp pe hhppe T T T TT HHH 3 21 3 213 ~)det( )( )det( )( ∞∞∞ ×′=×′′=η 用 T 1e 左乘(5.5.13)式,并由上式,可得到 pehhppehhe ∞∞+×′′−=′× HHf TTT u T 1211 2 211 )det()()( η )( )()det( 211 21112 hhe hhppepe × ×′′−=′ ∞∞ T TTT u HHf η )(~ )~~)(( 2113 13121 hhpeh ppehphhhp × ′−×′= TT TTTT 同理,用 T 3e 左乘(5.5.13)式,可以得到 2 vf ′ )(~ )~~)(( 2123 23221 hhpeh ppehphhhp × ′−×′= TT TTTT 用类似的方法,可求出 vu ff , : )(~ )~~)(( 2113 131212 ggepg pepgpgggp ×′ ′−×= TT TTTT uf www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 125 )(~ )~~)(( 2123 232212 ggepg pepgpgggp ×′ ′−×= TT TTTT uf 证毕。 该命题的重要性在于,两个摄像机的尺度因子都可以表示为主点的显函数。当主点已知时,可 由它们计算出尺度因子。 5. 6 绝对二次曲面与摄像机内参数 5. 6.1 绝对二次曲面约束 基本约束方程 由命题 3.2.8 和 3.2.9,绝对二次曲面 * ∞Q 的投影是 DIAC,即 s *ϖ =P * ∞QPT (5.6.1) 式(5.6.1)就是基于绝对二次曲面的自标定的基本约束方程*),在这里齐次因子 s 被显式给出。 基于绝对二次曲面 * ∞Q 的自标定的基本思想与基于绝对二次曲线是类似的,即通过(5.6.1)式中的 摄像机矩阵 P 把ϖ *上的约束转换到 * ∞Q 上的约束。一旦得到 * ∞Q 在当前射影坐标系下的矩阵表示后, 反过来再通过式(5.6.1)就可得到ϖ *中的未知参数,从而能标定出摄像机的所有内参数。因此,基于 * ∞Q 的自标定的关键是确定绝对二次曲面在当前射影坐标系下的矩阵表示。由于绝对二次曲面 * ∞Q 有 8 个自由度,因此需要关于它的 8 个约束方程才能非线性求解,这里的非线性是由于使用了 * ∞Q 的退 化性质即它的行列式等于零的约束。如果要想线性求解 * ∞Q ,则至少需要 8 个以上的线性约束。因此, 基于绝对二次曲面的自标定通常被用于图像序列。 变化内参数 在变化内参数的情况下,通常都是直接由内参数元素的约束来估计 * ∞Q ,再根据基本约束方程 (5.6.1)得到摄像机内参数矩阵。 在摄像机都有零畸变因子的情况下,可得到 * jϖ 元素之间如下约束 13 * 23 * 33 * 12 * )()()()( jjjj ϖϖϖϖ = *) 基本约束方程中的投影矩阵是射影意义下的摄像机矩阵,对于多幅图像可使用点对应进行计算。如给定两幅 图像,可利用基本矩阵进行计算,见 4.4 节;给定 3 幅图像,可利用三焦张量进行计算,见 12.2 节;给定 3 幅 以上的图像,可应用矩阵分解方法进行计算,见 11.3 节。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 126 这导致关于 * ∞Q 的一个二次方程: 13 * 23 * 33 * 12 * )()()()( T jj T jj T jj T jj PQPPQPPQPPQP ∞∞∞∞ = (5.6.2) 从 n 幅图像中,可以得到 n 个二次方程。然而,还有一个另外的约束方程 det * ∞Q =0 能被使用,因为 绝对二次曲面是退化的。由于 * ∞Q 是对称的,从而有 10 个齐次线性参数,即位于对角线及其上方的 10 个元素。因此,在仅知摄像机有零畸变因子的情况下,至少需要 8 幅图像才有可能非线性地计算 出 * ∞Q 。 在已知摄像机的主点的情况下,可以选择图像坐标系的原点与主点相重合,即 u=0,v=0。由此 可得到: 0)()( 23 * 13 * == jj ϖϖ ,于是由基本约束(5.6.1)可得到两个线性约束方程: 0)()( 23 * 13 * == ∞∞ T jj T jj PQPPQP (5.6.3) 将 * ∞Q 的 10 个元素用一个 10 维向量 q 表示,按通常方法将 * ∞Q 的线性方程(5.6.3)组合在一起,形成 一个形如 Aq=0 的线性方程。对于每幅图像,(5.6.3)的两个方程提供矩阵 A 的两行。从 5 幅图像总共 得到 10 个方程,由此得到一个线性解。这个线性解可通过 SVD 分解得到(见 8.4 节)。从 4 幅图像 所产生的 8 个方程,它的解是单参数簇。于是,由条件 det * ∞Q =0 所给出的 4 次方程可知 * ∞Q 至多有 四个解。 如果除了已知主点外,还知道像素的长宽比并且畸变参数为零,也就是说仅在焦距未知的情况 下,可知每个图像有 4 个关于 * ∞Q 的线性约束。在有两幅图像时,可导致 8 个线性约束,再利用约束 det * ∞Q =0,则 * ∞Q 至多有四个解。如果有三幅图像,则能唯一线性求解 * ∞Q 。 恒定内参数 如果所有摄像机的内参数是相同的,即对于所有的 i 和 j 有 ** ji ϖϖ = 。此时关于绝对二次曲面的 约束方程化为 T jjij T ii PQPsPQP ** ∞∞ = (5.6.4) 消去齐次因子后,可得到关于 * ∞Q 的五个二次方程。于是给定三幅图像, 总共能产生 10 个方程。因 此,在恒定内参数的情况下,给定三幅图像可非线性求解 * ∞Q 。 5.6.2 自标定约束的等价性 基于 Kruppa 方程的约束、基于绝对二次曲线和基于绝对二次曲面的约束是摄像机自标定的三种 重要方法,现在讨论它们之间的关系。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 127 基于 * ∞Q 与 ∞Ω 约束的等价性 假定各个视点的摄像机矩阵为 ()0,0 IP = , ( )jjj HP a,= ,j=0,1,2,…,n (5.6.5) 其中,视点 0 作为参考视点,它的内参数记为 K,相应的 DIAC 记为 *ϖ 。第 j 个视点的内参数记为 Kj,相应的 DIAC 记为 * jϖ ,则有基于绝对二次曲面的约束方程: js * jϖ =Pj * ∞Q Pj T,j=0,1,2,…,n (5.6.6) 这里 * 0ϖ = *ϖ 。 如果{P0 ,Pj}的射影坐标系到欧氏坐标系的变换是 1−H ,则必有 =∞ *Q H I~ HT。取欧氏坐标系与参 考视点的摄像机坐标系重合,则必有 ( )0,0 IP = H= ( )0,K ,所以 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 1T KH v 0 。于是, =∞ *Q ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ 1)( T T K KKK v v 并且无穷远平面 ∞π 在当前射影坐标系下的坐标为 ∞π = ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛−=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −−− − 11101 v0v0 TTT T KKKH 令 vp TK −−= ,则 (,1)TTπ ∞ = p , pv TK−= 。于是, =∞ *Q ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ 1)( T T K KKK v v ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − −= 1)( TT TT KK KKKK p p ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − −= 1)( * ** Tp p ϖ ϖϖ 将上式代入(5.6.6)式,得到 T jjTjjjj HHs ),( 1)( ),( * ** * a p pa ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − −= ϖ ϖϖϖ TT jj *T jj HH )()( papa −−= ϖ 即, T jjjj HHs )(** ∞∞= ϖϖ 这样,就得到了基于绝对二次曲线的自标定约束方程。反向推导也成立。因此,基于绝对二次曲线 与绝对二次曲面的约束是等价的。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 128 基于 * ∞Q 约束与 Kruppa 方程约束之间的关系 由于从绝对二次曲线约束可推出 Kruppa 方程约束,而绝对二次曲面约束与绝对二次曲线约束等 价,所以由绝对二次曲面约束可导致 Kruppa 方程约束。但是,从下面的讨论将看出从 Kruppa 方程 约束不能导致绝对二次曲面约束,它们之间的差别仅在二次曲面的退化性约束。 假定有 N 幅图像。由这 N 幅图像可导致 2/)1( −NN 个 Kruppa 方程所构成的方程组: T ijjijij T ijiij sFF ××= ][][ ** ee ϖϖ , Nji ≤<≤1 (5.6.6) 其中: ijF 是第i 幅图像与第 j 幅图像的基本矩阵; ije 是第i 幅图像关于第 j 幅图像的极点,即第i 个 摄像机的光心在第 j 幅图像上的投影; ijs 是未知的非零常数因子; T jjj KK=*ϖ 是第 j 个摄像机的 DIAC。 令 iP 是第 i 幅图像的射影意义下的摄像机矩阵,即 ( )0,1 IP = , ( )iii HP 11 , e= 其中 H1i 是第一幅与第 i 幅图像关于某个空间平面π 的单应矩阵, i1e 是第一幅图像关于第 i 幅图像 的极点。可以通过 N 幅图像的射影重构得到它们。于是,第一幅图像与第 i 幅图像之间的基本矩阵 为 iii HF 111 ][ ×= e 显然,第i 幅图像的光心在第 j 幅图像的极点可以表示为 iijjij HH 1 1 111 eee −−= , 1, ≠≠ iji 第 ji, 幅图像关于平面π 的单应矩阵可以表示为 1 11 −= ij HHH ij , 1, ≠≠ iji 所以,第 ji, 幅图像之间的基本矩阵为 1 11][ − ×= ijijij HHF e 将上述特定 ijF , ije 代入(5.6.6)得到 Kruppa 方程的特定形式,并称它为一致化 Kruppa 方程组。 不仅能证明一致化 Kruppa 方程与一般 Kruppa 方程是等价的,而且还能进一步得到下述命题: 命题 5.6.1 一致化 Kruppa 方程组与下述方程组等价: NiH ss sHs T iiTiiii ,...,3,2,),( 2)( ),( 2 2 * 1* 1 =⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − −= e ga gae ϖϖ (5.6.7) 其中: 12 1 122 eg −= H ; a 是未知的三维向量,s 是未知标量。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 5 章:自标定理论 129 这个命题的证明是相当复杂的,这里从略。 记 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − −= ss sQ T 2)( 2 2 * 1* ga gaϖ ,则它是三维空间中的二次曲面,并且(5.6.7)可化为 T iiiiii HQHs ),(),( ** 1 ee=ϖ , Ni ..2,1= (5.6.8) 式(5.6.8)的几何意义为: * iϖ 是二次曲面 *Q 在第 i 幅图像上的投影。而基于绝对二次曲面 * ∞Q 的约束 是 T iiiiii HQHs ),(),( ** ee ∞=ϖ , Ni ..2,1= , (5.6.9) 且绝对二次曲面 * ∞Q 满足退化性约束 0det =∞Q 。 从上面的讨论可以看出:Kruppa 方程约束与绝对二次曲面 * ∞Q 约束之间的差别仅在于二次曲面 的退化性约束。事实上,如果在(5.6.8)中增加约束 0)det( * =Q ,则必有 2eH aa aa 1 2 * 1* 12 2 −+= ϖ ϖ T , 2 * 1 aa ϖT s = 从而有 * * 1 * 1 * 1 * 1 2 2 * 1* )(2)( ∞=⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ =⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − −= Q ss sQ TTT aaa a ga ga ϖϖ ϖϖϖ 代入式(5.6.8)就得到绝对二次曲面 * ∞Q 约束(5.6.9)。 Kruppa 方程约束的独立数 给定 N 幅图像,Kruppa 方程关于摄像机内参数能构成多个独立的约束?对此,有下述结论: 命题 5.6.2 假定摄像机的运动为一般运动,且 5 个内参数都是变化的。对于 N 个视点的图像, 我们有: (1) Kruppa 方程关于摄像机内参数的独立约束数为 5N-9; (2) 绝对二次曲面(或绝对二次曲线)关于摄像机内参数的独立约束数为 5N-8。 该命题的证明沉长而复杂,我们略去证明。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 130 6.三维重构理论 如何从图像点恢复与它对应的空间点在世界坐标系中的坐标,称为三维重构问题,它是三维计 算机视觉中的核心问题。摄像机投影变换是从三维空间到二维平面的(退化)射影变换,无法从空间 景物的单幅图像得到它的几何结构。事实上,图像点的反投影射线上的任何空间点的投影都与该图 像点重合,因此不能确定与图像点对应的空间点的确切位置。所以,重构问题的确切描述是:从空 间景物的两幅图像或多幅图像恢复景物的几何结构。在已知摄像机矩阵的情况下(通常也称为图像是 已标定的),重构的基本方法是所谓的三角原理。本章主要讨论未标定图像的三维重构问题。从未标 定图像重构三维物体,主要方法是分层重构方法:首先从图像获得三维物体的射影结构(即射影重 构),然后利用先验知识(摄像机的运动或景物几何结构知识)由射影重构获得三维物体的仿射结构(即 仿射重构),最后进一步利用先验知识由仿射重构获得三维物体的度量结构(即度量重构)。本章主要 目的是应用射影几何来建立三维重构的理论。对于射影重构,不需要图像以外的知识,仅从图像就 能获得。对于仿射重构,如果摄像机在运动过程中保持内参数不变的话,理论上由射影重构能获得 仿射重构,不仅如此,在这种情况下还能得到度量重构;如果对摄像机内参数的知识一无所知的话, 必须利用摄像机的某种运动信息或景物的某种几何结构信息才能获得仿射重构。那么,究竟需要何 种知识才能得到仿射重构呢?本章研究表明,仿射重构、确定无穷远平面在射影重构坐标系的坐标 以及确定无穷远单应矩阵三者是相互等价的,因此仿射重构所需要的知识是足以确定无穷远平面或 无穷远单应矩阵的知识。对于度量重构,它与确定绝对二次曲线、确定绝对二次曲面、确定摄像机 内参数是相互等价的,因此度量重构所需要的知识是足以能确定摄像机内参数的知识,或确定绝对 二次曲线的知识,或确定绝对二次曲面的知识。 6.1 三角原理 给定两幅图像在同一世界坐标系下的摄像机矩阵 P 和 P′ , mm ′↔ 是两幅图像的一个点对应, 即它们满足极几何约束 0=′ mm T F ,现在要根据 P 和 P′ 计算点对应 mm ′↔ 的空间点。正如第 3 章 所指出,m 的反投射线 )(b ml 与 m′ 的反投射线 )(b m′l 确定了通过两摄像机光心的一张平面 pπ ,即一张极 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 131 平面,所以两条反投影线 )(b ml , )(b m′l 必相交于一个空间点。也就是说,对应点的反投射线与两个摄像 机的基线构成一个三角形,这个三角形的顶点是两个摄像机的光心和两条反投影线的交点,这个交 点正是我们要确定的空间点,如图 6.1.1 所示。 图 6.1.1:三角原理:空间点是图象点 x 和 x’反向投影射线的交点。 唯一例外的情况是,三维空间中在两个摄像机基线上的点不可能由它们的图像点对应(两幅图像 上的极点)而得到恢复,因为在这种情况下,两条反投影的射线与基线重合,所以空间点不能唯一确 定。 空间点的重构可用下述方法来实现:令 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′ ′ =′ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = T T T T T T PP 3 2 1 3 2 1 , p p p p p p (6.1.1) 分别是两幅图像的摄像机矩阵。若 TT vuvu )1,,()1,,( ′′=′↔= mm 是一个点对应,则它们的反投射线 在世界坐标系中的方程分别为 ⎪⎩ ⎪⎨ ⎧ =− =− 0 0 31 32 XpXp XpXp TT TT u v (6.1.2a) ⎪⎩ ⎪⎨ ⎧ =′′−′ =′′−′ 0 0 31 32 XpXp XpXp TT TT u v (6.1.2b) X m′ e′ C′ pπ )(b m′l C e m )(b ml www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 132 这里 X 是空间点的齐次坐标。根据三角原理,点对应 m ↔ m′ 的空间点 X 是下述方程的解: 0 31 32 31 32 = ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′′−′ ′′−′ − − X pp pp pp pp TT TT TT TT v v u v (6.1.3) 因此,通过求解这个线性方程可确定空间点 X。 三角原理的重构结果,是否为空间景物的欧氏结构取决于摄像机所处的世界坐标系。也就是说, 如果世界坐标系是欧氏的,则重构结果是空间景物的欧氏结构;否则如果世界坐标系是仿射的(或射 影的),则重构结果是空间景物的仿射结构(或射影结构)。 6.2 基本矩阵与射影重构 由上节讨论可知,从图像得求解摄像机在同一世界坐标系下的投影矩阵,构成三维重构的关键 关问题。在摄像机内参数和运动参数都未知的情况下,极几何约束是两幅图像间的唯一约束,从第 3 章可知这个约束可由基本矩阵 F 来代数刻画,并且可以由下述方法构造相应的摄像机矩阵。令 HF ×′= ][e 是基本矩阵 F 的一个分解,对应两幅图像的典型摄像机矩阵对是 ),(~),,(~ e0 ′=′= HPIP (6.2.1) 这样,根据三角原理由图像点对应就能获得景物的几何结构。但这个结构一般是景物在某个影射空 间中的结构,即景物的射影结构。因此,在理论上,从两幅图像的点对应就能得到空间景物的射影 结构,而不需要任何有关摄像机内参数和相对运动以及空间景物结构等信息。 由于人们总是习惯在三维欧氏空间中描述物体,所以希望在获得景物射影结构的基础上给出景 物的欧氏结构。由命题 4.4.6,与摄像机矩阵对(6.2.1)射影相关的所有摄像机矩阵对均可表示为 11 ),(~,)0,(~ −− ′=′= MHPMIP e (6.2.2) 其中,M 为 4 阶可逆矩阵,而 X ′ =MX 表示三维空间点的射影变换。因欧氏坐标系是一种特殊的射 影坐标系,因此对应于欧氏坐标系的摄像机矩阵必包含在(6.2.2)之中,即存在射影变换 M 使得式 (6.2.2)是某个欧氏坐标系下的摄像机矩阵对。如何求解这样的射影变换 M?这一问题可以分层解决, 即先求解使得式(6.2.2)为某个仿射坐标系下摄像机矩阵对的射影变换 M,得到景物的仿射结构,然 后在仿射结构的基础上,求解一个仿射变换 M 使得式(6.2.2)为某个欧氏坐标系下的摄像机矩阵对, www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 133 从而最终获得景物的欧氏结构。然而,在摄像机内参数和运动参数都未知的情况下,是无法获得这 样的射影(或仿射)变换 M,那么在什么条件下能够求解出这样的射影变换 M?这就是以后各节所要 讨论的主题。 6.3 无穷远平面与仿射重构 定义 6.3.1 令 tt PP ′, 观察三维欧氏空间点集 }{ )(t jX 的实际摄像机对,并记为 }]{,,[ )(t jtt PP X′ ,它们 观察空间点 }{ )(t jX 所得到的图像点对应记为 }{ jj mm ′↔ 。设 }]{,,[ jPP X′ 是由图像点对应 }{ jj mm ′↔ 所得到的一个三维重构,如果存在仿射变换 A 使得 j t jt AAPPAP,P XXt =′=′ −− )(11 ),,()( 则称 }]{,,[ jPP X′ 为仿射重构,并记为 }]{,,[ )( A jAA PP X′ 。 仿射重构 }]{,,[ )( A jAA PP X′ 中的点 }{ )( A jX 是三维仿射空间中的点,它由摄像机对[ AA PP ′,]和图像点 对应 }{ jj mm ′↔ 唯一确定,因此有时也简称摄像机对[ AA PP ′,]为仿射重构,并且称重构所在的仿射 坐标系为仿射重构坐标系。 定理 6.3.1(仿射重构定理) 令 }]{,,[ jXPP ′ 是景物的一个射影重构,则三维射影变换 H 使得 }]{,,[ 11 jHHH XPP −− ′ 为仿射重构的充要条件是 H 具有下述形式: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= w AH Tp b (6.3.1) 其中 TTp w),()( p=∞π 为无穷远平面在射影重构坐标系下的坐标。 证明 必要性:因为仿射重构空间与欧氏空间相差一个仿射变换,即空间点的仿射重构坐标与它 的欧氏坐标之间满足一个仿射变换,并且仿射变换是保持无穷远平面不动的,所以,无远穷远平面 在仿射重构空间中的坐标必为 Tt )1,0,0,0()( =∞π 。于是,根据平面的射影变换规则,立即得到: TtTTTp Hw 4)()( ),( hp === ∞∞ ππ ( 4h 表示 H 的第 4 行向量) 因此,H 必有(6.3.1)的形式。 充分性:由于射影变换 H 使得 )()( ),( pTTtT wH ∞∞ == ππ p 所以, TTtpTH )1,()()( 0== ∞∞ − ππ ,即 H 将无穷远平面在射影重构空间中的坐标 TTp w),()( p=∞π 变换为 Tt )1,0,0,0()( =∞π 。于是,无穷远平面在重构 }]{,,[ 11 jHHH XPP −− ′ 坐标系下和在欧氏坐标系下有相 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 134 同的坐标 Tt )1,0,0,0()( =∞π 。这表明重构 }]{,,[ 11 jHHH XPP −− ′ 坐标系与欧氏坐标系之间满足一个仿 射变换,因此它是一个仿射重构。证毕。 定理 6.3.1 表明,从射影重构确定仿射重构与在射影重构空间中确定无穷远平面的射影坐标是等 价的。 例 6.3.1 令 ),(),,( e0 ′=′= APIP 是一个射影重构,无穷远平面在这个重构空间中的坐标为 TTp )1,()( p=∞π ,取 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 1T IH p 0 则 ),(),,( 11 epe0 ′′−=′= −− TAHPIPH 是一个仿射重构。由于 TAH pe′−=∞ 是无穷远单应矩阵,因 此这个例子说明一旦知道无穷远单应矩阵,就可以得到一个仿射重构。事实上仿射重构与确定无穷 远单应矩阵也是等价的。 定理 6.3.2 确定仿射重构与确定无穷远单应矩阵 ∞H 是等价的。 证明 令摄像机对 P=(A, b), ),( b′′=′ AP 是一个仿射重构,下面证明无穷远单应矩阵 1− ∞ ′= AAH 。因为无穷远平面上的点 X=(xT, 0) T,在第一个摄像机下的图像点是 m=Ax,在第二个摄 像机下的图像点是 xm A′=′ ,因此对于无穷远平面上的点 X,在两幅图像上的点对应 m ↔ m′ ,有 mm 1−′=′ AA 。所以, 1− ∞ ′= AAH 。 反之,若无穷远单应矩阵 1− ∞ ′= AAH ,证明摄像机对 P=(A, b), ),( b′′=′ AP 是一个仿射重构。 对这个摄像机对作仿射变换: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 1T AH 0 b 得到 1−PH =(A, b) H 1− =( I, 0), 11 ),( −− ′′=′ HAHP b ),(),( 11 ebb ′=′+′′= ∞ −− HAAAA 由例 6.3.1,摄像机对[PH 1− , P′ H 1− ]是一个仿射重构。因此,摄像机对[P, P′ ]也是一个仿射重构。证 毕。 推论 6.3.1 摄像机对 ),(),,( e0 ′=′= APIP 为仿射重构的充要条件是 ∞H = A。 定理 6.3.1 和 6.3.2 表明,如果能确定无穷远平面在射影重构空间中的射影坐标,或无穷远单应 矩阵,则从射影重构就可以确定仿射重构,因此确定无穷远平面的射影坐标或它的单应矩阵就构成 了由射影重构确定仿射重构的关键问题。如果没有摄像机的知识(包括内参数和运动)或埸景结构的 知识作为约束条件,则无法从射影重构,或者说从图像(因为射影重构仅需要图像点对应),所提供 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 135 的信息来确定无穷远平面的射影坐标或它的单应矩阵。 例 6.3.2 利用平行性由射影重构确定仿射重构。 平行直线 平行性是仿射变换的不变性质,因此可以通过景物中的平行直线来确定景物的仿射 重构。空间两条平行直线的交点是无穷远平面上的点,该交点的图像是这组平行线的隐消点,而且 是两条像直线的交点。如果在场景中能够确定不在同一平面上的不同方向上的三组平行直线,则通 过这三组平行直线可得到无穷远平面上的三个不同点。又因三点决定一平面,故这个信息足够决定 无穷远平面。因此,由射影重构我们能确定仿射重构。 平行平面 空间两个平行平面的交线是无穷远平面上的直线,该直线的图像是平行平面的消影 线。隐消线可以通过下述方法来计算:记两个平行平面的单应矩阵分别为 H1,和 H2,平行平面在 两幅图像上的隐消线分别记为 l 和 l′ ,则必有 lll TT HH −− =′= 21 ,因此 ll =−TT HH 12 ,即隐消线 l 是 TT HH − 12 的一维特征子空间,同样 l′ 是 TT HH − 21 的一维特征子空间。并且这样的特征子空间是唯一的 *)。于是分别求解 TT HH − 12 , TT HH − 21 的单重特征值的特征向量可确定隐消线 l 和 l′ 。 当已知两组不 平行的平行平面时,通过这两组平行平面所确定两个(消隐)线对应,就可以在射影重构的基础上确 定无穷远单应矩阵,因此由推论 6.3.1 就可以确定仿射重构。 6.4 绝对二次曲线与度量重构 定义 6.4.1 令 tt PP ′, 观察三维欧氏空间点集 }{ )(t jX 的实际摄像机对,并记为 }]{,,[ )(t jtt PP X′ ,它们 观察空间点 }{ )(t jX 所得到的图像点对应记为 }{ jj mm ′↔ 。设 }]{,,[ jPP X′ 是由图像点对应 }{ jj mm ′↔ 所得到的一个三维重构,如果存在相似变换 S 使得 ),,(),( 11 −− ′=′ SPPSPP tt j t j SXX =)( 则称 }]{,,[ jPP X′ 为欧氏重构,并记为 }]{,,[ )(e jee PP X′ 。 欧氏重构 }]{,,[ )(e jee PP X′ 中的点 }{ )(e jX 是三维欧氏空间中的点,它由摄像机对[ ee PP ′,]和图像点 *)事实上,隐消线 l 是 TT HH − 12 的一维特征子空间,而第一幅图像上通过极点的线束,即极线束,是 TT HH − 12 的 二维特征子空间。我们只须证明极线束是 TT HH − 12 的二维特征子空间。假定第一幅图像上异于隐消线 l 的直线 lˆ 满足 ll ˆˆ12 =−TT HH ,则必有 lll ˆˆˆ 21 ′== −− TT HH ,于是 lˆ 的反投影平面与两个平行平面的交线 21, LL 在第二幅 图像上有相同的像直线 l ′ˆ 。显然 21 // LL 且不重合,且它们所确定的空间平面πˆ 必过第二个摄像机的光心,因 此平面πˆ 是极平面,故 lˆ ,l ′ˆ 是一对对极线。反之,如果 lˆ 是第一幅图像上的极线,则显然有 ll ˆˆ12 =−TT HH 。 因此第一幅图像上的极点的线束构成 TT HH − 12 的一个二维特征子空间。于是,隐消线 l 是 TT HH − 12 的一维特征 子空间,而极线束是 TT HH − 12 的二维特征子空间。注意:对空间中两张相交的平面,只要将隐消线替换为两平 面交线的图像,对应的结论也成立。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 136 对应 }{ jj mm ′↔ 唯一确定,因此有时也简称摄像机对[ ee PP ′,]为欧氏重构,并且称重构所在的欧氏 坐标系为欧氏重构坐标系。欧氏重构也称为相似重构或度量重构。 射影重构是最一般意义下的重构,它仅保持空间结构的射影性质,如交比;仿射重构是一个中 间层次,它保持空间结构的仿射性质,如平行、体积比等性质;度量重构是一种最精细的重构,是 在没有绝对空间结构信息情况下是最好的一种重构,它保持空间几何结构的相似性质。 定理 6.4.1 (度量重构定理 I) 设 )],(),,([ e0 ′=′= ∞HPIP AA 是一个仿射重构,则仿射变换 H 使得 ],[ 11 −− ′HPHP AA 为度量重构的充要条件是 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= − 1 1 T0 0KHH s 其中,K 是第一个摄像机的内参数矩阵, sH 为相似变换矩阵。 证明 令ϖ 1−−= KK T 是第一个摄像机的 IAC,注 意 IAC 仅与摄像机的内参数有关,而与摄像机 的方位以及所处的坐标系无关,即它与任何重构的变换都是无关的。在仿射重构坐标系下,对任意 位于绝对二次曲线上的点 ∞∈ ΩTT )0,(x ,它在摄像机 1−HPA 下的像点记为 m,则必有 00)0,( 1 ==⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛−− mmxx TT ϖϖ HPPH A T A T (6.4.1) 记 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 1T0 bAH ,则 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −− −= −−−− −−−− −− bbb b 1T1 11 AAAA AAAAHPPH TTT TT A T A T ϖϖ ϖϖϖ 1 将它代入式 (6.4.1),就得到绝对二次曲线在重构 ],[ 11 −− HPHP AA 空间中的方程 01 =−− xxT AA Tϖ 重构 ],[ 11 −− HPHP AA 为度量重构的充要条件是该重构坐标系与欧氏坐标系相差一个相似变换,而一 个变换为相似变换的充要条件是绝对二次曲线在这个变换下保持不动,因此重构 ],[ 11 −− HPHP AA 为 度量重构的充要条件是 IsAA T =−− 1ϖ (6.4.2) 其中 s 为任意的正实数。由上式可推知 1−= RKsA ,其中 R 为任意旋转矩阵。故 ],[ 11 −− HPHP AA 为 度量重构的充要条件为 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 137 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= −− 1111 11 TTTT 0 0 0 0 0 b 0 b KHKsRAH s 证毕。 例 6.4.1 我们知道 te KRKKH ′=′′= − ∞ βα ,1 ,其中 ),( tR 是摄像机的运动。取 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= − 1 1 T0 0KH 由定理 6.4.1,就得到一个度量重构的摄像机对: ( )t0 δ,),,( 11 RKHPIKHP AA ′=′= −− (6.4.2) 这是以第一个摄像机坐标系为世界坐标系的度量重构。 定理 6.4.2 由仿射重构实现度量重构与确定其中的一个摄像机内参数矩阵是等价的,即与确定 其中一个摄像机的 IAC 是等价的。 证明 不妨假定仿射重构为 )],(),,([ e0 ′=′= ∞HPIP AA ,因为任一仿射重构均可以通过仿射变换 变换为这种形式。若已知第一个摄像机内参数矩阵 K,令 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= − 1 1 T0 0KH 则 ],[ 11 −− HPHP AA 是一个度量重构。若已知第二个摄像机内参数矩阵 K′ ,则必有 ∞∞ ′= HH Tϖαϖ 所以对 ∞∞ ′HH Tϖ 进行 Cholesky 分解,可计算内参数矩阵 K,这样仍能得到度量重构 ],[ 11 −− HPHP AA 。 反之,若 ],[ 11 −− HPHP AA 是一个度量重构,则由定理 6.4.1,有 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= −− 1111 11 TTTT 0 0 0 b 0 0 0 b KsRKHAH s 所以, 1−= sRKA ,于是对 A 进行 RQ 分解可计算内参数矩阵 K。证毕。 定理 6.4.1 和 6.4.2 表明,如果能确定某个视点的摄像机内参数矩阵,或某个视点摄像机的 IAC, 就可以直接通过仿射重构确定度量重构。根据命题 6.4.1,从仿射重构能得到无穷远单应矩阵。如果 每个视点的摄像机有相同的内参数,就可以应用第 5.5.3 节的方法线性地求解摄像机内参数。因此, www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 138 在摄像机内参数恒定的情况下,由仿射重构而不需要其它任何知识就可以用线性方法实现景物的度 量重构。如果摄像机内参数是变化的,则还需要来自仿射重构之外的知识来求解摄像机的内参数, 而获得度量重构。 6.5 绝对二次曲面与度量重构 假定[ }{, jiP X ]是一个射影重构,为了将它提升到度量重构,需要寻求一个三维射影变换 H 使得重构[ }{,1 ji HHP X− ]的空间坐标系是一个欧氏坐标系。那么,这样的 H 具有什么性质呢?对 此,有下述定理: 定理 6.5.1(度量重构定理 II) 假定[ }{, jiP X ]是一个射影重构,则三维射影变换 H 使得 [ }{,1 ji HHP X− ]为度量重构的充要条件是绝对二次曲面 * ∞Q 在射影重构坐标系的表示是 THIHQ −− ∞ = ~1* 。其中 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 00 0~ II 。 证明 必要性:若射影变换 H 使得[ }{,1 ji HHP X− ]是一个度量重构,则绝对二次曲面在度量 重构空间中的表示必为 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 00 0~ II 这是因为度量重构坐标系是一个欧氏坐标系。由于 H 是射影重构坐标系到度量重构坐标系的变换, 根据二次曲面的射影变换规则,有 IHHQ T ~* =∞ 。因此, THIHQ −− ∞ = ~1* 。 充分性:若射影变换 H 使得 THIHQ −− ∞ = ~1* ,则绝对二次曲面在重构[ }{,1 ji HHP X− ]坐标系 下的表示必为 IHHQ T ~* =∞ ,因此重构[ }{,1 ji HHP X− ]坐标系与欧氏坐标系相差一个相似变换,所 以[ }{,1 ji HHP X− ]是一个度量重构。证毕。 命题 6.5.1 假定射影重构为 ()0,IP = , ( )jjj AP a,= ,j=1,2,…,n (6.5.1) 若第一个摄像机内参数矩阵为 K,无穷远平面在射影重构空间中的坐标为 TT )1,( p=∞π ,则 [ }{,1 ji HHP X− ]为度量重构的充要条件是三维射影变换 H 为下述形式: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 139 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= − 1 1 Ts KHH p 0 (6.5.2) 其中, sH 为任一相似变换。 证明 记第一个摄像机的 DIAC 为 *ϖ ,则有 TPPQ* ∞=*ϖ (6.5.3) 所以, TKKQ == *ϖ* 33 ,其中 Q33 是 Q∞*左上角的 3 阶子矩阵。 因此, * ∞Q 必有下述形式: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=∞ w Q Tq q* * ϖ 由于无穷远平面 TT )1,( p=∞π 是 * ∞Q 的左零空间,即 TT Q 0p =∞ *)1,( ,因此,有 TTT KKpq −= , pp *ϖTw = ,于是, ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − −=∞ ppp p ** ** * ϖϖ ϖϖ TTQ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −= 1000 0 1 0 p p TT T KKI K K 这样 THIHQ −− ∞ = ~1* 有一个解: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= − 1 ˆ 1 T KH p 0 (6.5.5) 由定理 6.5.1,可以得到一个度量重构: ),(ˆ),( 1 00 IKHIP e == − , ( ) ( )j T jjjj e j KAHAP apaa ,)(ˆ, 1 −== − ,j=1,2,…,n 它是以第一个摄像机坐标系为世界坐标系的度量重构。 由于[ }{,1 ji HHP X− ]为度量重构当且仅当它与上面的重构相差一个相似变换 sH ,因此 [ }{,1 ji HHP X− ]为度量重构的充要条件是 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= − 1 1 Ts KHH p 0 证毕。 命题 6.5.1 将度量重构问题又带回到求解摄像机内参数和确定无穷远平面问题,而我们希望不通 过求解摄像机内参数来确定度量重构,即希望通过直接求解 H 将射影重构提升到度量重构。由定理 6.5.1,当 * ∞Q 已知时,如果有算法能将 * ∞Q 分解为 THIHQ −− ∞ = ~1* ,就能得到射影变换 H 将射影重构 坐标系提升到一个欧氏坐标系,从而得到一个度量重构。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 140 在任意射影坐标系下, 绝对二次曲面 * ∞Q 是一个秩为 3 的 4×4 对称矩阵,因此它的奇异值分解必 有如下形式: TUUdiagQ )0,,,( 321 * σσσ=∞ 。因此,将 * ∞Q 分解为 THIHQ −− ∞ = ~1* 是不困难的,用 SVD 分解技术就能实现这种分解。 命题 6.5.2 假定在射影重构坐标系下绝对二次曲面 TUUdiagQ )0,,,( 321 * σσσ=∞ ,则方程 THIHQ −− ∞ = ~1* (6.5.6) 的所有解为 ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ = 1,1,1,1 321 σσσ diagUHH T s (6.5.7) 其中 sH 是任意三维相似矩阵(即它是相似变换)。 证明 由于 TUUdiagQ )0,,,( 321 * σσσ=∞ ()( )T UdiagIUdiag )1,,,(~)1,,,( 321321 σσσσσσ= 并且 IAIA T1 ~~ =−− 的充要条件是 sHA = 为相似变换,所以方程: ()( )T UdiagIUdiag )1,,,(~)1,,,( 321321 σσσσσσ THIH −−= ~1 的所有解为 ()()11 321 )1,,,( −−= sHUdiagH σσσ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ = 1,1,1,1 321 σσσ diagUH T s 证毕。 定理 6.5.1 和命题 6.5.2 表明,从射影重构直接提升到度量重构等价于确定射影重构坐标系下的 绝对二次曲面 * ∞Q 。如何在射影重构坐标系下确定绝对二次曲面 * ∞Q 是从射影重构直接得到度量重构 的关键问题。如从射影重构到仿射重构类似,没有射影重构之外的知识是不能得到度量重构的。也 就是说,从射影重构直接实现度量重构的方法并不能克服从仿射重构实现度量重构所遇到的困难。 6.6 实现分层重构的实例 本节将给出如何从图像的仿射点对应计算度量重构的实例,在某种程度上仿射点对应是度量重 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 141 构所需要的最起码的结构信息,如基于相似物体的度量重构、基于镜面反射的度量重构、基于运动 物体的度量重构以及基于消失点(线)的度量重构都可以归结为这种情况。从仿射点对应计算度量重 构的方法是:首先从点对应计算射影重构;再根据仿射点对应的射影重构建立一个射影变换,由这 个射影变换的实特征向量确定无穷远平面在射影重构空间中的坐标,从而得到仿射重构;从仿射重 构计算出摄像机的内参数矩阵,最终得到度量重构。 6.6.1 仿射点对应 如果两幅图像( II ′, )间的两组点对应 12{, ,...,}x k= mm mM ↔ 12{ , ,..., }x k′ ′′ ′= mm mM , 12{, ,...,}ys= nn nM ↔ 12{, ,...,}ys′ ′′ ′=M nn n 满足下述性质:点对应 xM ↔ x′M 的空间点集 12{, ,...,}sX = XX X 与 yM ↔ y′M 的空间点集 12{, ,...,}sY = YY Y 之间相差一个仿射变换,即存在仿射变换 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 1T BA 0 b 使得 5,...,2,1, == jA jj XY ,简记为 YAX= (6.6.1) 则称两组点对应 xM ↔ x′M , yM ↔ y′M 为仿射点对应。例如两个六面体顶点的两幅图像构成的两 组点对应是仿射点对应,因为任何两个长方体之间都存在一个仿射变换将其中的一个顶点集变换到 另一个顶点集。 在下面所陈述的一系列问题中均存在仿射点对应,因此它们都可以应用本节所给出的方法来解 决。 相似物体 已知两个相似物体一组对应特征点的图像,计算景物的度量重构。因为物体 X 与 Y 相似,则必存在一个相似变换 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 1T sUS 0 u 使得 Y=SX ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 1T sU 0 u X (6.6.2) 由于相似变换是仿射变换,因此两个相似物体 Y 与 X 的任一组对应特征点的图像均构成仿射点对应。 镜面反射 已知一个物体及其镜面反射在图像中的投影,计算景物的度量重构。令 Y 是物体 X 的镜面反射,则必存在一个反射变换 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 1T US 0 u 使得 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 142 Y=SX ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 1T U 0 u X (6.6.3) 由于反射变换是仿射变换,因此物体 X 与它的镜面反射 Y 的任一组对应特征点的图像都构成仿射点 对应。 运动物体 已知运动物体在两个摄像机下不同时刻的图像(每个摄像机内参数不变且位置是固定 的),计算景物的度量重构。令运动物体在时刻 1 关于世界坐标系的表示为 X,并且关于两个摄像机 的图像分别为 xM , x′M ;在时刻 2 关于世界坐标系的表示为 Y,并且关于两个摄像机的图像分别为 yM , y′M 。由于物体在两个时刻之间的运动可以用欧氏运动来表示,即存在欧氏变换 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 1T RE 0 t 使 得 Y=EX ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 1T R 0 t X (6.6.4) 因此,点对应 xM ↔ x′M , yM ↔ y′M 必为仿射点对应。 双眼装置 假设双眼装置作一般刚体运动 E,从双眼摄像机下的图像计算景物的度量重构。这个 问题与上面运动景物的重构问题是等价的。因为双眼装置作一般刚体运动 E 所得到的静止物体的图 像与双眼装置在固定的位置上景物作相对的刚体运动所得到的图像是相同的。 三隐消点 已知空间三个方向的隐消点在图像中的投影,计算度量重构问题。记三个无穷远点 11 2 2 3 3(,0), (,0), (,0)TT TT TTXXX===VVV在两幅图像中的投影分别为 321 ,, mmm 和 321 ,, mmm ′′′ 。另 外,取两幅图像的 4 个点对应 },,,{ 7654 mmmm ↔ },,,{ 7654 mmmm ′′′′ ,它们对应的空间点记为 },,,{ 7654 XXXX 。令 12345{, , , , }x = mmmmmM ↔ 12345{, , , , }x′ ′′′′′= mmmmmM 12367{, , , , }y = mmmmmM ↔ 12367{, , , , }y′ ′′′′′= mmmmmM 它们对应的两组空间点 12345{, , , , }X = XXXXX 与 12367{, , , , }Y = XXXXX 所确定的 3D 射影变换是 一个仿射变换,因为这个射影变换将无穷远平面变换为无穷远平面。因此 xM ↔ x′M , yM ↔ y′M 是仿射点对应。 6.6.2 准仿射重构 准仿射重构是一种特殊的射影重构,它是由 Hartley 首先引进并深入研究的。令无穷远平面在一 个射影重构空间中的坐标为 P ∞π ,如 果 }{ E jX 的射影重构 }{ p jX 的凸包 hull( }{ p jX )都位于平面 P ∞π 的同 一侧,则称这个射影重构为准仿射重构(Quasi-Affine Reconstruction)。Hartley 指出,任何一个射影重 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 143 构都可以提升到一个准仿射重构。下面简要介绍准仿射重构算法。 给定 n 幅图像的点对应 }{ i jm ,令 1 ( , ), ( , ), 2,3,...,iiiPI PH i n== =0e ; },...,2,1|{ mjp j =X (6.6.5) 是这 n 幅图像的一个射影重构。其中 iP 是射影重构空间中第 i 幅图像的摄像机矩阵, p jX 是点对应 }{ i jm 的射影重构。 射影重构为准仿射重构的充要条件是(6.6.5)中的摄像机矩阵和空间点满足下述条件:对所有的 i, j,式 i j i j p ji sP mX = 中的射影深度 i js 有相同的符号。由此,可以通过改变射影重构的摄像机矩阵的 符号以及空间点的符号得到准仿射重构。 6.6.3 仿射重构 下面介绍如何从仿射点对应计算一个仿射重构。令 12{ , ,..., }qa qa qa qa kX = XX X , 12{, ,...,}qa qa qa qa kY = YY Y (6.6.6) 是仿射点对应 xM ↔ x′M , yM ↔ y′M 的一个准仿射重构。如果已知射影重构空间中的无穷远平面 TTqa )1,(a=∞π ,则可以得到一个仿射重构: 1 ( , ), 1,2,...,1 aqa qaqaTqa ii ii i IPP H i n −⎛⎞==−=⎜⎟⎝⎠T 0 ea ea (6.6.7) 1 a IX ⎛⎞= ⎜⎟⎝⎠T 0 a qaX },...,,{ 21 a k aa XXX= , 1 a IY ⎛⎞= ⎜⎟⎝⎠T 0 a aY },...,,{ 21 a k aa YYY= (6.6.8) 因此,为了计算仿射重构,只需要在准仿射重构空间中确定无穷远平面 TTqa )1,(a=∞π 。 考虑 X,Y 的准仿射重构 12{, ,...,}qa qa qa qa kX = XX X , 12{, ,...,}qa qa qa qa kY = YY Y 。记 12 ˆˆˆˆ{, ,...,}qa qa qa qa kX = XX X , 12 ˆˆˆˆ{, ,...,}qa qa qa qa kY = YY Y 其中 qa j qa j YX ˆ,ˆ 表示 qa j qa j YX , 最后一个坐标归一化的向量。由对应关系 ˆˆqa qaXY↔ ,当 5≥k 时可得到 准仿射重构空间中的一个(点)射影变换 pH ,即射影变换 pH 使得 ˆˆqa qa pXHY= ,注意:这是一个齐 次变换。如果下述严格等式成立: qa p qa H 11 ˆˆ XY = (6.6.9) 则变换矩阵 pH 是唯一的,这个变换矩阵记为 pHˆ 。 命题 6.6.1 在射影重构空间中,无穷远平面 TTqa )1,(a=∞π 是矩阵 pHˆ 的正特征值的特征向量。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 144 证明 由于 ˆˆ,qa qaXY与它们的真实几何结构构 X,Y 之间相差一个(点)射影变换,即存在矩阵 epH 使得 qa epXHX= , qa epYHY= (6.6.10) 由式(6.6.1)和(6.6.10),可推知 11 1qa qa ep ep ep epYHYHAXHAHX−− −== = 结合式(6.6.9),我们有 epepp AHHH 1ˆ −= µ (6.6.11) 所以 TT ep T ep T p AHHH −− = µˆ (6.6.12) 从(6.6.12)可以看出 v 为 TA− 的特征向量当且仅当 vv T epp H= 为 T pH −ˆ 的特征向量。由 3D 空间中点面的 对偶性, TA− 是 3D 欧氏空间中的一个面变换,因此 TA− 的特征向量 v 是它的一个不动面。而 T epH 表 示从欧氏空间到准仿射重构空间的一个面变换,所以 T epH 将欧氏空间中的平面 v 变换到准仿射重构 空间中的平面 vv T epp H= 。由于 A 是仿射变换,所以无穷远平面是 TA− 的一个不动平面,即 TT )1,(0=∞π 是 TA− 的一个特征向量。于是, ∞∞ = ππ T ep qa H 是 T pH −ˆ 的一个实特征向量,它是准仿射 重构空间中的无穷远平面。由于 T pH 和 T pH − 有相同的特征向量,所以 ∞∞ = ππ T ep qa H 也是 T pHˆ 的一个实 特征向量。 最后,证明 TTqa )1,(a=∞π 一定是 T pHˆ 的正特征值的特征向量。反证:假定 TTqa )1,(a=∞π 是 T pHˆ 的 负特征值的特征向量,即 T pHˆ 0, <= ∞∞ ααππ qaqa 。于是,有 )1,(ˆ)1,( T p T H aa α= (6.6.13) 令 10,ˆ)1(ˆ)( 11 ≤≤−+= ssssL qaqa YX 是连结两点 qaqa 11 ˆ,ˆ YX 的直线段。从式(6.6.13),(6.6.9),有 () )ˆ)1(ˆ( 11 qaqaTqa ss YX −+∞π 11 ˆˆ(,1) (1)(,1)TqaTqass=+−aX aY 11 1 ˆˆ ˆ(,1) (1)(,1)TqaTqa psH sα=+−aX aY 11 1 ˆˆ(,1) (1)(,1)Tqa Tqassα=+−aY aY 1 1 ˆ( (1 ))( ,1)Tqassα=+−aY 取 α α − −= 1s ,则 10 << s 且 () 0)ˆ)1(ˆ( 11 =−+∞ qaqaTqa ss YXπ ,即 qaqa 11 ˆ,ˆ YX 位于无穷远平面 TTqa )1,(a=∞π 的 两侧,与准仿射重构矛盾。所以 TTqa )1,(a=∞π 一定是 T pHˆ 的正特征值的特征向量。证毕。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 145 当 A 为一般的仿射变换时,矩阵 T pHˆ 可能有 4 个正实值的特征向量 (,1),1 4TT pk k= ≤≤va 。为了 得到仿射重构,必须从 }{ pkv 确定出 qa ∞π 。在讨论一般情况之前,先讨论 A 为相似变换的特殊情况, 在这种情况下,除了平面(运动)变换外,均可以唯一确定在准仿射重构空间中的无穷远平面 qa ∞π 。 命题 6.6.2 假定 A 是一个相似变换 S。 (1) 如果 S 不是一个平面(运动)变换,则在准仿射重构空间中可以唯一确定无穷远平面 qa ∞π ; (2) 当 S 为平面(运动)变换时,则在准仿射重构空间中无穷远平面 qa ∞π 有两个解。 证明 相似变换 S 可以表示为 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 1T sUS 0 u 其中:s 是相似尺度因子,U 是一个正交矩阵。不难计算 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − = − − − 11 1 Us UsS T T u 0 它有形如 },,,1{ 111 θθε ii esess −−−− 的特征值,其中: 1±=ε ,当 U 为旋转矩阵时,取正号;当 U 为反 射矩阵时,取负号。容易验证无穷远平面 TT )1,(0=∞π 是 TS − 的对应于特征值 1 的特征向量。考虑 变换 T ep TT ep T p HSHH −−− =ˆ (6.6.14) 其中: epp HH ,ˆ 的意义如前面所述。 (1) 当 1≠s 时, T pH −ˆ 必有形如 },,,{ θθ ββεβα ii ee − 的特征值且 |||| βα ≠ (一般地, s≠≠ ||,1|| βα , 这是因为式(6.6.14)是齐次等式,即在相差一个常数倍的意义下相等)。不难看出 T pH −ˆ 关于特征值α 的 特征向量 (,1)TT p =va 是在拟仿射重构空间中无穷远平面 qa ∞π 。由于 T pHˆ 的特征值是 T pH − 的特征值共 轭的倒数且对应的特征向量相同,所以 T pHˆ 有形如 },,,{ 1111 θθ ββεβα ii ee −−−−− 的特征值且对应于特征 值 1−α 的特征向量 (,1)TT p =va 是无穷远平面在准仿射重构空间中的坐标。注意到 1−α 是其模与其它 三个特征值的模都不相等的唯一特征值。因此在这种情况下,我们可以唯一确定在拟仿射重构空间 中的无穷远平面 qa ∞π 。 (2) 当 1=s 时,S 是一个等距变换。当 U 为旋转矩阵时,S 是一个欧氏变换;当 U 为反射矩阵 时,S 是一个反欧氏变换,通常称为反射变换(如镜面反射)。下面我们分 S 为欧氏变换和反射变换两 种情况来讨论。 当 S 为欧氏变换时,它必有形如 },,1,1{ θθ ii ee− 的特征值,因此 TS − 的特征值也是 },,1,1{ θθ ii ee− 。 若 S 为非平面(运动)变换,即 S 的平移向量不与旋转轴正交的平面平行,则由命题 2.4.4,可推知无 穷远平面 (,1)TTπ ∞ = 0 是 TS − 对应于二重实特征值 1 的唯一的特征向量,此时 T pHˆ 有唯一的实特征向 量 (,1)TT p =va ,它是准仿射重构空间中的无穷远平面 qa ∞π ;若 S 为平面(运动)变换,即 S 的平移向量 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 146 与旋转轴正交的平面平行,则 TS − 对应于二重实特征值 1 有两个线性无关的特征向量,从而 T pHˆ 必有 一个正的二重特征值,且对应这个二重特征值有两个线性无关的特征向量。所以,此时在线性无关 仿射重构空间中,无穷远平面 qa ∞π 有两个解。 当 S 为反射变换时,它必有形如 },,1,1{ θθ ii ee−− 的特征值,因此 TS − 的特征值也是 },,1,1{ θθ ii ee−− 。 因此 T pHˆ 仅有一个正特征值,根据命题 6.6.1,可以唯一确定准仿射重构空间中的无穷远平面 qa ∞π 。 证毕。 当 A 为一般仿射变换时,根据摄像机内参数为恒定和变化的两种情况,给出选择 qa ∞π 的方法。 恒定内参数 如果所有摄像机的内参数相等即 KK i = ,则第 1 与第 j 个视点间的无穷远平面的 单应矩阵 ),...,3,2(1 njH j =∞ 的 3 个特征值的模相等(通常称为模约束)。由摄像机投影矩阵 1 1 − ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= T qa i a i I PP a 0 ( , ), 1,2,...,qa qa T qa ii iHin=− =ea e 可知第 1 与第 j 个视点间的无穷远平面的单应矩阵所有可能的解为 ()( ) 41,1111 ≤≤−−= − kHHH T kqaqa T k qa i qa i j k aeae (6.6.15) 在通常的情况下,仅存在一个 K 使得对每一个 j 矩阵 j kH 1 满足模约束。这样,可以通过验证矩阵 ),...,3,2(1 njH j k = 的所有特征值的模是否相等来确定 qa ∞π 。 变化内参数 两个摄像机内参数不相等时,模相等约束不再成立。此时,计算所有点对应的准仿 射重构: mjH p j qaqa j ,...,2,1, == XX δ (6.6.16) 如果 pk qa v=∞π ,则 mjf qa j T pk qa j ,...,2,1,)( == XvX 必有相同的符号。于是,可以通过验证 mjf qa j ,...,2,1),( =X 是否有相同的符号来确定 qa ∞π 。 注 上面用来确定 qa ∞π 的条件是必要条件,有时不能唯一的确定 qa ∞π 。 6.6.4 度量重构 假定有 n+1 个视点的图像。从 n+1 个视点的图像,可以得到一个仿射重构: () mjniHP a j qa i Tqa i qa i a i ,...,2,1,,...,2,1},{, ==−= Xeae (6.6.17) 如果已知第 1 个视点摄像机的内参数矩阵 K,则可以得到一个度量重构: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 147 mjniKKPP a jT e jT e i e i ,...,2,1,,...,2,1, 1 ,1 1 ==⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= − X 0 0X0 0 ; (6.6.18) 因此为了计算度量重构,只需要计算第 1 个视点摄像机的内参数矩阵 K。 记第 j 个视点摄像机的绝对二次曲线图像(IAC)为 1)()( −−= iTii KKϖ ,由仿射重构可以得到 IAC 的约束方程: ( ) ( ) niHH iTii i ,...,2,111 == − ∞ − ∞ ϖϖη (6.6.19) 其中 ()()1 11 1 − ∞ −−= TqaqaTqa i qa i i HHH aeae 是第 1 与第 i 个视点间的无穷远平面的单应矩阵,ϖ 是第 1 个视点摄像机的 IAC。这样用 5.5 节的方法可以求解摄像机内参数。 6.7 多摄像机系统标定 本节主要利用分层重构的思想给出一种多摄像机系统的标定方法:基于一维标定物的多摄像机 系统的标定方法。多摄像机系统的标定通常出现在大场景视觉监控和大场景视觉测量等应用中。基 于一维标定物标定的优点主要表现在:一维标定物的构造非常容易,在实际应用中可以利用一根杆 上的三个以上的标志点构造一维标定物;所有摄像机能同时观察到整个标定物,这是为了提高标定 精度在多摄像机系统标定时应满足条件,基于三维或二维标定物的标定方法因自遮挡而无法满足此 条件。 6.7.1 一维标定物 如果线段 AC 包含一些点 B, D, E, F,…,并且任意两点之间的距离已知,则称线段 AC 为一维标 定物。研究表明为了标定摄像机,一维标定物至少应包含 3 个彼此距离已知的共线点,包含 4 个或 更多个共线点并不能提供任何新的关于摄像机内参数的独立约束,考虑到数据冗余性可抑制噪声的 影响,在实际应用中更多的点能提高标定精度。这里只考虑由三个点构成一维标定物这一最小配置, 但结论可以扩展到一维标定物包含 4 个或更多个共线点的情况。假定一维标定物由三个点 A,B 和 C 构成,并且 1|| || d=A-C , 2|| || d=B-C 。为陈述方便,一维标定物也称为线段(ABC),由线段(ABC)定义 的直线记为 ABCL 。 如图 6.7.1 所示,线段(ABC )在第 j 个刚体运动下的位置记为 ()j jjABC ,其 在 第 i 个摄像机下的图 像记为: { , , | 1,2,..., , 0,1,2,..., }ij ij ij j ni m= =abc 。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 148 我们的目的是根据(m+1)个摄像机之间的图像点对应: 01 01 01{ ... , ... , ... | 1,2,..., }j j mj j j mj j j mj j n↔↔↔ ↔↔↔ ↔↔↔ =aa abb bcc c 计算每个摄像机在第 0 个摄像机坐标系下的摄像机矩阵: () () () 00 1111(|0), ( | ),..., ( | )ee e mmmmPKI KRPKR== =P tt, 从而可得到所有摄像机的内参数和这些摄像机之间的相对位姿关系。 图 6.7.1 用于多摄像机标定的一维标定物 标定原理类似于分层重建:首先计算一维标定物所在直线的无穷远点在每个摄像机下的投影点, 可得到仿射意义下摄像机矩阵;然后根据一维标定物的距离信息,计算欧氏摄像机矩阵。 6.7.2 确定仿射摄像机矩阵 根据 6.3 节的讨论,仿射意义下的摄像机矩阵具有如下形式: () () () 0111(|0), ( | ),..., ( | )aa a T mmmmPI H PH∞∞== =−P eeae 其中 iH∞ 为第 0 个摄像机到第 i 个摄像机的无穷远单应, ie 是第 i 个摄像机关于第 0 个摄像机的极 点。 先计算无穷远单应 iH∞ 。为此,首先确定在第 i 个摄像机图像中直线 j jjABCL 的隐消点 ijv 。由于共 Om ……O0 Aj Bj Cj a0j b0j c0j amj bj cmj www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 149 线点{, ,}j jjABC 的单比为 12(,;) /jjjSimple d d=ABC *),所以共线点{, , , }jjjj∞ABC P 的交比也为 12/dd,即 12(,; ) /jjjjCross d d∞ =ABCP 根据射影变换保持交比不变可以得到如下关于 ijv 的线性约束: 12(,;,) /ij ij ij ijCross d d=abcv . (6.7.1) 由此可以计算隐消点 ijv 。 隐消点是无穷远点的图像,所以从第 0个和第 i个摄像机之间的对应隐消点得到 iH∞ 的约束方程: 0 , 1,2,..., ; 1,2,...,i j ij ijH si mj n∞ = ==vv (6.7.2) 因此,我们可以线性确定 iH∞ 。 下面确定 ie 。令 ()() () () () (),, 111 aaa aaajjj jjj ⎛⎞ ⎛⎞⎛⎞===⎜⎟ ⎜⎟⎜⎟ ⎝⎠⎝⎠ ⎝⎠ BACABC  为空间点 ,,j jjABC的仿射重构,则有 () () ()aaa ij i i j ijijHs∞ ′+= =AePAa , 0,1,..., ; 1,2,...,imjn= = () () ()aaa ij i i j ijijH s∞ ′′+= =BePBb , 0,1,..., ; 1,2,...,imjn= = () () ()aaa ij i i j ijijH s∞ ′′′+= =CePCc , 0,1,..., ; 1,2,...,imjn= = 。 其中: 00,0HI∞ ==e 。消去上述方程中标量因子,可以得到如下关于 () () (){, , ,}aaa j jjiABCe 线性方程组: ()[] [] 0a ij i j ij iH×∞ ×+ =aAae , 0,1,..., ; 1,2,...,imjn= = ()[] [] 0a ij i j ij iH×∞ ×+ =bBbe , 0,1,..., ; 1,2,...,imjn= = ()[] [] 0a ij i j ij iH×∞ ×+ =cCce , 0,1,..., ; 1,2,...,imjn= = 。 通过求解上述线性方程组,我们就得到了仿射意义下的摄像机矩阵 () () () 0111(|0), ( | ),..., ( | )aa a T mmmmPI H PH∞∞== =−P eeae 和空间点{, ,}j jjABC 的仿射重构 () () (){, ,}aaa jjjABC 。 6.7.3 确定欧氏摄像机矩阵 在得到仿射意义下的摄像机矩阵后,欧氏意义下的摄像机矩阵必有下述形式: () () 0( ,1), 0,1,2..., ,ea iiP P diag K i m== *)单比定义为 (,;)| |/| |Simple =ABC AC BC JJJG JJJG www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 150 并且空间点的欧氏重构必为 () 1 () () 1 () () 1 () 000( ,1) , ( ,1) , ( ,1) , 1, 2,...,eaeaea jjjjjjdiag K diag K diag K j n−−−====AABBCC. (6.7.3) 因此,我们只需求解第 0 个摄像机的内参数矩阵 0K 。为此,令 ()() () () () (),, 111 eee eeejjj jjj ⎛⎞ ⎛⎞⎛⎞===⎜⎟ ⎜⎟⎜⎟ ⎝⎠⎝⎠ ⎝⎠ BACABC  则根据式(6.7.3),得到如下等式: () 1 () () 1 () () 1 () 000,,,1,2,...,eaeaea jjjjjjKKKjn−−−====AABBCC  。 由于 () () () () 12|| || , || ||ee ee jj jjdd==A-C B-C ,由从可以得到关于 0K 的线性方程: () () () () 2 01 () () () () 2 02 ()(),1,2,...,()() aaTaa jj jj aaTaa jj jj d j nd ϖ ϖ ⎧ −−=⎪ =⎨ −−=⎪⎩ CA CA CB CB    , (6.7.4) 其中 1 000 TK Kϖ −−= 。根据方程组(6.7.4)可以得到 0ϖ 的线性解,通过对 1 0ϖ − 进行 Cholesky 分解可以得到 摄像机内参数矩阵 0K 。这样,我们就得到了欧氏意义下的摄像机矩阵: () () 0( ,1), 0,1,2..., ,ea iiP P diag K i m== (6.7.5) 和空间点{,,}j jjABC 的欧氏重重构: () 1 () () 1 () () 1 () 000( ,1) , ( ,1) , ( ,1) , 1, 2,...,eaeaea jjjjjjdiag K diag K diag K j n−−−====AABBCC. (6.7.6) 根据摄像机矩阵 () () 00(,1)( |)ea ii i iPPdiagKHK∞==e ,利用 QR 分解可以得到第 i 个摄像机内参数矩 阵 iK ,以及第 i 个摄像机相对第 0 个摄像机的位姿参数 iR 和 it 。 注:对于每个 j,方程组(6.7.4)中的两个方程不是相互独立的。由于仿射变换保持共线点的单比 不变, () () () () 21()(/)()aa aa jj jjdd−= −CB CA ,因此方程组(6.7.4)的两个方程 () () () () 2 01()()aaTaa jj jjdϖ− −=CA CA  和 () () () () 2 02()()aaTaa jj jjdϖ−−=CB CB是相互等价的。因此,我们需要一维标定物至少运动 6 次才能标定摄 像机系统。 上述线性标定算法的结果是最小化代数距离的解,利用最大似然可以对线性算法的结果进行优 化。在计算机视觉研究中,对线性解后处理的常用方法是捆绑调整(bundle adjustment)技术。在这里, 捆绑调整是一个以摄像机矩阵和空间点为优化变量以最小化重投影误差为优化目标的非线性优化过 程。当图像点测量噪声服从各向同性零均值的高斯分布且独立同分布时,捆绑调整可得到最大似然 意义下的欧氏重构。捆绑调整是求解如下非线性最小化问题: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第6章:三维重构理论 151 222 {,,,}01 min (|| || || || || || ) ijjj mn ij i j ij i j ij i j ij== −+−+−∑∑PA B C aPA bPB cPC (6.7.7) 这是一个具有 9n+11m+5 个变量的非线性问题。由于{, ,}j jjABC 共线,即它们不是相互独立的,因此 我们可以进行化简。利用球面坐标 jφ 和 jθ 表示线段的方向,可以将 jB , jC 表示为: sin cos (1 2)sinsin cos j j j jjj j dd φ θ φ θ φ ⎛⎞ ⎜⎟=+ − ⎜⎟ ⎜⎟⎝⎠ BA , sin cos 1sinsin cos j j j jjj j d φ θ φ θ φ ⎛⎞ ⎜⎟=+⎜⎟ ⎜⎟⎝⎠ CA 因此,最小化问题(6.7.7)可以表示为 5n+11m+5 个变量的最小化问题: 222 {, ,,} 01 min (|| || || || || || ) ijjj mn ij i j ij i j ij i j ijφθ == −+−+−∑∑PA aPA bPB cPC (6.7.8) 以前面所得到的欧氏重构结果作为初始值,利用 Levenberg-Marquardt 算法求解非线性最小化问题 (6.7.8),最终得到摄像机投影矩阵和空间点的优化解。 www.plcworld.cn 第二篇 矩阵与张量 www.plcworld.cn 153 本篇提要 本篇分为两个部分。第一部分由第 7-10 章构成,介绍矩阵和张量的有关知识,它们是描述、解 决计算机视觉问题的强有力数学工具。第二部分由第 11,12 两章构成,主要介绍矩阵和张量在计算 机视觉中的几个典型应用。在第一篇已经看到了矩阵理论对处理计算机视觉问题的作用,在本篇将 会进一步看到矩阵和张量的重要作用。 本篇各章主要内容如下: 第 7 章,介绍正交对角化理论。主要内容包括欧氏空间与正交矩阵,正规矩阵正交对角化理论, 正规矩阵的正交谱分解及其函数演算。 第 8 章,介绍矩阵分解理论,主要内容包括矩阵的正交三角分解,对称矩阵与反对称矩阵的特 征分解,正定矩阵的乔里斯基分解,以及矩阵的 SVD 分解与极分解。 第 9 章,介绍矩阵分析理论,主要内容包括向量和矩阵的范数,矩阵级数与矩阵函数,以及矩 阵的微分和矩阵直积。 第 10 章,介绍张量代数。主要内容包括张量积,张量与外代数的一些基本概念与性质。 第 11 章,介绍矩阵奇异值分解在计算机视觉中的应用。主要内容包括欧氏运动与结构,仿射运 动与结构,以及射影运动与结构。 第 12 章,介绍多视点张量。用张量来描述多视点几何的多重线性关系,主要内容包括二重线 性关系,三重线性关系和四重线性关系。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 154 7.正交对角化 7.1 内积空间与正交矩阵 7.1.1 内积空间 定义 7.1.1 设 V 是实数域 R 上的线性空间,V 上的内积是满足下述性质的实值函数 RVV →×>⋅⋅< :, : (a):对称性质: >>=<< xyyx ,, ; (b):线性性质: ><+><>=+< zy,zx,zy,x usus ; (c):非负性质: 0, >≥< yx 并且 00 =⇔>=< xxx, 。 若在线性空间 V 上定义了一个内积,则称这个空间为内积空间。由(a)和(b),内积关于第二变元 也是线性的。在内积空间中有向量的长度、夹角和正交等几何概念: 长度(模或范数): ><= xx,||x 2|| 距离: 2||yxyx −=||),(d Cauchy 不等式: ><⋅>≤<>< yy,xx,yx, 2 夹角: ><⋅>< ><= yy,xx, yx, 2 2cos xyθ 正交: 0>=⇔<⊥ yx,yx 标准正交基: { n1 u,...,u }, ⎩ ⎨ ⎧ ≠ ==>= ji ji ijji ,0 ,1δu,u< Fourier 展开式: nn11 uux,...uux,xx ><++>=<∈∀ ,V Bessel’s 等式: 222 2||||, ><++>=<∈∀ n1 ux,...ux,xx V Parseval’s 等式: >><<++>><>=<<∈∀ nuyyV ,,,, n11 ux,...u,ux,yxyx Schmidt 正交化: ,...},{ 21 vv=B 是线性无关的向量组,定义: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 155 ,...3,2,,1 =∑ >< >< −== − = kk j 1k 1j jj jk k1 uu,u u,v vuvu 则 }{ ,...u,u 21=O 是正交向量组,并且有 kspanspan ∀= },{}{ k21k21 v,...,v,vu,...,u,u 欧氏空间 Rn 在Rn 中的(标准)内积定义为 i n i i T yx∑=>=< =1 xyyx, 以后,在没有特别说明的情况下,所讨论的欧氏空间是指上式定义的内积空间 Rn。 7.1.2 正交矩阵 定义 7.1.2 如果实方阵 Q 满足 QT Q=Q QT =I(或等价地 Q-1 = QT),则称 Q 为正交矩阵。 正交矩阵具有下述性质: 1. Q 为正交矩阵 ⇔ 任意两个列向量是单位正交的且任意两个行向量也是单位正交的。 2. Q 为正交矩阵 ⇔ 保持向量的内积不变,即 nR∈∀ yx, , >>=<< yx,yx,QQ 。 3. Q 为正交矩阵 ⇔ 保持向量间的距离不变。 4. 任多个正交矩阵的积是正交的。 5. 正交矩阵的行列式等于 ± 1。 如果正交矩阵的行列式等于 1,则称为正常正交矩阵(或旋转矩阵),否则称为非正常正交矩阵(或 反射矩阵)。 正交矩阵的几何意义 2 阶正交矩阵 令 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= dc baQ 是正交阵,则 2222 1 dcba +==+ , 2222 1 dbca +==+ , cdabbdac +==+ 0 从 122 =+ ba 知,存在角θ ,使得 θθ sin,cos ±== ba 。如果 θsin=b ,令 θθ −=′ ,则有 θθ ′−=′= sin,cos ba 。总之,可选取一个角θ 使得 θθ sin,cos −== ba (7.1.1) 再利用 122 =+ ca ,得 θsin±=c 。最后,由 0=+ bdac ,得到 θcos±=d ( 0sin ≠θ )。这说明,当 0sin ≠θ 时, www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 156 θsin=c , θcos=d 或, θsin−=c , θcos−=d 所以,当 0sin ≠θ 时,Q 仅有下述两种类型: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − θθ θθ cossin sincos , ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −− − θθ θθ cossin sincos (7.1.2) 至于 0sin =θ 时,Q 必为下述四种情况之一: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ 10 01 , ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − − 10 01 , ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − 10 01 , ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛− 10 01 前两种情况,可归为(7.1.2)中的第一个矩阵(0,θ π= );后两种情况可归为(7.1.2)中的第二个矩阵 (0,θ π= )。综上所述,2 阶正交阵 Q 可表示为(7.1.2)中的两种形状。 图 7.1.1:2 阶反射矩阵的几何意义 变换 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′ ′ y x y x θθ θθ cossin sincos 的几何意义:是平面上绕原点旋转θ 角把点 x 变到 x’ 的旋转变 换。此时, 1det =Q ,Q 是正常的正交矩阵。 变换 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −− −=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′ ′ y x y x θθ θθ cossin sincos 的几何意义:这个变换可以看作下述两个变换的复合: x 02cos2sin =+ θθ yx s t (s,t) (x,y ) (x’,y’ ) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 157 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′ ′ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ t s y x y x t s 10 01,cossin sincos θθ θθ 前者表示旋转,后者表示关于 s 轴的反射变换,如图 7.1.1 所示。因此 Q 确定的变换是平面上以直 线 02cos2sin =+ θθ yx 为对称轴的反射变换。此时 Q 的行列式等于-1,它是非正常正交阵。 总之,2 阶正交矩阵在几何上或是绕坐标原点的旋转,或是通过原点直线的反射,根据它是否 为正常或非正常来确定。 3 阶正交矩阵 先分析 3 阶正交矩阵 Q 的特征值与特征向量的性质。 如果 λ 是 Q 的一个实特征值,x 是相应的特征向量,即 Qx= λ x,则 xxλxxxx T2TTT == QQ 。 于是,正交矩阵的实特征值必等于 1± 。 因 Q 的特征多项式是一个实系数多项式,若有复特征值,则其共轭也是特征值。假定 321 ,, λλλ 是 Q 的 3 个特征值,其中 32 ,λλ 为互为共轭复特征值。由 1)det(321 ±== Aλλλ ,知 1|||| 32 == λλ ,因此 复特征值的模必等于 1。 令 θθλθθλλ sincos,sincos,1 321 ii −=+=±= 是 Q 的特征值, 1,,x ff为相应的单位特征向量。 记 23, 22 f fffxx i +−==,则有 11 xx ±=Q ()()222 11QQ 22 λλ=+=+x ff f f cos ( ) sin ( ) 2i2 θθ+−= f fff+ 32 sincos xx θθ += 323 cossin xxx θθ +−=Q 由此,可推知 ()QX XR θ= 其中: 123 10 0 (, , ),() 0 cos sin 0sincos XRθ θθ θ θ ±⎛⎞ ⎜⎟==−⎜⎟⎜⎟⎝⎠ xxx 不难验证:X 是一个正交矩阵,并且可以适当选取 1x 的符号使得 X 是一个旋转矩阵。因此,正交 Q 旋转相似于下述矩阵之一: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 158 10 0 10 0 0 cos sin , 0 cos sin 0sincos 0 sincos θ θθθ θ θθθ −⎛⎞⎛⎞ ⎜⎟⎜⎟−−⎜⎟⎜⎟⎜⎟⎜⎟⎝⎠⎝⎠ 第二个矩阵可分解为反射矩阵与旋转矩阵的积: 10 0 10010 0 0 cos sin 0 1 0 0 cos sin 0 sin cos 0 0 1 0 sin cos θ θθθ θ θθθ −⎛⎞⎛⎞⎛⎞ ⎜⎟⎜⎟⎜⎟−−⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎝⎠⎝⎠⎝⎠ - = 综上所述,3 阶正交矩阵所确定的变换或是以一直线为旋转轴的旋转(旋转轴:实特征值的特征 向量 x1,旋转角:复特征值的幅角θ ),或以一直线为轴的旋转之后再作一个以垂直于此直线的平面 的镜面反射(旋转轴:实特征值的特征向量 x1,旋转角:复特征值的幅角θ ,反射面:复特征向量实 部与虚部张成的平面 span{ x2, x3})。 7. 2 酉空间与酉矩阵 7.2.1 酉空间 定义 7.2.1 设 V 是复数域 C 上的线性空间,V 上的内积是满足下述性质的复值函数 CVV →×>⋅⋅< :, : (a):共轭对称性或轭米特性: ><>=< xyyx ,, ; (b):对第一变元的线性: ><+><>=+< zy,zx,zy,x usus ; (c):非负性: 0>≥< xx, ,并且 00 =⇔>=< xxx, 。 若在复线性空间 V 上定义了一个内积,则称这个线性空间空间为酉空间(或复内积空间)。由(a) 和(b),内积对于第二变元具有共轭线性: ><+><=><+><=>+<>=+< yz,xz,zy,zx,zyxyxz usususus ,, 通常,称酉空间的内积是一个半线性的。 欧氏空间中向量的长度、夹角和正交等几何概念与相关性质都可以平行地推广到酉空间: 长度(模或范数): ><= xx,||x 2|| 距离: 2||yxyx −=||),(d www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 159 Cauchy 不等式: ><⋅>≤<><⋅>< yy,xx,yx,yx, 夹角: ><⋅>< ><⋅><= yy,xx, yx,yx, xyθ2cos 正交: 0>=⇔<⊥ yx,yx 标准正交基: { n1 u,...,u }, ⎩ ⎨ ⎧ ≠ ==>= ji ji ijji ,0 ,1δu,u< Fourier 展开式: nn11 uux,...uux,xx ><++>=<∈∀ ,V Bessel’s 等式: 222 2 ||||||||, ><++><=∈∀ n1 ux,...ux,xx V Parseval’s 等式: ><><++><>>=<<∈∀ nn11 uy,ux,...uy,ux,yxyx ,,, V Schmidt 正交化: ,...},{ 21 vv=B 是线性无关的向量组,定义: ,...3,2,,1 =∑ >< >< −== − = kk j 1k 1j jj jk k1 uu,u u,v vuvu 则 }{ ,...u,u 21=O 是正交向量组,并且有 kspanspan ∀= },{}{ k21k21 v,...,v,vu,...,u,u 酉空间 Cn 在 Cn 中的标准内积定义为 i n i i T xy∑=>=< =1 xyyx, 以后,在没有特别说明的情况下,所讨论的酉空间是上式定义的复内积空间 Cn。 7.2.2 酉矩阵 定义 7.2.2 设 U 为复矩阵,若满足 )( TH UUIUUUU === HH 则称 U 为酉矩阵(或复正交矩阵)。 欧氏空间 Rn 是酉空间 Cn 的实子空间,正交矩阵是酉矩阵的特别情形。下述陈述是等价的: 1. U 为酉矩阵; 2. U 的任两列是单位正交的且任两行是单位正交的; 3. 对 Cn 的任意两个向量有 < >=< >Ux,Uy x, y ; 4. 对 Cn 的任意向量有 22|| || || ||=Ux x 。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 160 酉矩阵具有下述性质: 1. 酉矩阵的逆是酉矩阵; 2. 酉矩阵的有限积是酉矩阵; 3. 酉矩阵的任一特征值均为单位复数; 4. 不同特征值的特征向量是正交的; 5. 酉矩阵行列式的模等于 1。 定理 7.2.1 设 U 为酉矩阵,则存在酉矩阵 V 使得 )( UVVUVV H1 =− 为对角矩阵。 证明:令 1d (1|| 1 =d )为 U 的一个特征值, 1x 为相应的单位特征向量。构造以 1x 为第一列的正 交阵 11( ,....)=Vx (先将 1x 扩张为 n 个线性无关的向量组,再将这个向量组进行 Schmidt 单位正交化可 得到 1V ),于是有 11ex1 1 1 dUV =− ,因此, 1-1 11 0 dVUV B ⎛⎞= ⎜⎟⎝⎠ s 由 1V 为酉矩阵知 s=0,所以, 1-1 11 0 0 dVUV B ⎛⎞= ⎜⎟⎝⎠ 其中 B 必为 n-1 阶酉矩阵。归纳地假定:存在 n-1 阶正交阵 2V ,使得 -1 22 23(,,...,)nVBVdiagdd d= 于是 1 2 1VVV ⎛⎞= ⎜⎟⎝⎠ 0 0 是酉矩阵,并且有 ),...,,( 21 nddddiagUVVUVV == −1H 证毕。 推论 7.2.1 (正交矩阵的复标准形) 正交矩阵 Q 必酉相似于一个对角矩阵,即存在酉矩阵 V 使得 ),...,,( 21 nddddiagQVVQVV == −1H 正交矩阵的实标准形 当正交矩阵有复特征值时,推论 7.2.1 中的矩阵 V 不可能是一个正交矩阵。现在的问题是能否 选择一个适当的正交矩阵 V 使得 QVV 1− 有一种简单的形状呢? 正交矩阵的特征多项式是一个实系数多项式,其复根必共轭成对出现,并且有 vvvv aQaQ =⇒= www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 161 因此,可以对 Q 的单位特征向量进行适当地排列,得到矩阵: ),,...,,,,,,...,( 22111 rkrkkkkkkV ++++++= vvvvvvvv 并且有 ),,...,,,,,1,...,1,1,...,1( 2211 rkrkkkkk ddddddVdiagQV ++++++−−= 因此, rjdQdQ jkjkjkjkjkjk ,...,2,1,, === ++++++ vvvv 令 () ()11, , 1,2,..., 22kj kj kj kj kj kj j r i++++++′=+ = − =uvvuvv 则不难验证: P= 11122( ,..., , , , , ,..., , )kkkkk krkr+++ + + +′ ′′v vuuuu uu 是正交矩阵,并且有 ()()11 22kj kj kj kjkj kjkjQQ dd+++++++=+=+uvvvv ()1 cos ( ) sin ( ) 2 j kj kj j kj kjiθθ++ ++=+−−vv vv cos ( ) sin ( ) 22 j kj kj j kj kj i θθ++ +++−=+vv vv jkjjkj ++ ′+= uu θθ sincos 同理 kjQ +′ =u jkjjkj ++ ′− uu θθ sincos 所以, (, )(, )()kj kj kj kj jQRθ++ ++′′=uu uu , cos sin () sin cos θ θ θ θ θ −⎛⎞= ⎜⎟ ⎝⎠ jj j jj R 因此, ,= =TUP PR P UP R 其中: 1 1 1 1 1 () () θ θ ⎛⎞ ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟−⎜⎟ ⎜⎟= ⎜⎟ −⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟ ⎝⎠r R R R www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 162 矩阵 R 称为正交矩阵 Q 的实标准形。综上所述,我们有 定理 7.2.3 对任一正交矩阵 Q 必正交相似于一个形状如 R 的正交矩阵。 7.3 正规矩阵 7.3.1 Schur 引理 定义 7.3.1 设 A,B 是复方阵(或实方阵),若存在酉(或正交)矩阵 U,使得 BAUUAUU == −1H (或 BAUUAUU T == −1 ) (7.3.1) 则称 A 酉相似(或正交相似)于 B。如果 A 酉相似(或正交相似)于对角矩阵,则称 A 可酉 (或正交)对 角化。 定理 7.3.1(Schur) 任何复方阵均酉相似于上三角矩阵;如果实方阵的特征值均为实数,则它正 交相似于实上三角矩阵。 证明 下面仅证明定理的前半部分,用类似方法可证明后半部分。使用数学归纳法:对于一阶矩 阵,定理显然成立。设定理对 n-1 阶方阵成立,下面证明对 n 阶矩阵也成立。 令 1λ 是 n 阶矩阵 A 的一个特征值, 1a 为相应的单位特征向量,构造以 1a 为第一列的 n 阶酉矩阵 ),,,( 211 nU aaa = ,则 ),,,(),,,( 211211 nn AAAAAAU aaaaaa λ== 因为 naaa ,,, 21 是 nC 的正交基,所以 ),...,2,1( 1 nixA j n j iji =∑= = aa ,于是, ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = 0 0),,,( 1 1211 211 A xx AU n n λ aaa 其中 1A 是 n-1 阶矩阵,由归纳假定存在 n-1 阶酉矩阵 W 和 n-1 阶上三角矩阵 R,使得 RWAW =1 H 令 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= WUU 1 1 ,则 U 是 n 阶酉矩阵,且 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 163 ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = 0 0 1211 R xx AUU n λ H 证毕。 定理 7.3.2(Schur 不等式) 设 A nnija ×= )( ,它的特征值为 nλλ ,,1 ,则 ∑≤∑ == n ji ij n j j a 1, 2 1 2 |||| λ (7.3.2) 其中等号成立的充要条件为 A 酉相似于对角矩阵。 证明 由 Schur 引理知,存在酉矩阵 U 使得 RAUU =H ,且 HH RUAU =H 其中 )( ijrR = 是上三角矩阵。于是, HH RRAAU =UH 因此, ∑=∑≥∑===∑ j j j jj ji ij HH ji ij rrRRtrAAtra 222 , 2 , ||||||)()(|| λ 并且,等号成立 ⇔≠=⇔ )(0 jirij R 是对角矩阵。 7.3.2 正规矩阵 定义 7.3.2 设 A 是复矩阵。若 AA =H ,则称 A 是轭米特矩阵;若 AA −=H ,则称 A 是反轭米 特矩阵;若 HH AAAA = ,则称 A 是正规矩阵。 显然,轭米特、反轭米特、酉矩阵都是正规矩阵,因而对称矩阵、反对称、正交矩阵也是正规 矩阵;正规的酉相似矩阵也是正规的。 酉对角化 引理 7.3.1 正规的上三角矩阵必为对角矩阵。 证明 令 ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = nn n n a aa aaa A 222 11211 。由正规性,知 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 164 ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ∑ − ∑∑− ∑− =− = == = n j nnnnjnjn j n j jjjj n j jj aaaa aaaa aaaa AAAA 1 2 12 2222 1 111111 * * HH =0 由此可推知: 0...;;,...,4,3,0;,...,3,2,0 121 ===== − nnjj anjanja 因此,A 为对角矩阵。 定理 7.3.3 矩阵 A 与对角矩阵酉相似的充分必要条件为 A 是正规矩阵。 证明 必要性:假定存在酉矩阵 V 使得 ),...,,( 21 1 nddddiagAVVAVV == −H 即 HVdddVdiagA n ),...,,( 21= ,于是, HVddddiagdddVdiagAA nn H ),...,,(),...,,( 2121= HVddddiagdddVdiag nn ),...,,(),...,,( 2121= HAA= 故 A 是正规矩阵。 充分性:设 A 是正规矩阵。由 Schur 引理,任一矩阵均与上三角矩阵酉相似,因此存在酉矩阵 V 与上三角矩阵 R 使得 1VAVR− = 显然 R 是正规矩阵,再由引理 7.3.1,R 必为对角矩阵,因此正规矩阵必与对角矩阵相似。证毕。 定理 7.3.3 说明,正规矩阵可表示为 H nn H 22 H 11 H vvvvvv nn dddVdddVdiagA +++== ...),...,,( 2121 因此,正规矩阵有 n 个两两相互正交的特征向量。 推论 7.3.1 设 A 是正规矩阵, (1) A 为轭米特矩阵的充要条件是 A 的特征值均为实数; (2) A 为反轭米特矩阵的充要条件是 A 的非零特征值均为纯虚数; (3) A 为酉矩阵的充要条件是 A 的特征值均为单位复数。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 165 证明 因 A 为正规矩阵,所以存在酉矩阵 V 使得 HVdddVdiagA n ),...,,( 21= 下面仅证明(1),用类似的方法可证明(2)和(3)。 必要性:因为 HVdddVdiagA n ),...,,( 21= , HVdddVdiagA n H ),...,,( 21= 所以, HH VddddddVdiagAA nn ),...,,(0 2211 −−−=−= 因此, 0...,2211 =−=−=− nn dddddd 故 A 的特征值均为实数。 充分性: 由于 A 的特征值均为实数,所以有 HVdddVdiagA n H ),...,,( 21= AVdddVdiag n == H),...,,( 21 即 A 为轭米特矩阵。证毕。 定理 7.3.4 实正规矩阵 A 与对角矩阵正交相似的充要条件是 A 为实对称矩阵。 证明 充分性:对于实对称矩阵 A,因特征值均为实数,所以根据 Schur 引理,存在正交矩阵 Q 使得 TQAQD= 是实上三角矩阵,并且仍是实对称的,所以 D 是实对角矩阵。 必要性:令 T n QdddQdiagA ),...,,( 21= ,其中 Q 是正交阵,于是 A 的特征向量是实向量。又因 A 是实矩阵,所以 12( , ,..., ) T ndiag d d d Q AQ= 实对角矩阵。因此 () AQdddQdiagQdddQdiagA T n TT n T === ),...,,(),...,,( 2121 故 A 是实对称矩阵。证毕。 同时酉对角化 设 A,B 是 n 阶正规矩阵。对于 A 存在酉矩阵 Q 使得 12( ,..., )HQAQdiagλ λ= 同样对于 B,存在酉矩阵 R 使 1(,...,)H nRARdiagµ µ= 一般来说,Q 与 R 是不同的酉矩阵。在什么时候有 Q=R?即何时存在一个共同的酉变换使两 个正规矩阵同时化为对角形?这就是所谓同时对角化问题。显然,A,B 同时对角化的充要条件是它 们有相同的特征向量。下面定理给出同时对角化的本质特征。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 166 定理 7.3.5 设 A,B 是 n 阶正规矩阵,它们同时对角化的充要条件是 AB=BA,即 A 与 B 可交换。 证明 必要性:若 Q=R,则 ),...,( 21 λλdiagARR =T , ),...,( 1 ndiagARR µµ=T 所以, HRRdiagRRdiagAB ),...,(),...,( 2121 µµλλ H= HRdiagRdiag ),...,(),...,( 2121 µµλλ= HRdiagRdiag ),...,(),...,( 2121 λλµµ= HRRdiagRRdiag ),...,(),...,( 2121 λλµµ H= =BA 充分性:设 AB=BA。若 11 , xλ 使得 111 xx λ=A ,则对任意正整数有 1111 xxx kkk BABAB λ== 因此,当 1x 为 A 的相应于 1λ 的特征向量时, ,...,...,, 11 2 1 xxx kBBB 均为 A 的相应于 1λ 的特征向量,即 { 1x , ,...,...,, 11 2 1 xxx kBBB } )(1 AVλ⊂ 其中 1 ()VAλ 表示 1λ 的特征子空间。令 B 的特征值为 nµµ ,...,1 ,则必有 0))...()(( 121 =−−− xIBIBIB nµµµ 不妨假定 0))...(( 121 ≠−−= xq IBIB nµµ (否则考虑 ,...0))...(( 12 =−− xIBIB nµµ ),则 )(11 AVλ∈q 且 0)( 11 =− qIB µ ,即 1q 是 A,B 的一个公共的特征向量。于是 ()1 2 1111/ Hrqqq= 是 A,B 的公共单位特 征向量。 再考虑与 1r 正交的子空间 )( 1r⊥S ,一定存在 )( 12 rx ⊥∈ S 是 A 的特征向量,用上面类似的方法, 可找到 A,B 的第 2 个公共的单位特征向量 )( 12 rr ⊥∈ S ,如此继续下去,一直找到 n 个 A,B 的两两 相互正交的公共特征向量为止。这样就证明了所需要的结论。证毕。 7.3.4 正交谱分解 正交投影 定义 7.3.3 令 S 是 Cn 的子空间, S ⊥ 是 S 在 Cn 正交补,即 S ⊥ S ⊥ ,且 Cn =S+S ⊥ 。 nC∈∀x ,存 在唯一的 ⊥∈∈ ⊥ SS ss xx , 使得 ⊥+= ss xxx 。如果矩阵 Ps 使得 sss PP xxxx ss =+= ⊥ )( (7.3.3) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 167 则称 Ps 是沿方向 S ⊥ 到 S 上的正交投影,如图 7.3.1 所示。 令 }{ k21 x,...,x,x 和 }{ nkk x,...,x,x 21 ++ 分别为 S 和 S ⊥ 的一组标准正交基,当然它们的全体构成 Cn 的标准正交基。记 )( k21 x,....,x,x=sX , )( nkksX x,....,x,x 21 ++=⊥ ,则正交投影 Ps 使得 nkkjPkjP jsjjs ,...,2,1,0;,...,2,1, ++==== xxx 所以, ),(),( 0ssss XXXP =⊥ ,因此 S 上的正交投影有下面的矩阵表示: (,)(, )H ss ssPX XX⊥= 0 H kk H 22 H 11 xx...xxxx +++== H ss XX 图 7.3.1: 正交投影 若 P 一个正交投影,则存在 Cn 的子空间 S 使得 =P H ss XX ,因 此 PP H = ,即 P 是轭米特矩阵。 由 xxxxx ss PPPPP s ==+= ⊥ ))((2 知 P 是一个幂等(idempotent)矩阵*)。反之,若 P 是轭米特的幂等矩阵,令 },0|{)(},|{)( nn CPPNCPPR ∈==∈= xxxxx 分别为矩阵 P 的值空间与零空间。 nCPN ∈∈∀ yx ),( ,有 0, ===>=< y0yxyxxy HHHH PPP 即 )()( PNPR ⊥ 。 令 S= },|{ nCP ∈= xxxx ,则 S)(PR⊂ 。另一方面 nC∈∀y , xyyx PPP === 2 ,即有 S )(PR⊃ , 于是 S= ()R P 。因此, nC∈∀y )()()( PNPRPP +∈−+= yyyy *) 若 2PP= ,则称 P 是幂等矩阵 S⊥ x ⊥ x xs S www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 168 于是,可以看出 P 是 R(P)上的正交投影。于是,我们得到正交投影的特征: 定理 7.3.5 矩阵 P 是正交投影的充要条件为它是轭米特的幂等矩阵。 关于正交投影的运算,有下述定理: 定理 7.3.6(正交投影的运算) (1) 设 21, PP 是两个正交投影,则 21 PP + 是正交投影当仅当 )()( 21 PRPR ⊥ 。当 21 PP + 是正交投 影时,则它必 )()( 21 PRPR + 上的正交投影; (2) 设 21, PP 是两个正交投影,则 21 PP − 是正交投影当仅当 21221 PPPPP == 。当 21 PP − 是正交 投影时,则它必为 )()( 21 PRPN + 上的正交投影; (3) 设 21, PP 是两个正交投影且 1221 PPPP = , 则 21PP 是 )()( 21 PRPR ∩ 上的正交投影; (4) 若 kPP ...,,1 是正交投影,则 kPP ++ ...1 是正交投影当仅当 jiPRPR ji ≠∀⊥ ),()( ; (5) 设 kSSSS ,...,,, 321 是 Cn 的两两正交的子空间,且 Cn = kSSSS ++++ ...321 ,则我们有 ksss PPPI +++= ...21 正交谱分解 定理 7.3.7 (正交谱分解) 设 A 是正规矩阵,假定 kλλλ ,...,, 21 是 A 的所有相异的特征,相应的特 征子空间为 kSSSS ,...,,, 321 ,则有 kskss PPPA λλλ +++= ...21 21 (7.3.4) 并且 jsP 是 Sj 上的正交投影; 12 ... kss sPP P I+++=。 证明 根据定理 7.3.3,有 H nn H 22 H 11 H vvvvvv nn dddVdddVdiagA +++== ...),...,,( 2121 将上式右端按相同特征值进行合并,则它可改写为: kk PPPA λλλ +++= ...211 2 其中: ∑ == = j jkk r k s H jjj PP 1 vv 是 A 的特征子空间 jS 上的正交投影,并且 =+++ ksss PPP ...21 I=+++ H nn H 22 H 11 vvvvvv ... 证毕。 函数演算 设 A 是正规矩阵,由定理 7.3.7, kk PPPA λλλ +++= ...211 2 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 169 由于 )(0),1()( jiPPmPP jij m j ≠=≥= ,所以对任意多项式 )(tp ,有 kk PpPpPpAp )(...)()()( 211 λλλ +++= 2 (7.3.5) 这个结果可以推广到解析函数 )(tf *): kk PfPfPfAf )(...)()()( 211 λλλ +++= 2 (7.3.6) 上式通常称为正规矩阵的函数演算。 逆运算:若 A 是可逆的正规矩阵,则特征值都不为零,因此对它的谱分解作函数 1/t 演算,可 以得到 A 的逆矩阵: kk PPPA )/1(...)/1()/1( 211 1 λλλ +++=− 2 (7.3.7) 共轭转置:正规矩阵的共轭转置可表示为: kk H PPPA λλλ +++= ...211 2 (7.3.8) 轭米特矩阵的指数函数:令 kk PPPA λλλ +++= ...211 2 是轭米特矩阵的谱分解,则 =iAe k iii PePePe kλλλ +++ ...21 1 2 (7.3.9) 定理 7.3.8 U 为酉矩阵的充要条件是存在轭米特矩阵 A 使得 AU ie= 。 证明 由于 =HiAiA ee )( H k iii k iii PePePePePePe kk )...)(...( 2121 11 λλλλλλ ++++++ 22 IPPP k =+++= ...1 2 所以,轭米特矩阵的指数 Aie 是酉矩阵。反之,如果 U 是一个酉矩阵,则必有 k iii PePePeU kλλλ +++= ...21 1 2 令 kk PPPA λλλ +++= ...211 2 ,则 A 必为轭米特矩阵,并且 AieU = 。 7.4 轭米特矩阵 7.4.1 特征值的极性 定义 7.4.1 设 A 为 n 阶轭米特矩阵,定义 *)若 )(tf 在区间(a, b)内有幂级数表示,则 )(tf 称在区间(a, b)内解析。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 170 }0{,)( −∈= nCr x xx Axxx H H (7.4.1) 为矩阵 A 的 Rayleigh 商。 Rayleigh 商有下述性质: (1) )(xr 是 }0{−nC 上的连续函数; (2)对任意 0≠λ , )()( xx rr =λ ; (3) )()(},{ 00 xxxx rrspan =∈∀ ; (4)若 d 为 A 的特征值,对应的特征子空间记为 dV ,则 }0{−∈∀ dVx , dr =)(x ; (5) )(xr 在 }0{−nC 上存在最大值和最小值,并且能够在单位球面 }1||:||{ 2 =∈= xx nCS 上达 到最大值和最小值。 性质(1)至(4)是明显的。下面考虑性质(5):事实上,由于 S 是闭集且 )(xr 是 S 上的连续函数, 所以在 S 上存在 21, xx 使得 )()(max),()(min 21 xxxx rrrr SxSx == ∈∈ }0{−∈∀ nCy ,令 S∈= 2||||/ yyx ,根据性质(2),我们有 )()||||/()( 2 yyyx rrr == 。所以 )(max)()()()(min 21 xxyxx rrrrr SxSx ∈∈ =≤≤= 这样,就证明了性质(5)。 根据性质(5),我们有 Axx xx AxxAxx xx Axx H H H H H H 1||||01||||0 minmax,maxmax =≠=≠ == xxxx (7.4.2) 下面讨论 Rayleigh 商最大值和最小值与 A 的特征值之间的关系。 定理 7.4.1 设轭米特矩阵 A 的特征值为 nddd ≤≤≤ ...21 ,则 100 min,max dd xnx == ≠≠ xx Axx xx Axx H H H H (7.4.3) 证明 由定理 7.3.3,存在酉矩阵 12()nQ = q ,q ,...,q 使得 1 2 111 2 2 2( , ,..., ) ...nnnnA Vdiag d d d V d d d==+++HH H Hqq qq qq 其中 jq 是特征值 jd 的单位特征向量,并且{ jq }构成 nC 的标准正交基,所以 ∑=∀ = n j jja 1 qxx, 。于是, www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 171 ∑ ∑ = = = n j j n j jj a ad 1 2 1 2 || || xx Axx H H nn j j n j jn d a ad = ∑ ∑ ≤ = = 1 2 1 2 || || 特别取 1qx = ,有 nd= xx Axx H H ,因此 nx d= ≠ xx Axx H H 0 max 用同样的方法可证明: 10 min d x = ≠ xx Axx H H 证毕。 下面是较为一般的定理: 定理 7.4.2 设 1{, ,...,}rr sspan +∈xqqq,其中 nsr ≤≤≤1 ,则 sxrx dd == ≠≠ xx Axx xx Axx H H H H 00 min,max (7.4.4) 更为一般的定理,通常称为轭米特矩阵特征值的极小极大原理: 定理 7.4.3(Courant-Fischer) 设轭米特矩阵 A 的特征值为 nddd ≤≤≤ ...21 , kV 为 nC 的任一 k 维子空间,则 ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ −∈= }0{:maxmin kH H Vk VAd k x xx xx (7.4.5) ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ −∈=+− }0{:minmax1 kH H Vkn VAd k x xx xx (7.4.6) 证明 下面仅证明式(7.4.5),式(7.4.6)的证明类似。令 1{}kkknW span ,...,+= q,q q 其中 jq 是特征值 jd 的单位特征向量。显然, 1)dim( +−= knWk 。因 n kk CWV ⊂+ ,所以 )dim(1)dim()dim()dim()dim( kkkkkkkk WVnWVWVVWn ∩∩ −+=−+=+≥ 于是, 1)dim( ≥kk WV ∩ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 172 因此,存在非零向量 kk WV ∩∈0x ,从而 0 n j j jk c = = ∑xq,并且 kn kj j n kj jj H H d c cdA ≥ ∑ ∑ = = = 2 2 00 00 || || xx xx 所以,对 nC 的任一 k 维子空间 kV ,有 kkH H dVA ≥ ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ −∈ }0{:max x xx xx (7.4.7) 另一方面,取 1{}kkknV span ,...,+= q,q q ,则根据定理 7.4.2,有 kkH H dVA = ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ −∈ }0{:max x xx xx (7.4.8) 所以,根据式(7.4.7)和(7.4.8),得到 ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ −∈= }0{:maxmin kH H Vk VAd k x xx xx 证毕。 7.4.2 半正定轭米特矩阵 定义 7.4.2 轭米特矩阵 A 称为半正定的当且仅当 nCAA ∈∀≥>=< xxxxx, H ,0 。半正定的轭米 特矩阵记为 0≥A 。如果轭米特矩阵 A 使得 0, 0< >= > ∀ ≠HAx,x x Ax x ,则称它为正定轭米特矩阵, 并记为 0>A 。如果 A 是对称矩阵,可类似定义半正定对称矩阵和正定对称矩阵。 下述性质是明显的: (1) ⇔≥ 0AA的特征值是非负的; (2) ⇔> 0AA的特征值均为正数 0)det(, ≠≥⇔ AA 0 ; (3) 0,, ≥+∈∀⇒≥≥ + bBaARbaBA 00, 。 令 A 的谱分解为 H nn H 22 H 11 H vvvvvv nn dddVdddVdiagA +++== ...),...,,( 2121 对任意 0≥α ,定义 H nn H 22 H 11 vvvvvv αααα ndddA +++= ...21 (7.4.9) 特别称 2 1 A H nn H 22 H 11 vvvvvv nddd +++= ...21 为 A 的算术平方根。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 173 如果 0>A ,则 αA 对任何实数α 都有意义,且 0>αA 。 对于半正定轭米特矩阵 A 的幂,显然有下述性质: (1) 0≥αA ; (2) βαβα += AAA ; (3) αββα AA =)( ; (4) 如果 A,B 是可交换的半正定轭米特矩阵,则 αααα )()( BAABBA == 相对特征值 定义 7.4.3 设 A 为轭米特矩阵,B 为正定的轭米特矩阵,若( x,d )是下述方程的解: xx dBA = (7.4.10) 则 d 称为 A 相对 B 的特征值, x称为 A 相对 B 的特征向量。 当 B 为单位矩阵时,相对特征值与相对特征向量就是通常的特征值与特征向量。因此,相对特 征值与相对特征向量通常又称为广义特征值与广义特征向量。 显然,A 相对 B 的特征值 d 是下述方程的解: 0)det( =− dBA (7.4.11) 通常,方程(7.4.11) 称为相对特征值问题(7.4.10)的特征方程。 定理 7.4.4 设 A 为轭米特矩阵, 0>B ,则存在非奇异矩阵 P 使得 IBPPddddiagAPP H n == ),,...,,( 21 H (7.4.10) 其中 jd 是 A 相对 B 的特征值,P 的第 j 个列向量 jp 是对应的相对特向量。 当 0≥A 时,A 相对于 B 的特征值 jd 均为非负实数。 证明 令 2 1 BL = >0。由于矩阵 11 −− ALL 仍是轭米特矩阵,所以存在酉矩阵 Q 使得 ),...,,( 21 nddddiagQALLQ =−− 11H 取 QLP 1−= ,则 IQQBPPddddiagAPP n === HHH ),,...,,( 21 从上式,我们有 ),...,,( 21 n H dddBPdiagPAPP H= 所以, ),...,,( 21 ndddBPdiagAP = www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 174 因此, nddd ,...,, 21 为相对特征值,P 的列向量为对应的相对特向量。 另外,由于 )det()det()det( ABxIBAxB 1−−=− ,所以 AB 1− 的特征值就是 A 相对于 B 的特征值。 注意到矩阵 2/12/1 −− ABB 与 AB 1− 相似,因而有相同的特征值。当 0≥A 时,必有 02/12/1 ≥−− ABB ,因 此 A 相对于 B 的特征值均为非负实数。证毕。 相对特征值的极性 定义 7.4.3 设 A 为 n 阶轭米特矩阵,B 为 n 阶正定轭米特矩阵,定义 }0{,)( −∈= nC B AR x xx xxx H H (7.4.11) 为矩阵 A 的广义 Rayleigh 商。 广义 Rayleigh 商与 Rayleigh 商有类似的性质: (1) )(xR 是 }0{−nC 上的连续函数; (2)对任意 0≠λ , )()( xx RR =λ ; (3) )()(},{ 00 xxxx RRspan =∈∀ ; (4)若 d 为 A 的相对特征值,对应的相对特征子空间记为 dV ,则 }0{−∈∀ dVx , dR =)(x ; (5) )(xR 在 }0{−nC 上存在最大值和最小值,并且能够在单位球面 }1||:||{ 2 =∈= xx nCS 上达 到它的最大值和最小值。 关于广义 Rayleigh 商最大值和最小值与 A 的相对特征值之间的关系,可由下列定理来描述。 定理 7.4.5 设轭米特矩阵 A 的相对特征值为 nddd ≤≤≤ ...21 ,则 100 min,max d B Ad B A xnx == ≠≠ xx xx xx xx H H H H (7.4.12) 定理 7.4.6 设 srr ddd ≤≤≤ + ...1 为轭米特矩阵 A 的相对特征值,相应的相对特征向量为 },...,,{ 1 srr ppp + ,其中 nsr ≤≤≤1 。若 },...,,{ 1 srrspan pppx +∈ ,则 sxrx d B Ad B A == ≠≠ xx xx xx xx H H H H 00 min,max (7.4.13) 定理 7.4.7 设轭米特矩阵 A 的相对特征值为 nddd ≤≤≤ ...21 , kV 为 nC 的任一 k 维子空间,则 ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ −∈= }0{:maxmin kH H Vk VAd k x xx xx (7.4.14) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 175 ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ −∈=+− }0{:minmax1 kH H Vkn VAd k x xx xx (7.4.15) 可用证明轭米特矩阵极性定理的类似方法给出上述定理的证明,也可以通过下述方法将它们作 为轭米特矩阵极性定理的推论。首先,不难证明: (1) yy yy xx xx x H 1/21/2H −− =∈∀ ABB B A C H H n , ,其中: xy 2/1B= ; (2) p 为 A 的对应于相对特征值 d 的相对特征向量的充要条件是 pv 2/1B= 为 1/21/2 −− ABB 的对应 于特征值 d 的特征向量; (3) 对于 A 的任意 r 个相对特征向量 },...,,{ 21 rkkk ppp ,则 spanspan rkkk =},...,,{ 21 ppp },...,{ 1 rkk vv 其中 jk Bj pv 2/1= ,并且 },...,{ 1 rkk vv 构成 },...,,{ 21 rkkkspan ppp 的正交基。 应用上述三个性质,由定理 7.4.1,7.4.2 和 7.4.3,可以推知: 1/ 2 1/2 100 max max , −− ≠≠ == HH HHxx xAx yB ABy d xBx yy 1/2 1/2 00 min min −− ≠≠ = = HH nHHxx xAx yB ABy d xBx yy , rvvvspanspan dABB B A srrsrr == −− ∈∈ ++ xx xx xx xx H H xH H pppx 2/12/1 },...,,{},...,,{ 11 maxmax , svvvspanspan dABB B A srrsrr == −− ∈∈ ++ xx xx xx xx H H xH H pppx 2/12/1 },...,,{},...,,{ 11 minmin , kkVkH H V dVABBVB A kk = ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ −∈= ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ −∈ −− }0{:maxmin}0{:maxmin 2/12/1 x xx xxx xx xx H H , 1 2/12/1 }0{:minmax}0{:minmax +− −− = ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ −∈= ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ −∈ knkVkH H V dVABBVB A kk x xx xxx xx xx H H . 作为练习,请读者完成证明细节。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 176 7.5 反对称矩阵 在计算机视觉中特别感兴趣的是 3 阶反对称矩阵。 3 阶反对称矩阵与三维向量 Taaa ),,( 321=a 之间有下述关系: ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − − − =× 0 0 0 ][ 12 13 23 aa aa aa a (7.5.1) 即对任何一个向量 a ,可以按上述公式确定一个反对称矩阵;反之,任何一个反对称矩阵,都可以 用一个向量 a 写成式(7.5.1)的形式。由于矩阵 ×][a 是奇异的,并且 a 是它的(右、左)零向量,所以 3 阶反对称矩阵由它的零向量确定到相差非零因子的程度。 三维向量 ba, 的叉乘被定义为 ()Tbabababababa 122131132332 ,, −−−=× ba 不难验证叉乘与反对称矩阵的关系是: TT )][(][ ×× ==× bababa (7.5.2) 矩阵相对于叉乘的分配律与矩阵的余因子矩阵有关,确切地说,有下述等式: )()()( * yxyx ×=× AAA (7.5.3) 其中 A 是任意的 33× 矩阵, )det)1((* ij ji MA +−= 是 A 的余因子矩阵,即 *A 的 ),( ji 元素是 A 的 ),( ji 元 素的代数余子式,通常称它为 A 的对偶。 当 A 可逆时, TAAA −= )det(* ;当 A 不可逆时,此公式不成立。因此,A 为可逆矩阵时,式(7.5.3) 变为 )()det()()( yxyx ×=× −TAAAA (7.5.4) 在式(7.5.3)中,令 y 分别为 321 ,, eee ,我们得到 ×× = ][][ * xx AAA (7.5.5) 如果 A 是可逆矩阵,在(7.5.5)中令 xt A= ,我们得到下述重要公式: × −− × = ][)det(][ 1tt AAAA T (7.5.6) 下面讨论反对称矩阵的对角化问题。由于反对称矩阵是正规矩阵,所以它一定能酉对角化,而 定理 7.3.4 表明,反对称矩阵不能正交对角化。那么反对称矩阵的正交相似标准形是什么?由推论 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第7 章:正交对角化 177 7.3.1,反对称矩阵的非零特征值均为纯虚数,反对称矩阵有偶数个非零特征值,这样奇数阶的反对 称矩阵必为奇异矩阵。 定理 7.5.1 若 A 是反对称矩阵,必存在正交矩阵 Q 使得 AQQT )0,,0,,,,( 21 ZZZdiag rλλλ= (7.5.7) 其中 rjii jj ,...,2,1,, =− λλ 是 A 的非零特征值, ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −= 01 10Z 。 证明 由推论 7.3.1,反对称矩阵的非零特征值均为纯虚数,因此反对称矩阵有偶数个非零特征 值。不失一般性,假定 A 的非零特征值为 rjii jj ,...,2,1,, =− λλ ,对应的单位特征向量为 rjjj ,...,2,1,, =ff 并假定 },...,,{ 2212 nrr xxx ++ 是 A 的零空间的一组标准正交基(如果存在的话),则 )0,...,0,,,...,,,,( 2211 rr H iiiiiidiagAVV λλλλλλ −−−= (7.5.8) 其中: ),...,,,,...,,,,( 122211 nrrrV xxffffff += 是酉矩阵。令 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −= i iU /11 /11 2 1 则它是一个 2 阶酉矩阵,并且 ),,...,,( 2rn r IUUUdiagW −= 是 n 阶酉矩阵。 于是 ),...,,,,...,,,,( 122211 nrrrVW xxffffff += ),,...,,( 2rn r IUUUdiag − 1111 21, ,..., , , ,..., 22 2 2+ ⎛⎞+− + −= ⎜⎟ ⎝⎠ rrrr rn ffff ffffx x ii 是正交矩阵,并且 )0,...,0,,...,,()0,...,0,,,...,,,,( 212211 ZZZdiagWiiiiiidiagW rrr H λλλλλλλλλ =−−− 其中 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −= 01 10Z 。令 VWQ = ,则由式(7.5.8),得到 WiiiiiidiagWAVWVWAQQ rr HHHT )0,...,0,,,...,,,,( 2211 λλλλλλ −−−== )0,...,0,,...,,( 21 ZZZdiag rλλλ= 证毕。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第8章:矩阵分解 178 8.矩阵分解 8.1 正交三角分解*) 定义 8.1.1 如果非奇异实矩阵 A 能够表示为正交矩阵 Q 与上三角矩阵 R 的积,即 A=QR (8.1.1) 则称式(8.1.1)是 A 的 QR 分解。 与 QR 分解类似,还有 QL,LQ,RQ 分解,其中 L 表示下三角矩阵。矩阵的 QR 分解,RQ 分 解,QL 分解,LQ 分解统称为矩阵的正交三角分解。下面仅讨论实矩阵的 QR 分解,其它类型分解 可类似的获得。 定理 8.1.1 对任意非奇异实矩阵 A 总可以分解为正交矩阵 Q 与上三角矩阵 R 的积,如果要求 上三角阵 R 的对角元素均为正数,则分解是唯一的。 证明 令 ),...,,( 21 nA aaa= ,由于 A 是非奇异矩阵,因此它的列向量线性无关,所以对列向量组 进行 Schmidt 正交化可得到 n 个两两相互正交的单位向量 nqqq ,...,, 21 使得 ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ +++= += = nnnnnn ccc cc c aaaq aaq aq “ ““ 22211 22221122 1111 其中 0≠jjc 。将上式写成矩阵形式,有 12( , ,..., )n Q qq q ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = nn n n c cc #% “ 111 21 ),...,,( aaa 即 Q=AC。由于 RC =−1 也是上三角矩阵,所以有 A=QR。 唯一性:设 A 有两种分解 RQAQR ~~== ,则必有 QQRR ~~ 11 −− = ,于是 1~ −RR 是正交的上三角矩阵。 *) 在本章中,除特别说明外矩阵均指实矩阵。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第8章:矩阵分解 179 正交矩阵是正规矩阵,因此 1~ −RR 是对角矩阵,再根据正交性, 1~ −RR 必为对角元为 1± 的对角矩阵。 由于要求 QR 分解中的上三角矩阵的对角元均为正数,所以 1~ −RR =I。因此, RR ~= ,并且 QQ ~= 。 证毕。 定理 8.1.1 可以推广到非方阵的情形。 定理 8.1.2 对任意列满秩的实矩阵 A 总可以分解为列正交的矩阵 Q 与上三角矩阵 R 的积,如果 要求上三角阵 R 的对角元素均为正数,则这种分解是唯一的。 证明留给读者。 上面用 Schmidt 正交化方法构造性地证明了非奇异矩阵总可以进行 QR 分解,但是在实践中并 不使用 Schmidt 正交化方法对矩阵作 QR 分解,而是利用实用的方法:Givens 方法或 Houesholder 方法。 8.1.1 Givens 方法 Givens 旋转矩阵是如下形式的矩阵: 1 1 1 1 1 1 cs G sc ⎛⎞ ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟= ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟−⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟⎝⎠ % % % % 其中 θθ sin,cos == sc ,θ 是某一个角度。 例如 3 阶 Givens 旋转矩阵共有下述三种类型,它们分别是绕三个坐轴的旋转: ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ −= cs scGx 1 , ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − = cs sc Gy 1 , ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − = 1 cs sc Gz www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第8章:矩阵分解 180 下面仅给出 3 阶矩阵 RQ 分解的 Givens 旋转方法,因为读者毫无困难地将这种方法推广到 n 阶 矩阵的 QR、RQ、LQ、QL 分解。令 11 12 13 21 22 23 1 2 3 31 32 33 (, , ) aaa Aaa a aaa ⎛⎞ ⎜⎟==⎜⎟⎜⎟⎝⎠ aaa (1) 从等式 12 3 2 3(, , )xAG c s s c= +−+aa a a a 我们可以选择一个角度θ 使得 xAG 对角线以下的任何一个指定的元素变为零。例如,为了使 xAG 的 (3,2)元素变为零,即 03332 =+ saca 可选取 33 32 22 22 32 33 32 33 ,aacs aa aa =− = ++ 显然,有 122 =+ sc 。因上式定义的 ,cs确实使 xG 是一个旋转矩阵。即,找到了一个 Givens 旋转矩 阵 xG 使 xAG 的(3,2)元素变为零,且 xAG 的第一列与 A 的第一列相等。 (2) 类似地,可以找到一个 Givens 旋转矩阵 yG 使 yxGAG 的(3,1)元素变为零,并且 yxGAG 的第 二列与 xAG 的第二列相同; (3) 同样可以找到一个 Givens 旋转矩阵 zG 使 zyx GGAG 的(2,1)元素变为零, zyx GGAG 的第三 列与 yxGAG 的第三列相同并且它们的第三行也相同。于是,我们有 RGGAG xyz = 它是上三角矩阵。于是,A 是上三角矩阵 R 与旋转矩阵 T z T y T x GGGQ = 的乘积。这样,我们就完成了 矩阵 A 的 RQ 分解。 8.1.2 Householder 方法 Givens 旋转方法,对于 n 阶矩阵需要作 n(n-1)/2 个 Givens 旋转矩阵的积,计算量较大。对于高 阶矩阵而言,用下述 Householder(反射)矩阵变换进行 QR 分解更有效。 定义 8.1.2 \{0}nR∀∈v ,n 阶矩阵 vv vv v T T IH 2−= www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第8章:矩阵分解 181 称为 Householder 矩阵。 不难验证 IHH T =vv 且 det( vH ) 1−= , 因此 vH 是正交矩阵,更确切地说它是反射矩阵。 引理 8.1.1 对任意给定的非零列向量 nR∈x 及单位向量 nR∈z ,存在 Householder 矩阵 H 使得 || ||H =xxz。 证明 当 || ||=xxz时,取单位向量 v 满足 0=xvT ,则必有 ( 2 ) 2 ( ) || ||TTHI=− =− ==v xvvxxvvxxxz 当 || ||≠xxz时,取 || || || || || || −= − xxzv xxz ,则 xvvxv )2( TIH −= 2 || ||2||||, || || || || −=−<− > − xxzxxxzx xxz 因 2|| || || || 2 || || ,−<−>=xxz xxzx,所以 ( || || ) || ||vH = −− =xx x xz xz 证毕。 根据引理 8.1.1,对 n 阶非奇异方阵 ),,,( 21 nA aaa “= 作一系列的 Householder 变换,可化将它 化为上三角矩阵。具体步骤如下: (1) 由引理 8.1.1 可以找到 n 阶 Householder 矩阵 1H 使得 11 1 1|| ||H =aae ( nT Re ∈= )0,0,1(1 “ ) 令 (1) 11 1|| ||a = a ,则有 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ = 1 )1()1( 11 1 A aAH T 0 a (2) 再对 n-1 阶矩阵 1A 施行步骤 1),有 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ = 2 )2()2( 22 12 A aAH T 0 a …… (n-1) 将上述过程进行到 n-1 步,有 (1) (1) 1, 1 1,(2) 1 (1) ,0 nn nn nnn n n nn aaHA a −− −− −− − − ⎛⎞= ⎜⎟⎜⎟⎝⎠ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第8章:矩阵分解 182 n) 令 22 1 132 1n n IIQHHHH − − ⎛⎞⎛⎞⎛⎞= ⎜⎟⎜⎟⎜⎟⎝⎠⎝⎠⎝⎠ 000 000“ ,则 R a a a QA n nn ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = − )1( )2( 22 )1( 11 * % 是上三角矩阵。这样,就将矩阵 A 分解为正交矩阵与上三角矩阵的乘积。 上述分解方法通常称为 Householder 方法,它只需要作(n-1)个 Householder 矩阵的积,其计算量 大约是 Givens 旋转方法的一半。 8.1.3 内参数与外参数的分解 第 3 章已给出估计出(欧氏)摄像机矩阵 P 的线性方法。在有些应用埸合,如运动分析,需要 通过矩阵 P 求解摄像机的内外参数,再确定视觉系统关于世界坐标系的位置关系。RQ 分解是实现 摄像机内参数、外参数求解的最为简便的方法。 令摄像机内参数矩阵为 K,外 参 数 矩 阵 为 ),( tR ,由于此时的摄像机矩阵是欧氏的,所以可写成 下述形式: ),( tRKP α= 将 P 表示成 ),( 4pHP = ,则有 tp αα == 4,KRH 对 H 作 RQ 分解: RKH ˆˆ= ,其中 Kˆ 是对角元均为正数的上三角矩阵, Rˆ 为正交矩阵,并且种 分解是唯一的。三角矩阵 Kˆ 与摄像机参数矩阵相差一个正常数倍,由于内参数矩阵最后一个元素为 1,所以内参数矩阵必为: KkK ˆˆ 1 33 −= ,其中 33k 是矩阵 K 的第(3, 3)元素。如果正交矩阵 Rˆ 是一个旋 转矩阵,则它就是摄像机关于世界坐标系的姿态。如果 Rˆ 是不是旋转矩阵,则表明所估计的摄像机 矩阵与实际的(欧氏)摄像机矩阵反号,即 P 中的齐次因子的符号 1sgn −=α ,于是 RR ˆ−= 就是所要 求解旋转矩阵。对于平移参数 t,可通过下式来确定: ⎪⎩ ⎪⎨ ⎧ −= = − − 不是旋转矩阵。若 是旋转矩阵;若 Rk Rk ˆ,ˆ ˆ,ˆ 4 1 33 4 1 33 pt pt 这样,就得到了摄像机内、外参数。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第8章:矩阵分解 183 8.2 乔里斯基(Cholesky)分解 根据对称矩阵的特征值分解,我们有 T n QQdiagA ),,,( 21 λλλ “= (8.2.1) 所以, ,j∀ jjn T jj T j diagA λλλλ == eeqq ),,,( 21 “ (8.2.2) 因此,正定对称矩阵的特征值 jλ 均为正数。 定理 8.2.1(Cholesky 分解) 正定对称矩阵A 可以唯一地分解为对角元素均大于零的上三角矩阵 K 与其转置 TK 的乘积,即 TKKA = ,其中 K 为对角元素均大于零的上三角矩阵。 证明 根据式(8.2.1), 12 12[(,,,)][(,,,)]T nn VV A Qdiag Qdiagλλ λ λλ λ= ““  TVV= 对 V 作 RQ 分解,有 QKV ~= ,其中 K~ 是上三角矩阵,Q 是正交矩阵,于是, TTTT KKKQQKVVA ~~~~ === 令 ),,,( 2211 nnsignksignksignkdiagD “= ,则 DKK ~= 是对角元素均为正数的上三角矩阵。因此, TTT KKKDKDKKA === −− ))((~~ 11 下面证明唯一性:若存在 1K , 2K 使得 TT KKAKK 2211 == ,则必有 TTT KKKKKK −−−− == )( 1 1 2121 1 2 因上式两边分别为上三角和下三角矩阵,因此它们是同一个对角矩阵,从而 1 1 1 21 1 21 1 2 )()( −−−−− == KKKKKK T 因此,必有 IKK =− 1 1 2 ,故 21 KK = 。证毕。 递推算法 令 )( ijkK = ,则由 TKKA = 得到下述等式: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第8章:矩阵分解 184 ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ ∑ =+=+++= ∑ >+=+++= += + += ++ n jr jrjjjnjjjjjj n jr irjrijjjinjnijjjijjjji ijkkkkka ijkkkkkkkkkka 1 2222 1 2 1 11 )( )( “ “ 从上式,可得到 ijk 的下述递推关系: ⎪ ⎪ ⎪ ⎪ ⎩ ⎪⎪ ⎪ ⎪ ⎨ ⎧ < ∑ >− =∑− = += += )(,0 )(,)(1 )(, 1 1 2 ij ijkkak ijka k n jr irjrji jj n jr jrjj ij 特别地,对于 3 阶矩阵 )( ijaA = ,有 3333 ak = , 32 33 23 1 akk = , 31 33 13 1 akk = , ∑−= = 3 2 2 11111 r rkak , 2 232222 kak −= , )(1 132321 22 12 kkakk −= 。 Cholesky 分解在计算机视觉中的一个典型应用,是利用它可以非常方便地从绝对二次曲线ϖ 或 绝对二次曲面的图像 *ϖ 分解出摄像机内参数。 8.3 奇异值分解 矩阵的奇异值分解在最优化问题,特征值问题,最小二乘问题及矩阵的广义逆问题中都具有非 常重要的应用。在计算机视觉中,常常使用它来求解运动分析和线性最优化问题。 8.3.1 正交对角分解 在7.3 节,已经看到对称矩阵的正交对角分解,即对任意的对称矩阵 A,总存在正交矩阵 Q 使 T n QQdiagA ),,,( 21 λλλ “= 对于一般的非对称矩阵,不再有上述分解,但是存在两个正交矩阵 P 和 Q 使得上式成立。确切 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第8章:矩阵分解 185 地说,有下述结论。 定理 8.3.1 (正交对角分解) 设 A 是一个非奇异方阵,则存在正交矩阵 P 和 Q 使得下式成立: T n QPdiagA ),,,( 21 σσσ “= (8.3.1) 其中, ),,2,1(0 nii “=>σ 。 事实上,因为矩阵 A 是非奇异的,所以 AAT 为正定实对称矩阵,因此存在正交矩阵 Q 使 ),,,()( 21 n TT diagQAAQ λλλ “= 其中, ),,2,1(0 nii “=>λ 为 AAT 的特征值。令 ii λσ = , ),,,( 21 ndiagD σσσ “= 则有 2)( DQAAQ TT = 或写成 1()T P AQD AQ D− = 因 IAQDAQDAQDAQDPP TTTTT === −−−− 111 )()( ,即 P 是正交矩阵,所以 DAQPT = ,故有 T n QPdiagA ),,,( 21 σσσ “= 8.3.2 奇异值分解 奇异值分解是将定理 8.3.1 推广到任意实矩阵,即不要求矩阵 A 是可逆的方阵,也不要求它是 方阵。 设 mn rAR×∈ *), AAT 的特征值为 0121 ===>≥≥≥ + nrr λλλλλ ““ 则称 ii λσ = ),,2,1( ni “= 为矩阵 A 的奇异值。 当A 为零矩阵时,它的所有奇异值均为零。一般地,矩阵 A 的奇异值的个数等于 A 的列数,A 的非零奇异值的个数等于 A 的秩。 定理 8.3.2(奇异值分解,SVD) 设 mn rAR×∈ ,则存在 m 阶正交矩阵 U 和 n 阶正交矩阵 V 使**) *) mn rR × 表示秩为 r 的所 mn× 阶实矩阵的集合。 **)对复矩阵 mn rAC×∈ ,定理也成立,即存在则存在 m 阶酉矩阵 U 和 n 阶酉矩阵 V 使 HA UDV= 。证明也类似。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第8章:矩阵分解 186 0 T D AU VΣ⎛⎞= ⎜⎟⎝⎠ 0 0 (8.3.2) 其中 ),,,( 21 rdiag σσσΣ “= ,即 rσσσ ,,, 21 “ 是 A 的非零奇异值。式(8.3.2)通常记为 TUDVA = (8.3.3) 证明 记对称矩阵 AAT 的特征值为 0121 ===>≥≥≥ + nrr λλλλλ ““ 由对称矩阵的正交分解,我们有 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛== 0 ),,,()( 2 21 0 0Σλλλ n TT diagVAAV “ (8.3.4) 将 V 分块为 )( 2121 ,,)|( rnnrn RVRVVVV −×× ∈∈= 并将(8.3.4)改写为 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 0 )( 2 0 0ΣVVAAT 则有 2 11 ΣVAVAT = , 0=2AVAT (8.3.5) 由(8.3.5)中第一式得到 2 11 Σ=AVAV TT , 或写成 r T IAVAV =−− )()( 1 1 1 1 ΣΣ 由(8.3.5)中第二式得到 0=)()( 22 AVAV T , 或写成 0=2AV 令 1 11 −= ΣAVU ,则 r T IUU =11 ,即 1U 的 r 个列向量是两两正交的单位向量,记为 ),,,( 211 rU uuu “= 将 },,,{ 21 ruuu “ 扩充为 m 维空间的一组正交基 },,,,,,{ 121 mrr uuuuu ““ + 。令 ),,( 12 mrU uu “+= 则 )|( 21 UUU = 是个正交矩阵,且 r T IUU =11 , 012 =UU T 这样,我们有 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第8章:矩阵分解 187 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛== 0)|()|( 1 2 1 21 0 00 ΣΣU U UAVAVUAVU T T TT 故有 TVUA ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 00 0Σ 。证毕。 记 ),,,( 21 mU uuu “= , ),,,( 21 nV vvv “= ,由 A 的 SVD 分解,不难验证: (1) A 的零空间: },,,{)( 21 nvvv “++= rrspanAN (8.3.6) (2) A 的值空间: },,,{)( 21 rspanAR uuu “= (8.3.7) (3) A 可分解为: T rrr TTA vuvuvu σσσ +++= “222111 (8.3.8) 通常也称式(8.3.8)为 A 的奇异值分解,并且称 iu 为奇异值 iσ 的左奇异向量, iv 为奇异值 iσ 的右 奇异向量。 8.3.3 奇异值的极性 矩阵 A 的奇异值 )(Aσ 和半正定矩阵 AAT 的特征值 )( AATλ 有下述关系 )(Aσ )( AATλ= 。 因此, 可利用半正定矩阵特征值的极性研究奇异值的极性。 定理 8.3.3 设A nm rR ×∈ 的奇异值为 0121 ==>≥≥≥ + nrr σσσσσ ““ 则第 k 个奇异值与第 n-k+1 个奇异值具有下述性质: 2 20 || ||max min ,|| ||kk k xVV x Aσ ∈ ≠ ⎛⎞ ⎜⎟= ⎜⎟⎝⎠ x x 2 1 20 || ||min max ,|| ||k k nk V xV x Aσ −+ ∈ ≠ ⎛⎞ ⎜⎟= ⎜⎟⎝⎠ x x 其中 kV 为 nR 的任一 k 维子空间。 证明 设 AAT 的特征值为 0121 ===>≥≥≥ + nrr λλλλλ ““ 于是有 ),...,2,1( njjj == λσ ,对 AAT 应用定理 7.4.3,有 00 max min max min kkkk TT TT kk TTxV xVVV xx AA AAσλ ∈∈ ≠≠ ⎛⎞⎛⎞ ⎜⎟⎜⎟== =⎜⎟⎜⎟⎝⎠⎝⎠ xx xx xx xx 2 20 || ||max min || ||kk xVV x A ∈ ≠ ⎛⎞ ⎜⎟= ⎜⎟⎝⎠ x x www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第8章:矩阵分解 188 同理可证 2 1 20 || ||min max || ||k k nk V xV x Aσ −+ ∈ ≠ ⎛⎞ ⎜⎟= ⎜⎟⎝⎠ x x 定理 8.3.4 设 A nm rR ×∈ 的奇异值为 0121 ==>≥≥≥ + nrr σσσσσ ““ (A+Q) nm rR × ′∈ 的奇异值为 0121 ===>≥≥≥ +′′ nrr τττττ ““ ,则必有 ),...,2,1(|||||| 2 njQjj =≤−τσ 定理表明,矩阵 A 在摄动 Q 下,奇异值的变化量不超过 2|||| Q 。因此,矩阵奇异值的计算具有 良好的数值性质。 证明 设 AAT 的特征值为 0121 ===>≥≥≥ + nrr λλλλλ ““ ,相应的单位特征向量为 12,,,nxx x“ ,记 12{, ,...,},1,2,...,jjV Span j n==xx x 则有 2 200 || ||max max || ||jj TT jj TxV xV xx AAAσλ ∈∈ ≠≠ ⎛⎞ ⎜⎟== =⎜⎟⎝⎠ xxx xx x 对于矩阵(A+Q)有 222 2 222000 || ( ) || || || || ||max max max || |||| || || || || ||jjj j jxV xV xV xxx AQ A Q Qτσ ∈∈∈ ≠≠≠ +≤≤+≤+xxx xxx 同理,考虑 )()( QAQA T ++ 的特征值与单位特征向量,可以得到 2|||| Qjj +≤ τσ ,因此有 2| | || || ( 1,2,..., )jj Qj nσ τ− ≤= 8.3.4 极分解 对于非零复数 z 可表示为极(坐标)形式: θρez = 。下面, 指出对于非零复方矩阵也可以表示 为极形式,通常称为矩阵的极分解: BiPeA = 其中 P 为半正定的轭米特矩阵,B 为轭米特矩阵。 定理 8.3.5(极分解) 令A 为非零复(实)方阵,则存在唯一的半正定轭米特(实)矩阵 P 和酉(正交) 矩阵 U 使得 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第8章:矩阵分解 189 BiPePUA == 证明 对 A 作奇异值分解: 0 00 HAQ VΣ⎛⎞= ⎜⎟⎝⎠ 令 0 ,00 H HPQ QUQVΣ⎛⎞==⎜⎟⎝⎠ 则 P 是半正定轭米特矩阵,U 是酉矩阵且 PUA = 。证毕。 8.4 最小二乘问题 考虑线性系统: bx =A ),),(( nmnm RRnmRA ∈∈>∈ × xb 的最小二乘解。即求 nRx ∈ 使得 { }22|| || min || || : nAAR−= − ∈xb vb v (8.4.1) 记 { }:8.4.1n LS R=∈Xx x是( )的解 (8.4.2) 则称 LSX 是最小二乘问题(8.4.1)的解集; LSX 中范数最小者称为最小范数解,并记作 LSx ,即 { }22|| || min || || :LSLS=∈xxxX 命题 8.4.1 0)( =−⇔∈ bxXx AAT LS 证明 nR∈∀ yx, ,有 22 2 22 2|| ( ) || || || 2 ( ) || ||TTAAAAA−+ =−− −+bxybxybxy 因此, n LS R∈∀⇔∈ yXx , 2 2|| || 2 ( ) 0 ( ) 0TT TAAAAA− −≥⇔−=yybx bx。 方程 ()0TAA−=xb 称为 0A −=xb 的正规方程。 根据命题8.4.1,有下述推论: 推论 8.4.1:(1) LSX 是凸集;(2) LSx 是唯一的;(3) { }LSLS xX = 的充分必要条件是 nArank =)( 。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第8章:矩阵分解 190 Moore-Pseudo 广义逆 为了给出最小二乘解的一般表示,需要矩阵的广义逆的概念。 定义 8.4.1 ,nmRA ×∈ 若 mnRX ×∈ 满足 AAXA = , XXAX = , AXAX T =)( , XAXA T =)( 则称 X 是 A 的 Moore-Pseudo 逆,简称广义逆,并记为 +A 。 矩阵A 的广义逆是唯一的,并且可以利用 A 的 SVD 分解进行计算。令 A 的 SVD 分解为 Tr VUA ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 00 0Σ 不难验证: Tr UVA ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ = − + 0 1 0 0Σ (8.4.3) 命题 8.4.2 最小二乘问题(8.4.1)的一般解为 (),nAIAAR++=+− ∈xb zz (8.4.4) 最小范数解是 bAx +=LS (8.4.5) 证明 由命题 8.4.1,最小二乘问题(8.4.1)的解可由它的正规化方程: bx TT AAA = (8.4.6) 给出。利用广义逆,可验证 bx += A 是(8.4.6)的一个解。另外,由 SVD 分解可证明 )()( ANAAN T = , 且 { }nRAAIAN Rz ∈−= + :)()( 所以,根据线性方程组理论,方程(8.4.6)的所有解为 zbx )( AAIA ++ −+= , nR∈z 此外,注意到 0)(])[( =−=− ++++ bzbz AAAIAAAI TT 所以, 22 22 22 22|| || || || || ( ) || || ||AIAAA+++=+−≥xb zb 即 bx += ALS 。 在求解最小二乘问题(8.4.1)中,我们通常关心的是极小范数解 LSx 。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第8章:矩阵分解 191 最小二乘解的扰动分析 假定 mnm RRδAA ∈∈ × bb δ,, 和 ,设 nR∈+ xxx δ, 分别为最小二乘问题 { }22|| || min || || : nAAR−= − ∈xb vb v 和 { }22|| ( )( ) ( ) || min || ( ) ( ) || : nA δAAδARδδ δ++−+= +−+∈xxbb vbbv 的最小范数解,即 bx += A )()( bbxx δδ ++=+ +δAA 现在考虑 Aδ 和 bδ 的大小对 xδ 的影响。 由于广义逆的不连续性,即 0→δ 时,不一定有 ++ →+ AδAA )( ,这使得最小二乘解的扰动分 析变得复杂化。但是,广义逆的连续性与保秩扰动之间具有内在联系。实际上, ++ → =+ AδAA A )(lim 0|||| 2δ 的充要条件是当δ 充分小时, )()( ArankδAArank =+ 。因此,通常都在扰动 Aδ 不改变 A 的秩的前提 下,考虑最小二乘解的扰动分析。记 bbbxxx δδ +=+=+= ,,δAAA , 22222|| || || || , ( ) || || || || ,AAkkAAA kε δηε+====A A 。 命题 8.4.3 如果 )()( ArankArank = ,且 1<η ,则有 22 22 2 2 || || || |||| || || || || ||1|||| kAk kA δεδε εη ⎛⎞+−≤+ +⎜⎟− ⎝⎠ A AA bbxxx x (8.4.7) 这个结论的证明比较复杂,证明略。 命题8.4.3 表示 )(2 Ak 的大小,在一定程度上反映了最小二乘问题解对扰动的敏感程度,称 )(2 Ak 为最小二乘问题(8.4.1)的条件数。当 )(2 Ak 很大时,就说问题(8.4.1)是病态的;否则就说它是良态的。 8.4.1 满秩最小二乘问题 如果(8.4.1)中的矩阵 A 是列满秩的,即 nArank =)( ,则称它为满秩最小二乘问题。下面考虑满 秩最小二乘问题的数值算法。 正规化方法 将求解问题(8.4.1)转化为求解正规化方程组 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第8章:矩阵分解 192 bx TT AAA = (8.4.8) 由于 nArank =)( ,所以 AAT 是对称正定矩阵,因而(8.4.8)的唯一解 LSx 可用 Cholesky 分解法求 得。正规化的基本步骤为: ①计算 bd TT AAAC == , ; ②对C 进行 Cholesky 分解 TGGC = ; ③求解三角方程 dy =G 以及 yx =TG 。 QR 分解方法 设 A 有 QR 分解: RQRQA 10 =⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 其中 nmRQ ×∈ 是正交矩阵, 1Q 是 Q 的前 n 列组成的矩阵,即 )|( 21 nmn QQQ − = , nmRR ×∈ 是对角线上元 素均为正数的上三角矩阵。 由于正交矩阵保持范数不变,所以问题(8.4.1)等价于 { }22|| ( ) || min || ( ) || :TTnQA QA R−= − ∈xb vb v 记 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛== 2 1 2 1 d dbbd T T T Q QQ 则有 2 1222 21222 2 2 || ( ) || || || || ||T RQA R⎛⎞⎛⎞−= − =− +⎜⎟⎜⎟⎝⎠ ⎝⎠ dxb x xd dd0 因此, x 是(8.4.1)的解当且仅当 x 是方程 1dx =R 的解。这样,(8.4.1)的解可由上三角方程组 1dx =R 求得。 QR 分解方法的基本步骤如下: ①求A 的 QR 分解; ②计算 bd TQ11 = ; ③解方程组 1dx =R 。 值得指出的是,QR 分解方法比正规化方法有较好的数值稳定性,并且计算结果比正规化方法 要精确。当然,QR 方法比正规化方法会付出更大的计算代价。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第8章:矩阵分解 193 SVD 分解方法 最常用的方法是 SVD 分解方法。由于 nArank =)( ,所以 A 必有下述形式的 SVD 分解 Tn VUA ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 0 Σ ,于是, 1(,0)T nA VU+−=Σ 。所以,问题(8.4.1)的解为 1(,0)T nAV U+−==Σxb b ∑=+++= = n j j j T j n n T n TT 1 2 2 2 1 1 1 v bu vbuvbuvbu σσσσ “ (8.4.9) 上式给出了 SVD 分解方法关于最小二乘解的计算公式。 8.4.2 亏秩最小二乘问题 如果在最小二乘问题(8.4.1)中,矩阵 A 是亏秩的,即 nArank <)( 。此时(8.4.1)有无穷多解,在 上面介绍的处理满秩问题(8.4.1)的正规化方法,QR 分解方法都将失败,不能给出最小范数解 LSx 。 但是,SVD 分解方法仍然有效。具体地说,若 rArank =)( ,则 A 有 SVD 分解: Tr VUA ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 00 0Σ 因此, b 0 0bx Tr UVA ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛== − + 0 1Σ ∑= = r j j j T j 1 v bu σ (8.4.10) 在这里,可以看到 SVD 分解在数值计算中的作用,不论是满秩的还是亏秩的最小二乘问题,SVD 分解方法总能给出它们的求解计算公式,并且有统一的形式。下面将会进一步看到 SVD 分解的重要 作用。 8.4.3 数值秩的定义和确定方法 从上面的讨论,可以看出亏秩最小二乘问题(8.4.1)求解与矩阵的秩密切相关。然而“秩”这一 在数学上精确定义的概念,在数据有误差时或者在计算机上进行浮点运算时,就变得模糊不清了。 这样就自然地引进了所谓的数值秩的概念。 定义 8.4.1 设 nmRA ×∈ ,如果对某一正数ε ,有 2min{ ( ) : ,|| || }mnr rank B B R B A ε×=∈−< (8.4.11) 则称 r 为矩阵 A 的ε 数值秩。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第8章:矩阵分解 194 下面考虑数值秩的确定问题。 设 nmRA ×∈ ( nm ≥ )的奇异值 nσσσ ≥≥≥ “21 ,对应的左,右奇异向量分别为 nuuu ,,, 21 “ ; nvvv ,,, 21 “ ,则 21() inf || || , 1,2, ,krank k AB k nσ +≤ − ==“ B 且下确界在 T jj k j jB vu∑= =1 σ 达到。因此,矩阵 A 的ε 数值秩是 r 的充分必要条件是 1rrσ εσ+≥≥ (8.4.12) 于是,可以使用 SVD 分解来确定矩阵的ε 数值秩。 由于SVD 分解的良好数值性态,现在人们普遍认为奇异值分解方法是确定数值秩的最可靠方 法。 值得指出的是:要使(8.4.12)成立, 1+rσ , rσ 之间必须具有一定的距离,如果矩阵 A 的奇异值 分离不明显,而且又是亏秩时,应用 SVD 分解确定矩阵 A 的ε 数值秩就有一定的困难,此时需要更 复杂的方法来处理。 8.4.4 齐次最小二乘问题 考虑齐次线性方程组: 0x =A ),),(( nmRnmRA nnm >∈>∈ × x 对应的最小二乘问题是 { }22|| || min || || : nAAR=∈xvv (8.4.13) 显然, 0x = 总是上述最小二乘问题的最小范数解。在实际中,人们所关心的并非是齐次最小二 乘问题的零解,而是它的非零解。因此,总是考虑相应的约束最小二乘问题: { }222|| || min || || : ,|| || 1nAAR=∈=xvvv (8.4.14) 或者等价地写成: 2 2 2 min || || || || 1 A subject to ⎧⎪⎨ =⎪⎩ x x (8.4.15) 命题 8.4.4 若 rArank =)( ,则(8.4.15)的所有解为 ∑= − = + rn j jrjs 1 vx ,( ∑ = − = rn j js 1 2 1) 其中, nrr vvv ,,, 21 “++ 是 AAT 的零特征值的 rn − 个线性无关的单位特征向量。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第8章:矩阵分解 195 证明 问题(8.4.15)等价于 2 min || || 1 TTAA subject to ⎧⎪⎨ =⎪⎩ xx x (8.4.16) 因 rArankAArank T == )()( ,所以 AAT 有特征值分解 T r T VVdiagAA )0,,0,,,,( 21 ““ λλλ= 其中 V 是正交矩阵,所以 nrr vvv ,,, 21 “++ 是 0=xAAT 的 rn − 个相互正交的单位解。因此(8.4.16)的所 有解为 ∑= − = + rn j jrjs 1 vx ,( ∑ = − = rn j js 1 2 1) 利用矩阵A 的 SVD 分解,也可以求解(8.4.15)。 命题 8.4.5 若 rArank =)( ,则(8.4.15)的所有解为 ∑= − = + rn j jrjs 1 vx ,( ∑ = − = rn j js 1 2 1) 其中, nrr vvv ,,, 21 “++ 是 A 的 rn − 个零奇异值的右奇异向量。 推论 8.4.6 若 1)( −= nArank 时,(8.4.15)有唯一解,这个唯一解是 AAT 的零特征值的单位特征 向量,或者说是 A 的零奇异值的右奇异向量。当数据有误差时, AAT 的最小特征值的单位特征向量 (或者说是 A 的最小奇异值的右奇异向量)是(8.4.15)的一个解。 推论8.4.6 的前半部分可由命题 8.4.4 和命题 8.4.5 直接推出。当数据有误差时, AAT 的特征值 分解必为下述形式 T n T VVdiagAA ),,,( 21 λλλ “= 其中 nλλλ ≥≥≥ “21 ,且 },,,{ 21 nvvv “ 构成 nR 的一组单位正交基。 ,||||1nR∀ ∈=xx则必有 ∑= = n j jjs 1 vx ,( ∑ = = n j js 1 2 1 ) 且 2 2 212 1 2 || || ( , , , ) nTT njj j A A Vdiag V sλλ λ = =⋅∑“xv 2 21 21 ),,,( ∑⋅= = n j jjn sVdiag eλλλ “ 2222 2 22 11 || || || || nn T jjj j j n n jj ssAAλλλ == ==≥=∑∑vv 故, nv 是(8.4.15)的一个解。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第8章:矩阵分解 196 8.4.5 约束齐次最小二乘问题 在本节,将会看到 SVD 分解在求解一般约束齐次最小二乘问题中的重要作用。 (I) 考虑约束最小二乘问题 2 2 2 min 1, A subject to C ⎧⎪⎨ = =⎪⎩ x xx0 (8.4.17) 不妨假定 nrCrank <=)( ,对 C 作 SVD 分解 Tr VUC ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 00 0Σ 令 ),,,( 21 nrrrnV vvv “++− = 为 V 的最后 rn − 个列向量所构成的矩阵,由(8.3.6)式知 0x =C 的所有解可 表示为: rn rnV − − ∈= Ryyx , 并且 11 22 =⇔= yx ,这是因为 rnV − 是列正交的。于是(8.4.17)化为下述最小化问题 2 2 2 min 1 nrAV subject to −⎧⎪⎨ =⎪⎩ y y 这是上节已解决的问题。 (II) 考虑约束最小二乘问题 2 2 2 min 1, A subject to C ⎧⎪⎨ ==⎪⎩ x xxy (8.4.18) 对 C 作 SVD 分解 Tr VUC ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 00 0Σ ,则由(8.2.7)式 C 的值空间可表示为 }|{)( r r RUCR ∈′′= xx 其中 rU 为 U 的前 r 列所构成的矩阵。于是 yx C= 可表示为 xx ′= rU 且有 11 22 =′⇔= xx 。于是 (8.4.18)化为 2 2 2 min 1 rAU subject to ⎧ ′⎪⎨ ′ =⎪⎩ x x 这是已解决的问题。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第8章:矩阵分解 197 (III) 考虑约束最小二乘问题 2 2 2 min 1 A subject to C ⎧⎪⎨ =⎪⎩ x x (8.4.19) 对 C 作 SVD 分解 Tr VUC ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 00 0Σ ,并令 xx TV=′ ,则 x0 0x ′⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 0 rUC Σ 且 1101 2 2 2 =′⇔=′⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛⇔= xx0 0x r rC ΣΣ ,其中 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′ ′ =′ −rn r x xx 。所以, ()⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′ ′′′=′′=′= − − rn r rnr AAAAVA x xxxx rnrnrr AA −− ′′+′′= xx 取 rr xy ′= Σ ,即 1 rrΣ −′ =xy,于是(8.4.19)化为最小化问题 21 2 2 min 1 r r nr nrAA subject to Σ − −− ⎧ ′′′+⎪⎨ =⎪⎩ yx y (8.4.20) 由于 2 1min rnrnrr AA rn −− − ′ ′′+′ − xy x Σ 的最小化问题的解为 rrrnrn AA xx ′′′−=′ + −− 于是(8.4.20)归结为求最小化问题: 21 2 2 min ( ) 1 r nrnrr rAAAA subject to +− −− ⎧ ′′ ′−Σ⎪⎨ =⎪⎩ y y 这样就归结为所熟知的最小化问题。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 198 9.矩阵分析 9.1 向量与矩阵范数 9.1.1 向量范数 定义 9.1.1 设 V 为数域 F 上的线性空间,若实值函数 }0{||:|| ∪+→⋅ RV 满足下述三个条件: (a) 非负性: ,0||||, ≥∈∀ xVx 且 0xx =⇔= 0|||| ; (b) 齐次性: Pk ∈∈∀ ,Vx , |||||||||| xx ⋅= kk ; (c) 三角不等式: ||||||||||||,, yxyxVyx +≤+∈∀ 。 则称 |||| ⋅ 为 V 上的范数, |||| x 称为向量 x 的范数。 −p 范数 12(, , , ) ( )Tnn nx xxCR∀= ∈x ,定义 1/ 1 || || (| | ) (1 ) pn p pj j xp = ⎛⎞= ≤<+∞⎜⎟⎝⎠ ∑x (9.1.1) 则称 p|||| ⋅ 为 )( nn RC 上的范数,这种范数通常称为 p-范数。 证明 根据范数的定义,只须验证 p|||| ⋅ 满足条件(a),(b),(c)。条件(a)显然满足。对于条件(b), 有 1/ 1/ 11 || || | | | | | | | | || || ppnnpp pj j p jj k kxkxk == ⎛⎞⎛⎞== =⋅⎜⎟⎜⎟⎝⎠⎝⎠ ∑∑xx 下面证明条件(c)满足:因为 ∑ ++∑ +≤∑ +=+ = − = − = n j j p jj n j j p jj n j p jj p p yyxxyxyx 1 1 1 1 1 |||||||||||||| yx 所以,当 0p > 时,对上式后两项分别使用 Holder 不等式*),我们有 *) 1/ 1/ 11 11|| || ,(,1,1) pqnnp jj j jj ab a b pq pq== = ⎛⎞⎛⎞≤⋅ >+=⎜⎟⎜⎟⎝⎠⎝⎠ ∑∑ ∑ n q j j1 || www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 199 1/ 1/ 1/ 1/ (1) (1) 11 11 || || | | | | | | | | pqpqnn nnpp pqp pq pj jj j jj jj jj xxyyxy−− == == ⎛⎞⎛ ⎞⎛⎞⎛ ⎞+≤ ⋅ + + ⋅ +⎜⎟⎜ ⎟⎜⎟⎜ ⎟⎝⎠⎝ ⎠⎝⎠⎝ ⎠ ∑∑ ∑∑xy 1/ 1/ 1/ 11 1 || || | | pp qnn npp p jjjj jj j xyxy == = ⎡⎤⎛⎞⎛⎞⎛ ⎞=+⋅+⎢⎥⎜⎟⎜⎟⎜ ⎟⎢⎝ ⎠ ⎝ ⎠ ⎥ ⎝ ⎠⎣⎦ ∑∑∑ /(|| || || || ) || ||pq pp p=+ +xyxy 因此, 1/|| || || || || || || ||pq pppp −+=+ ≤ +x y x y x y 当 1=p 时,显然有 11 111 1 |||||||||||||||||| yxyx +=∑+∑≤∑ +=+ === n j j n j j n j jj yxyx 所以,式(9.1.1)是 )( nn RC 上的范数。证毕。 在 )( nn RC 上定义 ||max|||| jj x=x (9.1.2) 不难证明,它也是 )( nn RC 上的范数。事实上,式(9.1.2)是式(9.1.1)在 +∞→p 时的极限,即 lim || || max | |pjp j x →+∞ =x 自然地,引进记号 ||max|||| jj x=∞x 。这样,式(9.1.1)就扩张到 +∞=p 的情况,即 )( nn RC 上的 p- 范数: 1/ 1 || || | | , 1 pn p p j p = ⎛⎞= ≤≤+∞⎜⎟⎝⎠ ∑xx (9.1.3) 当 2=p 时, 1/2 1/2 2 1 || || , n jj j xx = ⎛⎞= =< >⎜⎟⎝⎠ ∑xxx,这是通常的内积范数或欧氏范数。 根据 )( nn RC 的 p-范数,我们可诱导 n 维线性空间的 p-范数。 给定 n 维线性空间V 的一组基向量 nεεε ,,, 21 ,设 ∈xV在这组基下的坐标向量为 T nxxx )~,,~,~(~ 21 =x ,即 nnxxx εεε ~~~ 2211 +++= x ,定义 || || || || , 1pp p= ≤≤+∞xx 不难证明它是V 上的范数,称它为 V 上的 p-范数。 事实上,对于 )( nn RC 上的任何一种范数,按照上面的方法都可以诱导出 V 上的一种范数;反 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 200 过来也是一样,对于 V 上的任何一种范数,也可以诱导出 )( nn RC 上的一种范数。 椭球范数(加权范数) 设 A 是 n 阶正定轭米特矩阵,定义 nC 上的非负函数 1/2|| || ( )H A=Axxx (9.1.5) 则 A|||| ⋅ 是 nC 上的范数。 事实上,由于 A 是正定,所以 1/2()0H A = ⇔=xx x0,即非负性成立。 kC∀ ∈ , 1/2 1/2|| || (( ) ( )) | | ( ) | || ||HHkkAkk k===AAxxx xAxx 因此,齐次性成立。下面证明三角不等式也成立:由于 A 是正定轭米特矩阵,所以存在非奇异性 矩阵 P 使得 HPAPI= ,即存在非奇异性矩阵 B 使 HA BB= ,因此 nC∀∈x , 1/2 1/2 2|| || ( ) (( ) ( )) || ||HHABBB== =Axxx xx x 所以, 22 2|| || || ( ) || || || || || || || || ||BBB+= + ≤ + = +AAAx y x y x y x y 证毕。 在 nR 中,范数 A|||| ⋅ 的单位球 }1||:||{ =∈= Axxb nR 是一个椭球,因此通常称 A|||| ⋅ 为椭球范数。 向量范数的等价性 对于同一个线性空间,可以在上面定义无穷多种范数,下面讨论这些范数之间的关系。 定义 9.1.2 设 βα ||||,|||| ⋅⋅ 为 n 维线性空间 V 上的两个范数,若存在正数 21,cc 使 ∀∈xV有 12|| || || || || ||ccβ αβ≤ ≤xx x (9.1.7) 则称 βα ||||,|||| ⋅⋅ 是两个相互等价的范数。 例如:在 )( nn RC 中,不难验证 1|| || || || || ||n∞∞≤≤xx x, 2|| || || || || ||n∞ ∞≤≤xx x 更一般地, 1/|| || || || || || (1 )p p np∞∞≤≤ ≤<+∞xx x 由此可推知 12 12 1 1/ 1/|| || || || || ||pp pp pnn− ≤≤xx x 因此, )( nn RC 上的所有 p-范数都是相互等价的。这不是偶然的结果,因为有下述范数的等价性定 理。 定理 9.1.1 n 维线性空间 V 中的任意两种范数都是等价的,即对任意范数 βα ||||,|||| ⋅⋅ ,必存在 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 201 正常数 21,cc 使式(9.1.7)成立。 证明 先证:对 V 上的任意范数|| ||⋅ ,均存在正常数 ba, 使 22|| || || || || ||ab≤ ≤xx x。 设 nεεε ,,, 21 是 V 的一组基向量,则 Vx ∈∀ , nnxxx εεε +++= 2211x 。所以 11 2 2|| || || ||nnxx xε εε= +++x 记 12(, , , )||||nfxx x = x , 则 f 是 x 坐标向量的连续函数,这是因为 12 12( , , , ) ( , , , ) || || || || || ||nnfxx x fxx x′ ′′ ′ ′−=−≤−xx xx 1112 22|| ( ) ( ) ( ) ||nnnxx xx xxε εε′′ ′=− +− ++− 111 2 22 nnnx xxxxxεε ε′′ ′≤⋅−+⋅−++⋅− 由于|| ||jε 均为常数,所以上面的不等式表明 f 是连续函数。令 22 2 112 1 2{( , , , ) | | | | | | 1}T nn nSxxxxx x− =+++= 则 1−nS 是有界闭集。根据连续函数的性质,f 在 1−nS 上达到最大值 b 及最小值 a。由于在 1−nS 上 0),,,( 21 ≠T nxxx ,所以 .0>> ab 令 12 12 22 2|| || || || || || n n xxxε εε=+++y xx x 则必有 12 1 22 2 ,,,|| || || || || || T n n xxx S − ⎛⎞∈⎜⎟ ⎝⎠xx x 所以, 12 22 2 ,,,|||||| || || || || || nxxxaf b⎛⎞≤=≤⎜⎟ ⎝⎠ yxx x 而 11 2 2 22 || || || |||| || || || || || nnxx xεε ε+++==xy xx 于是, 22|| || || || || ||ab≤ ≤xx x 再证:式(9.1.7)成立。由上面的证明,存在正常数 ba, ; ba ′′, 使 22|| || || || || ||abα≤≤xx x, 22|| || || || || ||abβ′ ′≤ ≤xx x 令 b aca bc ′=′= 12 , ,则必有 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 202 12|| || || || || ||ccβ αβ≤ ≤xx x 证毕。 向量序列的极限 定义 9.1.3 设 }{ kx 是线性空间 V 中的向量序列,若存在向量 * ∈xV使 *lim || || 0k k→+∞ − =xx 则称 }{ kx 是范数 |||| ⋅ 下的收敛序列, *x 为向量序列 }{ kx 的极限,记为 k k xx +∞→ = lim* 。 由范数的等价性定理,向量序列的收敛性质不依赖于范数的选择,即如果向量序列在某种范 数 |||| ⋅ 下收敛,则对任何范数都是收敛的并且有相同的极限。这是不难证明的,假定 }{ kx 在范数 α|||| ⋅ 下收敛,即 *lim || || 0k k α→+∞ − =xx 对任何范数 β|||| ⋅ ,由范数等价性定理存在 21,cc 使 ** * 12|| || || || || ||kk kccα βα−≤−≤ −xx xx xx 所以, *lim || || 0k k β→+∞ − =xx 证毕。 尽管不同的向量范数可能具有不同的大小,然而在范数下考虑向量序列收敛问题时,却表现 出明显的一致性。 例 9.1.1 nC 中的向量序列 }{ kx 收敛到向量 *x 的充要条件为每一个分量 k jx 收敛到 * jx , 即 *lim, j k jk xxj =∀ +∞→ 。 证明 **,lim limmax| |0kk jj jjkkj jxx xx →+∞ →+∞ ∀=⇔−=,即 *lim || || 0k k ∞→+∞ − =⇔∀xx 范数 |||| ⋅ , *lim || || 0k k→+∞ −=xx 。证毕。 9.1.2 矩阵范数 定义 9.1.4 设 Rnm →⋅ ×C||:|| 是实值函数,若它满足下述三个条件: (a) 非负性: nmCA ×∈∀ ,|| || 0,A ≥ 且|| || 0AA= ⇔=0 ; (b) 齐次性: nmCACk ×∈∈∀ , ,|| || | | || ||kA k A= ⋅ ; (c) 三角不等式: , mnAB C ×∀∈ ,|| || || || || ||AB A B+ ≤+ 。 则称 |||| ⋅ 为广义矩阵范数。 若 |||| ⋅ 还满足第四个性质: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 203 (d)相容性: ,mn nlAB××∀∈ ∈CC,|| || || || || ||AB A B≤ ⋅ 。 则称 |||| ⋅ 为矩阵范数。 注意:在相容性的定义中 B 为 ln×C 中的矩阵,AB 为 lm×C 中的矩阵,实数|| ||,|| ||B AB 的定义 规则与实数|| ||A 的定义规则是相同的。 矩阵范数的连续性 与向量的情况一样,对于矩阵序列也有极限概念。设矩阵序列 }{ )(kA ,其 中 nm×∈CA ,若 )(kA 的每一个元素 )(k ija 均有极限 ija ,则称 }{ )(kA 有极限 )( ijaA = ,或者说 }{ )(kA 收 敛到矩阵 A,记为 AA k k = +∞→ )(lim (或 AA k →)( ) 不收敛的矩阵序列称为发散的。 由三角不等式,可推知 , mnAB ×∀∈C ,有 || || || || || ||ABAB−≤−。这是因为 || || || || || || || ||AABBABB= −+ ≤ − + 即 || || || || || ||ABAB− ≤− 同样,考虑矩阵 B,也有|| || || || || ||B AAB−≤−。于是,有下述范数连续性定理: 定理 9.1.2(矩阵范数的连续性)若 ()lim || || 0k k AA →+∞ − = ,则 ()lim || || || ||k k AA →+∞ = 。 矩阵范数与向量范数的相容性 对于 nmCA ×∈ ,它定义了 nC 到 mC 上的一个线性变换,因此在 数值估计中,不但要考虑矩阵范数,还需要考虑矩阵范数与定义域、值域空间的向量范数之间的 联系,这种联系由矩阵范数与向量范数相容的概念来实现。为此引入下面定义。 定义 9.1.5 对于 nm×C 上的矩阵范数 M|||| ⋅ 以及 mC 与 nC 上的向量范数 V|||| ⋅ ,如果 mnAC×∀∈ , nCx ∈ ,有 || || || || || ||VMVAA≤ ⋅xx 则称矩阵范数 M|||| ⋅ 与向量范数 V|||| ⋅ 是相容的。 Frobenius 范数 设 nm×∈CA ,Frobenius 范数定义为 1/2 21/2 11 || ( ) mn H ijF ij AatrAA == ⎛⎞==⎜⎟⎝⎠ ∑∑ (9.1.8) 下面证明 Frobenius 范数是与向量范数 2|||| ⋅ 是相容的矩阵范数。 显然, F|||| ⋅ 有非负性和齐次性。验证 F|||| ⋅ 满足三角不等式:记矩阵 A,B 的第 j 列分别为 jj ba , , www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 204 则 22 2 1 || || || || n Fjj j AB = += +∑ ab 22 2 22 2 22 2 1111 (||||||||) ||||2|||||||||||| nnnn jj j jj j jjjj==== ≤+=+⋅+∑∑∑∑ab a ab b 1/2 1/2 22 2 2 22 2 2 11 1 1 || || 2 || || || || || || nn n n jj j j jj j j== = = ⎛⎞⎛⎞≤+ +⎜⎟⎜⎟⎝⎠⎝⎠ ∑∑ ∑ ∑aa b b 222|| || 2 || || || || || || (|| || || || )F FFFFFAABBAB=+ += + 因此,|| || || || || ||F FFAB A B+≤ + 。再验证矩阵乘法的相容性: nlB C ×∀∈ ,有 22 22222 11 1 11 1 11 11 || || | | ( | | | |) ( | | )( | | || || || || ml n ml n mn l n F ik kj ik kj ik kj F F ij k ij k ik jk ABabababAB == = == = == == =≤⋅≤=⋅∑∑ ∑ ∑∑ ∑ ∑∑ ∑∑ 所以 || || || || || ||F FFAB A B≤ ⋅ 最后验证与向量范数 2|||| ⋅ 的相容性: 在上式中,令 1nB ×=∈xC ,则有 22|| || || || || || || || || || || ||FFFFAABABA=≤⋅=⋅xx 证毕。 Frobenius 范数具有下面的重要特性。 定理 9.1.3 设 nmCA ×∈ ,若 nmCQ ×∈ , nnCR ×∈ 是酉矩阵,则必有 || || || || || ||F FFQAAAR= = 此定理表明,用酉矩阵右乘或左乘一个矩阵后,不改变矩阵的 Frobenius 范数。 证明 因为 22 2222 12 1 2 2 2 11 || || || ( , , , ) || || ( , , , ) || || || || || || || nn F nF nF j j F jj QA Q Q Q Q Q A == == ===∑∑aa a a a a a a 所以, || || || ||FQA A= 并且有|| || || || || || || ( ) || || ||HHHH F FFFFA ARAARAR== = =。证毕。 推论 9.1.1 Frobenius 范数是酉(正交)相似不变范数,即 nnA ×∀∈C , nnQU×∈ ,有 || || || ||H F FAQAQ= 算子范数(从属范数) 定理 9.1.4 已知 mC 和 nC 上的同类向量范数 |||| ⋅ ,定义 || || 1 || || max || ||opAA = = x x (9.1.9) 则范数|| ||op⋅ 是与向量范数 |||| ⋅ 相容的矩阵范数。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 205 称|| ||op⋅ 为算子范数(或从属范数,或 |||| ⋅ 诱导的矩阵范数)。 证明 因|| ||Ax 为有界闭集 1 { | || || 1}n nS − =∈ =xC x 上的连续函数,所以在 1−nS 上达到最大值, 即存在 10 −∈ nSx 使 0 || || 1 || || max || || || ||opAAA = = = x xx (a) 非负性:当 0≠A 时,存在 10 −∈ nSx 使 0 || || 1 || || || || max || ||opAA A = = = x xx;当 0=A 时, || || 1 || || max || 0 || 0opA = = = x x (b) 齐次性: kC∀∈ , || || 1 || || 1 || || max || || | | max || || | | || ||op opkA kA k A k A == == =⋅ xx xx。 (c) 三角不等式: mnBC×∀∈ ,对矩阵 BA + ,必存在 11 −∈ nSx 使 11 1|| || || ( ) || || || || ||opAB ΑΒ AB+=+≤ +xx x 所以, || || || || || ||op op opAB A B+ ≤+。 (d) 与向量范数 |||| ⋅ 的相容性: nC∈∀y ,若 0y = ,则必有|| || || || || ||opAA≤ ⋅yy成立。若 0y ≠ , 令 0 /|| ||=xyy,则|| || 1=x 。所以, 0 || || 1 || || max || || || ||opx AAA = ≤=xx 0|| || || || / || ||AA=xyy 因此, || || || || || ||opAA≤ ⋅yy (e) 矩阵与乘法的相容性: lnCB ×∈∀ ,对于矩阵 AB 必存在 * lC∈x , *|| || 1=x 使得 *|| || || ||opAB AB= x 并且 ** || || 1 || || || || || || || || max || || || || || || || ||op op op op opx AB A B A A B A B = ≤⋅ ≤ =⋅xx x 注 对于 nn×C 上的任何一种算子范数,总有 || || 1 || || max || || 1opII = = = x x 。但是,对于一般的矩阵范数 (与向量范数相容),仅能保证|| || 1I ≥ 。因为|| || || || || || || ||II= ≤⋅xx x,所以|| || 1I ≥ 。 定理 9.1.4 表明任何一种向量范数均可以诱导出一种与该向量范数相容的矩阵范数——算子 范数,但并非每一种算子范数都可以用矩阵的元素来解析表示。 下面给出由向量范数 1|||| ⋅ , 2|||| ⋅ , ∞⋅ |||| 所诱导的三种常用矩阵范数的具体表达式,证明留给 读者。 定理 9.1.5 设 nmCA ×∈ , nC∈x ,则从属于向量的三种范数 1|||| ⋅ , 2|||| ⋅ , ∞⋅ |||| 矩阵范数依次 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 206 为 1 1 || || max | | n ijj j Aa = = ∑ (9.1.10) 2max|| || ( )HAAAλ= (9.1.11) 1 || || max | | n iji j Aa∞ = = ∑ (9.1.12) 其中 )(max AAHλ 表示矩阵 AAH 的最大特征值。 范数 1|| ||A , 2|| ||A ,|| ||A ∞ 分别称为列和范数,谱范数,行和范数。 谱范数的性质 谱范数具有非常好的性质,因此在矩阵分析和系统理论中通常使用它作为 分析工具。下面讨论谱范数的性质。 定理 9.1.6 设 nnCA ×∈ ,则 (1) 22 2 || || || || 1 || || max | |HAA == = xy y x , nC∈yx, (2) 22|| || || ||HAA= (3) 2 22|| || || ||HAA A= 证明 (1) 22|| || || || 1∀==xy 有 222| | || || || || || ||H A AA≤⋅ ≤yx y x 。另一方面,设 120 =x 使 02 2|| || || || 0AA=≠x ,并令 0 0 02|| || A A= xy x , 则 02|| || 1=y ,且 2 02 0 2 02 || |||||| || H AAAA==xyx x 。所以, 2 2 || || || || 1 || || max | |HAA == = xy y x (2) 22 22|| || || || 1 || || || || 1 || || max | | max | | || ||HHHHAAAA == == == = xy xy yx x y 。 (3) 由 22222|| || || || || || , || || || ||HH HAA A A A A≤⋅ =,知 2 22|| || || ||HAA A≤ 。另一方面, 22 22 222|| || 1 || || 1 || || max | | max || || || ||HHHAA AA A A == = ≥== xx xx x 所以, 2 22|| || || ||HAA A= 证毕。 定理 9.1.7 设 nmA ×∈ C ,且 mmUQ ×∈ , nnUR ×∈ 是酉矩阵,则 22|| || || ||QAR A= 。 证明 令 ,HHRQ==vxuy ,则 22|| || 1 || || 1= ⇔=xv, 22|| || 1 || || 1= ⇔=yu。所以, 22 2 2|| || || || 1 || || || || 1 || || max | | max | | || ||HHAAQARQAR == == == = xy xy yx u v www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 207 定义 9.1.6 设 nnA ×∈C 的特征值为 nλλλ ,,, 21 ,称 () max| |jj Aρ λ= (9.1.13) 为矩阵 A 的谱半径。 谱半径是数值代数中经常使用的概念,它的几何意义是以原点为圆心,包含 A 的所有特征值 的最小圆。 定理 9.1.8 对任意 nnCA ×∈ ,有 ()||||AAρ ≤ (9.1.14) 其中|| ||⋅ 为 A 的任何一种范数。 这个定理说明矩阵 A 的所有特征值均在以原点为圆心,以 A 的范数为半径的圆内,也就是说 此定理给出矩阵特征值上界的一个估计。 证明 令 λ 为 A 的任何一个特征值,x 为相应的特征向量,则有 xx λ=A 。因此, | | || || || || || || || ||Aλ λ⋅ =≤⋅xx x 即| | || ||Aλ ≤ , 所以 ()||||AAρ ≤ 。证毕。 定理 9.1.9 设 nnCA ×∈ 是正规矩阵( HH AAAA = ),则 2( ) || ||AAρ = (9.1.15) 证明 因 A 是正规矩阵,所以存在酉矩阵 U 使 ),,,( 21 n H diagAUU λλλ = 。于是,根据定理 9.1.7,有 2 22122|| || || || || ( , , , ) || max max | | ( )T njjjjj A U AU diag Aλλ λ λλ λ ρ== = = = 证毕。 定理 9.1.10 设 nnCA ×∈ 是可逆矩阵,则 A 的谱范数为 2|| || ( ) ( )HHAAAAAρρ== (9.1.16) 证明留给读者。 9.1.3 矩阵的条件数 定义 9.1.7 如果线性方程组 bx =A 的系数矩阵 A 或常数项 b 的微小变化引起方程组解的巨大 变化,则称方程组为病态方程组,其系数矩阵 A 就解方程组(或求逆)而言是病态矩阵;反之,称 方程组为良态方程组,A 称为良态矩阵。 值得指出的是“病态矩阵”的概念针对具体问题而言的,例如:对于解方程(或求逆)来说是病 态的,但是对于求特征值而言未必是病态的,不能笼统地说某个矩阵是“病态”的。在本节所说 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 208 的“病态”都是针对解方程组而言的。我们希望能给出衡量矩阵是否病态的标准。为此,先给出 一个引理。 引理 9.1.1 若|| || 1A < ,则 AI ± 为非奇异矩阵,且 11|| || (1 || ||)IA A− −±≤− (9.1.17) 其中 |||| ⋅ 为矩阵的任何一种范数。 证明 由定理 9.1.8, ( ) || || 1AAρ ≤<,因此 1±=λ 不可能为矩阵 A 的特征值,所以, 1()()I AI A I−− −= 于是 111 )())()(()( −−− −+=−+−=− AIAIAIAAIAI 所以 11|| ( ) || 1 || || || ( ) ||IA A IA−−−≤+⋅− 即 11|| ( ) || (1 || ||)IA A− −−≤− 同理可证明 AI + 的情形。 设有方程组 bx =A , 0b ≠ 。下面分析系数矩阵与常数项有一个微小变化时,方程组的解是如 何变化的。这个问题通常称为线性方程组的摄动分析。 假定 A 是精确的,b 有误差 bδ ,解为 xx δ+ ,则 11( ) , , || || || || || ||AAAδ δδ δ δ δ−−+=+ = = ⋅xxbbx bx b 另一方面,由 bx =A ,有|| || || || || ||A≤⋅bx,所以, 1|||| || || || || A≤xb 因此,可得到下述命题: 命题 9.1.1 如果 A 为非奇异矩阵, 0A = ≠xb ,且 ()A δ δ+ =+xxbb,则 1|| || || ||(|| || || ||)|| || || ||AAδ δ−≤⋅xb xb (9.1.18) 上式给出了解的相对误差的上界,常数项 b 的相对误差在解中可能放大 1|| || || ||AA− ⋅ 倍。 下面假定 b 是精确的,A 有微小误差(摄动) Aδ ,解为 xx δ+ ,则 ()()AAδ δ++=xxb, ( ) ( )AA Aδ δδ+ =−xx (9.1.19) 若 Aδ 不受限制的话, AA δ+ 可能是非奇异的,因此不能直接求逆。但是,有 1()()AAAIAAδ δ−+=+ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 209 所以,由命题 9.1.1 时,当 1|| || 1AAδ− < 时, 11 )( −−+ AAI δ 存在。于是,从(9.1.19)式,有 111()()I AAA Aδδδ−−−=+xx 因此, 1 1 || || || || || |||| || 1|| || AA AA δδ δ − − ⋅⋅≤ − xx 如果矩阵 A 的微小变化 Aδ 满足 1|| || || || 1AAδ− ⋅ < (9.1.20) 则有 1 1 || ||(|| || || ||)|| || || || || |||| || 1 (|| || || ||) || || AAAA AAAA δ δ δ − − ⋅⋅ ≤ −⋅⋅ x x (9.1.21) 这个不等式说明了解的相对变化与系数矩阵的相对变化之间的关系。不难看出,当条件(9.1.20) 满足时,式(9.1.21)表明, 1(|| || || ||)AA− ⋅ 越大,解的相对变化也越大, 1(|| || || ||)AA− ⋅ 越小,解的相 对变化也越小。综合上述讨论, 1(|| || || ||)AA− ⋅ 在某种程度上刻划了方程组的解对于原始数据变化 的敏感度,也就是说刻划了方程组的“病态”程度。因此,自然地引进下面的概念。 定义 9.1.8 设 A 为非奇异矩阵,则称 1( ) || || || ||Cond A A A−=⋅ 为矩阵 A 的条件数。 矩阵条件数,刻划了方程组的相对误差可能的放大率。当 1)( >>ACond 时,则方程组是“病 态”的(即 A 是“病态”矩阵,或者说 A 是坏条件的);当 )(ACond 相对地小,则方程组是“良态” 的(或者说 A 是好条件的)。但是,条件数究竟多大是矩阵才算是病态的,一般来说没有具体的标 准,也就是说“病态”概念只是一种相对概念。 在数值分析中,通常使用的条件数有: (1) 1( ) || || || ||Cond A A A− ∞∞∞=⋅; (2) 1 max 222 min ()( ) || || || || () H H AACond A A A AA λ λ −=⋅= (谱条件数); 特别地,A 为实对称矩阵时,谱条件数为 21() | |/| |nCond A λ λ= ,其中, nλλ ,1 分别为模最大 和最小的特征值。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 210 (3) 1( ) || || || ||F FFCond A A A−=⋅。 9.2 矩阵级数与矩阵函数 9.2.1 矩阵序列 矩阵序列的极限 为了叙述方便,假定所考虑的矩阵是 n 阶方阵。本节中的所有概念与结果,只要不涉及矩阵 的乘法与逆矩阵时,对任意矩阵都成立。如果仅涉及矩阵乘法时,只要作相应的修改,也有相应 的结论。 在第 9.1.2 节中,已经涉及了矩阵序列极限的概念,在本节将集中讨论。 定义 9.2.1 设有矩阵序列 }{ )(kA , nmk ij k aA ×∈= C)( )()( ,当 +∞→k 时, ij k ij aa →)( ,则称 }{ )(kA 收 敛,并将矩阵 )( ijaA = 称为 }{ )(kA 的极限,或者说 }{ )(kA 收敛到 A,记为 AA k k = +∞→ )(lim (或 AA k →)( ) 不收敛的矩阵序列称为发散的。 当然,也可按照范数定义矩阵的收敛性。即若 ()lim || || 0k k→+∞ − =AA 则称 }{ )(kA 在范数 |||| ⋅ 意义下收敛于 A。然而,这种定义与上面的定义是等价的。 定理 9.2.1 定义 9.2.1 与范数 |||| ⋅ 意义下收敛性是等价的。 证明 取矩阵的 F 范数: 1/2 2 ,1 || || | | n Fij ij Aa = ⎛⎞= ⎜⎟⎝⎠ ∑ 若 ()|| || 0k F−→AA ,则有 () 2 ,1 ||0 n k ij ij ij aa = − →∑ .因此, ji,∀ ij k ij aa →)( 。反之,若 ji,∀ , ij k ij aa →)( , 则必有 () 2 ,1 ||0 n k ij ij ij aa = −→∑ 。因此 ()|| || 0k F− →AA 。 设 |||| ⋅ 为矩阵的任一种范数,由矩阵范数的等价性,存在正数 21,cc 使 () () () 12|| || || || || ||kk k F Fcc−≤ −≤ −AA AA AA www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 211 因此,在 F 范数意义下的收敛性等价于在任何矩阵范数 |||| ⋅ 意义下收敛性。所以定义 9.2.1 与任何 范数意义下的收敛性是等价的。证毕。 对于矩阵序列的极限运算与普通数列的极限运算完全相同,即 (1)若 AA k k = +∞→ )(lim , BB k k = +∞→ )(lim ,则 Cba ∈∀ , ,有 bBaAbBaA kk k +=+ +∞→ )(lim )()( (2)若 AA k k = +∞→ )(lim , BB k k = +∞→ )(lim ,则 ABBA kk k = +∞→ )()(lim (3)设 }{ )(kA 为每一项都是可逆的矩阵序列,若 AA k k = +∞→ )(lim ,则 }){( 1)( −kA 也收敛,并且 11)( )(lim −− +∞→ = AA k k 证明 (1),(2)是明显的。下面证明(3):记 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = )()( 2 )( 1 )( 1 )( 21 )( 11 )( )( k nn k n k n k n kk k AAA AAA Aadj 为 )(kA 的伴随矩阵。其中 )(k ijA 是 )(kA 中元素 )(k jia 的代数余子式,从而 )(k ijA 是 )(kA 元素的 1−n 次多项 式。因此,由 AA k k = +∞→ )(lim 知 ij k ijk AA = +∞→ )(lim , )()(lim )( AadjAadj k k = +∞→ 而 )det( )()( )( )( 1)( k k k A AadjA =− ,所以, 1 )( )( 1)( )det( )( )det( )(lim)(lim − +∞→ − +∞→ === AA Aadj A AadjA k k k k k 证毕。 下面考虑矩阵 A 的序列 nAAA ,,, 21 的收敛性。即矩阵序列 }{ kA 的收敛性(注意:上标不加括号,表示矩阵的幂)。 定理 9.2.2 0lim = +∞→ k k A 的充要条件是 1)( )(ρ ,则级数 ∑ ∞ =0k k k Ac 发散。 证明 令 J 是 A 的 Jordan 标准形,则存在可逆矩阵 P 使得 1 2211 1 ))(,),(),(( −− == PJJPdiagPJPA ss λλλ J , www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 215 rr nnr r r rJ × ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = λ λ λ 1 1 1 , ∑ = = s r r nn 1 于是, 1 21 )( −= PJJJPdiagA s k kkk ,,, , 1111 11 rr rr nknkk rkr kr k k r r k kr k r nn cc J c λλ λ λ λ λ −−+− − × ⎛⎞ ⎜⎟ ⎜⎟= ⎜⎟ ⎜⎟⎜⎟⎝⎠ 所以, 1 0 1 00 )()( −∞ = −∞ = ∞ = ∑=∑=∑ PJcPPPJcAc k k rk k k k k k k 1 00 2 0 1 ),,,( −∞ = ∞ = ∞ = ∑∑∑= PJcJcJcPdiag k k rk k k k k k k 其中 1111 01 1 110 1 0 rr r rr nknkk kr k kr k k r kk kn k kr kk kkr k k kr k nn ccC cC cJ cC c λλ λ λ λ ∞∞ ∞−−+− == =− ∞ ∞ −= = ∞ = × ⎛⎞ ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟= ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟ ⎝⎠ ∑∑ ∑ ∑ ∑ ∑ (1)( 1), 0, l k l k kk k lCkll Ckl −−+⎧ = ≥⎪⎨ ⎪ =<⎩ ! 当 rA <)(ρ 时,幂级数 ∑ ∞ =0k k rkc λ , ∑ ∞ = − 0 11 k k rkk Cc λ ,┉, ∑ ∞ = +− 0 1 k k r nk kk rCc λ 都是绝对收敛的,因此矩阵 的幂级数 ∑ ∞ =0k k k Ac 绝对收敛。 当 rA >)(ρ 时,幂级数 ∑ ∞ =0k k rkc λ 发散,所以矩阵的幂级数 ∑ ∞ =0k k k Ac 发散。 矩阵函数的幂级数表示 设函数 )(xf 在||x r< 内可以表示为幂级数: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 216 k k k xcxf ∑= ∞ =0 )( ( )||x r< (9.2.4) 若矩阵 A 满足 rA <)(ρ ,由定理 9.2.7,矩阵幂级数 ∑ ∞ =0k k k Ac 收敛。因此,可定义矩阵函数的幂级数 表示: =)(Af ∑ ∞ =0k k k Ac (9.2.5) 矩阵函数的 Jordan 表示 令 A 的 Jordan 标准形为 ))(,),(( 11 ss xJxJdiagJ = ,变换矩阵为 P,即 1−= PJPA , 则 1 11 000 ( ( ), , ( ))kkk kkkss kkk cA Pdiag cJ x cJ x P ∞∞∞− === =∑∑∑ (9.2.6) 其中 1111 110 () rrnknkk kr k kr k k r k k kr kr r kk kkr k kr cx cCx cC x cxcJ x cCx cx −−+− ∞ −= ⎛⎞ ⎜⎟ ⎜⎟= ⎜⎟ ⎜⎟⎜⎟⎝⎠ ∑∑ ∑ ∑∑ ∑ ∑ (9.2.7) 不难计算: k r k kr xcxf ∑= ∞ =0 )( , 1 0 1)( −∞ = ∑=′ k r k kkr xCcxf , ∑=′′ ∞ = − 0 23)(!2 1 k k rkkr xCcxf ,……, ∑=− ∞ = −−− 0 )1(1)1( )()!1( 1 k n r n kkr n r rrr xCcxfn ,…… 所以, (1) 0 1() () ()(1)! ()() () () () rn rr r r k rkr r r k r r fx f x f xn fxcJ x f J fx fx − ∞ = ⎛⎞′⎜⎟−⎜⎟ ⎜⎟== ⎜⎟′⎜⎟ ⎜⎟⎝⎠ ∑ 将上式代入(9.2.6),有 1 21 0 ))(,),(),(()( −∞ = =∑= PJfJfJfPdiagAcAf s k k k (9.2.8) 式(9.2.8)称为矩阵函数的 Jordan 表示。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 217 9.3 矩阵导数 9.3.1 函数矩阵的导数 定义 9.3.1 若矩阵 A 的元素 ija 均为实变量 t 的函数,即 nmij tatA ×= ))(()( ,则 称 )(tA 为函数矩 阵。 对于函数矩阵,可以与普通函数那样,引入极限、连续、导数等概念。 如果对所有元素 )(taij 在 0t 点存在极限 ija ,即 ijijtt ata = → )(lim 0 ,则称矩阵 )(tA 在 0t 点有极限,且 以矩阵 A = )( ija 为极限值,即 )())(lim()(lim 00 ijnmijtttt atatA == ×→→ ;与普通函数类似,若 )(tA , )(tB 在 0t 点有极限 A,B,则 bBaAtbBtaA tt +=+ → ))()((lim 0 , ba, 为常数 ABtBtA tt = → ))()((lim 0 类似地,可引进 )(tA 的连续性概念。 定义 9.3.2 设 nmij tatA ×= ))(()( ,若 ji,∀ , )(taij 在 0tt = 处(或在闭区间 ],[ ba 上)可导,则称 )(tA 在 0t 处(或在 ],[ ba 上)可导,且记为 nmijt tadt tdAtA ×== ))(()()( 0 ' 0 ' 0 因函数矩阵导数本身还是一个函数矩阵,因此我们可以定义高阶导数: ))(()( 1 dt tAd dt d dt tAd kk − = , ),,2,1( nk = 对于函数矩阵导数,有下述性质: (1) )(tA 为常数矩阵 ⇔ 0)(' =tA ; (2) 若 )(tA , )(tB 可导,则 dt tdB dt tdAtBtAdt d )()())()(( ±=± ; (3) 若 )(tϕ 是可导的实值函数, )(tA 可导,则 )()()()())()(( tdt tdAtAdt tdtAtdt d ϕϕϕ +⋅= ; (4) 若 )(tA , )(tB 可导,且可乘 ,则 dt tdBtAtBdt tdAtBtAdt d )()()()())()(( ⋅+⋅= ; www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 218 (5) 若 )(tA , )(1 tA− 均可导,则 )()()()( 11 1 tAdt tdAtAdt tdA −− − ⋅⋅−= ; (6) 设 )(tA 关于变量 t 可导,而 )(xt ϕ= 是变量 x 的可导函数,则 dt tdA dx xd x xd dt tdA dt tdA )()()()()( ⋅=⋅= ϕϕ 这里只证明(5),其它各条的证明是容易的。 证明 因 ItAtA =⋅ − )()( 1 ,所以 0)]()([ 1 =⋅ − dt tAtAd 。另一方面, dt tdAtAtAdt tdA dt tAtAd )()()()()]()([ 1 1 1 − − − +⋅=⋅ 所以, )()()()( 11 1 tAdt tdAtAdt tdA −− − ⋅⋅−= 例 4.5.1 设 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 0 1)( 2 t ttA ,求 2 2 dt Ad , dt dA 1− 。 显然, ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 01 20 t dt dA , 2 2 dt Ad )( dt dA dt d= ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 00 20 为了计算 dt dA 1− ,先计算: ⎟⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎝ ⎛ − =− 32 1 11 10 tt tA 所以, dt dA 1− ⎟⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎝ ⎛ − ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎝ ⎛ − −= 3232 11 10 01 20 11 10 tt tt tt t = ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − − 12 01 2 4 t t t 例 9.3.2 证明 ))(( ttrAdt d dt tdAtr )(= 。 证明: dt ttrAd ))(( [ ]))(( dt tdatr ij= = dt tda dt tda nn )()(11 ++ = ))()(( 11 tatadt d nn++ dt tdAtr )(= www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 219 9.3.2 向量映射关于向量的导数 函数关于向量的导数 定义 9.3.3 设 T nxxx ),,,( 21 =x , ),,,( 21 nxxxgg = ,定义: T nx g x g d dg ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂ ∂ ∂ ∂= 1x ; ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂ ∂ ∂ ∂= n T x g x g d dg 1x (9.3.1) 通常称上述两个式子分别为函数 g 关于列向量 x 与行向量 Tx 的梯度。 例 9.3.3 数量函数 xxx Af T=)( 关于向量 x 的导数为: xx )( TAAd df += (9.3.2) 证明 因为 xxx Af T=)( ∑= = n ji jiij xxa 1, ,所以, ∑∂ ∂= = n ji jiij xxaxd df 1,1 ,(x ∑∂ ∂ = n ji jiij xxax 1,2 , ∑∂ ∂ = n ji T jiij n xxax 1, ), = ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ∑ ∑ = = n j jnj n j jij xa xa 1 1 + ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ∑ ∑ = = n j jjn n j jj xa xa 1 1 1 = xx TAA + = x)( TAA + 例 9.3.4 令 T n txtxtx ))(,),(),(( 21 =x , ),,,()( 21 nxxxff =x ,则 dt d d df dt d d df dt df T T x x x x ⎟ ⎠ ⎞⎜ ⎝ ⎛== (9.3.3) 证明 dt dx x f dt df 1 1∂ ∂= dt dx x f n n∂ ∂++ = ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂ ∂ ∂ ∂ ∂ ∂ dt dx dt dx x f x f x f nn 1 21 ,,, dt d d df T x x= dt dx d df T ⎟ ⎠ ⎞⎜ ⎝ ⎛= x 。 对于 n 维向量的实值函数有下述求导法则: (1) 线性法则: x x x x x xx d dgbd dfad bgafd )()())()(( +=+ ; www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 220 (2) 乘积法则: x xxx xxx xx d dgfd dfgd gfd )()()()())()(( += ; (3) 商法则: )0)((,)()()()()( 1))(/)(( 2 ≠⎟ ⎠ ⎞⎜ ⎝ ⎛ −= xx xxx xxxx xx gd dgfd dfggd gfd ; (4) 链式法则: g g x xg x xg d df d d d fd T )()())((( ⋅= 。 其中: ⎟ ⎠ ⎞⎜ ⎝ ⎛ ∂ ∂ ∂ ∂= x xx x xg )(,...,)()( 1 n T g x g d d 是 n 阶方阵。 向量映射关于向量的导数 定义 9.3.4 设 T nxxx ),,,( 21 =x , ))(),...,(),(()( 21 xxxxf mfff= 为 m 维行向量值函数,则定 义 )(xf 对于 x 的导数为: ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ = n m nn m m x f x f x f x f x f x f x f x f x f d d )()()( )()()( )()()( )( 21 22 2 2 1 11 2 1 1 xxx xxx xxx x xf (9.3.4) 并称它为 m 维行向量值函数 )(xf 在点 x 处的梯度矩阵。 当 T mfff ))(),...,(),(()( 21 xxxxf = 为 m 维列向量值函数时,定义 )(xf 对于 Tx 的导数为 ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ = n mmm n n T x f x f x f x f x f x f x f x f x f d d )()()( )()()( )()()( )( 21 2 2 2 1 2 1 2 1 1 1 xxx xxx xxx x xf (9.3.5) 它是 m 维列向量值函数 )(xf 在点 Tx 处的梯度矩阵,通常也称它为 )(xf 的 Jacobi 矩阵。 显然,有 nT T Id d d d == x x x x (9.3.6) 这个结果虽然简单,但它却是非常有用的。 下面给出一些常用的求导公式。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 221 (1) 向量 c 与向量 x 无关,则 cx xc x cx == d d d d TT (9.3.7) cx xf x cxf x xfc d d d d d d TTT )()()( == (9.3.8) (2) y,A 均与向量 x 无关,则 yyx x x yx AAd d d Ad TT == (9.3.9) yx yx x xy T TTT Ad Ad d Ad == (9.3.10) (3) A 与向量 x 无关,则 Ad Ad T =x x (9.3.11) xx xx )( T T AAd Ad += (9.3.12) xx xx Ad Ad T 2= , A 为对称矩阵 (9.3.13) (4) A 与向量 x 无关, )(),( xgxf 与 x 有关,则 )()())(()())(( xfx xf x xfxf T TT AAd d d Ad += (9.3.14) )())(()())(()())(( xfx xgxgx xf x xgxf T TTT Ad dAd d d Ad += (9.3.15) 9.3.3 函数关于矩阵的导数 定义 9.3.3 设 nmRA ×∈ , )(Af 为矩阵 A 的数量函数,即 f 是 nm× 元函数,则定义 )(Af 关于 矩阵 A 的导数为: ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ =⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂ ∂= × mnm n nmij a f a f a f a f a f dA df 1 111 (9.3.16) 例 9.3.5 求 xx AAf T=)( 关于矩阵 A 的导数,其中 nnRA ×∈ 是实对称矩阵。 解: T nnjinn n ji jiij ij T xxxxaaAdA d xxxx ==∑∂ ∂= ×× = )()()( 1, 。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 222 对于矩阵变元的实值函数有下述求导法则: (1) 线性法则: dA AdgbdA AdfadA AbgAafd )()())()(( +=+ ; (2) 乘积法则: dA AdgfdA AdfAgdA AgAfd )()()()())()(( x+= ; (3) 商法则: )0)((,)()()()()( 1))(/)(( 2 ≠⎟ ⎠ ⎞⎜ ⎝ ⎛ −= AgdA AdgAfdA AdfAgAgdA AgAfd ; (4) 链式法则: dA Adf dy ydg dA Afgd )()())((( ⋅= ,其中 g 是单变量的实值函数, )(Afy = 。 行列式的导数 设 A 为 n 阶方阵,下面考虑 A 的行列式的导数 )det(AdA d 。令 ijA 表示元素 ija 的代数余子式, 则有 njAaA ijij n i ,...,2,1,)det( 1 =∑= = 由于 ijA 不含有元素 ija ,所以, ij ij AAa =∂ ∂ )det( 于是, ()TadjAAdA d =)det( (9.3.17) 其中 ()ijadjA A= 是 A 的伴随矩阵。 (1) 如果 A 可逆,则 )()det( 11 AadjAA =− ,这样就得到 TTT AAAAAdA d −− == )det()det()det( (9.3.18) 同时,有 TAAAAd d AAdA dAdA d −− −=−== )det( 1))det()(())(det( 1))det(/1()det( 2 1 因此, TAAAdA d −− −= )det( 1)det( 1 (9.3.19) (2) 如果 A 为正定对称矩阵,则 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 223 ⎩ ⎨ ⎧ ≠ = =∂ ∂ jiA jiA Aa ij ij ij ,2 , )det( 所以, ))(2)(det()det( 11 −− −= AdiagAAAdA d (9.3.20) (3) 对非奇异矩阵 A,根据链式法则,有 )det()det( 1))log(det( AdA d AAdA d ⋅= (9.3.21) 如果 A 又为对称矩阵,则有 )(2))log(det( 11 −− −= AdiagAAdA d (9.3.22) 下面,不加证明的引进矩阵乘积行列式的导数: mArankAAAAAAAdA d nm TTT == × − )(,))(det(2)det( 1 (9.3.23) 1det( ) 2det( ) ( ) , ( )TTT mn d AA AAAAA rankA ndA − ×= = (9.3.24) 22det( ) 2det ( ) , ( )T nn d A A A rank A ndA − ×= = (9.3.25) 迹的导数 设 A mnR ×∈ ,B nmR ×∈ ,下面考虑 )(ABtrdA d 。 由于 ∑∑= == n i ji m j ijbaABtr 11 )( ,所以, ji ij bABtra =∂ ∂ )( 于是, TBABtrdA d =)( (9.3.26) 特别地, TBABtrdA dBAtrdA d == )()( (9.3.27) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 224 yyxxxyx == )()( TT trd dtrd d , nR∈yx, (9.3.28) T TT T dA Adtr dA AdtrAdA d xxxxxxxx === )()()( , nnn RAR ×∈∈ ,x (9.3.29) nn n RAIAtrdA d ×∈= ,)( (9.3.30) )()( BdiagBBABtrdA d T −+= ,A 为对称矩阵 (9.3.31) 下面不加证明地引进一些常用的迹导数计算公式。 AAAtrdA dAAtrdA d TT 2)()( == (9.3.32) )()( TT BBAABAtrdA d += (9.3.33) ABABAtrdA d T 2)( = ,B 为对称矩阵 (9.3.34) ABBBAAtrdA d TT )()( += (9.3.35) BABAAtrdA d T 2)( = ,B 为对称矩阵 (9.3.36) nnT RAAAAtrdA dAtrdA d ×∈== ,2)()( 2 (9.3.37) nnT RBABAABAtrdA d ×−−− ∈−= ,,)()( 111 (9.3.38) nnT RCBACBAACBAtrdA d ×−−− ∈−= ,,,)()( 111 (9.3.39) 9.3.4 函数矩阵关于矩阵的导数 定义 9.3.4 设 nmijxX ×= )( ,函数矩阵 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = )()( )()( )( 1 111 XfXf XfXf XF rsr s 其中 )(Xfij 是 nm× 元实值函数,定义 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 225 11 12 1 21 22 2 12 n n nn nn FF F x xx FF F dF x xx dX FF F x xx ∂∂ ∂⎛⎞ ⎜⎟∂∂ ∂⎜⎟ ⎜⎟∂∂ ∂ ⎜⎟∂∂ ∂= ⎜⎟ ⎜⎟ ⎜⎟∂∂ ∂⎜⎟ ⎜⎟∂∂ ∂⎝⎠ (9.3.40) 其中 111 12 12 s ij ij ij ij rsrr ij ij ij fff x xx F x fff x xx ∂∂∂⎛⎞ ⎜⎟∂∂ ∂⎜⎟ ⎜⎟∂ ⎜⎟=∂ ⎜⎟ ⎜⎟∂∂∂⎜⎟⎜⎟∂∂ ∂⎝⎠ (9.3.41) 例 9.3.6 设 T nxxx ),,,( 21 =x , ))(,),(),(()( 21 xxxx nfffF = ,求 xd dF 解 xd dF = ( 1x F ∂ ∂ , ,, 2 x F ∂ ∂ T nx F )∂ ∂ = ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ n n nn n n x f x f x f x f x f x f x f x f x f 21 22 2 2 1 11 2 1 1 。 利用矩阵的直积*),可以给出函数矩阵乘积关于矩阵导数表达式。 定理 9.3.1(函数矩阵乘积的导数) 设 ( ) ( ) ( ),() () ,() ()pq ij ijmn sr rt Xx FXfX GXgX× ×× == =, 则 dX dGFIGIdX dF dX FGd mn )()()( ⊗+⊗= (9.3.42) 证明 令 )()()( XGXFXA = ,则 tjsiXgXfXa kj r k ikij ,...,2,1;,...,2,1),()()( 1 ==∑= = 根据导数定义,有 *) 见 9.4 节。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 226 nmpqx A dX dA × ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂ ∂= , ts r k pq kj ik ts r k kj pq ik ts r k pq kjik tspq ij pq x g fgx f x gf x a x A × = × = × = × ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∑ ∂ ∂ ⋅+⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∑ ⋅∂ ∂=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∑ ∂ ∂ =⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂ ∂ =∂ ∂ 111 )( pqpq x GFGx F ∂ ∂+⋅∂ ∂= 所以, nmpqnmpq x GFGx F dX dA ×× ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂ ∂⋅+⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⋅∂ ∂= ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ∂ ∂⋅∂ ∂⋅ ∂ ∂⋅∂ ∂⋅ + ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ⋅∂ ∂⋅∂ ∂ ⋅∂ ∂⋅∂ ∂ = mnm n mnm n x GFx GF x GFx GF Gx FGx F Gx FGx F 1 111 1 111 ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ + ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ = mnm n mnm n x G x G x G x G F F G G x F x F x F x F 1 111 1 111 dX dGFIGIdX dF mn )()( ⊗+⊗= 因此,式(9.3.42)成立。证毕。 例 9.3.7 令 xxx Af T=)( ,其中 12(, ,...), ( )T nijnnxx x A a ×==x ,求 xd df 。 解:由定理 9.3.1,我们有 x xxxx x x d dAIAId d d df T n T )()( 1 ⊗+⊗= 。因为, n n T T T I x x d d = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = ⎟⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ∂ ∂ ∂ ∂ = 1 1 1 x x x x , xx AAI =⊗ )( 1 所以, www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 227 xxx x AAId d T =⊗ )( 1 又因, ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ =⊗ T T T nI x x x )( , 1 1 n n A x dA d A x ∂⎛⎞ ⎜⎟∂ ⎛⎞⎜⎟⎜⎟⎜⎟==⎜⎟⎜⎟⎜⎟∂ ⎝⎠⎜⎟⎜⎟∂⎝⎠ x a x x xa 所以, ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ =⊗ T T T n d dAI x x x xx )( ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ na a 1 x ax ax T n T T A= ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 1 于是, xx xxxx x x xx )()()()( 1 TT n TT AAd dAIAId d d Ad +=⊗+⊗= (9.3.43) 例 9.3.8 令 AAAf T=)( ,其中 ()ij n nAa×= ,求 dA df 。 解 由定理 9.3.1,我们有 dA dAAIAIdA dA dA df T nn T )()( ⊗+⊗= 。不难计算: ()nnij ij Ea A dA dA ×=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂ ∂= , ()nnji ij TT Ea A dA dA ×=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂ ∂= , 所以, () () ( )nnij T jinnij T nnnnji T EAAEEAIAIEdA AAd ××× +=⊗+⊗= )()()( (9.3.44) 例 9.3.9 求 dA dA 1− 。 解 由于 IAA =−1 ,所以, 0)()( 1 1 =⊗+⊗ − − dA dAAIAIdA dA nn 。于是, 11 1 )()( −− − ⊗⊗−= AIdA dAAIdA dA nn 11( )()( )nijnnnI AE I A−− ×=− ⊗ ⊗ 即 dA dA 1− 11()ij n nAEA−− ×=− (9.3.45) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 228 例 9.3.10 xx 1)( −= AAf T ,求 dA df 。 解 dA dAIAIdA d dA df T T xxxx 1 1 )()( − − ⊗+⊗= ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ⊗+⊗⊗= − − dA dAIIdA dAI T xxx )()()( 1 1 )()( 1 xx ⊗⊗= − IdA dAI T , 因此, = − dA Ad T )( 1 xx )()( 1 xx ⊗⊗ − IdA dAI T (9.3.46) 9.4 矩阵直积 9.4.1 基本性质 定义 9.4.1 设 A=( ) , ( )mn pq ij ijaCBbC××∈=∈,称分块矩阵: 11 12 1 21 22 2 12 n n mp nq mm mn aB aB aB aB aB aBAB C aB aB aB × ⎛⎞ ⎜⎟ ⎜⎟⊗= ∈⎜⎟ ⎜⎟ ⎝⎠ 为矩阵 A 与 B 的直积,或 Kronecker 积,或张量积。 BA ⊗ 是一个 nm× 块的分块矩阵,简记为 nmij BaBA ×=⊗ )( 。 例 9.4.1 设 ,,ab xABcd y ⎛⎞⎛⎞==⎜⎟⎜⎟⎝⎠⎝⎠ 则 42 ax bx aB bB ay byAB cB dB cx dx cy dy × ⎛⎞ ⎜⎟⎛⎞⎜⎟⊗= =⎜⎟⎜⎟⎝⎠⎜⎟ ⎝⎠ 而, www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 229 42 xa xb ac bx xA xc xd cx dxBA yA ya yb ay by yc yd cy dy × ⎛⎞⎛⎞ ⎜⎟⎜⎟⎛⎞⎜⎟⎜⎟⊗= = =⎜⎟⎜⎟⎜⎟⎝⎠⎜⎟⎜⎟ ⎝⎠⎝⎠ 因此,矩阵的直积运算一般不满足交换律。但是,对于单位矩阵,有 mnnmmn IIIII =⊗=⊗ 不难验证直积满足下述运算律: (1) 数乘律 ,)( kBABkABAk ⊗=⊗=⊗ ck ∈ ; (2) 分配律 CBCACBA ⊗+⊗=⊗+ )( ; (3) 结合律 )()( CBACBA ⊗⊗=⊗⊗ 定理 9.4.1 设 ,)(,)(,)(,)( trijpnijrsijnmij dDcCbBaA ×××× ==== 则 BDACDCBA ⊗=⊗⊗ ))(( (9.4.1) 证明:通过直接运算,有 BDACBDACBDcaDcBaDCBA ij n k kjikijij ⊗==∑==⊗⊗ = ))(()())(())(( 1 式中 ijAC)( 是矩阵 AC 中第(i,j)元素。 定理 9.4.1 是直积的最基本性质,直积的其它许多性质都可以由它导出。更一般的结论是 ⎟ ⎠ ⎞⎜ ⎝ ⎛ ∏⊗⎟ ⎠ ⎞⎜ ⎝ ⎛ ∏∏ =⊗ === n j j n j j n j jj BABA 111 )( (9.4.2) ()jj n jj n jj n j BABA ⊗=⎟ ⎠ ⎞⎜ ⎝ ⎛ ⊗⎟ ⎠ ⎞⎜ ⎝ ⎛ ⊗ === 111 (9.4.3) 若 ,,mm nnAC BC××∈∈ 则根据定理 9.4.1,有 ))(())(( nmmn IABIBIIABA ⊗⊗=⊗⊗=⊗ (9.4.4) 这是将两个矩阵的直积转化为普通积的公式,也经常被使用。 直积的几何意义 下面采用“被动描述”方法,讨论平面内绕定点的旋转运动。在这种描述下,平面向量在旋 转运动下没有发生变化,而变化的是坐标基。旋转运动前的基向量为{ 12,ee},运动后的基向量 为{ 12,′′ee},如图 9.4.1 所示。令向量 x 在前、后坐标基下的表示为 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 230 11 2 2 11 2 2x xxx′ ′′′= +=+xe e e e 由于 11 22 cos sin sin cos θθ θθ ′−⎛⎞ ⎛⎞⎛⎞=⎜⎟ ⎜⎟⎜⎟′⎝⎠⎝⎠ ⎝⎠ ee ee 所以, ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′ ′ 2 1 2 1 cossin sincos x x x x θθ θθ (9.4.5) 图 9.4.1 直积的几何意义 令向量 x, y 在基{ 12,ee},{ 12,′′ee}下的坐标分别为 11 22 ,;xx xx ′⎛⎞ ⎛⎞′==⎜⎟ ⎜⎟′⎝⎠ ⎝⎠ xx 11 22 ,;yy yy ′⎛⎞ ⎛⎞′==⎜⎟ ⎜⎟′⎝⎠ ⎝⎠ yy 这两个坐标向量的张量积为 ()11 11 12 21 2 2 22 ,,, Txyx yxyxyxyxy ⎛⎞⎛⎞⊗= ⊗ =⎜⎟⎜⎟⎝⎠⎝⎠ xy (9.4.6) ()11 11 12 21 2 2 22 ,,, Txyx yxyxyxyxy ′ ′⎛⎞⎛⎞′ ′ ′′ ′′ ′′ ′′⊗= ⊗ =⎜⎟⎜⎟′′⎝⎠⎝⎠ xy (9.4.7) 考虑 yx ⊗ 与 yx ′⊗′ 之间的变化规律。因为 11 22 xy xy ′′⎛⎞⎛⎞′′⊗= ⊗ =⎜⎟⎜⎟′′⎝⎠⎝⎠ xy ⊗⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − 2 1 cossin sincos x x θθ θθ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − 2 1 cossin sincos y y θθ θθ 1e 2e 1e′2e′ θ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 231 记 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −= θθ θθθ cossin sincos)(R ,从式(9.4.1),我们有 ⊗⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ 2 1)( x xR θ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ 2 1)( y yR θ = ( ))()( θθ RR ⊗ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛⊗⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ 2 1 2 1 y y x x , 即 (() ())( )RRθ θ′′⊗= ⊗ ⊗xy xy (9.4.8) 上式表明,在平面旋转运动的作用下,两个向量的张量积的变化与旋转运动矩阵的张量积相关联。 满足式(9.4.8)的量 ⊗xy通常称为二维旋转群上的 2 阶张量,下章我们给出一般张量的概念。 直积的转置(共轭转置) 定理 9.4.2 设 ,)(,)( qpijnmij bBaA ×× == 则 TTT BABA ⊗=⊗ )( , () )HHHAB A B⊗=⊗ (9.4.9) 证明 因为 11 1 1 ()() T n TT ij mmn aB aB AB aB aB aB ⎛⎞ ⎜⎟⊗= =⎜⎟⎜⎟⎝⎠ 11 1 1 TT m TT TT nmn aB a B AB aB a B ⎛⎞ ⎜⎟==⊗⎜⎟ ⎜⎟⎝⎠ 同理可验证: HHH BABA ⊗=⊗ )( 。 利用定理 9.4.1 和 9.4.2,不难验证: (1) 若 A,B 均为对角矩阵,则 BA ⊗ 也是对角矩阵; (2) 若 A,B 均为对称矩阵,则 BA ⊗ 也是对称矩阵; (3) 若 A,B 均为 Hermite 矩阵,则 BA ⊗ 也是 Hermite 矩阵; (4) 若 A,B 均为正交(酉)矩阵,则 BA ⊗ 也是正交(酉)矩阵。 直积的逆 定理 9.4.3 设 A,B 分别为 m 阶和 n 阶可逆矩阵,则 BA ⊗ 也为可逆矩阵,且 111)( −−− ⊗=⊗ BABA (9.4.10) 证明 根据式(9.4.1),有 mnnm IIIBBAABABA =⊗=⊗=⊗⊗ −−−− )())(( 1111 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 232 因此, 111)( −−− ⊗=⊗ BABA 从式(9.4.9)和(9.4.10)可以看出,矩阵通常乘积的转置(共轭转置)与求逆的反序法则对于直积 不再成立。 直积的秩 定理 9.4.4 设 ,)(,)( qpijnmij bBaA ×× == 则 )()()( BrankArankBArank =⊗ (9.4.11) 证明:令 A1,B1 分别为 A 与 B 的标准形,即 MAN=A1 ,PBQ=B1 其中:M、N、P、Q 分别为 m、n、p 和 q 阶非奇异矩阵,且 1 1 1 0 0 A ⎛⎞ ⎜⎟ ⎜⎟ ⎜⎟ = ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟⎜⎟⎝⎠ , 1 1 1 0 0 B ⎛⎞ ⎜⎟ ⎜⎟ ⎜⎟ = ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟⎜⎟⎝⎠ 在 1A 中,数 1 的个数等于 rank(A);在 1B 中,数 1 的个数等于 rank(B)。于是,有 1 1 1 −−= NAMA , 1 1 1 −−= QBPB 因此,根据定理 9.4.1,有 ))()(()()( 11 11 111 1 11 1 1 −−−−−−−− ⊗⊗⊗=⊗=⊗ QNBAPMQBPNAMBA 由定理 9.4.3 知, 1111 , −−−− ⊗⊗ QNPM 均为非奇异矩阵,所以, )()( 11 BArankBArank ⊗=⊗ 显然, 11 BA ⊗ 的秩为 )()( BrankArank ,所以 )()()( BrankArankBArank =⊗ 定理9.4.4 说明矩阵直积的秩与普通积的秩有显著的差异,普通积的秩不会超过每个因子矩阵 的秩。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 233 直积的迹 定理 9.4.5 设 A 为 m 阶矩阵,B 为 p 阶矩阵,则 )()()( BtrAtrBAtr =⊗ (9.4.12) 直积的行列式 定理 9.4.6 设 A 为 m 阶矩阵,B 为 p 阶矩阵,则 ( ) ( )mp BABA )det()det()det( =⊗ (9.4.13) 证明 记 1 , 00 AB mp JJ λµ λ µ ⎛⎞∗ ∗⎛⎞⎜⎟⎜⎟==⎜⎟⎜⎟⎜⎟⎜⎟⎝⎠⎝⎠ 分别为 A,B 的 Jordan 标准形。由线性代数知,存在可逆矩阵 P 与 Q,使得 11,ABPAPJ QBQJ−−== 根据式((9.4.1)),有 =⊗ BA ( ) ( )11 ABPJ P QJ Q−−⊗ ()()()1 ABPQJ J PQ−=⊗ ⊗ ⊗ 于是 ( )det( ) det ABAB J J⊗= ⊗ 显然, ,ABJ J 均为上三角矩阵,所以 ( )ABJ J⊗ 也为上三角矩阵,故有 ( )21det)det( JJBA ⊗=⊗ = ( ) ( ) ( )∏∏∏ === p j jm p j j p j j 11 2 1 1 µλµλµλ ( ) ( )∏∏= == p j m j m j p j 11 µλ ( ) ( )mp BA )det()det(= 其中 mλλλ ,, 21 为 A 的特征值, pµµµ ,, 21 是 B 的特征值。 9.4.2 特征值与特征向量 定理 9.4.7 设 mλλλ 21, 是 mmA × 的 m 个特征值, pµµµ ,, 21 是 ppB × 的 p 个特征值,那么 BA ⊗ 的 mp 个特征值为 (1,2,;1,2.,)ijimjpλ µ ==。 证明 根根定理 9.4.6 的证明,我们有 =⊗ BA ()()()1 ABPQJ J PQ−⊗⊗⊗,而 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 234 1 0 B AB mB J JJ J λ λ ∗⎛⎞ ⎜⎟⊗=⎜⎟⎜⎟⎝⎠ 所以, 1 ~ 0 B mB J AB J λ λ ∗⎛⎞ ⎜⎟⊗ ⎜⎟⎜⎟⎝⎠ 因此, ),,1;,,1( pjmiji ==µλ 是 BA ⊗ 的 mp 个特征值。 定理 9.4.8 设 A 为 m 阶矩阵,B 为 n 阶矩阵,则 BA ⊗ ~ AB ⊗ 。因而, BA ⊗ 与 AB ⊗ 有相 同的特征值。 证明:容易验证,对矩阵 nIA ⊗ 进行一系列“相合”变换(对矩阵的行和相应的列进行相同 的初等变换,这里是指对调矩阵的第 i 行与第 j 行,然后再对调第 i 列与第 j 列。),可以变成 AI n ⊗ , 即存在一个 mn 阶置换矩阵(有限个初等矩阵的乘积)P,使 ( ) =⊗ PIAP n T AI n ⊗ 同理,对矩阵 BIm ⊗ 也有 ( ) =⊗ PBIP m T mIB ⊗ 不难验证: IPPT = ,所以 ( ) =⊗ PBAPT ()n T IAP ⊗ ( )PBIm ⊗ = ( )n T IAP ⊗ TPP ( )PBIm ⊗ =( AI n ⊗ )( mIB ⊗ )= AB ⊗ 多项式的特征值 定义 9.4.2 设矩阵 ,nmCA ×∈ 记 k k AA AA⊗⊗⊗ ⊗= 它是一个 kk nm × 矩阵。 定理 9.4.9 设 pnnm CBCA ×× ∈∈ , ,则 ( ) kkkAB A B⊗ ⊗⊗= (9.4.14) 证明 用归纳法,当 1=k 时,显然成立,设 1−k 时定理成立,则 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第9章:矩阵分析 235 )1()()()( −⊗⊗ ⊗= kk ABABAB kkkkkk BABBAABAAB ⊗⊗−⊗−⊗−⊗−⊗ =⊗⊗=⊗= ))(()( )1()1()1()1( 定义 9.4.3 设 jip ji ij yxayxf ∑= =0, ),( 是变量 yx, 的复系数多项式,对于 nnmm CBCA ×× ∈∈ , 定 义 mn 阶矩阵 jip ji ij BAaBAf ⊗∑= =0, );( (9.4.15) 并称它为直积多项式。 关于直积多项式的特征值,有下面的结论。 定理 9.4.10 如果 A 和 B 的特征值分别是 mλλλ ,, 21 和 nµµµ ,, 21 ,它们对应的特征向量分 别是 12,, mxx x 和 12,, nyy y ,则 直 积 多 项 式 );( BAf 的特征值是 );( srf µλ ,而 对 应 );( srf µλ 的 特征向量为 rs⊗xy ),,1;,,1( nsmr == 。 证明 由于 rrrA λ=xx, s ssB µ=yy,所以, ii rrrA λ=xx, jj s ssB µ=yy 于是, ,0 (;) ( )( ) p ij rs ij rs ij fAB aA B = ⊗= ⊗ ⊗∑xy xy ,0 ()() p ij ij r s ij aA B = =⊗⊗∑ xy ,0 () p ij ij r s ij aA B = =⊗∑ xy ,0 p ij ij r s r s ij a λµ = =⊗∑ xy (, )rsr sf λ µ= ⊗xy 取 xyyxf =),( ,则 BABAf ⊗=);( 。根据定理 9.4.10,我们有 推论 9.4.1 BA ⊗ 的特征值为 mn 个数 sr µλ ),,1;,,1( nsmr == ,且对应 sr µλ 的特征向量为 rs⊗xy。 取 yxyxf +=),( ,即 yxxyyxf 00),( += ,则 BIIABAf mn ⊗+⊗=);( (称为 A 与 B 的直 和)。所以,根据定理 9.4.10,有: 推论 9.4.2 BIIA mn ⊗+⊗ 的特征值是 sr µλ + ,其对应的特征向量是 rs⊗xy,1,,;1,,rmsn= =。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 236 10.张量代数 10.1 张量概述 一阶张量 令 R 是全体实数所构成的一维实空间。 设 Tnxxxx ),...,,( 21= 是 n 维列向量,其中每个分量 Rxi ∈ ,将 n 维列向量的全体所构成 n 维列 向量空间记为 nR ;设 ),...,,( 21 nyyyy = 是 n 维行向量,其中每个分量 Ryi ∈ ,将 n 维行向量的全体 所构成 n 维行向量空间记为 nR ;并假定 nR , nR 具有标准正交基。 nR 中的元素称为一阶逆变张量,元素分量中的上标称为逆变指标; nR 中的元素称为一阶协变 张量,元素分量中的下标称为协变指标;而 R 中的元素通常称为零阶张量。 给定 nR 中的一个协变张量 ),...,,( 21 nyyyy = ,按下述方式唯一确定 nR 上的一个线性函数: >=<∑= = yxxyxf in i i ,)( 1 (10.1.1) 反之, nR 上的任一个线性函数 >=<∑= = axxaxf in i i ,)( 1 也唯一确定 nR 中的一个协变张量 ),...,,( 21 naaaa = 。因此,一个协变张量对应于 nR 上的一个线性函数。通常,将协变张量看作是 nR 上的线性函数,并称 nR 是 nR 的对偶空间,即 nR 上的所有线性函数所构成的空间。 类似地, nR 中的逆变张量与 nR 上的线性函数也具有这种一一对应关系,因此逆变张量是 nR 上 的线性函数。也就是说, nR 也是 nR 上的所有线性函数所构成的空间,即 nR 也是 nR 的对偶空间。 二阶张量 n 阶方阵,按照张量的习惯记法,记为( j ia ),或简记为 j ia 。令 ni Rx ∈ ,则 =jy ∑ = n i ij i xa 1 , nj ,...,2,1= (10.1.2) 确定了 nR 中的一个元素(一阶逆变张量) Tnyyyy ),...,,( 21= 。不难看出,式(10.1.2)关于 ix 是线性的, 即矩阵( j ia )确定了 nR 到 nR 上的一个线性变换。反之, nR 到 nR 上的任一个线性变换 a 也唯一确定 一个矩阵( j ia )。即 nR 到 nR 上的线性变换所构成的空间是矩阵空间,这个矩阵空间记为 n n RR ⊗ 。 在张量代数中, n n RR ⊗ 的元素称为二阶混合张量,它具有一个逆变指标和一个协变指标。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 237 给定 n nj i RRa ⊗∈ ,对任意的 n n RRyx ×∈),( ,定义: j in ji j i yxayxf ∑= =1, ),( (10.1.3) 则它是 n n RR × 上的一个双线性函数,所谓双线性函数是指对每一个变元来说都是线性的。 对于二阶张量还有逆变二阶张量 nnij RRa ⊗∈ 和二阶协变张量 ija nn RR ⊗∈ 。它们按下述方式: nn n j j iji Ryyyyax ∈=∑= = ),...,(, 1 1 (10.1.4) nnn j j iji Rxxxxay ∈=∑= = ),...,(, 1 1 (10.1.5) 分别确定了 nR 到 nR 上的一个线性变换和 nR 到 nR 上的一个线性变换。并且按照下述方式: nnn n ji ji ij Ryyyyyyyyayyf ∈′′=′=∑ ′=′ = ),...,(),,...,(,),( 11 1, (10.1.6) nnnn ji ji ij Rxxxxxxxxaxxf ∈′′=′=∑ ′=′ = ),...,(),,...,(,),( 11 1, (10.1.7) 分别确定了 nn RR × 上的一个双线性函数和 nn RR × 上的一个双线性函数。 例如:克罗内克(kronecker)符号: ⎩ ⎨ ⎧ ≠ ==== ji jii jij ij ,0 ,1δδδ 分别定义了一个二阶逆变张量、协变张量与混合张量。 不难看出: (a) ⎩ ⎨ ⎧ ≠ ==∑= = ji jiyyy in j i ijij ,0 ,)( 1 δδ 是 nR 到第 i 个坐标的投影变换; (b) >′=<∑ ′=∑=′ == yyyyyyyy n k kk n ji ji ijij ,),( 11, δδ 是 nR 中的内积。 类似地,可以给出 i jij δδ , 所确定的线性变换和双线性函数。 三阶张量 在 n 维空间中,三阶张量有下述 4 种形式:逆变张量 nnnijk RRRa ⊗⊗∈ ,协变张量 nnnijk RRRa ⊗⊗∈ ,混合张量 nn ni jkn nnjk i RRRaRRRa ⊗⊗∈⊗⊗∈ , ,其中所有指标都在{1,2,…, n}内取值。它们都是 3n 个数构成三维数组。 例如:在三维空间中,排列符号(交错符号): www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 238 ⎪⎩ ⎪⎨ ⎧ −== 其它 为奇排列 为偶排列 ,0 )(,1 )(,1 ijk ijk ijk ijk εε 分别定义了一个三阶逆变张量与一个三阶协变张量。如果(ijk)是由(123)通过偶数次对换其中的两个 元素所得到的排列,称之为偶排列,否则称为奇排列。例如(231)是偶排列,而(213)是奇排列。 给定 nnnijk RRRa ⊗⊗∈ 。 nk Ryy ∈=∀ )( ,定义: njiyab n i k ijkij ,...,2,1,, 1 =∑= = 它是一个二阶逆变张量,即 nnij RRb ⊗∈)( 。并且确定了 nR 到 nn RR ⊗ 的一个线性映射。 njk Ryyyy ∈′=′=∀ )(),( ,定义: niyyac n i jk ijki ,...,2,1, 1 =∑ ′= = 它是一个一阶逆变张量,即 ni Rb ∈)( 。并且上式确定了 nn RR × 到 nR 的一个双线性映射,即对每一 个变元来说都是线性映射。 nijk Ryyyyyy ∈′′=′′′=′=∀ )(),(),( ,定义: i n i jk ijk yyyad ′′∑ ′= =1 它是零阶张量,即标量。它是 nnn RRR ×× 的三重线性函数。 反之, nR 到 nnR R× 的一个线性映射、 nn RR × 到 nR 的一个双线性映射和 nnn RRR ×× 的三重线 性函数也分别对应于一个三阶逆变张量。 类似地,可以给出 nnn RRR ⊗⊗ , nn n n nn RRRRRR ⊗⊗⊗⊗ , 中元素的线性性质(即按照上述 类似方式,确定线性映射、双线性映射和三重线性函数的性质)。 概括地说,可以利用三阶张量来描述各种线性关系,尤其是双线性映射与三重线性函数。 高阶张量 按照定义三阶张量的方式,可以给出高阶张量的概念。引进高阶张量的目的主要是利用它来描 述多重线性关系。由于本节只是在 n 维欧氏空间中、并且在特定的基底下给出张量的直观概念,帮 助读者对后面章节关于描象张量概念的理解,所以这里不再给出欧氏空间中的高阶张量的概念。 张量运算 在张量的运算中,涉及到张量元素求和,按照惯例遵守下述(Einstein)约定: (1) 所有的逆变与协变指标均取从 1 到 n 的值; www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 239 (2) 逆变与协变指标中若有一个指标重复出现,则意味着要对这个指标遍历范围{1,2,…,n}求 和,这个指标通常称为一个哑指标。如果有多个哑指标,则意味着求多重和。没有求和意 义的指标称为自由指标。 根据以上约定,求和 ∑=+++=′ = n j ji j ni n iii xaxaxaxax 1 2 2 1 1 .... 则可简记为 ji j i xax =′ ,j 是一个哑指标,i 是自由指标。 张量加法 张量的加法是两个同型张量 )(),( ... ... ... ... 21 21 21 21 r s r s iii kkk iii kkk yyxx == 之间的一种运算,其定义如下: )())(( ... ... ... ... ... ... 21 21 21 21 21 21 r s r s r s iii kkk iii kkk iii kkk yxyx +=+ 张量数乘 数α 乘以张量 )( ... ... 21 21 r s iii kkkxx = 的运算定义为: )())(( ... ... ... ... 21 21 21 21 r s r s iii kkk iii kkk xx αα = 张量乘积 21 21 11 1 ,..., ,..., ,..., ,..., ),( r s r s jj ll ii kk yyxx == 的乘积 yx ⊗ 是一个 ),( 2121 ssrr ++ 型张量,其定义如下: )())(( 2111 21,..,11 11 11 211 211 ,...,,..., ,..., ,..., ,..., rrr ssks r s rr ss ii k ii kk ii kk yxyx ++ ++ + + =⊗ 张量缩并 张量的缩并是将某个上标与某个下标对等求和得到新张量的运算,例如:在 ),( sr 型 张量 )( ,..., ,..., 1 1 r s ii kkxx = 中,第 µ 个上标与第 λ 个下标对等求和得到新张量是一个 )1,1( −− sr 型张量: ∑= = +− +− − − n j iijii kkjkk ii kk r s r s xxC 1 ,...,,,,... ,...,,,,..., ,... ,..., 111 111 11 11 )( µµ λλµλ 张量内乘 利用张量的乘积和张量的缩并,可得到张量的另一种重要运算,即张量的内乘。张 量的内乘给出了张量的内积,它是向量内积在张量中的推广。两个张量内乘时,若一个张量的下标 中的指标与另一张量的上标中的指标有若干个相同,则表示这若干个指标遍历范围{1,2,…,n}求和, 这种演算的结果称为两个张量的内积。显然,两个张量的内积仍是一个张量,其阶数是两个张量的 阶数和减去哑指标数目的两倍。 例如:内积 i r k ij k jr bac = 是一个 3 阶张量; ji r k ij k r bac = 是一个 2 阶张量; ji rijr bac = 是一阶协变张量, i i bac = 是 0 阶张量即标量。 下面结合图像空间,讨论张量间的内积运算。 用张量记号,图像上的点用一阶逆变张量来表示,即点的分量指标用上标来表示,记为 Txxx ),,( 321=x 或简记成 ix ,直线用一阶协变张量来表示,即直线的分量指标用下标来表示,记为 ),,( 321 lll=l 或简记成 il 。 线与点的内积是 i i xlc = ,它是一个 0 阶张量,如果 c=0,则表示点在直线上,否则点不在直线 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 240 上。 对于空间平面的两幅图像( II ′, )间的单应矩阵 H,通常用一个二阶混合张量 )( i jh 来表示,i 表示 矩阵元素所在的行指标,j 表示矩阵元素所在的列指标。单应 H 将 I 上的点( jx )变换到 I′ 上的点( ix′ ), 写成张量形式,有 )()( ji j i xhx =′ ,简单地记作 ji j i xhx =′ (这意味着自由变量 i 取遍{1, 2, 3},对应 于点的三个分量)。如果( il′ )是 I′ 上的线,则张量积 i jij hll ′= 意味着它是 I 上的线,不难看出这与单 应矩阵对线的作用是一致的。 下面考虑张量 ijkε 与点 ix 的内积 i ijkjk xc ε= ,显然有 2 1313 3 12121111 ,,0 xxcxxcxc i i i i i i −====== εεε 1 23232222 3 2121 ,0, xxcxcxxc i i i i i i ====−== εεε 0,, 3333 1 3232 22 3131 ==−==== i i i ii xcxxcxxc εεε 所以二阶张量 i ijkjk xc ε= 是点 ix 所确定的反对称矩阵,即 ×= ][)( ii ijk xxε 。这样,两个点 ji xx , 的叉 积可以表示为 ji ijk jiji xxxxxx ε==× ×][ 而 ji ijkk xxl ε= 是一阶协变张量,它表示一条(通过点 ji xx , )直线,这与我们熟知的结论是一致的。 对于张量 ijkε 与线 ji ll , ,有类似的结论: i ijk lε 是线 il 所确定的反对称矩阵 ×][ il ; ji ijk llε 是两线 ji ll , 的交点 ji ll × 。 10.2 张量积 10.2.1 线性映射 向量空间 在本章中,用 F 表示数域,通常是指实数域 R 或复数域 C。 所谓域 F 上的向量空间 V 是指一个集合,在这个集合中定义了两种运算:加法与数乘法,并要 求这两种运算满足下列条件: 1) 集合 V 关于加法运算构交换群,其单位元素是零向量,记作 0; 2) 对于 VyxF ∈∈ ,,, βα 有 (a) yxyx βαα +=+ )(, (b) xxx βαβα +=+ )(, (c) )()( βααβ xx = , (d) xxx =⋅=⋅ 1,00 . www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 241 空间 V 的元素称为向量,F 的元素称为数量。 如果 V 中存在 n 个元素 naa ,......,1 ,使得 V 中任意一个元素可以唯一地表示成这 n 个元素的线性 组合(系数属于数域 F),则称 V 是 n 维向量空间。这样一组向量{ naa ,......,1 }称为空间 V 的一个基。 很明显,在给定基之后,向量空间 V 中的每一个元素可唯一地表示成: n n avavavv +++= ...2 2 1 1 ( Fv i ∈ ) 通常,称有序数组 ),......,( 1 nvv 为向量在基{ naa ,......,1 }下的坐标。这样,向量空间 V 就等同于坐标 向量空间 nF 。 线性函数 定义 10.1.1 设 FVf →: 是 V 上的函数。如果对任意 FaaVvv ∈∈ 21 21 ,,, 的有 12 1 2 1212()()()f av av a f v a f v+= + (10.2.1) 则称 f 是 V 上的线性函数。 显然,如果 f,g 是 V 上的线性函数,则 gf βα + 仍然是 V 上的线性函数。这样,全体 V 上的线 性函数的集合构成域 F 上的向量空间 );( FVL ,记作 *V ,并它称为 V 的对偶空间。 命题 10.2.1 如果 V 为 F 上的 n 维向量空间,则 *V 也是 F 上的 n 维向量空间。 证明 令{ naa ,......,1 }是 V 的一个基,将 V 中的向量表示为基的线性组合: ∑ ∈∈= = n i i i VfVavv 1 *, 则必有 ∑= = n i i i afvvf 1 )()( (10.2.2) 所以,线性函数 f 由它在基{ naa ,......,1 }上的值 ),...,1)(( niaf i = 所确定。 定义线性函数 ),...,1(* * niVa i =∈ 使得 ),...,1;,...,1(,,0 ,1)(* ninjij ijaa i jj i == ⎩ ⎨ ⎧ ≠ === δ (10.2.3) 则 ii aaa =)(* , 它是 a 在第 i 坐标上的投影,所以置 )( ii aff = ,有 )(*)( 11 vafafvf n i i i n i i i ∑∑ == == 也就是说 f 必为 ∑= = n i i i vff 1 * (10.2.4) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 242 上式(10.2.4)说明 *V 的任意一个元素都可以用 }*,...,*{ 1 naa 线性表示。不难证明这种表示是唯一的, 因此 }*,...,*{ 1 naa 构成 *V 的基,所以 *V 也是 F 上的 n 维向量空间。 在命题 10.2.1 证明中,由 V 的基{ naa ,......,1 }构造出对偶空间 V*的基 }*,...,*{ 1 naa 通常称为 { naa ,......,1 }的对偶基。 例 10.2.1 }),...,({ 1 Tnn xxxR == ,则 )},...,({* 1 nn n yyyRR === ,且 },...,1:)0,...,0,1,0,...,0(*{ nie i == 是 },...,1:)0,...,0,1,0,...0({ nie T i == 的对偶基。 事实上,令 f 为 nR 上的线性函数,则存在唯一的行向量 ),...,( 1 nff nR∈ 使得 n n xfxfxf ++= ...)( 1 1 反之,对任一 ),...,( 1 nff nR∈ ,上式也确定了 nR 上的一个线性函数。所以, nR 上的线性函数均可以 表示成 ),...,( 1 nfff = in i i ef * 1 ∑= = 因此, n n RR =)*( ,且{*: 1,...,}iei n= 是{ : 1,..., }iei n= 的对偶基。 不难证明,实数域 R 上的 n 维向量空间 V 的对偶 V*与 nR 同构。从上面的例子还可以看出,对 偶关系是相互的,即 n n n RRR == ***)( ,对于一般情况也有这个事实。 命题 10.2.2 如果 V 是 F 上的 n 维向量空间,则 VV =** )( 。 证明 定义 )(**, vvvv >=< (10.2.5) 则 ,<⋅⋅>是定义在 *VV × 上的 F-值函数,并且对每一个变量而言都是线性的,即:对任意 FVvvvVvvv ∈∈∈ βα,*,*,**,,,, 21 21 有 12 1 2 12 1 2 ,* ,* ,* ,* * ,* ,* vvv vv vv vv v vv vv αβ α β αβ α β <+ >=<>+<>⎧ ⎨<+>=<>+<>⎩ (10.2.6) 固定式(10.2.5)中的向量 Vv ∈ ,则 ,v<⋅>是 V*上的 F-值线性函数;反之, ,*v< ⋅>也是 V 上的 F-值 线性函数。设 g 是 V*上的 F-值线性函数,令 i in i aagv )*( 1 ∑= = www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 243 则对任意的 ** Vv ∈ ,有 >< *,vv *)()*)(*()()*(*,)*( 1 * 11 vgaavgavagvaag in i ii in i i in i =∑ ⋅=⋅∑>=<∑= === (10.2.7) 因此 V 是 V*上的 F-值线性函数构成的向量空间,即(V*)*=V。 线性映射 定义 10.2.2 假定 V,Z 均为 F 上有限维的向量空间。如果映射 ZVf →: 满足下述条件,则称 它为线性映射,或者说它是线性的:对任意的 FaaVvv ∈∈ 21 21 ,,, 有 )()()( 2 2 1 1 2 2 1 1 vfavfavavaf +=+ (10.2.8) 当 Z=F 时,此定义给出的是 F-值线性函数。 从 V 到 Z 的所有线性映射构成的集合记作 );( ZVL 。在 );( ZVL 中,定义如下加法和数乘运算: 对任意 FZVLgf ∈∈ α),;(, ,令 ( )() () () () () f gv fv gv ffvαα +=+⎧ ⎨ =⎩ (10.2.9) 则 );(, ZVLfgf ∈+ α 。显然,集合 );( ZVL 关于上述两种运算构成 F 上的向量空间。 下面考虑空间 );( ZVL 的结构。为此,令{ naa ,......,1 }是 V 的基,{ mbb ,......,1 }是 Z 的基。如果 );( ZVLf ∈ ,则 )( iaf 必为{ mbb ,......,1 }的线性组合,即存在{ | 1,2,..., }inf mFα α =⊂使得 ∑= = n ii bfaf 1 )( α α α (10.2.10) 因此,线性映射 f 由它在基{ naa ,......,1 }上的作用所确定。于是,给定 V 的基底{ naa ,......,1 }和 Z 的基 底{ mbb ,......,1 }后,线性映射 f 唯一确定一个 mn× 阶矩阵 )( α if 。反之,给定一个 mn× 矩阵 )( α if (元 素属于 F),则在这组基下唯一确定一个线性映射 f。所以,空间 );( ZVL 和 mn× 矩阵 )( α if 所成的矩 阵空间是同构的。 10.2.2 多重线性映射 多重线性函数 定义 10.2.3 假定 V,W 都是 F 上有限维的向量空间。函数 FWVf →×: 称为双线性的,如果 对每一个变量它都是线性的,也就是说 ⎩ ⎨ ⎧ +=+ +=+ ),(),(),( ),(),(),( 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 1 wvfawvfawawavf wvfawvfawvavaf (10.2.11) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 244 类似地,可以定义 r 重线性函数 FVVVf r →××× ...: 21 , 其中 rVVV ,...,, 21 都是 F 上的向量空间。 所有 r 重线性映射 FVVVf r →××× ...: 21 的全体构成的集合记为 );...( 21 FVVVL r××× 。 下面考虑空间 );( FWVL × 结构。为此,需要引进对偶空间 V*和 W*的张量积概念。 定义 10.2.4 设 ***,* WwVv ∈∈ ,线性函数 v*和 w*的张量积 ** wv ⊗ 定义为 ><⋅>=<⋅=⊗ *,*,)(*)(*),(** wwvvwwvvwvwv (10.2.12) 其中 WwVv ∈∈ , 。 显然,两个线性函数 v*和 w*的张量积 ** wv ⊗ 是 WV × 上的一个双线性函数。也就是说, ** wv ⊗ );( FWVL ×∈ 。 例 10.2.2 }),...,({ 1 Tnn xxxR == ,根据例 10.2.1, )},...,({* 1 nn n yyyRR === 。取 nnn Rbbbaaa ∈== ),...,(*),,...,(* 11 则 ∑=∑∑⋅=⋅=⊗ === n ji ji ji jn i n j j i i yxbaybxaybxayxba 1,11 )(*)(*),(** 其中: nTnTn Ryyyxxx ∈== ),...,(,),...,( 11 因此, ** ba ⊗ 是 nn RR × 上的双线性实值函数,即 ** ba ⊗ );( RRRL nn ×∈ 。 对于固定的 WwVv ∈∈ , ,式(10.2.12)中的运算“ ⊗ ”也是 ** WV × 上的双线性函数。即我们有 下述命题: 命题 10.1.3 ⊗ );( ** FWVL ×∈ 。 证明 对于 FWwVvv ∈∈∈ βα,*,**,*,* 21 ,根据张量积的定义,有 ),*]()**[( 21 wvwvv ⊗+βα ><⋅>+=< *,)**(, 21 wwvvv βα ><⋅><+><⋅><= *,*,*,*, 21 wwvvwwvv βα ),*](***[ 21 wvwvwv ⊗+⊗= βα 即 *)**( 21 wvv ⊗+βα **** 21 wvwv ⊗+⊗= βα (10.2.13) 同理,运算对于第二个因子也是线性的。所以 ⊗ );( ** FWVL ×∈ 。 定义 10.2.5 由形如 ** wv ⊗ 的元素张成的向量空间,称为向量空间 V*和 W*的张量积,并记为 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 245 ** WV ⊗ ,即 ** WV ⊗ =*}**,*:**{ WwVvwvspan ∈∈⊗ 张量积 ** WV ⊗ 的元素是形如 ** wv ⊗ 元素的有限线性组合,一般不能写成单项的形式 ** wv ⊗ , 张量积 ** WV ⊗ 中能写成单项的元素称为可分解元素。 由于 ** wv ⊗ );( FWVL ×∈ ,所以 ** WV ⊗ 是 );( FWVL × 的子空间。下面将证明 ** WV ⊗ = );( FWVL × 。 定理 10.2.1 ** WV ⊗ = );( FWVL × ,并且它是 nm 维向量空间。 证明 令 V 和 W 的基分别为{},{}abαβ,它们在 V*和 W*中对偶基分别为 1{*,...*}naa, 1{*,...*}mbb。已经知道 ** WV ⊗ );( FWVL ×⊂ ,所以只须证明: ** WV ⊗ );( FWVL ×⊃ 。为此,令 );( FWVLf ×∈ , WVwv ×∈),( , 11 , nm vxawybαβ α β αβ== ==∑∑ 则, 11 (, ) ( , ) nm f vw x y f a bαβ α β αβ== = ∑∑ , (* *)(,) *() *()abvwavbwxyα βαβαβ⊗=⋅= 所以, 1 ( , ) ( ( , )( * * ))( , ) nm i f vw f a b a b vwαβ αβ αβ== =⊗∑∑ 即, 11 (,)(* *) * * nm f fa b a b V Wαβ αβ αβ== =⊗∈⊗∑∑ 因此, ** WV ⊗ );( FWVL ×⊃ 故有 ** WV ⊗ = );( FWVL × 。 下面证明 );( FWVL × 是 nm 维向量空间。为此,只须证{* *}abα β⊗ 线性无关。令 , (* *) 0fcabαβ αβ αβ = ⊗=∑ 则有 ,, 0(,) (**)(,) (*()*()kl kl k l klf ab c a b ab c a a b b cαβ α β αβ αα αβ αβ == ⊗ = ⋅=∑∑ 所以{* *}abα β⊗ 线性无关。证毕。 由于向量空间 V 和 W 分别是 V*和 W*的对偶空间,同理可以定义张量积 WV ⊗ ,并且同样有 =⊗WV );( ** FWVL × www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 246 命题 10.2.5 张量积 ,** WV ⊗ WV ⊗ 是互为对偶的,即 =⊗ ** WV *)( WV ⊗ 。 证明 令 ><⋅>>=<⊗⊗< **** ,,, wwvvwvwv (10.2.14) 特别地, ** * *,,,ij i jabab aa bbαβ α β<⊗ ⊗ >=< >⋅< > 1, ( , ) ( , ) 0,( , ) ( , ) ij ij ij ijαβ αβ αβδδ δ αβ =⎧=⋅= =⎨ ≠⎩ (10.2.15) 所以,{}abαβ⊗ 和 **{}ijab⊗ 是互为对偶的基。因此 =⊗ ** WV *)( WV ⊗ 。 线性函数的张量积运算可以推广到任意的多重线性函数。 设 );,...,(),;,...,( 11 FWWLgFVVLf rs ∈∈ ,它们的张量积定义如下: ),...,(),...,(),...,,,...,( 1111 rsrs wwgvvfwwvvgf ⋅=⊗ (10.2.16) 其中: )...(),...,(,...),...,( 1111 rrss WWwwVVvv ××∈⋅××∈ 。 显然, :gf ⊗ FWWVV rs →××××× ...... 11 是上 F-值的 r+s 重线性函数 定理 10.2.2 张量积运算 ⊗ 满足结合律,即对任意的 ),;,...,( 1 FVVL s∈φ );,...,( 1 FWWLg r∈ 及 );,...,( 1 FZZL t∈ξ 有 )()( ξϕφξϕφ ⊗⊗=⊗⊗ (10.2.17) 证明 只对 1=== tsr 的情形进行证明,一般情形的证明是类似的。设 ,,, 111 ZzWwVv ∈∈∈ 则 )()()()(),)((),,()( zwvzwvzwv ξϕφξϕφξϕφ ⋅⋅=⋅⊗=⊗⊗ 同理 )()()(),,)(( zwvzwv ξϕφξϕφ ⋅⋅=⊗⊗ 证毕。 根据上述定理,记号 ξϕφ ⊗⊗ 是有意义的,并称它是三个元素的张量积。 形如 zwv ⊗⊗ 的元素所张成的向量空间记作 ZWV ⊗⊗ ,并称为向量空间 V,W,Z 的张量积。 这里 zwv ,, 分别看作 *** ,, ZWV 上的 F-值线性函数。 同理,若 ,,...,1 sVV 是 F 上的向量空间,则可定义它们的张量积 sVV ⊗⊗...1 。若 },...,{ )()( 1 i n i i aa 是 iV 的 基,则 1 ... sVV⊗⊗的基是 1 (1) ( ){...:1;1}s s kkaa nksααα⊗⊗ ≤ ≤ ≤≤ 所以, www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 247 ss VVVV dim...dim)...dim( 11 ⋅⋅=⊗⊗ 容易证明: );,...,(... ** 11 FVVLVV ss =⊗⊗ (10.2.18) );,...,(... 1 ** 1 FVVLVV ss =⊗⊗ (10.2.20) 且 =⊗⊗ )*...( 1 sVV ** 1 ... sVV ⊗⊗ (10.2.21) 张量积运算 ⊗ : );,...,();,...,( 11 FWWLFVVL rs × );,...,,,...,( 11 FWWVVL rs→ 是双线性映射。 多重线性映射 定义 10.2.4 假定 V,W,Z 都是域 F 上有限维的向量空间。映射 ZWVf →×: 称为双线性的, 如果它对于每一个变量都是线性的,即 ⎩ ⎨ ⎧ +=+ +=+ ),(),(),( ),(),(),( 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 1 wvfawvfawawavf wvfawvfawvavaf (10.2.22) 类似地,可以定义 r 重线性映射 ZVVVf r →××× ...: 21 , 其中 rVVV ,...,, 21 都是 F 上的向量空间。 当 Z=F(F 被看作的一维向量空间)时,上面定义的双线性映射和 r 重线性映射就是(F-值)双线性函数 和 r 重线性函数。 从 rVVV ××× ...21 到 Z 的全体 r 重线性映射的集合记作 );,...,,( 21 ZVVVL r 。如果对于任意的 FZVVVLgf r ∈∈ α),;,...,,(, 21 ,令 12 12 12 12 ( )(,,...,) (, ,...,) (, ,...,) () (,,...,) rrr r f gvvvfvvvgvvv ffvvvαα +=+⎧ ⎨ =⎩ (10.2.23) 则 );,...,,(, 21 ZVVVLfgf r∈+ α 。显然,集合 );,...,,( 21 ZVVVL r 关于这两种运算成为域 F 上的向量空间。 例 10.2.2 令 pmn RZRWRV === ,, ,对 mjni RyyRxx ∈=∈= )(,)( ,定义: =),( yxf k ∑∑ == m i n j k ij ji fyx 11 , pk ,...,2,1= 其中 pknjmif k ij ≤≤≤≤≤≤ 1,1,1, 是给定的实数。则不难验证: );( pmn RRRLf ×∈ 。 考虑空间 );( ZWVL × 的结构。首先将 );( ZWVL × 上的双线性映射转化为线性映射。确切地说, 对于给定的向量空间 V 和 W,构造一个只依赖于 V 和 W 的向量空间 Y 及双线性映射 h: YWV →× , www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 248 使得对于任意的双线性映射 );( ZWVLf ×∈ ,存在唯一的线性映射 g,适合 ZWVhgf →×= :D (10.2.24) 或者说有下面的交换图表: 下面证明所要构造的空间 Y 就是 V 和 W 的张量积。令 WVY ⊗= ,则 wvwv ⊗⊗ 6),(: 是 WV × 到 Y 的双线性映射,即 );( YWVL ×∈⊗ 。 定理 10.2.2 设 h: WVWV ⊗→× 是张量积 ⊗ 给出的双线性映射,即对于 WwVv ∈∈ , 有 wvwvh ⊗=),( (10.2.25) 则对任意的双线性映射 );( ZWVLf ×∈ ,存在唯一的线性映射 g ZWV →⊗: ,使得 ZWVhgf →×= :D (10.2.26) 证明 定义线性映射 gZWV →⊗: ,使得它在基底上的作用是 ()(,)g ab fabα βαβ⊗ = (10.2.27) 显然,g 是唯一确定的。若 ,vvaVwwbWαβ αβ αβ =∈=∈∑∑,则 , (, ) ( ) ( )g hvw gv w v w ga bαβ α β αβ =⊗= ⊗∑D , (,) ( , ) (,)vw fa b f va wb fvwαβ α β αβ α β αβ α β == =∑∑∑ 所以 hgf D= 。证毕。 例 10.2.3 令 );( pmn RRRLf ×∈ , m i n i i i ReyyRexx ∈∑=∈∑= α α, ,则 ⎟⎠ ⎞⎜⎝ ⎛∑∑= i i i eyexfyxf α α α,),( k k k i i i i i i efyxfyx ∑∑=∑= α α α α α α ,, 由于 α α α eeyxyxh i i i ⊗∑= , ),( , Y Z g h f WV × www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 249 nmiR f f feef p p i i ii ,...,1;,...,1,),( 1 ==∈ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ == α α α αα # , ⎟ ⎠ ⎞⎜ ⎝ ⎛ ⊗∑= α α α eeyxgyxhg i i i , )),(( =⊗∑= )( , α α α eegyx i i i k k k i i i i i i efyxfyx ∑∑=∑ α α α α α α ,, , 所以 hgf D= 推论 10.2.1 向量空间 );( ZWVL × 与 );( ZWVL ⊗ 是同构的。 证明 定义映射 );();(: ZWVLZWVL ×→⊗ξ 使得 );(,)( ZWVLghgg ⊗∈= Dξ (10.2.28) 其中 h 由式(10.2.25)定义。根据定理 10.2.2,映射 ξ 是线性的一对一满映射。因此,它是这两个向量 空间之间的同构映射。 对于s 重线性映射,同样也有与上面类似的结论: 定理 10.2.3 设 ss VVVVh ⊗⊗→×× ......: 11 是张量积 ⊗ 所定义的 s 重线性映射,即 ss vvvvh ⊗⊗= ...),...,( 11 (10.2.29) 则对任意 );,...,( 1 ZVVLf s∈ 存在唯一的线性映射 ),...( 1 ZVVLg s⊗⊗∈ ,使得 ZVVhgf s →××= ...: 1D (10.2.30) 从而 );,...,( 1 ZVVL s 与 ),...( 1 ZVVL s⊗⊗ 同构。 10.3 张 量 10.3.1 张量与代数运算(Tensors and Algebraic Operation) 张量的定义 在上节讨论了张量积的一般概念,在应用中通常情况是同一个向量空间与自身以及与其对偶空 间的张量积,这种特殊的张量积称为张量。张量的准确定义如下: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 250 定义 10.3.1 设 V 是 F 上的 n 维向量空间,对偶空间是 V*,张量积 **... ...r s rs VV VV V=⊗⊗⊗ ⊗⊗  (10.3.1) 中的元素称为(r, s)型张量,其中 r 是张量的逆变阶数,s 是协变阶数。 特别地, rV0 的元素称为 r 阶逆变张量, 0 sV 的元素称为 s 阶协变张量。同时,约定 FV =0 0 (它 的元素通常又称为零阶张量), VV =1 0 的元素称为逆变向量, *0 1 VV = 的元素称为协变向量。 注意:在应用时,张量积(10.3.1)中的因子 V 与 V*可能是交替出现的。将它们排成(10.3.1)的形 式,只是为了记号的方便。 根据 10.2 节的讨论, srr s nV +=)dim( ,并且 );,...,,,...,( ** FVVVVLV sr r s  = 也就是说,(r, s)型张量是定义在   sr VVVV ××××× ...... ** 上的 F-值(r+s)重线性函数。 设 *{:1 },{;1 }i ieinein≤≤ ≤≤ 分别是 V 和 V*中彼此对偶的基,则空间 r sV 的基是 ),...,,,...,1(,...... 11 ** 1 1 nkkiieeee sr kk ii s r ≤≤⊗⊗⊗⊗⊗ (10.3.2) 因此,(r, s)型张量可以唯一地表成 1 1 11 1 1 ,..., ** ,..., ,.., ,..., ... ...rs rs r s ii kk iikk ii kk x xe ee e=⊗⊗⊗⊗⊗∑ (10.3.3) 其中, 1 1 ,..., ,..., r s ii kkx 称为张量在基(10.3.2)下的分量。很明显, 11 11 ,..., * * ,..., (... ...)r r ss ii i i kkkkx xe e e e=⊗⊗⊗⊗⊗ >⊗⊗⊗⊗⊗=< xeeee s r kk ii ,...... 1 1 ** (10.3.4) 在处理张量时,常用使用 Einstein 的求和约定,在一个单项表达式中出现重复的上、下指标, 表示该式关于这个指标在它的取值范围内求和,而略去和号不写,例如,在(10.3.3)式中有(r+s)重和 号,采用这个约定则可简写成: 1 1 11 ,..., ** ,..., ... ...rs rs ii kk iikkx xe ee e=⊗⊗⊗⊗⊗ (10.3.5) 在n 维欧氏空间 nR 中,如果默认基,则(r, s)型张量 x 简记为 )( ,..., ,..., 1 1 r s ii kkxx = 或者更简洁地记为 1 1 ,..., ,..., r s ii kkxx= 。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 251 张量变换 当向量空间 V 的基改变时,张量的分量也是按一定规律变化的。 设 }1:{ niei ≤≤ 是 V 的另一个基,相应的对偶基是 }1:( * nie i ≤≤ 。令它与原基之间的关系为 j j ii eae = (10.3.6) 其中 )( j iaa = 是行列式不为零的 n 阶方阵,则对偶基之间的关系必为 ii j i ee ** β= (10.3.7) 其中 )( i jββ = 是的 )( j iaa = 逆矩阵,即 k i k j j i k j j i δαββα == (10.3.8) 若张量 x 在新基下的分量记为 1 1 ,..., ,..., r s ii kkx ,则 1 1 11 ,..., ** ,..., ... ...rs rs ii kk iikkx xe ee e=⊗⊗⊗⊗⊗ 11 11 111 1 ,..., ** ,..., ... ... srr s rsr s kii j j k ll jikki i l lx eeeeααββ=⊗⊗⊗⊗⊗ 11 1 1 111 1 ,..., ** ,..., ... ... ... ...srr s rsr s kii j j k ll jikki i l lx eeeeααββ=⋅⋅⋅⋅⊗⊗⊗⊗⊗ 所以,张量 x 的分量在新旧基下有下述关系式: 1111 1111 ,..., ,..., ,..., ,..., ... ... srr r s sr s kjj ii j jk ll k ki i l lxxα αβ β= ⋅⋅ ⋅⋅ (10.3.9) 在经典的张量分析中,变换公式(10.3.9)是定义张量的根据。 张量运算 (r,s)型张量的空间是向量空间 r sV ,所以同类型的张量相加与向量的加法相同;张量的数乘也 与向量的数乘相同。即: (1) r sVyx ∈, ,则它们的和定义为: )( yx + *1 * *1 * *1 * 111( ,..., , ,..., ) ( ,..., , ,..., ) ( ,..., , ,..., )rrr s ssvvvvxvvvvyvvvv=+ (10.3.11) 在取定基后, yx + 的分量是 x 与 y 对应分量的和: r s r s r s ii kk ii kk ii kk yxyx ,..., ,..., ,..., ,..., ,..., ,..., 1 1 1 1 1 11 )( +=+ (10.3.12) (2) F∈α , r sVx ∈ ,则它们的乘积定义为: )( x⋅α ),...,,,...,(),...,,,...,( 1 *1* 1 *1* s r s r vvvvxvvvv α= (10.3.13) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 252 在取定基后, xα 的分量是 x 对应分量与数α 的积: r s r s ii kk ii kk xx ,..., ,..., ,..., ,..., 1 1 1 11 )( αα = (10.3.14) 张量除了这两种基本运算外,还有两种特别重要的运算:乘法和缩并。 定义 10.3.2 设 x 是 ),( 11 sr 型张量,y 是 ),( 22 sr 型张量,它们的乘积 yx ⊗ 是 ),( 2121 rsrr ++ 型张 量,其定义如下: ),...,,,...,( 21 21 1 *1* ss rr vvvvyx + +⊗ ),...,,,...,(),...,,,...,( 211 211 1 1 1 *1* 1 *1* sss rrr s r vvvvyvvvvx ++ ++⋅= (10.3.15) 在取定基后, yx ⊗ 的分量是 x 和 y 的分量的乘积,即 2111 21,..,11 11 1 211 211 ,...,,..., ,..., ,..., ,...,)( rrr ssks r s rr ss ii k ii kk ii kk yxyx ++ ++ + + =⊗ (10.3.16) 张量乘法满足分配律和结合律。 定义 10.3.3 取两个指标 µλ , ,使 sr ≤≤≤≤ µλ 1,1 。对于任意一个可分解的 ),( sr 型张量: r s s r Vvvvvx ∈⊗⊗⊗⊗⊗= *1* 1 ““ , (10.3.12) 定义 **1** 1() ( , ) s rCx Dvvv v v v v vµµ λµ λ λ= ⊗⊗⊗⊗⊗ ⊗⊗ ⊗⊗““ “ “, (10.3.13) 其中“ *(, )Dv vµ λ ”记号表示去掉其中的两个因子,则 )(xCλµ 是一个 )1,1( −− sr 型张量,即 1 1)( − −∈ r sVxCλµ ,将映射 )(xCx λµ6 作线性扩张所得到的线性映射 1 1: − −→ r s r s VVCλµ 叫做张量的缩并。 若张量 x 用分量表示为 s r r s kk ii ii kk eeeexx ** 1 1 1 1 ⊗⊗⊗⊗⊗= “““ “ (10.3.14) 根据缩并的定义得 )()( **... 1 1 1 1 s r r s kk ii ii kk eeeeCxxC ⊗⊗⊗⊗⊗= “““ λµλµ 11 11 1111 1111 **...... = = −+− −+− ⊗⊗⊗⊗⊗= s r r s kk ii ijiii kjkkk eeeex ““““ λλ µµ (10.3.15) 因此从分量来看,缩并 λµC 就是关于第 λ 个上指标与第 µ 个下指标的对等求和。缩并降低了张量的 阶数,它是一个非常基本的运算。 在取定基后,张量 r s ii kkxx “ “ 1 1 = 缩并 )(xCλµ 的分量是: 11 11 ...))(( − − r s ii kkxC “λµ ∑= = −+− −+− n j ijiii kjkkk r s x 1 ...... 1111 1111 λλ µµ ““ (10.3.16) 例:设 j i i j eex *⊗= ξ 是(1, 1)型张量,则 x 的缩并就是求矩阵 )( i jξ 的迹 ∑ = n i i i 1 ξ ,所得的是一个与坐 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 253 标系选取无关的标量。 利用张量乘积和张量缩并,可得到张量的另一种重要运算,即张量内乘。张量内乘给出了张量 内积,它是向量内积在张量中的推广。 例如:两个张量 uv st pq ij yyxx == , ,它们的乘积是 uv st pq ij pquv ijst yxyx .)( =⊗ ,对 yx ⊗ 作缩并运算 13C 得 到 uv kt kq ij quv ijt quv ijt yxyxCz =⊗= ))(( 13 ,再对 quv ijtz 作缩并运算 21C , lv kt kq lj qv jt qv jt yxzCa == )( 21 ,这一系列的运算 所得到的结果十分类似于两个向量的内积。这样就导致张量内乘的下述定义: 若一个张量的分量下标中的指标与另一张量的分量上标中的指标有若干个相同,则表示这若干 个指标遍历范围{1,2,…,n}求和,这种演算的结果称为两个张量的内积。显然,两个张量的内积仍 是一个张量,其阶数是两个张量的阶数之和减去哑指标数目的两倍。 张量代数 令 0()rr r TV V V V= =⊗⊗“ 考虑直和 0() ()r rTV T V≥=⊕ ,其元素 x 可表为下述的形式和: 0 ,()rr r rx xx TV≥=⊕ ∈ (10.3.16) 在和式中,除有限多项外其余各项都是零。这样,T(V)是无穷维向量空间。T(V)中的乘法可通过张 量乘法分配律定义,并且向量空间 T(V)关于这种乘法成为一个代数,称为向量空间 V 的张量代数。 同理, *V 的张量代数是 *0 0() rrTV V≥=⊕ . 正如上节所讨论的那样,向量空间 )( *VT r 和 )(VT r 是彼此对偶的,它们的配合是 ><⋅⋅>>=<⊗⊗⊗⊗< ∗∗∗∗ r r r r vvvvvvvv “““ 1 1 1 1 ,, (10.3.17) 其中 ∗∗ ∈∈ VvVv i i , 。 10.3.2 对称与反对称张量(Symmetric and Skew-symmetric Tensors) 对称与反对称张量 自然数 },,1{ r“ 的置换群记为 )(rϕ ,其中的任意一个元素(置换)σ 决定了向量空间 )(VT r 的一个 自同态:设 )(VTx r∈ ,则定义 ),,(),,( )(*)1(**1* rr vvxvvx σσσ ““ = (10.3.18) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 254 其中 ** Vv i ∈ 。如果 ,1 rvvx ⊗⊗= “ 则 *1 *2 * *1 * 1(, , ) (,, )rr rx vv v v vv vσσ=⊗⊗“““ 111 *() * *1 * () (1) ()11 ,, (,) rrjj r j jrjj vv v v v v v vσ σσσ−−− == =< >=< >= ⊗⊗∏∏ ““ 11(1) ( )rxv vσσσ −−= ⊗⊗“ (10.3.19) 其中 1−σ 表示σ 的逆元素。 定义 10.3.3 设 ()rx TV∈ 。若对任意的 )(rϕσ ∈ ,有 xx =σ (10.3.20) 则称 x 是对称的 r 阶逆变张量;若对任意的 )(rϕσ ∈ ,有 signx xσ σ= ⋅ (10.3.21) 则称是 x 是反对称 r 阶逆变张量。其中 σsgn 表示置换σ 的符号: 1,sign 1, σσ σ ⎧= ⎨−⎩ 是偶置换 是奇置换 (10.3.22) 定理 10.3.1 设 ()rx TV∈ ,(1) x 为对称张量的充要条件是它的分量关于各指标是对称的;(2) x 为 反对称的充要条件是它的分量关于各指标是反对称的。 证明 设 V 的基底是 },,{ 1 nee “ 。若 x 是对称的,则对任意的 )(rϕσ ∈ 有 )()1()()1(111 ),,(),,(),,( ****** rrrrr iiiiiiiiii xeexeexeexx σσσσσ ““ “““ ==== (10.3.23) 反之亦然。 若 x 是反对称的,则对任意的 )(rϕσ ∈ 有 11 1** **(,,)sign (,,)rr riiii iix xe e xe eσσ==⋅“ ““(1) ( )sign riix σσσ=⋅“ (10.3.24) 反之亦然。证毕。 张量的对称化和反对称化 对任意 ()rx TV∈ ,令 ∑= ∈ )(! 1)( r r xrxS ϕσ σ (10.3.25) () 1() sign!r r Ax xr σϕ σ σ ∈ = ⋅∑ (10.3.26) 显然, )()(),( VTxAxS r rr ∈ ,并且映射 )()(:)(),( VTVTxAxS rr rr → 都是 )(VT r 的自同态。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 255 下面证明 )(),( xAxS rr 分别是对称张量和反对称张量。 设 )(VTx r∈ ,则对任意的 )(rϕτ ∈ 有 )())((! 1))(( )( xSxrxS r r r =∑= ∈ϕσ σττ (10.3.27) ))(( xArτ () 1 sign ( )! r xr σϕ σ τσ ∈ =⋅∑ () 1sign( ) sign( ) ( )! r xr σϕ ττστσ ∈ =⋅∑ DD si gn( ) ( )rAxτ= (10.3.28) 所以, )(),( xAxS rr 分别是对称张量和反对称张量。 例 10.3.1 (1) 2 ()nx TR∈ ,考虑 22(), ()SxAx;(2) 3 ()nx TR∈ ,考虑 33(),()SxAx。 (1) 1, ij ij ij n x xe e ≤≤ =⊗∑ 12 12() (), () ( ); 1, 1ij ij ij ji sign signσ σσσ=→ =→ = =− 12() () 212 1, 1, 1, 11() ( )22 2 ij ji ij ij ij ij ij ij n ij n ij n xxSx x x x e e x e e e eσσσσ ≤≤ ≤≤ ≤≤ +⎛⎞=+= ⊗+ ⊗= ⊗⎜⎟⎝⎠ ∑∑ ∑ 21122 1() ( )2Ax sign x sign xσσ σσ=⋅+⋅ 12() () 1, 1, 1, 1 22 ij ji ij ij ij ij ij ij n ij n ij n xxx ee x ee eeσσ ≤≤ ≤≤ ≤≤ −⎛⎞=⊗−⊗=⊗⎜⎟⎝⎠ ∑∑ ∑。 (2) 1,, ijk ijk ijkn x xe e e ≤≤ =⊗⊗∑ 112233() (), 1;() ( ), 1;, () ( ), 1;ijk ijk sign ijk jik sign ijk jki signσ σσ σ σ σ=→ ==→ =−=→ = 445566()(), 1;()(), 1;,()(), 1ijk kji sign ijk kij sign ijk ikj signσ σσ σσ σ=→ =−=→ = =→ =− 66() 3 11,,1 11() 66 l ijk lijk lijknl Sx x x e e eσσ =≤≤= == ⊗⊗∑∑∑ 66() 3 11,,1 11() 66 l ijk llijk lijknl Ax x sign x e e eσσσ =≤≤= == ⋅⊗⊗∑∑∑ 定义 10.3.4 rr AS , 分别称为 r 阶逆变张量的对称化算子和反对称化算子。 将全体 r 阶的对称逆变张量的集合记作 )(VPr ,全体 r 阶的反对称逆变张量的集合记为 )(VAr 。 定理 10.3.2 (1) ))(()()),(()( VTAVAVTSVP r r rr r r == ;(2) )(VPr 和 )(VAr 都是 )(VT r 的线性子空 间。 证明是容易的。由于对称张量在对称化算子作用下不变,反对称张量在反对称化算子作用下不 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 256 变,所以(1)成立。由于置换σ 在 )(VT r 上的作用是自同态,所以对称张量的和仍是对称的,反对称 张量的和仍是反对称的,因此 )(VPr 和 )(VAr 都是 )(VT r 的线性子空间。 上面关于对称张量和反对称张量的讨论同样可用于协变张量。全体 r 阶的对称协变张量的集合 记作 )( *VPr ,全体 r 阶的反对称协变张量的集合记作 )( *VAr 。 10.4 外代数(Grassmann 代数) 10.4.1 外积运算(Exterior Product) 外向量的外积 反对称的 r 阶逆变张量也称为 r 次外向量,空间 )(VAr 称为 V 上的 r 次外向量空间。为陈述方 便,我们还约定 FVAVVA == )(,)( 01 。 外向量有一种重要的外积运算,即两个外向量相乘得到另一个外向量,确切定义如下: 定义 10.4.1 设 ξ 是 k 次外向量, η 是 l 次外向量,令 )( ηξηξ ⊗=∧ +lkA (10.4.1) 其中 lkA + 是反对称化算子,则 ηξ ∧ 是(k+l)次外向量,称为外向量 ξ 和 η 的外积。 例10.4.1 考虑两个一次外向量 , nRξη∈ 的外积ξ η∧ :令 11 , nnij ij ij x eyeξη == ==∑∑,根据例 10.3.1,我们有 22 ,1 ,1 () 2 ij jinnij ij ij ij ij xy x yA A xyee eeξη ξη == −⎛⎞∧= ⊗ = ⊗ = ⊗⎜⎟⎝⎠ ∑∑ 这是外积ξ η∧ 在张量空间 2 ()nnnTR R R=⊗中的表达。由于 2 次外向量空间 2 ()nAR 是 2 ()nTR的 子空间,我们的目的是需要在 2 ()nTR上来表达外积ξ η∧ 。这样就需要研究向量空间 2 ()nAR 的基, 为此我们先讨论外积运算的一般规律。 定理 10.4.1 设 )(),(,,),(,, 2121 VAVAVA hlk ∈∈∈ µηηηξξξ ,外积满足下列运算律: (1) 分配律: ηξηξηξξ ∧+∧=∧+ 2121 )(; 2121 )( ηξηξηηξ ∧+∧=+∧ ; (2) 反交换律: ξηηξ ∧−=∧ kl)1( (3) 结合律: )()( µξηµηξ ∧∧=∧∧ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 257 证明 (1) 分配律是张量积和反对称化算子的线性性质的推论,因此是明显的。 (2) 因 ηξ ∧ 是反对称张量,所以对任意的 )( lk +∈ϕτ 有 ()signτ ξη τξη∧ =⋅∧ 取 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ++ ++= lkll lkkk ...............1...1 .........1.........1τ 则 kl)1(sgn −=τ ,所以对任意的 lkvv +*1* ,..., 有 ),...,()1(),...,( )(*)1(**1* lkkllk vvvv ++ ∧−=∧ ττηξηξ *(1) *() *(1) *( ) () (1) si gn ( ,..., ) ( ,..., )()! kl kk kl kl vv v vkl στ στ στ στ σϕ σξ η ++ ∈+ −=⋅⋅+ ∑ *( 1) *( ) *(1) *() () (1) sign ( ,..., ) ( ,..., )()! kl kklk kl vv vvkl σσ σσ σϕ ση ξ++ ∈+ −=⋅⋅+ ∑ *(1) *() *( 1) *( ) () (1) sign ( ,..., ) ( ,..., )()! kl lk kl kl vv v vkl σσ σ σ σϕ ση ξ ++ ∈+ −=⋅⋅+ ∑ *1 *(1) ( ,..., )kl k lvvηξ +=− ∧ (3) )())(())(()( µξηµξηµξηµηξ ∧∧=⊗⊗=⊗⊗=∧∧ ++++ hlkhlk AA 。 证毕。 注 根据反交换律,有 0,),(, 1 =∧=∧∧−=∧∈ ηηξξξηηξηξ VA (10.4.3) 设{ nee ,...,1 }是 V 的一个基,根据结合律的证明,有 niieeAee riirii rr ≤≤⊗⊗=∧∧ ,...,1),...(... 111 (10.4.4) 因此,仅当 rii ,...,1 ,互不相同时,外向量 rii ee ∧∧...1 才不是零。特别地,当 r>n 时,指标 rii ,...,1 必有 重复,故相应的外向量必然是零。 外向量空间的基 设ξ 是 r 次外向量,在张量空间 ()rTV分量可表成 r r ii ii ee ⊗⊗= ““ 1 1ξξ (10.4.5) 根据反对称化算子的线性性质,有 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 258 r r r r ii ii iir ii r eeeeAA ∧∧=⊗⊗== ““ ““ 1 1 1 1 )( ξξξξ 因此,次数大于 n 的外向量都是零,即 )(0)( nrVAr >= (10.4.6) 设 nr ≤ ,由定理 10.3.1,ξ 的分量 rii “1ξ 关于上指标是反对称的,所以ξ 可表成 ∑ ∧∧= << r r r ii ii ii eer “ “ “ 1 1 1! ξξ (10.4.7) 例 10.4.2 在例10.4.1 中, 2 ,1 2 ij jin ij ij xy x yAeeξη = ⎛⎞−∧= ⊗⎜⎟ ⎝⎠ ∑ 2 ,1 1, () ( )2 ij jin ij ji ij ij ij ij n xy x y Ae e xy xye e =≤≤ −=⊗=−∧∑∑ 定理 10.4.2 当 nr ≤ 时, }1,{ 11 niiee rii r ≤<<≤∧∧ ““ 是外向量空间 )(VAr 的基。 证明 只要证明 r 次外向量组 }1,{ 11 niiee rii r ≤<<≤∧∧ ““ (一共包含 )!(! ! rnr n r n −=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ 个 外向量)是线性无关的。为此,先导出 rii ee ∧∧“1 的求值公式:设 rvv ∗∗ ,,1 “ 是 ∗V 中任意 r 个元 素,则 rii ee ∧∧“1 ),,( 1 rvv ∗∗ “ 1 (1) ( ) () 1 sign , ,! r r ii r ev evr σσ σϕ σ ∗∗ ∈ = ⋅< >⋅ ⋅< >∑ “ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ><>< ><>< ><>< = ∗∗ ∗∗ ∗∗ r ii r ii r ii veve veve veve r rr ,, ,, ,., det! 1 1 1 1 22 11 “ ““““““““““““ “ “ (10.4.8) 上式称为 rii ee ∧∧“1 的求值公式。特别地, rii ee ∧∧“1 11 1 11(,,) det(, )!! rr r j jjjj i iiee eerr β α δ∗∗∗=< >=“ ““ 其中 1 1 111 111 1, ,, ,{,,}{,,} ; 1,,, ,{,,}{,,} ; 0, . r r rrr jj rrrii ii j j ii ii j j iiδ ⎧ ⎪=−⎨ ⎪⎩ “ “ “““ “““ 当 互不相同 且 是 的偶排列 当 互不相同 且 是 的奇排列 其他情形 (10.4.10) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 259 称为广义的 Kronecker 符号。由(10.4.9)式得到 nee ∧∧“1 ! 1),,( 1 nee n =∗∗ “ (10.4.11) 故 01 ≠∧∧ nee “ 。 对于 nr < ,如果 1 1{,1}rii reeiin∧∧ ≤<<≤““线性相关,则有不全为零的数 Fa rii ∈“1 ,使 ∑ =∧∧ ≤<<≤ nii ii ii r r r eea “ “ “ 1 1 1 1 0 (10.4.12) 不妨设其中一个不为零的数是 njja r jj r ≤<<≤ ““ 11,1 ,与它相补的指标组记为 1 nrkk−<<“ ,也就 是说 },,,,,{ 11 rnr kkjj −““ 恰是 },,1{ n“ 的一个排列。用 1 nrkkee− ∧ ∧“ 外乘 (10.4.12)的两边,于是得到 riia “1 1 11 1 0r rnr ii iikk neeeeaee− ∧∧ ∧ ∧∧ =± ∧∧=“““ “ 因 01 ≠∧∧ nee “ ,所以 1 0,riia =“ 这是一个矛盾。因此 1 1{,1}rii reeiin∧∧ ≤<<≤““是线性无关的,它们构成 )(VAr 的基。证毕。 定理 10.4.2 说明,r 次外向量空间 )(VAr 是维数为 )!(! ! rnr n r n −=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ 的向量空间。 例 10.4.3 取 , nRξη∈ ,根据例 10.4.2,我们有 1, 1, () det ii ij ji ij ijjjij n ij n xyx yxyee ee xy ξη ≤≤ ≤≤ ⎛⎞∧= − ∧ = ∧⎜⎟ ⎝⎠ ∑∑ 特别地,当 2n = , 12det( , )eeξ ηξη∧ =∧,其系数表示向量 ,ξ η 所构成的平行四边形的有向面积, 如图 10.4.1 所示。一般地,()ij jix yxy− 是 ,ξ η 在子空间 {, }ijspan e e 的投影分量所构成的平行四边形 的有向面积。 图 10.4.1 R2 中两个向量的外积是它们所构成的平行四边形的有向面积 ξ η det( , )ξ η www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 260 同理,可以考虑 )( ∗VAr ,但 )( ∗VAr 中元素是向量空间 V*上的 r 次外向量,我们通常又称它为 向量空间 V 上的 r 次外形式,它是 V 上的反对称 F-值 r 重线性函数。r 次外向量空间 )(VAr 与 r 次外 形式空间 )( ∗VAr 是彼此对偶的,它们之间的配合< , >定义如下: 设 ),(),( 1 1 ∗∗∗ ∈∧∧∈∧∧ VAvvVAvv rrr r ““ 则 ),det(, 1 1 ><>=∧∧∧∧< ∗∗∗ β α vvvvvv r r ““ (10.4.15) 这样, )(VAr 和 )( ∗VAr 的基分别为 }1,{ 11 niiee rii r ≤<<≤∧∧ ““ 和 ,{ 1 rjj ee ∗∗ ∧∧“ }1 1 njj r ≤<<≤ “ 并且,有下述关系: ,1 rii ee ∧∧< “ r r r jj ii j i jj eeee “ ““ 1 1 1 ),det( δβ α =><>=∧∧ ∗∗∗ ⎩ ⎨ ⎧ ≠ == },,,{},,{,0 },,,{},,{,1 11 11 rr rr iijj iijj ““ ““ (10.4.16) 因此,这两个基彼此对偶。 10.4.2 外代数(Exterior Algebra) 用 )(VA 表示形式和 0 ()nr r AV=⊕ ,即 0() ()nr rAV A V==⊕ ,也就是说它的元素由下述形式和生成: 0 ,nr rξ ξ==⊕ ()rrAVξ ∈ 令 1 1 11 r r r jjr jj jjn x eeξ ≤<<≤ =∧∑ “ “ “ , )(VA 中的元素能被表示为 12 1 12 1 1 12 1 0 1 111 1 1 r r r jj j jj n jjjjjn jn j j j j n x xe xe e x e e xe eξ ≤≤ ≤< ≤ ≤<<≤ =⋅+ + ∧++ ∧ ++ ∧∧∑∑ ∑“ “ “ ““““ 所以 )(VA 是 n2 维向量空间,它的基为 12 112 12 1{1, (1 ) , (1 ) , (1 ) , , }riiiii r neineeiine e ii ine e≤≤ ∧ ≤ < ≤ ∧ ∧ ≤ < < < ≤ ∧ ∧““ “ “ “ 设 00,nr ns rsξ ξη η===⊕ =⊕ (10.4.17) 其中 )(),( VAVA ssrr ∈∈ ηξ ,定义ξ 和η 的外积是 ,0 nrs rsξ ηξη=∧ =⊕ ∧ (10.4.18) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 261 则 )(VA 关于外积成为一个代数,称为向量空间 V 的外代数或 Grassmann 代数。 同样,可以定义对偶空间 ∗V 的外代数: 0() ()nr rAV A V∗ ∗ ==⊕ (10.4.19) 空间 )( ∗VAr 的元素称为向量空间 V 上的 r 次外形式,它是 V 上的反对称 F-值 r 重线性函数。 设 WVf →: 是向量空间 V 到 W 的线性映射,则它诱导出外形式空间 ()rAW∗ 到 )( ∗VAr 的线性 映射 ∗f :设 )( ∗∈ WArϕ ,对任意的 ,,,1 Vvv r ∈“ ,令 )).(,),((),,( 11 rr vfvfvvf ““ ϕϕ =∗ (10.4.20) 容易证明 ∗f 是线性的。由于下述定理证明了 ∗f 关于外积运算是可分配的,因此 ∗f 是外代数 ()AW∗ 到 ()AV∗ 的同态。 定理 10.4.3 设 WVf →: 是线性映射,则 ∗f 关于外积运算是是可分配的。即对于任意 )( ∗∈ WArϕ 和 )( ∗∈ WAsψ 有 ψϕψϕ ∗∗∗ ∧=∧ fff )( (10.4.21) 证明 任取 1,, ,rsvvV+ ∈“ 则 11( )( , , ) ( ( ), , ( ))rs rsfvvfvfvϕψ ϕψ∗ ++∧=∧““ (1) ( ) ( 1) ( ) () 1 si gn ( ( ), , ( )) ( ( ), , ( ))()! rr rs rs fv fv fv fvrs ασ σ σ σγ σϕ ψ ++ ∈+ =⋅ ⋅+ ∑ ““ (1) ( ) ( 1) ( ) () 1 sign ( ), ,( ) ( ), ,( )()! rrrs rs fv v fv vrs ασσσ σγ σϕ ψ∗∗ ++ ∈+ =⋅⋅+ ∑ ““ .),,( 11 + ∗∗ ∧= rvvff “ψϕ 所以, .)( ψϕψϕ ∗∗∗ ∧=∧ fff 证毕。 外代数的概念最初是由 Grassmann 为了研究线性子空间而引进的。下面给出几个很有用的命题。 定理 10.4.3 向量 12,,, .rvv v V∈“ 线性相关的充要条件是 1 0.rvv∧ ∧=“ (10.4.22) 证明 若 rvvv ,,, 21 “ 线性相关,不妨设 rv 可以表示为 11,,rvv−“ 的线性组合: 11 1 1.rrrvav av− −= ++“ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 262 因此, ∧∧∧=∧∧∧ −− 1111 rrr vvvvv ““ 0)( 1111 =++ −− rr vava “ 若 rvvv ,,, 21 “ 线性无关,则可将它们扩充成 V 的一个基 },,,,,{ 11 nrr vvvv ““ + 。由于 011 ≠∧∧∧∧∧ + nrr vvvv ““ 所以 01 ≠∧∧ rvv “ 证毕。 定理 10.4.5(Cartan) 设 rr wwvv ,,;,, 11 ““ 是 V 中两组向量,使得 0 1 =∧∑ = α α α wv r (10.4.23) 如果 rvv ,,1 “ 线性无关,则 αw 可表示为它们的线性组合 rvaw r ≤≤∑= = αβ β βαα 1, 1 (10.4.24) 并且 αββα aa = (10.4.25) 证明 因为 rvv ,,1 “ 是线性无关的,所以可以将它们扩充成 V 的一个基 },,,,,{ 11 nrr vvvv ““ + 。因 此,不妨假定 i n ri i r vavaw ∑+∑= +== 11 αβ β βαα (10.4.26) 代入(10.4.23)式得到 ∑ ∧∑+∧∑= =+== r i n ri i r vvavva 111, 0 α ααβα βα βα ∑ ∧∑+∑ ∧−= =+=≤<≤ r i n ri i r vvavvaa 111 )( α ααβ βα σαββα (10.4.27) 由于 }1,{ njivv ji ≤<≤∧ 是 )(2 VA 的一个基底,因此从(10.4.27)式得到 0, 0,jaa a jrαβ βα α− ==> 即 αββαβ β βαα aavaw r =∑= = , 1 。 证毕。 定理 10.4.6 设 rvv ,,1 “ 是 V 中 r 个线性无关的向量,w 是 V 上的 p 次外向量,则存在 )(,, 1 1 VA p r −∈ψψ “ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 263 使 w 能表成 rrvvw ψψ ∧++∧= “11 (10.4.28) 充要条件是 01 =∧∧∧ wvv r“ (10.4.29) 证明 当 p+r>n 时,(10.4.28)和(10.4.29)两式显然成立。下面,假定 nrp ≤+ 。 必要性是明显的,只须证明充分性:把 rvv ,,1 “ 扩充成 V 的一个基 },,,,,{ 11 nrr vvvv ““ + ,则 w 可以表示成 .01 1 1 1 11 =∧∧∑+∧++∧= ≤<<≤+ p p p vvvvw nr rr αα αα σσξψψ ““ “ “ (10.4.30) 其中 )(,, 1 1 VA p r −∈ψψ “ 。代入(10.4.29)式得到 .01 1 1 1 1 =∧∧∧∧∧∑ ≤<<≤+ p p p vvvv r nr αα αα σσξ ““ “ “ (10.4.31) 而和号后的 ).1( 11 1 nrvvvv pr p ≤<<≤+∧∧∧∧∧ αααα “““ 正是 ).(VA zp+ 的基的一部分,所以从 (10.4.31)式得到 01 =pσσξ “ )1( 1 nr p ≤<<≤+ αα “ 即 rrvvw ψψ ∧++∧= “11 。 证毕。 定理 10.4.7 设 )1(,;, kwvwv pp ≤≤ ααααα 是空间 V 中两组向量。若 }1,,{ kwv ≤≤ ααα 是线性无关 的,并且 ∑ ∧=∑ ∧ == k ppk wvwv 11 α αα α αα (10.4.329) 则 pp wv αα , 都是 kk wwvv ,,,,, 11 ““ 的线性组合,而且它们也是线性无关的。 证明 将(10.4.32)式自乘 k 次得到 )(!)(! 1111 p k p k pp kk wvwvkwvwvk ∧∧∧=∧∧∧ ““ (10.4.33) 因为 }1,,{ kwv ≤≤ ααα 是线性无关的,故(10.4.33)式左边 0≠ 。即 }1,{ kwv pp ≤≤ ααα 也线性无关(定 理 10.4.3)。从(10.4.33)式,还可以得到 011 =∧∧∧∧ p kk vwvwv α“ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 264 即 },,,,{ 11 p kk vwvwv α“ 是线性相关的,所以 pvα 能表成 kk wwvv ,,,,, 11 ““ 的线性组合。上面的结论对 pwα 也成立。证毕。 外代数与行列式是密切相关的,如外向量的求值公式(10.4.8) 就表现为行列式。设 kk wwVvv ,,,,, 11 ““ 而∈ 是它们的线性组合, 即 , 1 β β β αα vtw k ∑= = (10.4.34) 则 kk vvtww ∧∧=∧∧ ““ 11 )det( β α (10.4.35) 因此,外向量 kk vvww ∧∧∧ ““ 11 和 ,只差一个行列式作为数量因子。 10.4.3 Plucker-Grassmann 坐标 在 2.1.3 节,介绍了 3 维射影空间的直线 Plucker 坐标。3 维射影空间的直线有 4 个自由度,在 直觉上有点令人费解,并且 Plucker 坐标的导入也不像点坐标和平面坐标那样十分自然。本节,我们 将通过外向量给出 n 维射影空间的直线、平面和超平面这些基本几何元素坐标的统一表达,即 Plucker-Grassmann 坐标。 令 V 是 n+1 维向量空间,记 (1,)Gn k+ 为 V 的所有 k 维线性子空间 Lk 的集合。 (1,)Gn k+ 通常称 这 Grassmann 流形,它是 k(n-k+1)维的。在 k=1 时, (1,1)Gn+ 是 n 维射影空间 Pn, (1,1)Gn+ 每个元素, 即 V 的一维线性子空间 L,是射影空间 Pn 的一个点。 (1,2)Gn+ 中的元素,即 V 的二维线性子空间 L2,是射影空间 Pn 中的直线; (1,3)Gn+ 中的元素,即 V 的 3 维线性子空间 L3,是射影空间 Pn 中的 平面;一般地, (1,)Gn k+ 中的元素,即 V 的 k 维线性子空间 Lk,是射影空间 Pn 中的 k-1 维超平面。 对任意 (1,)kLGnk∈+,令 12{, , , }kvv v“ 是张成线性子空间 Lk 的 k 个线性无关的向量,根据式 (10.4.35)外向量: 12 kvv vη = ∧∧∧“ (10.4.36) 可以确定到相差一个非常数因子的程度,即如果 12{, , , }kuu u“ 是另一个张成线性子空间 Lk 的 k 个线性 无关向量组,根据式(10.4.35)必有 12 12det( )kkvv v tuu uβ αη =∧∧∧= ∧∧∧““ 很明显,Lk 在向量空间 V 中的方程可表示为 0,x xVη ∧ =∈。因此,我们定义外向量 η 是线性子空 间 Lk 的坐标,即射影空间 Pn 中 k-1 维超平面的齐次坐标,通常称它为 Plucker-Grassmann 坐标。 下面,令 4VR= ,考虑相应的 3 维射影空间 P3 中的点、直线和平面的齐次坐标,即考虑 (4,1)G , (4,2)G , (4,3)G 中元素的 Plucker-Grassmann 坐标。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 265 令 1 (4,1)LG∈ ,则存在 4 ,0xRx∈≠使得 1 {| }L xRαα=∈,按照定义, 1L 的 Plucker-Grassmann 坐 标为 xη = ,这与 2.1 节定义的 3 维射影空间中点的齐次坐标是一致的。 1 (4,3)LG∈ ,则存在 4,,x yz R∈ 使得 3 {, ,}L span x y z= ,按照定义, 3L 的 Plucker-Grassmann 坐标 14 3! ijk ijk ijk x yz dee eη ≤< < ≤ =∧∧= ∧ ∧∑ (10.4.37) 由于, 234 11 12343!eexyzdeeeeη∧= ∧∧∧= ∧ ∧ ∧ 同时,我们有 44 4 11 11 1 ijk ijk ij k exyze xeye ze == = ∧∧∧= ∧ ∧ ∧∑∑ ∑ 1 1234 24 24 3! 3! sign(1 )ijk ijk ijk ijk ijk x yzeeee ijkxyzeeee ≤< < ≤ ≤< < ≤ = ∧∧ ∧ = ⋅ ∧∧∧∑∑ 所以, 234 24 sign(1 ) det( (~ 1))ijk ijk dijkxyzX ≤< < ≤ =⋅=∑ 其中 ))(~det(),,,( iXzyxX = 表示矩阵 X 删去第 i 行的 3 阶子阵行列式。同理,我们能得到 134 14;,,2 sign(2 ) det( (~2))ijk ijk ijk dijkxyzX ≤< < ≤ ≠ =− ⋅ =−∑ , 124 14;,,3 si gn(3 ) det( (~ 3))ijk ijk ijk dijkxyzX ≤< < ≤ ≠ =⋅=∑ , 123 13 sign(4 ) det( (~ 4))ijk ijk dijkxyzX ≤< < ≤ =− ⋅ =∑ 于是,3 射影空间中平面的齐次坐标为 234 134 124 123(,,,)Tddddπ = 这与 2.1 节的结果是一致的。 现在考虑 3 维射影空间中直线的齐次坐标。令 2 (4,2)LG∈ ,则 4,x yR∈ 使得 2 {, }L span x y= ,按 照定义, 2L 的 Plucker-Grassmann 坐标为 x yη = ∧ 根据例 10.4.2,我们有 14 ij ij ij pe eη ≤< ≤ = ∧∑ (10.4.38) 其中, ,1 4ij i j j ipxyxyij= −≤<≤ (10.4.39) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第10章:张量代数 266 下面证明,数组{|1 4}ijpij≤ <≤ 正是直线的 Plucker 坐标。为此,只须证明{}ijp 满足 Plucker 方程。 由于 0xyxyη η∧ =∧∧∧= 且 ()12 34 13 24 14 23 1234 14 14 ij kl ij kl ij kl p ee pee pp pp ppeeee ≤< ≤ ≤ <≤ ⎛⎞⎛⎞∧∧ ∧= − + ∧∧∧⎜⎟⎜⎟⎝⎠⎝⎠ ∑∑ ( )12 34 13 42 14 23 1234pp pp pp e e e e= ++ ∧∧∧ 所以,{}ijp 满足 Plucker 方程: 12 34 13 42 14 23 0pp pp pp+ += (10.4.40) 另一方面,我们还可以证明,满足 Plucker 方程的数组{}ijp 所对应的外向量 14 ij ij ij p eeη ≤< ≤ = ∧∑ 一定是可分解的,即这样的数组一定是 3 维射影空间中某直线的 Plucker 坐标。证明如下:不妨假定 12 0p ≠ ,则 34 13 24 12 14 23 12//ppppppp=− − 于是,我们有 14 ij ij ij pe e ≤< ≤ ∧∑ 12 13 14 23 12 12 13 14 24 12 12 13 14 1234 3234 3234()/()/()e pe pe pe p pe pe pe pe p pe pe pe pe=∧++ − ∧ ++ − ∧ ++ ( )23 12 24 12 12 13 14 133234//( )ep pep pe pepepe=− − ∧ + + 。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第11章:运动与结构 267 11.运动与结构 本章将介绍 SVD 分解在运动与结构估计的应用。 给定两幅图像 },{ II ′ ,假定两幅图像所对应的摄像机内参数矩阵是已知的,求解两个摄像机之 间的欧氏运动和景物的欧氏结构。它是三维计算机视觉的主要研究内容。本章将介绍求解欧氏运动 和结构问题的 SVD 分解方法,实践表明它是一种非常有效的求解方法。 给定 n 幅图像的一组点对应,并且已知 n 这幅图像分别来自一个仿射摄像机的投影,但摄像机 矩阵是未知的。从这组点对应求解它们对应的空间点和仿射摄像机矩阵,通常称为仿射运动与结构 问题。从仿射摄像机的一组图像点对应的获得的结构是景物的仿射结构,所以这样得到结构也称为 仿射重构。应用 SVD 分解技术,非常方便地实现此问题的求解。 两幅图像的射影重构可以通过基本阵来实现,三幅图像的射影重构可以通过求解三焦张量来实 现。然而,对于三幅以上图像,大多数方法是以其中的某两幅图像(或三幅图)为基准来实现射影重 构,这些方法主要不足之处在于重构结果严重依赖于基准图像的选择。基于 SVD 分解的多幅图像的 射影重构技术在一定程度上克服了上述方法的不足。 11.1 欧氏运动与结构 11.1.1 本质矩阵 给定两幅图像 },{ II ′ ,令第二幅图像的摄像机相对于第一幅图像的摄像机之间的运动为 ),( tR (其中 R 是摄像机的旋转,t 是摄像机的平移)。假定已知它们的内参数矩阵分别为 KK ′, 。 由于已知摄像机内参数,可以对两幅图像作规范化变换: mmmm ′′=′= −− 11 , KK nn (11.1.1) 得到两幅新图像{ nn II ′, },称它们为原图像的规范化图像。因为原图像间的基本矩阵为 1][ − × −′= RKKF T t www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第11章:运动与结构 268 所以,规范化图像 nn II ′, 间的极线约束方程必为 0][ =′′ × n T n Rmtm (11.1.2) 方程(11.1.2)是由矩阵: RE ×= ][t (11.1.3) 所确定的,通常称这个矩阵为本质矩阵。 本质矩阵描述了两幅规范化图像间的极几何,它与基本矩阵一样也是一个秩为 2 的矩阵。由于 本质矩阵消去了内参数的作用,所以它与基本矩阵的不同之处是它仅与摄像机的运动参数有关。因 此,从本质矩阵出发可估计出摄像机的欧氏运动参数。 本质矩阵是秩 2 的,它仅有 5 个自由度。由 8 个图像点对应,应用(11.1.2)式可建立关于本质矩 阵的线性约束方程,因此从点对应可线性求解本质矩阵。由于方程(11.1.2)的齐次性,只能在相差非 零因子的意义下获得本质矩阵 E。因此,只能在相差一个非零因子的意义下建立关于运动参数 ),( tR 的方程 RE ×= ]~[t ,即这里 t~ 与摄像机的实际平移向量 t 相差一个常数因子。从图像恢复摄像机运动 参数,是指通过方程(11.1.3)求解平移向量的非零常数倍(但需给出正确的平移方向)和旋转矩阵 R。 本质矩阵的性质 基于 SVD 分解的运动参数估计,主要依赖于本质矩阵的下述性质: 命题 11.1.1 实 3 阶矩阵 E 为本质矩阵的充要条件是它有两个相同的奇异值和一个零奇异值。 证明 必要性:因 RE ×= ][t ,对于平移向量 t,所以存在一个旋转矩阵 Q 使得 Qt=(0,0,s)T,其中 s=||t||,于是有 QssdiagQsEE TTTT )0,,(][][ 222 =−== ×× ttItt 所以 E 有两个相同的奇异值和一个零奇异值。 充分性:假定 E 有两个相同的奇异值和一个零奇异值,则 E 有 SVD 分解: TVssUdiagE )0,,( 22= 其中 U,V 是正交矩阵。令 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ −= ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − = 100 001 010 , 000 001 010 )0,,( 22 ZssdiagS 则 S 是反对称矩阵,Z 是旋转矩阵且 RUZVUSUE TT ×== ][))(( t 其中 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第11章:运动与结构 269 TT UZVRUSU ==× ,][t 所以,E 为本质矩阵。证毕。 11.1.2 欧氏运动估计 引理 11.1.1 令 TVUdiagE )0,,( σσ= 是本质矩阵 E 的一个奇异值分解,则它的所有奇异值分解均 可表示为 T T VWdiagWUE ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ±⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ±= ×× 10 0)0,,(10 0 2222 σσ (11.1.4) 其中 W 是任意的 2 阶正交矩阵。 证明 显然对任意 2 阶正交矩阵 W,式(11.1.4)是 E 的一个奇异值分解。反之,令 TVdiagUE ~)0,,(~ σσ= 是 E 的另一个令奇异值分解,则必有 TVdiagU ~)0,,(~ σσ TVUdiag )0,,( σσ= 即, )0,,()~)(0,,(~ σσσσ diagVVUdiagU TTT = 令 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛==⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛== fe dDVVVcb aAUUU T T T T ~ˆ,~ˆ 并代入上式,可推知: 0ˆ,0,22 === × bVdAIAB TT 所以,A,B 均为可逆矩阵,从而 0,0 == db 。因 VU ˆ,ˆ 都是正交矩阵,于是, 1,1,0,0 ±=±=== fcea 且 A,B 为正交矩阵,A=B。因此, ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ±=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ±= 10 0~,10 0~ WVVWUU 其中 W 是 2 阶正交矩阵。证毕。 定理 11.1.1 对于给定的本质矩阵 E,令 E= TVUdiag )0,,( σσ 是一个奇异值分解,则运动参数有 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第11章:运动与结构 270 四组解: (1) TT UZVRUSU ==× ,][t (2) TTTT VUZRUUS ==× ,][t (3) TTT VUZRUSU ==× ,][t (4) TTT UZVRUUS ==× ,][t 其中 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ −= ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − = 100 001 010 , 000 001 010 )0,,( ZdiagS σσ 证明 令 TVUdiagE )0,,( σσ= 是 E 的一个奇异值分解,由引理 11.1.1 它的所有奇异值分解均可 表示为 T T VWdiagWUE ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ±⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ±= ×× 10 0)0,,(10 0 2222 σσ 其中 W 是任意的 2 阶正交矩阵。令 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ±=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ±= ×× 10 0ˆ,10 0ˆ 2222 WVVWUU ,则 == TVdiagUE ˆ)0,,(ˆ σσ )ˆˆ)(ˆˆ( TT VZUUSU 当 W 为旋转矩阵时,有 TUSU ˆˆ][ =×t TUSU= , TT UZVVZUR == ˆˆ ,并且从 TUSU=×][t ,可推 知 30 0 ut σ σ = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = U (其中 3u 是 U 第 3 列向量),于是, 3ut σ= , TUZVR = 当 W 为反射矩阵时,有 TUSU ˆˆ][ =×t TTUUS= , TTT VUZVZUR == ˆˆ ,并且从 TTUUS=×][t , 可推知 30 0 ut σ σ −= ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − = U ,于是, 3ut σ−= , TTVUZR = 同理,考虑 E 的反号矩阵-E 可以得到运动参数的另外两组解: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第11章:运动与结构 271 TTVUZR == ,3ut σ ; TVUZR =−= ,3ut σ 证毕。 对于实际图像,由于数据误差所得到的本质矩阵 E 也不可避免地带有误差,因而在一般情况下 E 不可能有零奇异值,也没有两个相等的奇异值。这样,不能直接利用定理 11.2.1 的计算结果作为 运动参数的估计。此时,需要用具有两个相同的奇异值和一个零奇异值的矩阵作 E 的最佳近似,常 用的方法是将 E 的最小奇异值置为零,用另外两个奇异值的均值作为两个相等的奇异值。确切地说, 如果 E= TVUdiag ),,( 321 σσσ ,则我们用矩阵: E*= ( ) ( )( ) TVUdiag 02/2/ 2121 σσσσ ++ 作为 E 的近似。此外,还可以证明这种近似是最小二乘意义下的最佳近似。 11.1.3 欧氏结构估计 摄像机矩阵 定理 11.1.2 给定本质矩阵 E,令 E= TVUdiag )0,,( σσ 是它的一个奇异值分解,如果第一个摄像 机矩阵规定为 P=(I, 0),则第二个摄像机投影矩阵的四组可能解为 ),(),,(),,(),,( 3333 uuuu σσσσ −−=′ TTTTTT VUZVUZUZVUZVP (11.1.5) 证明 由 TUSU=×][t ,知 SU T =×][ t ,所以 30 0 ut σ σ = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = U , 3ut σ= 因此,从定理 11.1.1 可知第二个摄像机投影矩阵有上述可能的四组解。证毕。 多解的几何解释 式(11.1.5)中第一组与第二组有相同的旋转矩阵,但平移方向相反,第三组与 第四组的情况相同。第一组与第三组有相同的平移,但具有不同的旋转矩阵,第二组与第四组的情 况相同。下面分析第一组与第三组(第二组与第四组)中旋转矩阵之间的关系。不难看出: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 10 0),(),( 33 T TTT TTT VZVZUZVVUZ uu σσ 由于 TTTT VVdiagVZVZ )1,1,1( −−= ,因此 TTT VZVZ 是绕轴 3v 的 180 度旋转矩阵。在第二个摄像 机坐标系中,两个摄像机的基线方向是 333)( vuu == TTTT VZUVUZ 。因此,第三组摄像机是第一组 摄像机绕两个摄像机的基线旋转 180 度所导致的结果,通常称它们为一对“扭对”,如图 11.1.1 所示。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第11章:运动与结构 272 欧氏结构 由运动参数所获得摄像机对的四个解的几何解释,可以看出只有一个解是合理的,这个合理解 可以通过一个点对应的重构来确定,即这个重构点同时位于两个摄像机前方的一对摄像机是合理的, 也就是说重构点在两个摄像机坐标系下的 z 坐标都大于零的摄像机对是我们所需要的解。 令 P=(I, 0), ),( 1t−=′ σRP 是合理的摄像机对, }{ jj mm ′↔ 是点对应集(这里的点对应是图像的归一 化坐标),应用第 6.1.1 节三角原理的数值算法,就可以得到这些点对应的三维重构。值得注意是, 这里的空间点坐标是在第一个摄像机坐标系中的坐标,并且相差一个整体尺度因子 1−σ ,因此重构 的空间点坐标与它的真实坐标(世界坐标系中的坐标)相差一个相似变换。 图 11.1.1:运动参数四组解的几何解释:在左右两列中第二个摄像机(B)具有相同旋转,而平移方向是 相反的。在上下两行中,第二个摄像机(B)平移方向是相同的,而旋转是绕基线的 180 度旋转,通常称 它们构成两个“纽对”。在这四组解中只是一组重构的空间点都位于两个摄像机的前方,如图中的第一 组解,它是一个在物理上可实现的解,也就是说仅有一组解是合理的。 A B A B B A B A www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第11章:运动与结构 273 11.2 仿射运动与结构 11.2.1 仿射摄像机 在第三章,我们讨论了光心在有限点的射影摄像机,这种摄像机简称有限摄像机。有限摄像机 的特征是其摄像机矩阵的前三列构成一个可逆矩阵。光心在无穷远的摄像机,简称无穷远摄像机。 因无穷远摄像机的光心在无穷远平面上,所以这种摄像机矩阵的前三列的 3×3 子矩阵是奇异的,其 投影是一个平行投影。无穷远摄像机可以分为两种不同的类型:仿射摄像机(Affine Camera)和非 仿射摄像机。在实践中常用的是仿射摄像机,这里介绍仿射摄像机。 定义 11.2.1 如果摄像机矩阵 P 具有下述形式: 11 12 13 14 23 21 22 23 24 10001 A T pppp HPpppp × ⎛⎞⎛⎞⎜⎟= ⎜⎟⎜⎟⎝⎠⎜⎟⎝⎠ t 0 (11.2.1) 则称它为仿射摄像机。 仿射变换的特征是将无穷远平面映射到无穷远平面,仿射摄像机与三维仿射变换的差别在于它 将无穷远平面映射到二维平面(像平面)上的无穷远直线。这是很明显的,因为 PA(x, y, z, 0)T=(x, y, 0)T。 利用有限透视摄像机的术语,可以将仿射摄像机的主平面解释成是无穷远平面。由于光心在主平面 上,所以主平面的图像必然也在无穷远平面上。由此,可以得到下述结论: 1. 主平面是无穷远平面的任何(射影)摄像机均为仿射摄像机; 2. 平行直线在仿射摄像机下投影仍为平行直线。这是因为平行直线相交于无穷远平面,而该 交点又被映射到图像平面中的无穷远点。因此图像直线是平行的; 3. 满足 H2×3d=0 的向量 d 是平行投影的方向,而(dT, 0)T 是仿射摄像机光心(因为 PA(dT, 0)T =0)。 仿射摄像机的分层 从最简单的平行投影开始,可以为仿射摄像机模型建立层次关系。 正交投影(Orthographic Projection) 考虑沿 z 轴的投影,下面是它的矩阵形式表示: ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 1000 0010 0001 P (11.2.2) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第11章:运动与结构 274 它是最简单的平行投影,即将点(x, y, z, 1)T 投影到图像点(x, y,1)T,即与 z 坐标无关。 为得到一般正交投影,可用一个欧氏坐标变换右乘(11.2.2)得到: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 101000 0010 0001 T RP t ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 3 2 2 1 1 0 t t t T T T r r (11.2.3) 它有 5 个自由度。 伸缩正交投影(Scaled Orthographic Projection) 伸缩正交投影是正交投影的图像再进行一个均 匀伸缩变换,如伸缩因子为 k,则伸缩正投影摄像机矩阵可写成下面的形式 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 101 2 2 1 1 T T T t t k k P r r (11.2.4) 它有六个自由度。伸缩正交投影摄像机矩阵 P=(M, t) 的特征是矩阵 M 最后一行是零,而前两行正交 并且模相等。 弱透视投影(Weak Perspective ) 与有限 CCD 摄像机类似,考虑在图像两个轴的方向上作不一 致的伸缩,如果伸缩因子分别为 yx ff , ,则摄像机矩阵具有下面的形式 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 101 2 2 1 1 T T T y x t t f f P r r (11.2.5) 它有七个自由度。通常称它为弱透视摄像机。弱透视摄像机矩阵 P=(M, t)的特征是矩阵 M 最后一行 是零,而前两行正交(但不要求如伸缩正交投影那样有相等的模)。 仿射摄像机 如果对矩阵的元素没有限制的话,一般的仿射摄像机矩阵可以分解成: ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 100 00 0 y x A f sf P ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ 10 2 2 1 1 T T T t t r r (11.2.6) 它有八个自由度。 仿射摄像机的最一般形式可以表示为式(11.2.6),对仿射摄像机的唯一限制是 H2×3 的秩为 2,它 来自仿射摄像机矩阵秩等于 3 的要求。仿射摄像机综合了三个变换的效果,一个三维空间的仿射变 换、一个从三维空间到图象的正交投影和一个图象平面的仿射变换。将这些变换矩阵连接起来可得 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第11章:运动与结构 275 到仿射摄像机的下述分解形式: PA =[3×3 仿射] ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ 1000 0010 0001 [ 4×4 仿射] (11.2.7) 在非齐次坐标下,仿射摄像机的投影是一个线性变换与一个平移变换的和,即 tXm ~~ 32 += ×H (11.2.8) 其中 t~ =(t1, t2)T 是世界坐标原点的图像。 11.2.2 仿射运动与结构 给定 n 幅图像的一组点对应 },...,1;,...,1|~{ mjniij ==m ,并且已知 n 这幅图像分别来自仿射摄像 机 , 1,2,...,AiPi n= 的投影,但摄像机矩阵是未知的。仿射运动与结构问题,这从这组点对应求解它们 对应的空间点{}jX 和摄像机矩阵{}AiP 。从仿射摄像机的一组图像点对应获得的结构是景物的仿射 结构,所以这样得到结构也称为仿射重构。 空间点 (,1)TT=XX ,在摄像机 AP 下的图像点是 23 1 11T H ×⎛⎞⎛⎞⎛⎞= ⎜⎟⎜⎟⎜⎟⎝⎠⎝⎠⎝⎠ m tX 0  (11.2.9) 由此,可以看出仿射摄像机的每一个图像点的深度都等于 1。如果空间点和图像点均使用非齐次坐 标,则仿射摄像机的投影关系式(11.2.9)可写成 H= +mXt (11.2.10) 因此,现在的问题是求解空间点坐标{}jX 和摄像机矩阵{}AiP 使得 ()( )2 11 min , nm ij i ij ij dH == +∑∑ Xtm  (11.2.11) 其中 ijm 为第 i 幅图像上的第 j 个图像点的非齐次坐标的测量,d(.,.)是图像点的几何距离。式(11.2.11) 表示重投影的几何误差最小。 为了简化计算,对每幅图像坐标进行变换,使得图像坐标的原点位于该幅图像点集 },...,1|~{ mjij =m 的重心 ∑= = m j iji m 1 ~1 mm ,即对第 i 幅图像坐标进行变换 iijij mmm −=′ ~ 。由于 ( ) ( )ij i j i i i i jHHH∆′ =+−+=mXtXtX www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第11章:运动与结构 276 其中, ∑=−= = m j jjj m 1 ~1,~ XXXXX∆ 。因此,不妨假定世界坐标系的原点在空间点集的重心。这样, 摄像机矩阵可简化为 Ai iPH= 。 在下面的讨论中,假定图像已经作了上述坐标变换。现在所要求解的问题是:给定 n 幅图像的 一组点对应 },...,1;,...,1|{ mjniij ==m ,求每幅图像的摄像机矩阵和对应点的空间坐标[,{}]ijH X ,并 使得 ()2 11 min , nm ij ij ij dH == ∑∑ Xm (11.2.12) 记 ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = nmnn m m mmm mmm mmm W “ ### “ “ 21 22221 11211 (11.2.13) 是由变换后图像测量点的坐标组成的 2n× m 矩阵,并称它为测量矩阵。于是等式: , 1,2,..., ; 1,2,...,ij i jHi njm== =mX 可写成如下更简洁的矩阵形式: () 1 2 12,,,m n H HW H ⎛⎞ ⎜⎟ ⎜⎟= ⎜⎟ ⎜⎟ ⎝⎠ XX X“# (11.2.14) 这里,W 是已知的, ,ijH X 是需要求解的。在数据有噪声时,方程(11.2.14)没有完全被满足的解。 因此,需要求的是满足式(11.2.12)的最优解。 满足式(11.2.12)的最优解与下述问题是等价的:在 F-范数下,寻求 W 的一个最佳近似Wˆ ,并 且 有如下分解: ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = nmnn m m W mmm mmm mmm ˆˆˆ ˆˆˆ ˆˆˆ ˆ 21 22221 11211 “ ### “ “ () 1 2 12 ˆ ˆ ˆˆ ˆ ˆˆ,,, ˆ m n H H HX H ⎛⎞ ⎜⎟ ⎜⎟=≡⎜⎟ ⎜⎟ ⎜⎟⎝⎠ XX X“ # 这是因为 ∑ −=∑ −=− ji ijij ji ijijF dwwWW , 2 , 22 )ˆ()ˆ(||ˆ|| mm 2 , ˆˆ(,)ij ij ij dH= ∑ Xm www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第11章:运动与结构 277 考虑到Wˆ 是一个 2n× 3 的摄像机的运动矩阵 ˆH 与 3× m 的结构矩阵*) Xˆ 的乘积,即它是一个秩 3 的矩阵,所以问题归结为在 F 范数下,寻求 W 的一个秩 3 的最佳近似矩阵Wˆ 。这可以通过 W 的 SVD 分解来得到。更确切地说,若 W 的 SVD 分解为 W=UDV,则 T nm VDUW 33332 ˆ ×××= ,其中 32 ×mU 是 U 的前 3 列所构成的矩阵, 33×D 是 D 的前 3 个对角元构成的对角矩阵, 3×nV 是 V 的前 3 列所构成的 矩阵。于是,摄像机的运动矩阵和空间结构可分别选择为 23 33 3, T nmHU X DV× ××==。 注意:解的选择不是唯一的,例如 2333 3, T nmHU D XV× ××==也可以作为一组解,更一般地,对任 意 3 × 3 非奇异矩阵 A,若 ˆˆ,HX是一组解,则 1ˆˆ,HHAXAX−==也是一组解,这是因为总有 1ˆˆ ˆˆˆ()()WHAAXHX−==。在非齐次坐标下可逆矩阵 A 是一个仿射变换,这个结果与仿射结构之间相 差一个仿射变换的结论是一致的。 11.3 射影运动与结构 关于两幅图像,可以从二幅图像的基本矩阵 HF ×′= ][e 得到两个摄像机矩阵 (, )PI= 0 , (,)PH′′= e 。于是,由点对应 mm ′↔ ,应用第 6.1 节的三角原理的数值算法就可以得到空间点 X, 这里的空间点 X 不是欧氏空间的重构,而是射影空间的重构。对于三幅以上的图像,通常都是用基 本矩阵或三焦张量来实现射影重构。其主要思想是以某两幅(或三幅)图像为基础,使用基本矩阵(或 三阶张量)得到它们的射影重构,再以它的射影坐标系作为基准坐标系恢复其图像所对应的摄像机矩 阵并计算点对应的空间坐标。下面以基本矩阵为例来说明这种重构方法,对于三焦张量可以给出类 似的方法。重构过程主要分为以下三步: (1) 求某两幅图像的射影重构 例如从第一、二幅图像的点对应,应用这两幅图像间的基本矩阵 HF ×= ][ 2e ,可得到第一、二 幅图像的摄像机矩阵 ),(),,( 221 e0 HPIP == ,再利用三角原理计算两幅图像点对应的空间点集{X}。 于是,就得到这两幅图像的一个射影重构: [),(),,( 221 e0 HPIP == , {X}] (2) 求其它图像在以上述两幅图像为基准的射影重构空间中的摄像机矩阵 令 }{)( XX ∈j k 是第 j 幅图像中的可见空间点,这样的空间点可以由第 1, 2, j 三幅图像间的点对应 来确定,要求至少存在 6 个这样的空间点。令 )( j kX 在第 j 幅图像中的投影点为 )( j km ,于是我们得到 )()( j kjk j kj sP mX = ,即 0Xm =× )()( j kj j k P ,应用第 3.1.3 节的方法计算出摄像机矩阵 jP (尽管第 3.1.3 *) 由每个摄像机矩阵作为子矩阵的矩阵 ˆM 通常称为运动矩阵,空间点坐标所组成的矩阵通常简称为结构矩阵。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第11章:运动与结构 278 节是在欧氏坐标系下给出计算方法,但这种方法对任意坐标系都是适用的)。 (3) 计算空间点的射影坐标 令 X 是某 k( ≥ 2)个图像中都出现的空间点,从下述方程组计算空间点 X 的坐标: klP l l j j ,...,2,1,)( ==× 0Xm 其中 l l j j P,)(m 分别是 X 在第 lj 幅中的图像坐标和第 lj 幅图像的摄像机矩阵,它们都是已知的。 通过以上三步,就得到了 n 幅图像的一个射影重构。这种重构技术的特点是十分简单易实现, 但其主要不足之处在于重构结果严重依赖于初始(基准)二幅图像的选择。下面所介绍的基于 SVD 分 解的算法在一定程度上克服了这种重构技术的不足。 11.3.1 基本原理 上一节的 SVD 分解方法不能直接应用于(射影摄像机的)射影重构。在射影摄像机模型下,每一 个图像点的“射影深度”是未知的,从而对应于仿射重构的矩阵分解方法中的测量矩阵含有未知深 度参数,所以不能直接使用矩阵分解方法来求解。但是,如果已知射影深度,则用 SVD 分解方法可 以求解摄像机投影矩阵和空间结构,并且与仿射摄像机分解方法是完全相同的。 考虑一组图像点对应 },...,2,1;,...,2,1|{ mjniij ==m ,则摄像机矩阵 iP 和空间结构 jX 满足投影关 系: jiijij Ps Xm = , mjni ,...,2,1;,...,2,1 == (11.3.1) 其中 ijs 是第 i 幅图像上第 j 个点的射影深度, T ijijij yx )1,,(=m 是第三个分量为 1 的图像点的齐次表 示并且 T ijij yx ),( 是由实际测量所得到的图像坐标(在下面分解算法的讨论中,始终遵循这个约定)。 我们假定每个空间点在每个摄像机中都是可见的,因此对所有 i, j, ijm 都是已知的。令 ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = nmnmnnnn mm mm sss sss sss W mmm mmm mmm s “ ### “ “ 2211 2222222121 1112121211 )( (11.3.2) 并称为测量矩阵。于是,方程(12. 3.2)可写成矩阵形式: ),,)(,,()( 2121 m T n TT PPPW XXXs ““= (11.3.3) 上述方程仅当每一个测量点 ijm 和深度 ijs 完全一致时才成立。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第11章:运动与结构 279 假定已给出了正确的射影深度 ijs 。对于精确的数据点,左边的矩阵 W 的秩是 4,因为它是 4 列 和 4 行的两个矩阵的乘积。由于数据误差,即使有正确的射影深度,实际测量矩阵 W 也不可能为 4, 因此需要用一个秩为 4 的矩阵作 W 的最佳近似。与仿射分解一样,这可以利用 SVD 分解来实现: 如果 W=UDVT,令 Dˆ 是 D 的前 4 个对角元素所构成的对角矩阵, VU ˆ,ˆ 分别为 U,V 的前 4 列所构 成的矩阵,则测量矩阵 W 的最佳近似是Wˆ = TVDU ˆˆˆ 。于是,摄像机矩阵 ),,( 21 T n TT PPP “ DU ˆˆ= ,结构 矩阵 ),,( 21 mXXX “ TVˆ= 。与前面的仿射重构一样,这个分解不是唯一的,事实上在(11.3.3)右边的 两个矩阵之间我们可以插入一个任意的 3 维射影变换矩阵 H 和它的逆 1−H ,这与两个射影重构都相 差一个射影变换的结论是一致的。 11.3.2 选择射影深度 从前面的讨论可以看出,射影矩阵分解算法的主要困难在于选取正确的射影深度。首先,注意 到射影深度 ijs 不是唯一的。事实上,假设 jiijij Ps Xm = ,用 ii Pα 代替 iP ,用 jj Xβ 代替 jX ,则有 ))(()( jjiiijijji Ps Xm βαβα = 换句话说,射影深度 ijs 可以用一个因子 iα 乘(11.2.1)的第 i行和用一个因子 jβ 乘第 j 列来代替。于 是,可以约定(11.2.1)的第 1行和第一列的所有深度均为 1,也就是说测量矩阵具有下述形式: ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = nmnmnnn mm m ss ssW mmm mmm mmm s “ ### “ “ 221 22222221 11212 )( (11.3.4) 值得指出的是,基于矩阵分解的射影重构与基于矩阵分解的仿射重构的根本区别是在射影重构 时,首先需要将测量矩阵中的射影深度一致化。一旦射影深度得到了一致化,则后面的分解方法就 与仿射重构一样了。 所谓“一致化的射影深度” ijs ,就是指在图像点无噪声的情况下,对应于 ijs 的 测量矩阵的秩为 4。从单个图像点来说,我们知道尺度因子(即这里的深度因子)是不确定的,可以自 由地选取。但图像点的尺度因子之间是内在关联的,矩阵分解方法正是利用了这种内在关联关系来 达到射影重构。下面介绍一种由基本矩阵确定一致化射影深度的方法。 假定已经求出第 1 幅图像与第 k 幅图像之间的基本矩阵 kF1 和第 k 幅图像上关于第一幅图像的极 点 k1e 。由 mjPsP jkkjkjjj ,...,2,1,,11 === XmXm ,可以推出: 111 Cmm kjkkjkj sPPPs += + 其中 1C 是第 1 个摄像机的光心。于是,消去常数因子 s 后可以得到 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第11章:运动与结构 280 jkkkjkkj PPPPs 1111 ][][ mCmC + ×× = 由于 kF1 × + × == ][][,][ 111 CeC kxkkk PPPP βα ,所以有 jkkjkkj Fs 11][ mme α β=× 因此 ( ) ()()kjk T kjk jk T kjk kj Fs meme mme ×× ×⋅= ][][ ][ 11 α β , mj ,...,2,1= 因为 W 每一行的深度因子可以相差一个共同的尺度因子,所以可令: ( ) ( ) ()()111 11 1 ]][ ][][,1 mme meme ×× ××== k T kjk kk T kk k F s α β 这样,就得到了确定射影深度因子的计算公式: ()() () ( ) ()()kjk T kjk jk T kjk k T kk kk T kk kj F F s meme mme mme meme ×× × × ×× ⋅= ][][ ][ ][ ][][ 11 1111 11 , nkmj ,...,3,2;,...,3,2 == (11.3.5) 11.3.3 迭代分解算法 下面介绍一种估计深度的迭代算法,这种算法反复使用 SVD 分解技术,在迭代结束时也同时给 出了摄像机矩阵和射影结构,这种方法首先是由 Ushiba 和 Tomida 首先提出来的。 在图像坐标无噪声且射影深度为一致化的理想情况下,测量矩阵 W 的秩 4rank =W ,当有噪声 但不大时,对于一致化的深度, 4rank ≈W 。因此,可以定义一个代价函数: ∑= = N 5n 2 nJ σ (11.3.6) 其中, nσ 是 W 的第 n 个奇异值。J 是依赖于 ijs 的非负实数。于是求使 J 取最小值的{ ijs }将给出所 需要的射影深度。由于 J 不是 ijs 的线性函数,故最小化 J 是一个非线性优化问题。下面介绍一种解 决此问题的共轭梯度法。 共轭梯度方法的前提是计算 J 关于 ijs 的梯度。对 W 作奇异值分解:W=UDVT,则必有 n T n vu Wn =σ ,其中 nu , nv 分别为正交矩阵 U 和 V 的第 n 列。于是, ij n ijij n ijijijij n ss W ssWs WWss ∂ ∂+∂ ∂+∂ ∂=∂ ∂+∂ ∂+∂ ∂=∂ ∂ nT nn T nn T nnT nn T nn T n vvvuuuvuvuvu σσσ 由 1== n T nn T n vvuu ,可知 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第11章:运动与结构 281 0=∂ ∂=∂ ∂ ijij ss nT nn T n uuvv 因此, n T n vu ijij n s W s ∂ ∂=∂ ∂σ 由此,得到 J 关于 ijs 的梯度: ∑ ∂ ∂=∑ ∂ ∂=∂ ∂ == N 5n ij n N 5n ij n n ij s W2s2s J n T n vuσσσ 迭代算法需要射影深度 ijs 的一个初始估计,这可以用其它方法如射影重构技术得到一个初始估 计,或者以所有的深度均为 1 作为初始值(这表示用仿射摄像机来近似射影摄像机)。另外,在迭代 估计射影深度时,应以测量指标 J 作为结束循环迭代的判据。这是由于在噪声存在的条件下,会出 现某一步迭代增量变得很小而 J 却相对很大的情况,因此以测量指标 J 作为结束循环迭代的判据比 通常以迭代增量作为判据更为合理、有效。另外,在迭代算法之前,对图像数据作规范化处理是必 要的。最后,值得指出的是迭代算法不能保证收敛结果达到全局最小。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 12 章:多视点张量 282 12.多视点张量 第 4 章讨论了两幅图像间的极几何。极几何给出了两幅图像间的点对应关系,这个关系由基本 矩阵来刻划。事实上,基本矩阵所刻划极几何关系是点对应的双重线性关系。对于多幅图像间的点 对应、线对应以及点线对应也有类似的关系,即多重线性关系,刻划多重线性关系的数学工具是张 量。与基本矩阵类似多幅图像的张量也是空间射影变换的不变量,也就是说,一旦获得多幅图像的 张量,在理论上能得到射影意义下的摄像机矩阵。本章重点讨论三幅图像和四幅图像间的张量。为 了更好地理解它们,首先用张量来描述两幅图像间的基本矩阵,然后再引进三幅图像和四幅图像间 的张量。 12.1 双线性关系 给定两幅图像 ),( II ′ ,令 xx ′↔ 是任一点对应,第 4.1 节的极几何指出 xl F=′ 是图像点 x 对应 的极线,且图像点 x′ 在极线 l′ ;同样, xl ′= TF 是 x′ 对应的极线,且图像点 x 在极线 l 上,其中 F 是两幅图像间的基本矩阵。这个结论可等价地表述为: 0=′ xx FT (12.1.1) 图像点的记坐标为 TT xxxxxx ),,(,),,( 321321 ′′′=′= xx ,使用张量的语言,图像点是一阶逆变张 量;基本矩阵记作 )( ijfF = 。则式(12.1.1)可以写成: 0),( =′=′ ij ji fxxf xx (12.1.2) 所以基本矩阵 )( ijfF = 确定了图像(点)空间上的一个双线性函数。如果 xx ′↔ 是图像空间上的一个 点对应,则这个双线性函数在点对应上取零值;反之如果图像空间的一对点 ),( xx ′ 使这个双线性函 数取零值(两幅图像的极点除外),则必存在一个空间点 X 使得它在两幅图像上的投影分别为 xx ′, , 即 xx ′↔ 是一个点对应。这就是所谓的两幅图像点对应的双线性关系。 如果直线的坐标记为 TT lllllll ),,(,),,( 321321 ′′′=′= l ,即直线用一阶协变张量表示, xl F=′ 和 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 12 章:多视点张量 283 xl ′= TF 可表示为 ij i jij j i fxlfxl ′==′ , 因此,基本矩阵给出的点与极线的关系是图像(点)空间到图像(线)空间的线性映射。由于这个线性映 射将 2 维图像点映射到过极点的线束,所以这个线性映射的秩是 2。 综上所述基本矩阵是一个 2 阶协变张量,它给出了点对应的双线性函数关系以及点与极线之间 的线性映射关系。 12.1.1 基本矩阵的张量形式 根据 4.1 节的讨论,两幅图像间的基本矩阵可表示为 + × ′′= PPF ][e ,其中{ PP ′, }是两幅图像的 摄像机矩阵。为了更好地理解三幅图像间的 3 重线性关系,下面将利用摄像机矩阵{ PP ′, }显式地表 述基本矩阵的各个元素。 令两幅图像对应的摄像机矩阵{ PP ′, },根据摄像机的投影关系空间点到图像点之间的映射为: XxXx PsPs ′=′′= , 其中 ss ′, 是非零常数因子。上述方程组可改述为下面的矩阵形式: 0 0 0 0 0 0 0 33 22 11 33 22 11 = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′− − ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′′ ′′ ′′ s s X xp xp xp xp xp xp (12.1.3) 其中 jj pp , 分别表示摄机矩阵 PP ′, 的第 j 行所构成的行向量。记方程(12.1.3)的系数矩阵为 ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′′ ′′ ′′= 33 22 11 33 22 11 0 0 0 0 0 0 xp xp xp xp xp xp X 它是一个 66× 矩阵。由于方程(12.1.3)有非零解,所以必有 0)det( =X 。这个等式将给出基本矩阵各 个元素的表达式。 将按第 5 列展开求 X 的行列式,得到: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 12 章:多视点张量 284 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′′ + ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′′ − ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′′ = xP p p x xP p p x xP p p xX 0 0 det0 0 det0 0 det)det( 2 1 33 1 23 2 1 从上式可以看出在 X 行列式的完全展开式中,仅包含形如 ij xx ′ 的项。并且 ij xx ′ 的系数可以按下述 方式求出:分别删除矩阵 X 中包含 ij xx ′, 的行和列得到 X 的 44× 子矩阵,再对这个子矩阵取行列式 并乘以适当的正负号。例如: 11xx ′ 的系数是: ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′= 3 2 3 2 11 det p p p p f 一般地, ij xx ′ 的系数为: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′−= + )(~ )(~det)1( jP iPf ji ji (12.1.4) 其中符号 )(~ kC 表示从矩阵 C 中删除第 k 行剩下的子矩阵。这样,就得到了两幅图像间的双线性关 系: 0=′ ji ij fxx 对于式(12.1.4)还可以给出另一种表达: ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′⎟ ⎠ ⎞⎜ ⎝ ⎛= n m l k jmniklji p p p p f det4 1 εε (12.1.5) 这是不难验证的,例如: ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′⎟ ⎠ ⎞⎜ ⎝ ⎛= n m l k mnkl p p p p f det4 1 2112 εε ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′+ ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′+ ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′+ ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′⎟ ⎠ ⎞⎜ ⎝ ⎛= 1 3 2 3 231132 3 1 2 3 213132 1 3 3 2 231123 3 1 3 2 213123 detdetdetdet4 1 p p p p p p p p p p p p p p p p εεεεεεεε www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 12 章:多视点张量 285 ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′−−+ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′−−+ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′−−+ ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′⎟ ⎠ ⎞⎜ ⎝ ⎛= 3 1 3 2 213123 3 1 3 2 213123 3 1 3 2 213123 3 1 3 2 213123 det))((det)(det)(det4 1 p p p p p p p p p p p p p p p p εεεεεεεε ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′−= ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′= + 3 1 3 2 21 3 1 3 2 213123 det)1(det p p p p p p p p εε 类似地,可验证其它项。 从表达式(12.1.5)或(12.1.4),很容易说明基本矩阵不依赖于摄像机矩阵的选择,等价地说不依赖 于世界坐标系的选择。假定 },{ QQ ′ 是在另一种世界坐标系下的两幅图像对应的摄像机矩阵,由于任 何两个坐标系之间变换矩阵是一个 4 阶可逆矩阵 M(两个世界坐标系之间的射影变换),因此,有 MQPQMP ′=′= , 于是, ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′⎟ ⎠ ⎞⎜ ⎝ ⎛= ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′⎟ ⎠ ⎞⎜ ⎝ ⎛= ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′⎟ ⎠ ⎞⎜ ⎝ ⎛= n m l k jmnikl n m l k jmnikl n m l k jmniklji q q q q M Mq Mq Mq Mq p p p p f det4 )det(det4 1det4 1 εεεεεε 所以,在两种坐标系下,式(12.1.5)仅相差一个不依赖于(i, j)的公共比例因子。因此,基本矩阵不依 赖于世界坐标系的选择。 12.1.2 极点的张量形式 考虑第一幅图像的极点 Teeee ),,( 321= ,它是第二个摄像机光心 C′ 在第一幅图像上的投影,即 eC sP =′ ,而 C′ 是 P′ C′ =0,因此下述方程: 0 00 00 00 0 0 0 3 2 1 33 22 11 = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′ − ′ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′ ′ s s p p p ep ep ep C (12.1.6) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 12 章:多视点张量 286 必有形如 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′ − ′ s s C 的非零解,且 s′ 为任意实数。因此,方程(12.1.6)系数矩阵的秩必为 4。所以它的所 有 5 阶行列式均为零。于是,得到: ,0 0 det,0 0 det,0 0 det 33 22 33 11 22 11 = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′ = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′ = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′ P ep ep P ep ep P ep ep 由此,我们得到极点的张量形式: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′= P pe i i det (12.1.7) 同理,可以得到第二幅图像极点的张量形式: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′=′ i i p Pe det (12.1.8) 12.2 三线性关系 12.2.1 三点对应 本节考虑三幅图像{ III ′′′,, }的三对应点的三线性关系。令 TTT xxxxxxxxx ),,(,),,(,),,( 321321321 ′′′′′′=′′′′′=′= xxx 是三幅图像的一个三点对应,如图 12.2.1 所示。 假定三幅图像对应的摄像机矩阵分别为 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′′ ′′ ′′ =′′ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′ ′ ′ =′ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 3 2 1 3 2 1 3 2 1 ,, p p p p p p p p p PPP 则有下述等式成立: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 12 章:多视点张量 287 0 00 00 00 = ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′′− ′− − ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′′′′ ′′ s s s P P P X x x x (12.2.1) 其中 X 是点对应的空间点, sss ′′′,, 是非零常数。 图 12.2.1:三点对应关系。 由于方程(12.2.1)有非零解,所以其系数矩阵的秩至多是 6,因 此 它 的 77 × 子式均为零。 77 × 子 矩阵因选择行的方式不同而有下述两种类型: I. 从两个摄像机矩阵中选取三行,而在另一个摄像机矩阵中选取一行; II. 从一个摄像机中选取三行,而在另两个摄像机中各选取两行。 先考虑类型 I,例如:选取第一与第二个摄像机矩阵中的三行,第三个摄像机矩阵中选取一行, 得到下述 77 × 子矩阵: ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′′′′ ′′ jj x P P 00 00 00 p x x 将它的行列式按最后一列展开,得到: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′′′′= ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ′′′′ ′′ x x p x x 0 0det 00 00 00 det P Px x P P j jj 如果令这个行列式等于零,则导致第一与第二幅图像间的双线性关系。因此,第一种选择类型不能 为三幅图像之间建立任何约束关系。这种类型不是我们所关心的。 C′ x ′′ X C ′′ C x x′ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 12 章:多视点张量 288 下面考虑类型 II,例如选取第一个摄像机矩阵的三行,而另外两个摄像机矩阵各选取两行,就 得到下述 77 × 子矩阵: ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′′′′ ′′′′ ′′ ′′ = mm kk ll jj uv x x x x P X 00 00 00 00 00 p p p p x (12.2.2) 其中 u,v 是自由指标,它们分别对应于从摄像机矩阵 PP ′′′, 中删去的行所对应的行指标。使用处理两 幅图像间的双线性关系时的同样方法,将这个矩阵的行列式按包含 x 列(即矩阵的第 5 列)进行展开, 我们可以得到: ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′′ ′ ′′′−= r q m l krvjquilm kji uv xxxX p p p p det2 1det εεε (12.2.3) 引进张量: ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′′ ′= r q m l ilm qr it p p p p det2 1 ε (12.2.4) 这样,我们就得到了三点对应的三线性关系: uv qr ikrvjqu kji txxx 0=′′′ εε (12.2.5) 由于每一个自由指标 u(v)都有 3 种不同的选择,所以一共有 9 个形如(12.2.5)的三线性关系。然 而,在这 9 个三线性关系中仅有 4 个关于 qr it 的约束是独立的,其证明在第 12.2.3 节。张量 qr it 通常 称为三焦张量。 三焦张量 qr it 是通过选取第一个摄像机矩阵的三行和另两个摄像机矩阵的两行而得到的,我们也 可通过选取其它摄像机矩阵的三行和另两个摄像机矩阵的两行类似地建立三幅图像间的三线性关系 和相应的三焦张量。由于一个摄像机矩阵的三行有三种选择方式,因此三幅图像能产生三个不同形 式的三焦张量,而每一个三焦张量可导致 9 个(点对应)三线性关系。这样,从三幅图像能导致 27 个 (点对应)三线性关系,它们分别归结于三个不同形式的三焦张量。尽管三焦张量有不同形式,但它 们的本质是相同的,都揭示了三对应点的同一关联关系。因此,实际应用中只须要考虑其中的一个 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 12 章:多视点张量 289 三个张量形式。 值得指出的是,从表达式(12.3.4)很容易说明三焦张量不依赖于摄像机矩阵的具体形式,等价地 说不依赖于世界坐标系的选择。即三焦张量在空间射影变换下是不变的,它仅与三幅图像有关。 三焦张量 qr it 由三个 33× 矩阵构成,一共有 27 个元素,所以除去所有矩阵的一个全局尺度因子 后有 26 个独立的比值参数,然而它仅有 18 个独立的自由度。自由度的数目可用下述方法计算出来。 每一个摄像机矩阵有 11 个自由度,三个摄像机矩阵共有 33 个自由度,考虑到三焦张量与世界射影 坐标系的选择无关,应该减去三维射影变换的 15 个自由度,所以三焦张量有 18 个自由度。这样, 一旦给定了三焦张量中的 18 个元素,从理论上来说在相差一个公共尺度因子意义下所有 27 个元素 都可以确定。但在实际应用中,由于元素间的约束非常复杂,从已知的 18 个元素确定另外 9 个元素 是非常困难的,同时在有噪声的情况下也是不可取的或不可能的。 12.2.2 点、线对应 点-线-线对应 下面考虑空间点 jX 投影到第一幅图像的点 ix ,同时投影到另两幅图像直线 pl′ 和 rl ′′ 上,(如图 12.2.2 所示,所形成的点-线-线对应的三线性关系。 设摄像机矩阵分别为 i j i j i j pPpPpP ′′=′′′=′= ,, ,则有 ji j i Xpsx = , 0=′′ ji ji Xpl , 0=′′′′ ji ji Xpl (12.2.6) 不难看出, i ji pl ′′ , i ji pl ′′′′ 分别是图像直线 pl′ 和 rl ′′ 的反投影平面。方程组(12.2.6)可以写成下述矩阵形 式: 00 =⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −⎟⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎝ ⎛ ′′′′ ′′ s P r r p p X pl pl x (12.2.7) 由于上述方程有非零解,所以其系数矩阵的行列式等于零。而 pr irp i r p m l rpilm i r r p p tllxllx l l P ′′′−= ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′′ ′ ′′′−= ⎟⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎝ ⎛ ′′′′ ′′ p p p p p p x det2 10det ε 所以,我们有下述点-线-线的三线性关系: 0=′′′ pr irp i tllx (12.2.8) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 12 章:多视点张量 290 图 12.2.2: (点, 线, 线)的对应关系。 三线对应 下面考虑空间直线 L 投影到三图幅图像的直线分别为 pl , ql′ 和 rl ′′ ,如图 12.2.3 所示,所形成的 三线对应的三线性关系。 图 12.2.3:三维空间直线 L 在三幅图像中的投影直线构成三线对应 ''' lll ↔↔ 。 反之,三条对应线的反向投影面必交于空间的一条直线 L。 在直线 pl 上一点 ix ,则 ix , ql′ 和 rl ′′ 构成(点,线,线)对应,所以有 C′ C ′′ C xi L X j l’p l’’r L l 'l ''l www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 12 章:多视点张量 291 0=′′′ qr irq i tllx 于是,必有 qr prqp tlll ′′′= 这个等式在相差一个常数倍的意义下相等,即等式两边向量的叉积是一个零向量,因此有下述三线 性关系: wqr i ipw rqp tlll 0=′′′ ε (12.2.9) 图 12.2.4:(点—点—线)的对应关系。 点-点-线对应 用上面相类似的方法,还可以建立两点一线对应的三线性关系。例如空间点映射到第一和第二 幅图像上的点 ji xx ′, ,同时映射到第三幅图像中的一条直线 rl ′′ 上,如图 12.2.4 所示,则对应 r ji lxx ′′↔′↔ 具有下述三线性关系: u qr ijqur ji tlxx 0=′′′ ε (12.2.10) 12.2.3 三线性关系的独立数 本节主要考虑三线性关系的独立数,各种类型三线性关系的独立数概括在下表 12.3.1 中。下面 以三点对应为例,对三线性关系作更为详细分析。 在三线性关系式 021 =′′′ pq ikqip kji txxx εε 中,根据 r 和 s 的三种选择可以得到 9 个这样的三线性关 系。从几何上看,这些三线性关系是由点-线-线对应关系在第二幅和第三幅图像上选择特殊直线 C′ L X C x C ′′ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 12 章:多视点张量 292 而得到。选择 3,2,1=r 分别对应于图像上平行于 x 轴、y 轴和通过图像原点的直线。例如,选择 1=r , 并展开 jpr jx ε′ 得到一条水平直线: ),,0( 23 1 xxxl jp j p ′′−=′=′ ε 因为对任意 t,形如 Txxtx ),,( 321 ′′+′=′y 的点都满足 0=′′ yl p ,所以它是第二幅图像上过点 x′的一 条水平直线。在第三幅图像上选择 s=2,类似地可以得到过 x ′′ 的铅直线: ),0,( 13 2 xxxl kq k q ′′′′=′′=′′ ε 从而,三点对应的三线性关系可展开为 0))()(( 21 33131322312133 =′′′=′′−′′′+′′−′′′− pq ikqip kji iiii i txxxtxtxxtxtxxx εε 在这 9 个三线性等式中,只有四个是独立的。这意味着所有 9 个三线性等式都是其中某 4 个的线性 组合。关于这一点可以回溯到点-线-线关系 0=′′′ jk ikj i tllx ,其证明如下:在第三幅图像中过 x ′′ 的 直线形成一个单参数直线簇,如果 nm ′′′′ , 是该直线簇中两条直线,则任一条过 x ′′ 的其它直线都可以 由它们的线性组合而得到: nml ′′+′′=′′ βα 由于(点,线,线)关系 0=′′′ jk ikj i tllx 关于 l ′′ 是线性的,所以又有 0=′′′ jk ikj i tmlx , 0=′′′ jk ikj i tnlx 于是,对其它任意直线 l ′′ 的关联关系可以由这两式的线性组合而得到。所以,对 l ′′ 来说仅有两个独 立的关联关系。类似地,过 x′ 有一个单参数的直线簇,并且该关联关系关于过 x′ 的直线也是线性 的。因此在第一幅图像上的点和第二、第三幅图像上的点之间总共有四个独立的关联关系。 表 12.2.1: 三线性等式与独立数 对应 三线性等式 独立数 线—线—线 sjk ikj ris r tlll 0)( =′′′ε 2 点—线—线 0=′′′ jk ikj i tllx 1 点—线—点 s jq ikqskj i txlx 0)( =′′′ ε 2 点—点—线 r pk ikjpr ji tlxx 0)( =′′′ ε 2 点—点—点 rs pq ikqs k jpr ji txxx 0))(( =′′′ εε 4 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 12 章:多视点张量 293 12.2.4 恢复摄像机矩阵 前几节从三个摄像机矩阵引入三幅图像间三焦张量的概念,三焦张量不依赖于空间坐标系的选 择,即它在空间射影变换下是不变的。并且,我们还给出了三焦张量的三线性约束关系,因此从点 对应、线对应以及点线对应可以计算三焦张量。本节将讨论如何从三焦张量在射影等价的意义下恢 复出摄像机矩阵。 极线 如果直线 l′ 反向投影平面π ′ 是前两个摄像机的极平面(从而通过第一幅摄像机的光心 C)时,就 会产生一种(点,线,线)对应的特殊情况,如图 12.2.5 所示。设 X 是平面π ′ 的一个点,那么由 X 和 C 确定的射线在这个平面上,并且 l′ 是对应于 X 的图像点 x 的极线。 由第三幅图像直线 l ′′ 反向投影得到的平面π ′′ 交平面π ′ 于直线 L。此外,由于 x 的反投影射线 在平面π ′ 上,故它必与 L 相交。这样点 x 的反向投影射线和直线 ll ′′′, 两个反向投影平面交于一空间 点 X,从而它们是一个(点,线,线)对应,因此 0=′′′ jk ikj i tllx 。由于上式对任意的直线 l ′′ 都成立,从 而有 kjk ij i tlx 0=′ 。对换 ll ′′′, ,有类似的结论。于是,得到下述命题: 命题 12.2.1 如果 x 是第一幅图像上的一个点,它在第二幅和第三幅图像上的极线分别为 ll ′′′, , 则有 kjk ij i tlx 0=′ , jjk ik i tlx 0=′′ (12.2.11) 即,对应于点 x 的极线 ll ′′′, 分别是矩阵 )( jk i itx 的左零向量和右零向量。 L l l′ l ′′C C′ C ′′ x X e′ π ′ 图 12.2.5: 若 l′ 的反投影面π ′ 是前两幅图像的一个极平面,在第三幅图像上的 任意直线 l ′′ 都能提供一个(点—线—线)关联。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 12 章:多视点张量 294 当点 x 变化时,对应的极线也随之变化,而图像上的所有极线都通过极点。因此,可以通过计 算不同的 x 所对应极线的交点来获得极点。为了计算方便,点 x 可选择为由齐次坐标表示的 3 个点: TTT )1,0,0(,)0,1,0(,)0,0,1( ,对应点 x 的这三种选择所得到的矩阵 )( jk i itx 分别记为 321 ,, TTT 。由此 导出下述重要命题: 命题 12.2.2 第二幅图像上的极点 e′ 是由矩阵 iT 的左零向量所表示的极线的公共交点。类似地, 极点 e ′′ 是由矩阵 iT 的右零向量所表示的极线的公共交点。 基本矩阵 利用三焦张量,很容易计算出第一幅图和其它两幅图像之间的基本矩阵 21F , 31F 。由命题 12.2.2, 已经得到了第二幅图像和第三幅图像关于第一个摄像机的极点 e′ 和 e ′′ 。如果找到第一幅图像与第二 幅图像之间的一个单应 21H ,就可以得到 21F ,这是因为 2121 ][ HF ×′= e 。令 l ′′ 是第三幅视图上的一 条直线,显然, ),,( 321 lll ′′′′′′= TTTH 是第一幅图像与第二幅图像之间的一个单应。为了避免退化情 况发生,l ′′ 不能是 iT 的右零空间。为此,可取 l ′′ = e ′′ ,这是因为 e ′′ 正交于每一个 iT 的右零空间,从 而不会发生退化情况。于是,第一幅到第二幅视图的基本矩阵由下述公式给出: ee ′′′= × ],,[][ 32121 TTTF (12.2.12) 类似地,也有 ee ′′′= × ],,[][ 32131 TTT TTTF (12.2.13) 恢复摄像机矩阵 正如从两幅图像的基本矩阵恢复摄像机矩阵对一样,从三焦张量恢复摄像机矩阵的三元组 { PPP ′′′,, }时,也只能在射影等价的意义下得到恢复。这是容易理解的,因为三焦张量所揭示的是 图像间的几何性质,与三维空间坐标无关,即三焦张量不依赖于射影坐标系的选择。因此,对三元 组{ PPP ′′′,, },总可以将三个摄像机矩阵的形式为 ),( 0IP = ),( 4aAP =′ , ),( 4bBP =′′ 其中 A 与 B 是 33× 矩阵,向量 ia 和 ib 是对应摄像机矩阵的第 i 列, 3,,1 “=i 。 4a 和 4b 分别为第二 和第三幅图像关于第一个摄像机的极点,即 4a = e′ , 4b = e ′′ 。此时,三焦张量可表示为 k i jkj i jk i babat 44 −= (12.2.14) 由于 21F 已知,见式(12.2.12),根据第 3.4 节的讨论,第二个摄像机矩阵可取为 ),],,([ 321 eeee ′′′′′′′=′ TTTP (12.2.15) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 12 章:多视点张量 295 这样,摄像机矩阵对 },{ PP ′ 必有基本矩阵 21F 。下面考虑第三个摄像机矩阵。 第三个摄像机的射影坐标系不能独立于前两个摄像机的射影坐标系,即三个摄像机必须有相同 的射影坐标系。由于与基本矩阵 31F 相容的摄像机矩阵 P ′′ 一般的形式是 ),],,([ 321 eveeee ′′′′′′′′+′′′=′′ λTTTTP 为了得到一组与三焦张量相容的摄像机矩阵三元组,只需从这个一般形式中找到{P, P′ , P ′′ }具有三 焦张量 jk it 的 P ′′ 值。从 )],,,([ 321 eeee ′′′′′′′=′ TTTP 知 ea ′′= ii T ,将 它 代 入 到 (12.2.14),并 注 意 到 ea ′=4 , 并选取 eb ′′=4 ,则有 T i T ii TT beee ′−′′′′= ,于是, )( IT T i T i −′′′′=′ eebe 选择适当的齐次因子使得 1|||| =′′=′ eee T ,并用 Te′ 左乘上式两边并转置有 eeeb ′−′′′′= T i T i TI)( 。所 以第三个摄像机有下述形式: ),],,)[(( 321 eeee ′′′−′′′′=′′ TTTT TTTIP (12.2.16) 12.3 四线性关系 12.3.1 四线性关系 本节主要考虑四幅图像间的四线性关系,关于三线性关系的推导同样适用于四线性关系。 四点对应 令 lkji xxxx ′′′↔′′↔′↔ 是四幅图像的一组点对应,四幅图像对应的摄像机矩阵分别为 i j i j i j i j pPpPpPpP ′′′=′′′′′=′′′=′= ,,, ,则有下述方程: 0 000 00 000 000 = ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′′′− ′′− ′− − ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′′′′′′ ′′′′ ′′ s s s s P oP P P X x x x x (12.3.1) 由于这个方程有非零解,所以其系数矩阵的秩至多等于 7,因此它的所有 88× 子式均等于零。与推 导三线性关系一样,如果 88× 子式中包含某些摄像机矩阵的一行,则得到的是三线性关系或双线性 关系,即此时不能为四幅图像提供任何新的约束关系。如果 88× 子式中包含每个摄像机矩阵的两行, www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 12 章:多视点张量 296 用推导三线性关系的类似方法能获得下述四线性关系: wxyz pqrs lszkryjqxipw lkji txxxx 0=′′′′′′ εεεε (12.3.2) 其中 ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ′′′ ′′ ′= s r q p pqrstt p p p p det (12.3.3) 并称它为四焦张量。 在表达式(12.3.2)中,w,x,y,z 是自由指标,它们在{ 1,2,3 }范围内取值,因此给定四幅图像能导致 81 个一组四对应点的四线性关系。然而,在这些四线性关系中仅有 16 个是独立的。与三焦张量不 同的是,式(12.3.3)是唯一类型的四焦张量,因为从选取摄像机矩阵中两行构成 88× 子式只有一种选 取方法,即从所有的摄像机矩阵中都要选取两行才能构成 88× 子式。 四线对应 与三线性关系类似,也可以得到点、线对应的四线性关系。例如:四对应线 srqp llll ′′′↔′′↔′↔ 具有下述四线性关系: 0=′′′′′′ pqrs srqp tllll (12.3.4) 与三线性不同的是,这个四线性关系在图像直线不是同一空间直线的投影时,也可能成立。例 如:当存在空间点在四幅图像的投影分别位于相应的图像直线时,如图 12.3.1 所示,也具有(12.3.4) 的四线性关系,论证在 13.4 节。由此,可导致四线对应关于四焦张量 pqrstt 更多的线性约束。 先考虑三直线对应的特殊情况。令 srq lll ′′′↔′′↔′ 是(第 2,3,4 幅图像)三对应直线,对应的空间直 线为 L,如图 12.3.2 所示。任意给定第一幅图像上的一条直线 pl ,则它的反投影平面必交空间直线 L 于一点 X,因此关系式(12.3.4)成立。由于 pl 是第一幅图像上的任意直线,所以必有 ppqrs srq tlll 0=′′′′′′ (12.3.5) 这就是三对应线关于 pqrst 的约束。自由指标的不同选择,式(12.3.5)可导致 3 个线性约束。 现在回到四对应线的情况。由于在四对应线的情况下,在每三幅图像中构成一个三对应线,选 取三幅图像有 4 种选取方式,因此从四对应线可导致 12 个关于 pqrst 的线性约束方程。但是,可以验 证在这 12 个方程中只有 9 个是独立的。各种类型四线性关系的独立数概括在下表 12.3.1 中。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 12 章:多视点张量 297 图 12.3.1: 当空间点 X 在四幅图像的投影分别位于相应的图像直线 srqp llll ′′′′′′ ,,, 时, 仍有四线性关系 0=′′′′′′ pqrs srqp tllll 。 图 12.3.2:三对应直线 srq lll ′′′↔′′↔′ 关于 pqrst 的约束: ppqrs srq tlll 0=′′′′′′ L X pl ql rl sl X pl ql′ rl ′′ sl ′′′ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 12 章:多视点张量 298 表 12.3.1: 四线性等式与独立数 对应 关系 独立数 四点 wxyz pqrst lszkryjqxipw lkji txxxx 0=′′′′′′ εεεε 16 三点一线 wxy pqrst kryjqxipws kji tlxxx 0=′′′′′′ εεε 8 两点两线 wx pqrst jqxipwsr ji tllxx 0=′′′′′′ εε 4 三线 ppqrs srq tlll 0=′′′′′′ 3 四线 spqrs srp tlll 0=′′′′ , ppqrs srq tlll 0=′′′′′′ ,… 9 12.3.2 四线性约束的独立数 本节主要考虑四对应点导致的 81 个约束方程的独立数。对此,有下述结论: 命题 12.3.1 给定四幅图像的一组点对应 lkji xxxx ′′′↔′′↔′↔ ,在它所导致的关于 pqrstt 的约 束方程: 4,3,2,1,,,,0 ==′′′′′′ zyxwtxxxx pqrs lszkryjqxipw lkji εεεε (12.3.6) 中,仅有 16 个独立的约束。并且,如果将这个方程组写成 0t =A 的形式,其中 A 是一个 8181× 矩 阵,t 是由四焦张量所构成的 81 维向量,则 A 的 16 个非零奇异值均相等。 证明 方程 0t =A 的系数矩阵 A 可表示为 ))()()(())(( lsz l kry k jqx j ipw i pqrswxyz xxxxA εεεε ′′′′′′= 其中(wxyz)表示矩阵行的组合指标,即 zyxw ,,, 分别取 1,2,3,4 得到矩阵的 81 个行;类似地,(pqrs) 表示矩阵列的组合标。 不难验证: )(),(),(),( lsz l kry k jqx j ipw i xxxx εεεε ′′′′′′ 都是 33× 反对称矩阵,而 33× 反称矩阵必有两个 相等的非零奇异值和一个零奇异值。所以,有 dh s hlsz lz dcg r gkry ky cbf q fjqx jx bae p eipw iw a DVxUDVxUDVxUDVxU ηεγεβεαε =′′′=′′=′= )(,)(,)(,)( 其中 τ σ τ σ VU , 是正交矩阵, στD 是两个角元等于 1 而另一个对角元等于零的对角矩阵。所以, ))(()()( ))(( dhcgbfae s h r g q f p epqrswxyz z d y c x b w a DDDDVVVVAUUUU αβγη= ))(( efghabcdDδ= 可以验证: )(),( )( )( )( )( s h r g q f p e pqrs efgh z d y c x b w a wxyz abcd VVVVVUUUUU == 是两个 8181× 正交矩阵, ))(( efghabcdD 是有 16 个都等于 1 的非零对角元素的 8181× 对角矩阵。证毕。 www.plcworld.cn 第三篇 模型估计 www.plcworld.cn 300 本篇提要 模型估计是众多应用学科的基本问题,计算机视觉中的模型估计通常是指变换或某种数学量的 估计,例如:直线、二次曲线估计,摄像机矩阵估计,基本矩阵估计、单应矩阵估计和三焦张量估 计等。模型估计方法,可分为四大类:代数方法、几何方法、鲁棒方法与统计方法。代数方法是线 性的,计算简单,尽管估计结果可能较差,但它是其它方法的起点。几何方法通常都是高度非线性 的,数值计算具有挑战性,但能给出较好的估计结果。代数和几何两类方法都不能从包含错误的测 量数据集中有效地估计,鲁棒方法能克服这一缺点。统计方法主要有最大似然方法和贝叶斯两类方 法,它们需要更精细的计算技术。 本篇具体内容由以下六章构成: 第 13 章,介绍一些常用的非线性迭代优化技术,主要包括无约束和约束最小化迭代技术,利用 它们才能实现模型估计的几何方法、鲁棒方法和统计方法。 第 14 章,介绍参数估计方法,主要包括最大似然方法和贝叶斯方法,同时还介绍实现这两种方 法的期望最大化(EM)算法。 第 15 章,介绍视觉估计问题的代数方法,包括直接线性方法、因子化线性方法和归一化线性方 法。代数方法是其它方法的起点。 第 16 章,介绍视觉估计问题的几何方法,基于高斯分布的最大似然方法等价于 MAH 距离最小 化几何方法,因此最大似然方法也纳入本章的几何方法框架。 第 17 章,介绍视觉估计问题的鲁棒方法,主要包括应用最广泛的 RANSAC 方法、M-估计方 法、最小中值方法和鲁棒最大后验方法。 第 18 章,介绍模型选择方法,主要包括模型选择 AIC、BIC 和 GRIC 信息标准,以及它们在视 觉问题中的应用。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第13章:迭代优化 301 13.迭代优化 在模型估计问题中,特别是在模型估计的几何方法、鲁棒方法和统计方法中,常常涉及到求解 非线性最小化问题。非线性最小化问题通常使用迭代技术求解。本章将介绍一些常用的数值迭代方 法,主要内容包括:求解无约束优化问题的变度量法、共轭梯度法和 L-M 法;对于约束优化问题, 主要介绍惩罚法与乘子法。 13.1 最优性条件 13.1.1 最优性条件 非线性最优化问题可表达为 min ( )f⎧ ⎨ ∈Ω⎩ x x (13.1.1) 其中 )(xf 是 nR∈x 的非线性函数,称为代价函数(或目标函数);Ω 是变量 x 的约束区域,称为(13.1.1) 的可行区域。通常,可行区域用一组(线性或非线性)函数的不等式或等式来描述,即将(13.1.1)表示 为 min ( ) ( ) 0, 1,2,..., ; ( ) 0, 1,2,..., i j f subject to g i p hiq ⎧ ⎪ ≤=⎨ ⎪ ==⎩ x x x (13.1.2) 如果 nR=Ω ,式(13.1.1)简记为 )(min xf (13.1.3) 通常,称(13.1.2)为约束非线性优化问题,(13.1.3)为无约束非线性优化问题。 优化问题(13.1.2)或(13.1.3)的最优解通常是指它的局部最优解,所满足的必要条件和充分条件是 算法设计的基础。我们先介绍无约束优化问题的最优性条件。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第13章:迭代优化 302 无约束问题 定理 13.1.1 设 )(xf 在点 nR∈0x 可微,若存在 nR∈p 使得 0))(( 0 <∇ px Tf ,则 p 是 )(xf 在点 0x 的下降方向。 所谓下降方向 p 是指,存在 0>δ ,使得 ),0( δ∈∀t 均有 )()( 00 xpx ftf <+ 。 证明:由于 )(xf 在点 0x 可微,所以它在点 0x 有 Taylor 展开式: ||)(||))(()()( 000 ppxxpx toftftf T +∇+=+ 由于 0))(( 0 <∇ px Tf ,取 0>t ,有 0))(( 0 <∇ px Tft ,故存在 0>δ ,使得 ),0( δ∈∀t 有 =−+ )()( 00 xpx ftf 0||)(||))(( 0 <+∇ ppx toft T 因此, )()( 00 xpx ftf <+ 证毕。 从定理 13.1.1,我们有下述推论: 推论 13.1.1 设 )(xf 在点 nR∈*x 可微,若 *x 是(13.1.3)的局部最优解,则必有 0*)( =∇ xf 。 如果代价函数 )(xf 是 nR 上的可微凸函数,则 0*)( =∇ xf 也是 *x 为(13.1.3)的整体最优解充分条 件,即我们有 定理 13.1.2 如果函数 )(xf 是 nR 上的可微凸函数,若 0*)( =∇ xf ,则 *x 是(13.1.3)的整体最优 解。 证明:由于 )(xf 是可微凸函数,所以 nR∈∀x 有 *)()(*)*))((( xxxxx fff −≤−∇ 于是,根据 0*)( =∇ xf ,我们有 *)()( xx ff ≥ ,即 *x 是(13.1.3)的整体最优解。 在一般情况下,由微积分学可知,局部最优解必是函数的驻点(或者说平稳点),但反之不一定 成立,因为驻点可能是极大点,也可能是鞍点。下面的定理给出了局部最优解的充分条件,它是多 元微分理论的一个应用。 定理 13.1.3 设 )(xf 二阶连续偏导数,在点 nR∈*x 有 0*)( =∇ xf 且 *)(2 xf∇ 半正定,则 *x 是 )(xf 的局部最优解。若在上述条件中, *)(2 xf∇ 是正定的,则 *x 是 )(xf 的严格局部最优解。 约束问题 对于约束问题(13.1.2)的最优性条件比无约束问题要复杂得多。 将问题(13.1.2)的约束函数写成向量函数形式: T pggg ))(),...,(),(()( 21 xxxxg = www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第13章:迭代优化 303 12() ( (),(),...,())T qhh h=hx x x x 则(13.1.2)可简记为 min ( ) () 0; () 0 f subject to ⎧ ⎪ ≤⎨ ⎪ =⎩ x gx hx (13.1.4) 先考虑等式约束问题: min ( ) () 0 f subject to ⎧ ⎨ =⎩ x hx (13.1.5) 引进 Lagrange 函数 )),...,,((),()(),( 21 T q TfL µµµ=+= µxhµxµx , (13.1.6) 令 *x 是(13.1.5)的局部最优解,且 qrank =∇ ))(( *xh ,其中 ))(),...,(),(()( ** 2 * 1 * xxxxh qhhh ∇∇∇=∇ 则根据微积分学的条件极值定理,存在 *µ 使得 0*)()(),( **** =⋅∇+∇=∇ µxhxµxx fL (13.1.7) 即 ∑ ∇=∇− = q j jj hf 1 *** )()( xx µ (13.1.8) 这表明:如果 *x 是(13.1.5)的局部最优解,则 )(xf 在点 *x 的负梯度方向 )( *xf∇− 落入到向量组 )}(),...,(),({ ** 1 * 1 xxx qhhh ∇∇∇ 所张成的线性子空间中。 再考虑不等式约束问题: min ( ) () 0 f subject to ⎧ ⎨ ≤⎩ x gx (13.1.9) 如果点 0x 是(13.1.9)是可行解,即满足 0)( 0 ≤xg ,在 )( 0xg 的分量中可能有两种情况,第一种 情况是使得等式 0)( 0 =xig 成立的分量,另一种是严格不等式 0)( 0 kt 使 k k k t px =∆ ,所以有 k k kk t pxx +=+1 对于约束优化问题,还必须使得 1k Ω+ ∈x 。 kp 称为第 1+k 次的搜索方向, kt 为第 1+k 次的迭代步 长。在迭代算法中,通常还要求函数值是下降的,即要求 )()( 1 kk ff xx <+ 因此,确定一个好的搜索方向和沿此方向的迭代步长,就构成迭代算法的最重要步骤。 迭代格式 步骤1: 选取初始点 0x , 0=k ; 步骤2: 构造搜索方向 kp ; 步骤3: 根据 kp ,确定搜索步长 kt ; 步骤4: 令 k k kk t pxx +=+1 ; 步骤 5: 检验 1+kx 是否满足某种终止条件。终止条件满足,停止迭代,输出结果 1+kx ; 否则,令 1+= kk ,转到步骤 2。 对格式中划下线的部分赋予具体内容,就可以得到具体的迭代算法。 13. 2 一维搜索 在多变量的优化迭代格式中,假定第 k 次迭代点 kx 和第 k+1 次迭代方向 kp ,如何确定第 k+1 次迭代步长 kt ?这是多变量非线性优化中的子问题,此问题归结为 )(min max)0(0 kk ttt tf px +≤≤≥ (13.2.1) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第13章:迭代优化 306 其中: 0≥t 还是 max0 tt ≤≤ 应视原多变量优化问题是无约优化还是约束优化问题而确定。 记 )(tϕ )( kk tf px += ,单变量的非线性优化问题(13.2.1)可以写成一般形式 )(min max)0(0 tttt ϕ≤≤≥ (13.2.2) 这类问题通常称为一维搜索问题。 求解一维搜索问题的方法,按照不同求解原则,可分为二大类:精确一维搜索和非精确一维搜 索。 13.2.1 精确搜索 Newton 方法 基本思想:用函数 )(tϕ 在探索点 kt 处的二阶 Taylor 展开式 2)(2 )())(()()( k k kkk ttttttttg −′′+−′+= ϕϕϕ 近似 )(tϕ ,即 )(tϕ 2)(2 )())(()()( k k kkk ttttttttg −′′+−′+=≈ ϕϕϕ 然后,用 )(tg 的极小点作为新的探索点 1+kt 。由于 )(tg 是一个二次函数,可以直接得到它的极小点: )( )( 1 k k kk t ttt ϕ ϕ ′′ ′−=+ (13.2.3) 给定一个初始点 0t ,应用式(13.2.3)进行迭代计算,当 εϕ <′ )( kt 时,迭代结束,输出 kt 作为 )(tϕ 最 小点的一个近似。 Newton 迭代算法: 1) 给定初始点 1t 和终止控制常数 0>ε , 1=k ; 2) 如果 εϕ <′ )( kt ,停止迭代,输出 kt ,否 则 ,当 0)( =′′ ktϕ 时,停止,算法失效;当 0)( ≠′′ ktϕ 时,转下一步; 3) 计算 )( )( 1 k k kk t ttt ϕ ϕ ′′ ′−=+ ,如果 εϕ <′ )( kt (或 ε<−+ kk tt 1 ),停止迭代,输出结果;否则 1+= kk ,转步 2)。 注意,Newton 算法的前提是 0)( ≠′′ ktϕ 。如果 )(tϕ 不存在导数,此算法失效,此时,可用下述 方法进行一维搜索。 0.618 方法 这种方法是在 )(tϕ 的单谷区间上进行一维搜索。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第13章:迭代优化 307 如果存在 ],[* bat ∈ 使得 )(tϕ 在 *],[ ta 上单调减,并且在 ]*,[ bt 上单调增,则称 )(tϕ 在 ],[ ba 是单 谷的或者说 ],[ ba 是 )(tϕ 的单谷区间。显然 *t 是 )(tϕ 在区间 ],[ ba 上的最小值。 函数 )(tϕ 在 ],[ ba 上的最小点是 *t ,所以在 ],[ ba 上选取两点 21 tt < ,通过计算和比较 )(),( 21 tt ϕϕ ,可以缩小区间 ],[ ba 使得最小点 *t 在缩小后的区间上。这是因为根据单谷区间的定义, 我们有 ],[*)()( 221 tattt ∈⇒≤ ϕϕ ],[*)()( 121 btttt ∈⇒> ϕϕ 如图 13.1.1 所示。 图 13.1.1:搜索单谷区间的最小点 *t 这样,可以将对 *t 的搜索由区间 ],[ ba 缩小为区间 ],[ 2ta (或 ],[ 1 bt ),称 *t 所在的区间为搜索区间。 继续这个过程,可使搜索区间长度达到任意小。这种方法在于搜索点的选择,不同的选择方式构成 了不同的一维搜索方法。下面介绍 0.618 方法。 由于事先不知道缩小后的区间是 ],[ 2ta 还是 ],[ 1 bt ,因此设置这两个区间等长,即 12 tbat −=− 令 ab tb ab at − −=− −= 12σ (13.2.4) 它表示搜索区间的缩小比,则有 ))(1(1 abat −−+= σ )(2 abat −+= σ (13.2.5) 希望在每一搜索中,搜索区间的长度按相同的比值σ 缩小。不妨假定新的搜索区间为 ],[ 2ta ,由于 ],[ 21 tat ∈ 且函数值 )( 1tϕ 已知,所以希望它是下一次迭代中的探索点之一,这种选择的目的是为了 a a b b t* t*t1 t1 t2 t2 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第13章:迭代优化 308 在以后的迭代中仅需要计算一个新探索点的函数值,减少计算量。假定在新一次迭代中的两个探索 点为 21 tt ′<′ ,它们均在区间 ],[ 2ta 内,并且其中一个是 1t 。于是,有 at tt at at − ′−=− −′= 2 12 2 2σ 结合式(13.2.5),得到 )(2 22 abttat −=′−=−′ σ 如果 11 tt =′ ,则导致 0122 =+− σσ ,此方程仅有的解是 1=σ ,这是不可能的。因此,必有 12 tt =′ 。 用类似的方法,可得到方程 012 =−+ σσ 。因 10 << σ ,所以 618.02 15 ≈−=σ 如果新的搜索区间为 ],[ 1 bt ,关于σ 可得到相同的结果,但此时 21 tt =′ , 2t′ 为新的探索点。 由于 2 15 − 称为黄金分割数,所以 0.618 法通常也称为近似黄金分割法。下面是 0.618 法的具 体迭代步骤: 1) 确定单谷区间 ],[ ba ,并给定控制精度ε ; 2) 计算两个初始探索点 )(618.0)(382.01 abbabat −−=−+= , )(618.02 abat −+= , 以及 )(),( 2211 tt ϕϕϕϕ == ; 3) 若 21 ϕϕ ≤ ,转步骤 4);否则转步骤 5); 4) 若 ε<− at2 ,停止迭代,输出 1t ;否则,置 )(:,:),(618.0:,:,: 11121122 tabbttttb ϕϕϕϕ ==−−=== , 转步骤 3); 5) 若 ε<− 1tb ,停止迭代,输出 2t ;否则,置 )(:,:),(618.0:,:,: 22212211 tabatttta ϕϕϕϕ ==−+=== , 转步骤 3)。 13.2.2 非精确搜索 在求解多元优化问题中,通常关心的是迭代点列 }{ kx 的收敛速度,如果在每次迭代中,对迭代 步长进行精确一维搜索,计算量非常大,就整体而言不能加快点列 }{ kx 的收敛速度。因此,人们建 立了一些求解问题(13.2.2)的非精确一维搜索方法,减少计算量。非精确一维搜索方法通常包括两个 部分:给定搜索点的规则和求解符合规则的点。规则的作用是要求非精确一维搜索解 kt 满足 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第13章:迭代优化 309 )()( 1 kk ff xx <+ ,但 kt 不能过大以致 }{ kx 有很大的摆动,也不能过小以致在收敛到最优解之前而 止步不前。另外,非精确一维搜索方法通常假定 )(tϕ 在 0=t 的邻域内是可微的并且有 0)0( <′ϕ 。下 面介绍一种实用非精确一维搜索方法,称为 Goldstein 法。 Goldstein 法 该方法限定搜索点不过大也不过小的规则是: )0()0()( 1 ϕϕϕ ′+≤ kk tst (13.2.5) )0()0()( 2 ϕϕϕ ′+≥ kk tst (13.2.6) 其中 10 21 <<< ss 是事先指定的两个数。 如图 13.1.2 所示,式(13.1.5)是限定搜索点 kt 在直线 )0()0( 1 ϕϕ ′+= tsy 的下方,式(13.1.6) 是限 定搜索点 kt 在直线 )0()0( 2 ϕϕ ′+= tsy 的上方,同时满足这两式子的搜索点 kt 构成 ],[],[ dcba ∪ 。在 ],[],[ dcba ∪ 中的点都被认为是可接受的搜索点。 图 13.1.2:非精确一维搜索(Goldstein 方法) 在 Goldstein 方法中,记 ),( kk ba 为当前搜索范围。如果当前探索点 kt 不满足式(13.2.5),则减小 kt ;如果当前探索点 kt 不满足式(13.2.6),则增大 kt ,直到两式同时满足为止。具体计算步骤如下: 1) 给定两个数 21, ss : 10 21 <<< ss ,探索点的放大倍数 1>λ ,以及初始探索点 )),0)((,0( max0 tt ∞∈ ;置: 0:),(:,0: max00 =∞== ktba ; 2) 计算 )( ktϕ ,若 )0()0()( 1 ϕϕϕ ′+≤ kk tst ,进行步骤 3);否则,置 ,:,: 11 kkkk tbaa == ++ 转步骤 4); 3) 若 )0()0()( 2 ϕϕϕ ′+≥ kk tst ,停止迭代,输出 kt ;否则,置 ,:,: 11 kkkk bbta == ++ 若 )( max1 tbk ∞<+ ,转步骤 4);否则,置 kktt kk =+=+ :1,:1 λ ,转步骤 2); 4) 置 kkbat kk k =++=+ :1,2:1 ,转步骤 2)。 a b c d )0()0( 1 ϕϕ ′+= tsy )0()0( 2 ϕϕ ′+= tsy www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第13章:迭代优化 310 13.3 无约束优化 13.3.1 最速下降法 最速下降法假定目标函数 )(xf 是一阶连续可微的,其基本思想是:从当前点 kx 出发,取 )(xf 在 点 kx 处下降最快的方向作为搜索方向。 由 )(xf 在 kx 点处的一阶 Taylor 展开式 () ( ) () (||||)kkk kTkkffttf t−+=−∇+xxp xpop 可知,取 )( kk f xp −∇= 时,函数下降最快(略去高阶无穷小不计)。于是,最速下降法的求解步骤 为: 1) 给定初始点 0x 和终止控制常数 0>ε ,令 0:=k ; 2) 计算 )( kf x∇ ,若 ()kf ε∇≤x ,停止迭代,输出 kx ,否则进行下一步; 3) 取 )( kk f xp −∇= ,并进行一维搜索 )(min)( 0 kk t k k k tftf pxpx +=+ ≥ 求步长 kt ;令 1,1 +=+=+ kkt k k kk pxx 转 2)步。 13.3.2 Newton 法 Newton 法与一维搜索的 Newton 法类似,假定目标函数是二阶连续可微的,并假定二阶导数 )(2 xf∇ 总是正定的。在每一个当前点 kx 处,以 )(xf 的二阶近似函数 ))(()(2 1)()()()( 2 kkTkkTkk fffQ xxxxxxxxxx −∇−+−∇+= 的极小点作为下一次的迭代点 1+kx 。这就是 Newton 法的基本思想。 由于 )(2 kf x∇ 正定,所以 )(xQ 是二次凸函数,因此 )(xQ 的整体极小点 1+kx 可由下述方程 0))(()()( 2 =−∇+∇=∇ kkk ffQ xxxxx 求得 )()]([ 121 kkkk ff xxxx ∇∇−= −+ 。在 Newton 法中,取 ⎪⎩ ⎪⎨ ⎧ = ∇∇−= − 1 )()]([ 12 k kkk t ff xxp (13.3.1) Newton 法的计算步骤如下: 1) 选取初始点 0x 和终止控制常数 0>ε ,令 0=k ; www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第13章:迭代优化 311 2) 计算 )( kf x∇ ,若 ε≤)( kf x ,停止迭代,输出 kx ,否则进行下一步; 3) 取 )()]([ 12 kkk ff xxp ∇∇−= − , 1,1 +=+=+ kkkkk pxx 转第 2)步。 对于二次凸函数,Newton 法只需要一次迭代就得到最优解。但是,对于一般非线性优化问题, Newton 法通过有限次迭代并不能保证求得最优解,除非目标函数在最优解附近能近似于一个二次函 数并且初始值离最优解很近。如果初始点离最优解太远,Newton 法不能保证收敛,甚至下降性也不 能保证。为了克服 Newton 法的这些缺点,人们已经给出一些 Newton 法的修正,如 Murray 修正法 等。 13.3.3 变度量法 变度量法是优化迭代问题的一类方法总称。在这类方法中,仅使用目标函数 )(xf 的梯度 )(xf∇ , 不涉及二阶导数,它们是最速下降法的改进,其算法速度比最速下降法要快。而 Newton 法可以看 作是变度量法的一个特例。在变度量方法中,每一次迭代关于“最速下降”的度量是变化的,因此 称为变度量法。下面介绍变度量法的基本思想。 给定 n 阶对称正定矩阵 H,在 nR 空间中,定义向量 x 的椭球范数 2/1)( xxx H HT= 正定矩阵 H 称为度量矩阵。在这个范数下, )(xf 在点 nx Rk ∈ 关于 p 的方向导数应为 HH p px p xpx Tkkk t f t ftf ))(()()(lim 0 ∇=−+ +→ 因此,当 0)( ≠∇ kf x 时,在范数 H 意义下, )(xf 在点 nx Rk ∈ 的最速下降方向可取为变量 np R∈ 的非线性优化问题 2 min ( ) || || 1 kT H f subject to ⎧ ∇⎪⎨ =⎪⎩ xp p (13.3.2) 的最优解 *p 。由微积分学知,对应于(13.3.1)的 Lagrange 函数为 =),( λpL () ( 1)kT TfHλ∇ +−xp pp 所以,由 0*)*,( =∇ λpL 和 *)*,(2 λpL∇ 正定性,可推知: H Tk Tk H Tk fH fHfH ||)(|| )(*,||)(|| 1 1 1* x xpx ∇ ∇−=∇= − − −λ 于是,与 *p 方向相同的向量 Tkk fH )(1 xp ∇−= − 是 )(xf 在点 kx 的关于范数 H 的最速下降方向。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第13章:迭代优化 312 当 H=I 时, Tkk f )(xp −∇= 是最速下降法的迭代方向; 当 )(2 kfH x∇= 时, Tkkk ff )())(( 12 xxp ∇∇−= − 是 Newton 法的迭代方向,即 Newton 法的 迭代方向是 Hesse 矩阵意义下的最速下降方向。 下面寻求一种迭代向量,它能保证收敛速度快又可以避免 Hesse 矩阵的求逆。假定每次迭代的 方向是 Tk k k fH )(xp ∇−= (13.3.3) 其中正定矩阵 kH 随迭代而发生变化,我们要求它近似于 Hesse 矩阵的逆 12 ))(( −∇ kf x ,并且只与 f 在相邻两次迭代点的梯度向量有关。为此,设 f 二阶连续可微,且 )(2 xf∇ 可逆,则由定理 13.1.1, 式(13.3.3)是 f 在 kx 点的下降方向。为了使 1+kH 有类似于 12 ))(( −∇ kf x 的性质,我们考虑 f 在 1+kx 点 的 Taylor 二次逼近: ))(()(2 1))(()()( 1121111 ++++++ −∇−+−∇+≈ kkTkkkk ffff xxxxxxxxxx 于是,有 ))(()()( 1121 +++ −∇+∇≈∇ kkk fff xxxxx 令 kxx = ,得到 kkkf xgx ∆∆ ≈∇ −+ 112 ))(( (13.3.4) 其中 kkkkkk ff xxxxxg −=∇−∇= ++ 11 ),()( ∆∆ 如果 cAf TT ++= xbxxx 2 1)( ,则式(13.3.4)变为等式,即 ))(())(( 12112 Aff kkkk =∇=∇ +−+ xxgx ∆∆ (13.3.5) 式(13.3.4)和(13.3.5)分别是非二次代价函数与二次代价函数的 Hesse 矩阵在点 1+kx 所要满足的条件, 所以为了使 1+kH 有类似于 12 ))(( −∇ kf x 的性质, 1+kH 应该满足 kk kH xg ∆∆ =+1 (13.3.6) 记 kkk HHH ∆+=+1 ,则上式可改写成 k k kk k HH gxg ∆∆∆∆ −= (13.3.7) 如果已知 1, +kk xx , kH ,为 了 求 解 点 1+kx 的迭代方向 Tk k k fH )( 1 1 1 + + + ∇−= xp ,只须从方程组 (13.3.7)求解 kH∆ 。由 于 方 程组(13.2.7)是由 2n 个变元 n 个方程所构成的方程组,因此它的解不唯一。 求解问题(13.3.7)的不同方法就导致了不同的变度量方法,其中最常用的是 DFP 方法和 BFGS www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第13章:迭代优化 313 方法。DFP 方法是由 Davidon、Fletcher 和 Powell所给出的,BFGS 方法是由 Broyden, Fletcher, Goldfarb 和 Shanno 的研究成果。它们都是从下述方程出发的: T k k k T k k k HH vgux ∆∆∆ −= (13.3.8) 其中 kk vu , 为待定向量。在 DFP 方法中,取 k k T k k k kkTk k k H H gg g v gx xu ∆∆ ∆ ∆∆ ∆ == , )( (13.3.9) BFGS 方法中,取 kTk k k k k Tk k k Tk k Tkk H gx xvx gx gg gx u ∆∆ ∆∆ ∆∆ ∆∆ ∆∆ )( , )( )( 1 )( 1 =⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ += (13.3.10) DFP 方法 1) 选取初始点 0x ,初始矩阵 nIH =0 ,给定终止控制常数 0>ε ; 2) 计算 )( 0xf∇ ,若 ε≤∇ )( 0xf ,停止迭代,输出 0x ,否则进行下一步; 3) 令 0:),( 0 0 0 =∇−= kfH xp ; 4) 一维搜索,求 kt : )(min)( 0 kk t k k k tftf pxpx +=+ ≥ ;令 k k kk t pxx +=+1 ; 5) 计算 )( 1+∇ kf x ,若 ε≤∇ + )( 1kf x ,停止迭代,输出 1+kx ,否则,进行下一步; 6) 检验迭代次数,若 nk =+ 1 ,令 10 : += kxx ,转步骤 3);否则,进行下一步; 7) 构造 DFP 方向:用 DFP 公式 k k Tk k Tk kk kTk Tkk kk H HH HH gg gg gx xx ∆∆ ∆∆ ∆∆ ∆∆ )( )( )( )( 1 −+=+ (13.3.11) kkk xxx −= +1∆ , )()( 1 kkk ff xxg ∇−∇= +∆ 计算 1+kH ,令 1:),( 1 1 1 +=∇−= + + + kkfH k k k xp ,转步骤 4)。 BFGS 方法 BFGS 方法与 DFP 方法类似,所不同的是用下述 BFGS 公式: ()Tkk kk Tkk TTk k Tk kk Tk k Tk Tkk kk HH H HH )()( )( 1 )( )( 1 )( )( 1 xggx gxgx gg gx xx ∆∆∆∆ ∆∆∆∆ ∆∆ ∆∆ ∆∆ +−⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ ++=+ (13.3.12) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第13章:迭代优化 314 代替 DFP 公式(13.2.11)。 13.3.4 共轭方向法 共轭方向法与变度量法一样,也是一类方法的总称,也仅仅使用目标函数 )(xf 的梯度。当初, 共轭方向法是为求解二次函数的优化问题而设计的,其特点是所采用的搜索方向与二次函数系数矩 阵相关的共轭方向,后来将这种方法应用于求解一般非线性优化问题。 设 A 为 n 阶实对称矩阵,对于非零向量 nR∈qp, ,如果 0=qp AT ,则称 qp, 是相互共轭的。 对于一组非零向量 ,1,2,,jnR jn∈=p ,若 ji ≠ 时有 0)( =jTi App ,则称它们是 A 的共轭方向组。 若 12,,,npp p 是一组共轭方向,则它们一定是线性无关的;反之,从 nR 的任一组 n 个线性无 关的向量出发,可以构造 A 的一组共轭方向 12,,,npp p 。 对于二次严格凸函数(即矩阵 A 是对称正定)最优化问题 cxbxxx ++= TT Af 2 1)(min (13.3.14) 若 12,,,npp p 为任一组 A 的共轭方向,则从任意初始值 0x 出发,依次沿共轭方向 12,,,npp p 进行 一维精确搜索,则最多经过 n 次迭代可以得到(13.3.14)的最优解。 由于 A 的共轭方向组{ 12,,,npp p }选择具有很大的随意性,因此按不同方式产生一组共轭方向 就导致了不同的共轭方向法。最常用的是共轭梯度法。共轭梯度法是以迭代点处的负梯度向量为基 础而产生的一组共轭方向。共轭梯度法求解非线性优化问题的步骤如下: 共轭梯度法 1) 选取初始点 0x ,给定终止控制常数 0>ε ; 2) 计算 )( 0xf∇ ,若 ε≤∇ )( 0xf ,停止迭代,输出 0x ,否则进行下一步; 3) 令 )( 00 xp f−∇= ,令 0:=k ; 4) 一维搜索,求 kt 使 )(min)( 0 kk t k k k tftf pxpx +=+ ≥ 。令 k k kk t pxx +=+1 ; 5) 计算 )( 1+∇ kf x ,若 ε≤∇ + )( 1kf x ,停止迭代,输出 1+kx ,否则,进行下一步; 6) 若 nk =+ 1 ,令 10 : += kxx ,转步骤 3);否则,进行下一步; 7) 计算共轭梯度方向: k k kk f pxp λ+−∇= ++ )( 11 ,令 1: += kk ,转步骤 4),其中 2 21 )( )( k k k f f x x ∇ ∇ = + λ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第13章:迭代优化 315 13.3.5 L-M 方法 考虑函数关系 )(XY f= ,其 中 Y 是 n 维向量,X 是 m 维向量。通常Y 被看作是接近于真值Y 的 测量向量,由于测量误差,不存在变量 X 使得关系式 )(XY f= 严格地满足。我们只能求解 X 使得这 个关系式最佳近似满足。确切地说,求最小化问题 )(min XY X f− (13.3.16) Levenberg-Marquardt 方法是一阶 Newton 迭代算法的一种改进,主要目的是为大参数化问题 (13.3.16)提供快速收敛的正则化方法。该方法可以看作是 Newton 一阶迭代方法和最速下降方法的结 合产物。 先介绍求解(13.3.16)问题的一阶 Newton 迭代方法。给定(13.3.16)一个初始解 kX ,令 )( kk f XY −=ε 。假定 f 在 kX 附近的值可由 kkkk kff ∆∆ XJXX +=+ )()( 近似(一阶近似),其中 k k XX X X YJ =∂ ∂= 是 f 的 Jacobi 矩阵在 kX 的值。寻找下一个迭代点 kkk ∆+=+ XX 1 使得 1()min() minkkkk kkkkkff ∆∆ ∆ ε∆+−=−−=−XXYX YXJ J 该最小化的正规化方程是 ,( )kk k kk kk T k T k k TNN∆∆ε== =XX X XXJJ J JJ (13.3.16) 因此,一阶 Newton 方法的迭代点列为 ))((1 kkk fk XYJXX X −+= ++ (13.3.17) 与二阶 Newton 方法一样,一阶 Newton 方法的收敛行为也强烈地依赖于初始值 0X 。 Levenberg-Marqardt 方法,是用所谓的增量正规方程 ε∆ XJ=N (16.3.18) 代替 Newton 方法中的正规方程(13.3.16),其中 iiii NN )1( λ+= ,当 ji ≠ 时, ijij NN = 。 在L-M 方法中,每一次迭代是寻找一个合适的 λ 值。开始时,通常取 310−=λ ,若增量正规方 程(13.3.18)的解 ∆ 导致误差ε 减少,则接受 λ 的当前值并在下一次迭代中以 10/λ 代替 λ 。若(16.3.18) 的解 ∆ 导致误差的增大,则以 λ10 代替 λ 并重新求解增量方程(16.3.18),这个过程一直到求出一个 使误差 ε 下降的 ∆ 为止。对不同的 λ ,重复地解增量正规方程,直到得出一个可接受的 ∆ ,构成 L-M www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第13章:迭代优化 316 方法的一次迭代。 L-M 算法 1) 选取初始点 0X ,终止控制常数ε ,计算 )( 00 XY f−=ε ,令 3 0 10,0: −== λk ; 2) 计算 k k XX X X YJ =∂ ∂= ,构造增量正规方程: kkk kN ε∆λ XJ=)( ; 3) 通过求解增量正规方程,得到 k∆ 。 3.1) 若 kkkf ε∆ <+− )(XY ,令 k k kk t PXX +=+1 ,若 ε∆ ε 和惩罚因子序列 ,...}2,1|{ =kCk ; 1:=k ; 2) 按(13.4.7)构造惩罚函数 )(xkcb 和增广代价函数 )(xkcp ; 3) 以初始点 1−kx ,用无约束优化方法求 )(min xkcp ,得到它的最优解 kx 。若 kx 已满足终止 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第13章:迭代优化 318 条件,则输出最优解 kx ;否则,令 1: += kk ,转步骤 2)。 注:在实际应用中, ,...}2,1|{ =kCk 可按下述递推方式产生: )2,0( 11 ≥>=+ σσ CCC kk 对于终止条件有多种选取方式,如:令 =)(xS )(1 xkc k pC 终止条件可选取为 ε≤)(xS 。 )}(max{)},(max{ k j kk i k hhgg xx == 终止条件可选取为 ε≤},max{ kk hg ; 内惩罚法 内部惩罚法的基本思想与外部惩罚法的思想相类似,首先在可行域边界设置一道“障碍”,充 当这道“障碍”的是所谓的障碍函数,然后由构造增广价函数将原问题归结为求解无约束优化问题。 障碍函数的作用是使得在解无约束优化问题时的迭代点总是可行点。 为了陈述方便起见,我们仅考虑不等式约束优化问题: min ( ) ( ) 0, 1,2,...,i f subject to g i p ⎧ ⎨ ≤=⎩ x x (13.4.8) 它的可行域的内部是 },...,2,1,0)(|{ pigR i no =<∈= xxΩ 当可行域的内点 oΩ∈x 趋近边界时,在 )}({ xig 中至少存在一个函数值趋近于零,因此下述函 数趋近于无穷大: ∑−= = p i igb 1 )( 1)( xx 或 ∑ −−= = p i igb 1 ))(log()( xx 这个函数被称为障碍函数。构造增广代价函数如下: )()()( xxx bfp += 不难看出 )(xp 极小点总是在可行域的内部,所以,障碍函数 )(xb 的作用是对哪些企图越出可行域 的点加以惩罚。 由于我们最终要寻求原约束问题的最优解,而最优解往往在可行域的边界上,所以在迭代过程 中要逐渐减小 )(xb 的惩罚程度。为此,与外惩罚法类似,首先选取一个单调减趋于零的正惩罚因子 序列 ,...}2,1|{ =kDk ,并对每一个 k,构造障碍函数: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第13章:迭代优化 319 ∑−= = p i i kD gDb k 1 )( 1)( xx 或 ∑ −−= = p i ikD gDb k 1 ))(log()( xx (13.4.9) 然后构造定义在 oΩ 上增广代价函数: )()()( xxx kk DD bfp += (13.4.10) 由 )(xkDb 构造可知,当一个点从可行域内部趋向可行域边界时, )(xkDp 将无限增大,因此优化问 题: )(min xkDp (13.4.11) 的最优解总是在可行域内部。如果(13.4.8)的最优解在可行域内部,则当 kD 取到适当值时, )(min xkDp 的最优解 kx 可以达到(13.4.8)的最优解;如果(13.4.8)的最优解在可行域边界上,因随 k 增大 )(xkDb 的影响逐渐减弱,所以 }{ kx 将逼近(13.4.8)的最优解。于是,求解(13.4.8)归结为求解下 述一系列的无约束优化问题: ,...2,1),(min =kp kD x (13.4.12) 内惩罚法的具体计处步骤如下: 1) 选取初始点 oΩ∈0x ,给定终止控制常数 0>ε 和单调减趋于零的正惩罚因子序列 ,...}2,1|{ =kDk ; 1:=k ; 2) 按(13.4.9)和(13.4.10)构造惩罚函数 )(xkDb 和增广代价函数 )(xkDp ; 3) 以初始点 1−kx ,用无约束优化方法求 )(min xkDp ,得到它的最优解 kx 。若 kx 已满足终止 条件,则输出最优解 kx ;否则,令 1: += kk ,转步骤 2)。 注:在内惩罚法中,初始点必须是可行域的内点。 ,...}2,1|{ =kDk 可按下述递推方式产生: )2,0( 1 1 1 ≥>= − + σσ CDD kk 终止条件可选取为 ε≤)( k Dk b x 或 ε≤= |})(max{| k i k gg x 。 惩罚法的优点是方法结构较简单,但存在下述缺点:(1) 收敛速度慢;(2) 计算量大,每一次迭 代都需要求解一个无约束优化问题;(3) 方法自身造成了数值计算上的困难,因为在求解过程中要 求惩罚因子无限增大或无限减小,这可能导致相应增广代价函数的 Hessian 矩阵的严重病态,直接 影响了惩罚法的效率,甚至算法失败。下一节所要介绍的求解约束优化的乘子法,它利用了惩罚法 的思想,但它有效地克服了惩罚法的缺点。乘子法已被普遍认为是求解约束优化的最好方法之一。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第13章:迭代优化 320 13.4.2 乘子法 Hestenes 在 1969 年,针对等式约束优化问题提出了著名的 Hestenes 乘子法,它借用了惩罚法中 构造增广代价函数的思想,并利用 Lagrange 乘子法克服了惩罚法所固有的数值困难。后来,Buys, Bertsekas,Rockafellar 等人将 Hestenes 乘子法拓广到一般约束优化问题。我们先介绍 Hestenes 乘子 法。 Hestenes 乘子法 考虑等式约束优化问题: min ( ) ( ) 0, 1,2,...,i f subject to h i q ⎧ ⎨ ==⎩ x x (13.4.13) 在惩罚法中,惩罚因子无限增大是其方法本身所固有的,现分析如下: 假定(13.4.13)中所涉及的函数都是连续可微的。惩罚法中的增广代价函数是 ∑+= = q i i k c hCfp k 1 2))((2)()( xxx 令 ,...2,1),(min =kp kc x 的最优解为 kx ,则必有 0)()()()( 1 =∑ ∇+∇=∇ = q i k i k ik kk c hhCfp k xxxx 因此 ∑ ∇−=∇ = q i k i k i k k hhfC 1 )()()(1 xxx 假定 )(* ∞→→ kk xx ,其中 *x 为(13.4.13)的最优解,于是在上式两边取极限,我们有 0*)(*)()(1lim 1 =∑ ∇−=∇ = ∞→ q i ii k k k hhfC xxx 对于约束优化问题,一般有 0)( * ≠∇ xf ,所以 ∞→kC 。由此可见,惩罚法的数值困难是其自身所 固有的。 惩罚法的惩罚因子无限增大的本质是 0)( * ≠∇ xf 。如果我们能够在不改变最优解 *x 的前提下, 用在最优点处导数为零的函数代替原问题的代价函数,再对此函数应用惩罚法,则惩罚因子就不会 无限增大了。这就是乘子法的基本思想。下面,讨论如何选择这样的函数。 根据最优性的必要条件,必存在 Lagrange 乘子 *µ 使得问题(13.4.13)的 Lagrange 函数 )()(),( 1 ∑+= = q i iihfL xxµx µ 在点(*x ,*µ )的梯度为零,即 0*)*,( *)*,( *)*,( =⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∇ ∇ =∇ µx µx µx L L L x µ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第13章:迭代优化 321 然而,点(*x ,*µ )不是函数 ),( µxL 的极小点或极大点,而是一个鞍点,即有 *),(*)*,()*,( µxµxµx LLL ≤≤ 于是, *x 为 *),( µxL 函数的极小点。因此, *),( µxL 就是我们所要寻求的函数。 综上所述,问题(13.4.13)与下述问题等价: min ( , *) ( ) 0, 1,2,...,i L subject to h i q ⎧ ⎨ ==⎩ xµ x (13.4.14) 再将惩罚法应用于上述问题,原问题(13.4.13)就转化为求解增广 Lagrange 代价函数 2 1 ])([2*),(*),( ∑+= = q j jc hCLp xµxµx (13.4.15) 的无约束极小问题。 现在的困难是,在数值上如何确定 *µ 和 C,特别是确定 *µ 。对此,Hestenes 提出了如下方法: 对惩罚因子 C 选取一个无限增大的正数序列{ kC },使之随迭代次增加而增大;对乘子 *µ ,先给定 一个初始值,然后再迭代过程中不断更新它。下面给出 Hestenes 的乘子 *µ 更新公式。 假定我们已有 kµ ,并令 *),(min µxkCp 的最优解为 kx ,则必有 )()(),(),( 1 k j q j k jk kk x kk Cx hhCLp k xxµxµx ∇∑+∇=∇ = )()()()( 11 k j q j k jk k j q j k j k hhChf xxxx ∇∑+∇∑+∇= == µ )())(()( 1 k j k jk q j k j k hhCf xxx ∇+∑+∇= = µ =0 (13.4.16) 为了使 kx , kµ 逼近最优解 *x 与乘子 *µ ,考虑 *)*,( µxLx∇ ,我们有 *)(*)(*)*,( 1 *∑ ∇+∇=∇ = q j jjx hfL xxµx µ (13.4.17) 比较(13.4.16)与(13.4.17),在下一次迭代中 1+kµ 应为 qjhC k jk k j k j ,...,2,1),(1 =+=+ xµµ (13.4.18) 这就是 Hestenes 的乘子 *µ 迭代更新公式。 Hestenes 乘子法的具体计算步骤如下: 1) 选取初始点 0x 与初始乘子 1µ ,给定终止控制常数 0>ε 和单调增趋于无穷大的正惩罚因子 序列 ,...}2,1|{ =kCk ; 1:=k ; 2) 以初始点 1−kx ,用无约束优化方法求 ),(min k Ck p µx ,得到它的最优解 kx 。 其中: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第13章:迭代优化 322 2 11 ])([2)()(),( ∑+∑+= == q j j kq j j k j k C hChfp k xxxµx µ 若 kx 已满足终止条件,则输出最优解 kx ;否则,转步骤 3); 3) 更新乘子: qjhC k jk k j k j ,...,2,1),(1 =+=+ xµµ ,令 1: += kk ,转步骤 2)。 注:在实际应用中, ,...}2,1|{ =kCk 可按下述递推方式产生: )2],1,1.0[( 11 ≥∈=+ σσ CCC kk 初始乘子常取零。 对于终止条件有多种选取方式,如: ε≤= |})(max{| k j k hh x ,或者 1|| ||kkε+ −≤xx 且 1|| ||kkε+ −≤µµ ,或者 ε≤−+ |)()(| 1 kk ff xx 。 Rockafellar 乘子法 Rockafellar 将 Hestenes 乘子法拓广到不等式约束优化问题: min ( ) ( ) 0, 1,2,...,i f subject to g i p ⎧ ⎨ ≤=⎩ x x (13.4.19) Rockafellar 乘子法首先引入松驰变量 T pyyy ),...,,( 21=y 将不等式约束优化(13.4.19)转化为变量 (x, y)的等式约束优化: 2 min ( ) ( ) 0, 1,2,...,ii f subject to g y i p ⎧ ⎨ += =⎩ x x (13.4.20) 根据 Hestenes 乘子法,(13.4.20)的增广 Lagrange 代价函数为 ∑ ++∑ ++= == q i ii kq i iiiC ygCygfp k 1 22 1 2 ))((2))(()(),,( xxxλyx λ (13.4.21) 其中 T p ),...,,( 21 λλλ=λ 是乘子,{ kC }是一个单调增趋于无穷的正惩罚因子序列。逼近最优解的迭 代点列 )},{( kk yx 与乘子的迭代点列 }{ kλ 分别为 ),( kk yx 是 ),,(min k Ck p λyx 的最优解, pjygC k i k jk k j k j ,...,2,1),)(( 21 =++=+ xλλ 。 在 Rockafellar 乘子法中,将进一步消去松驰变量 y。为此,考虑函数 ),,( λyxkCp 关于变量 y 极 小,令 ),,(min),( λyxµx y kCpL = www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第13章:迭代优化 323 从下述方程: 0 )))((( )))((( )))((( ),,( 2 2 2222 2 1111 = ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ++ ++ ++ =∇ ppkpp k k Cy ygCy ygCy ygCy p k x x x λyx λ λ λ 得到 ⎪⎩ ⎪⎨ ⎧ = ≥+ <++−= pi gC gCgCCy iki ikiiki ki ,...,2,1, 0))(((0 0))((())(((1 2 x xx λ λλ 若, 若, (13.4.22) 将上式代入 ),,( λyxkCp 中的相应项,可推知: 222 ))((2))(( ii k iii ygCyg +++ xxλ ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ ≥++ <+− = 0))((())((2)( 0))(((2 2 2 xxx x ikii k ii iki k i gCgCg gCC λλ λλ 若, 若, pigCC iiki k ,...,2,1],)))((,0[(max(2 1 22 =−+= λλ x 因此,我们有 ),,(min),( µyxµx y kCpL = ∑ −++= = p i iiki k gCCf 1 22 ])))(,0[(max(2 1)( λλ xx (13.4.23) 所以,迭代式(13.4.22)得到的 kx 是 ),(min k x L µx 的最优解。于是,乘子迭代式为: pigCygC k ik k i k i k ik k i k i ,...,2,1)),(,0max())()( 21 =+=++=+ xx λλλ (13.4.24) 这样,我们就得到以乘子法。现将整个计算步骤概括如下: 1) 选取初始点 0x 与初始乘子 1µ ,给定终止控制常数 0>ε 和单调增趋于无穷大的正惩罚因子 序列 ,...}2,1|{ =kCk ; 1:=k ; 2) 以初始点 1−kx ,用无约束优化方法求 ),(min k Ck L µx ,得到它的最优解 kx 。 其中: ),( k Ck L µx ∑ −++= = p i iiki k gCCf 1 22 ])))(,0[(max(2 1)( λλ xx www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第13章:迭代优化 324 若 kx 已满足终止条件,则输出最优解 kx ;否则,转步骤 3); 3) 更新乘子: pigC k ik k i k i ,...,2,1)),(,0max(1 =+=+ xλλ ,令 1: += kk ,转步骤 2)。 在 Rockafellar 乘子法中,惩罚因子序列和终止条件的选择可参考 Hestenes 乘子法。 对于一般约束优化问题: min ( ) ( ) 0, 1,2,..., ; ( ) 0, 1,2,..., i j f subject to g i p hiq ⎧ ⎪ ≤=⎨ ⎪ ==⎩ x x x (13.4.25) 它的增广代价函数序列为: 2 111 22 ))((2)(])()))(,0[(max(2 1)(),,( ∑∑ ++∑ −++= === q i i q i k i k i p i k iik k i k kk C hChgCCfL k xxxxµλx µλλ (13.4.26) 逼近(13.4.26)的最优解的点列{ kx }是(13.4.25)的最优解;乘子迭代公式为: pigC k ik k i k i ,...,2,1)),(,0max(1 =+=+ xλλ qjhC k jk k j k j ,...,2,1),(1 =+=+ xµµ ; 终止条件可选取: ελ ≤∑+∑ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − == q j k j p i k k ik i h C g 11 |)(|),(max xx 。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 325 14.参数估计 最大似然估计和贝叶斯估计分别是经典参数估计与现代参数估计中的最重要方法,它们在众多 应用学科都具有广泛的应用。近年来,模型估计的贝叶斯方法已成为计算机视觉领域的热门研究课 题。本章主要介绍最大似然估计和贝叶斯估计的基本数学原理,以及实现这两种估计的统计计算方 法:期望/最大化(EM)算法。 14.1 最大似然估计 最大似然估计的思想来源于高斯关于误差理论的研究,当初并未受到人们的重视。直到 Fisher 于 1921 年将它作为一般估计方法提出来,经过 Fisher 自己以及许多统计学家研究发现这种估计方法 相对其它方法具有更好的品质,才被人们所重视。现在,最大似然估计已成为参数估计的最重要方 法之一,在众多应用学科得到广泛应用。 14.1.1 基本概念 假定 n 维随机向量 x 的密度函数为 );( θxp ,其中 θ 是未知参数向量。现在的问题是:从 k 次 独立抽样所得到的样本 ),...,,( 21 kxxx ,估计参数向量 θ 。由于这 k 次抽样是独立的,所以 ),...,,( 21 kxxx 的联合密度为 ∏= = k j jk pL 1 21 );();,...,,( θxθxxx (14.1.1) 对于固定的 θ , );,...,,();,...,,( 2121 θxxxθxxx kk LL ′′′> 的意义是容易解释的,即在抽样中出现 ),...,,( 21 kxxx 的概率大于出现 ),...,,( 21 kxxx ′′′ 的概率。反之,对于固定的 ),...,,( 21 kxxx ,则 );,...,,();,...,,( 2121 θxxxθxxx ′′>′ kk LL 只表明 θ 是 ′θ 的“可能性”比是 ′′θ 的“可能性”更大一些。 由于 θ 不是随机变量,这种“可能性”不能称为概率,通常称为“似然”。对于固定的 ),...,,( 21 kxxx , );,...,,( 21 θxxx kL 作为 θ 的函数,称为似然函数,最大似然估计就是求使得似然达到最大的 θ 值。 定义 14.1.1 令 );( θxp 是 n 维随机向量 x 的密度函数族,其中 Θ∈θ , Θ 称为参数空间。对 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 326 固定 x , );( θxp 作为参数向量 θ 的函数称为似然函数,记为 );();( θxθx pL = , Θ∈θ (14.1.2) 并称 );(maxarg* θxθ LΘθ∈= (14.1.3) 为 θ 的最大似然估计。 对似然函数(14.1.2)取对数,有 );(log);( θxθx Ll = (14.1.4) 并称它为对数似然。根据对数函数的单调性,不难证明: ⇔= ∈ );(maxarg* θxθ lΘθ );(maxarg* θxθ LΘθ∈= 即,求最大似然等价于求最大对数似然。 引进对数似然的目的是为了方便最大似然的计算。因为在实际问题中, );( θxp 是同一参数空间 Θ 上若干个指数型分布族 );(),...,;(),;( 2211 θyθyθy kkppp 因此,独立抽样 ),...,,( 21 kyyyx = 的联合密度为 =);( θxp ∏ = k j jjp 1 );( θy 这样,应用对数似然 ∑== = k j jjpLl 1 );(log);(log);( θyθxθx (14.1.5) 就可以简化最大似然的求解。 例 14.1.1 设 ),...,,( 21 kxxx 是从正态总体 ),( 2σµN 中抽取的样本,估计未知参数 2,σµ 。显然, 对数似然为 ∑ −−−= = k j jxkl 1 222 2/)(log),;( σµσσµx 因此,由似然方程: ∑ =−=∂ ∂ = k j j nxl 12 0)( 2 1 µ σµ 0 2 )( 44 1 2 2 =− ∑ − = ∂ ∂ = σσ µ σ nxl k j j 得到 2,σµ 的估计值为 ∑ −∑ === == k j j k j j xxkxx 1 2 1 2 )(1*,* σµ 注 在进行最大似然估计中,应该注意参数的取值范围。例如,在上例中,如果限制 0>µ ,则 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 327 最大似然估计是 ∑ −== = k j jxkx 1 22 *)(1*),,0max(* µσµ 请读者自行验证。 在计算上,最大似然估计有一个非常重要的性质:如果 *θ 是 θ 的最大似然, ΦΘ →:)(θf 是 可测函数(如:连续函数函数),则 *)(θf 也是 )(θf 的最大似然。这个性质被称为最大似然不变性, 应用它可简化参数函数的最大似然估计。 为了证明这一性质,对任意 Ωω ∈ ,定义 })(|{)(1 ϖϖ ==− θθ gg ,并且令 );(max);( )(1 θxx LM g ϖθϖ −∈= (14.1.6) 式(14.1.6)通常称为诱导似然。由于 );(max*);( θxθx LL Θθ∈= ,且 *))((* 1 θθ gg −∈ ,所以,对任意 Ωω ∈ ,有 *);();(max))(;( *))(( * 1 θxθxθx LLgM gg == −∈ θθ );();(max);(max )(1 ϖϖθΘθ xθxθx MLL g =≥= −∈∈ 这样,我们就证明了最大似然不变性。 例 14.1.2 设 ),(),...,,( 11 kk yxyx 是从二维正态总体中抽取的样本,这个二维正态分布的均值是 零,协方差矩阵为 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 1 12 ρ ρσΣ , 11 <<− ρ 。求未知参数 2,σρ 的最大似然估计。 由条件,这个二维正态分布的密度为 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − −+− − = )1(2 2exp 12 1),;,( 22 22 22 2 ρσ ρ ρπσ σρ xyyxyxp 引入变量: ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ − == − = )1( )1( 1 2212 221 ρσ ρραα ρσ α 则有 ⎪⎩ ⎪⎨ ⎧ −= − = 2 2 2 122 12 1 1 / αα ρσ ααρ 。于是,我们有 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 328 ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ +−++⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ +−= )2log()log(2 1 2exp),;,( 2 2 2 12 22 121 παααααα xyyxyxp 由此,得到似然方程: ∑ += − = k j jj yxk 1 22 2 2 2 1 1 )(2 1 )(2 2 αα α ∑= − = k j jj yxk 12 2 2 1 1 )(1 )(2 2 αα α 所以,根据最大似然不变性,得到 2,σρ 的最大似然估计: ⎪ ⎪ ⎪ ⎩ ⎪⎪ ⎪ ⎨ ⎧ ∑ += −− = ∑ + ∑ == = = = k j jj k j jj k j jj yxk yx yx 1 22 2 2 2 1 2 2 1 22 1 12 )(2 1 )1( 1 )(2 / ααρ σ ααρ 14.1.2 相合性与渐近正态性 最大似然估计的优良性质主要表现在大样本场合,就小样本而言还没有能说明它有什么优良性 质。在大样本理论中,最大似然估计扮演了一个十分重要的角色。本节主要介绍最大似然估计的相 合性与渐近正态性。 相合性 先介绍估计量的相合性概念。估计量与样本容量是相关联的,如果用 12( , ..., )nnθ xx x 估计参数 θ , 不可能指望对某个 n,均 方 误 差 2 12( ) [( ( , ..., ) ) ]nn nMSE E=−θθxx x θ 对所有的 Θ∈θ 都任意小。但是, 当 ∞→n 时通常可实现这一点,这就是所谓的相合性概念,其确切的数学定义如下: 定义 14.1.2 设 12( , ..., )nnθ xx x 是 θ 的估计,如果当 ∞→n 时 12( , ..., )nnθ xx x 依概率收敛于 θ , 则称 nθ 是 θ 的(弱)相合估计。如果 12( , ..., )nnθ xx x 几乎处处收敛于 θ ,则 称 nθ 是 θ 的强相合估计。 尽管强相合性比弱相合性的要求更强,但在统计中通常只考虑弱相合性,因此下面所讲的相合 性均指弱相合性。相合性是估计问题的一个基本要求,试想:如果一个估计量无论进行多少次抽样 或进行多少次观测,都不能将未知参数估计到任意指定的精度,那么这种估计是不能令人信服的。 也就是说,不满足相合性要求的估计通常是不被考虑的。 对于最大似然估计,有下述定理。 定理 14.1.1 设 )...,,( 21 nxxx 是来自 );( θxp 的一个样本(为简单起见,只考虑单参数情形,并 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 329 且参数空间是一个开区间),令 ∑= = k j jjpl 1 );(log);( θθ xy 若 );(log θxp 在 Θ 上可微,并且 θθ ′≠∀ ,集合 );();(|{ θθ ′≠ xxx pp 有正测度,则似然方程在 ∞→n 时以概率 1 有解,并且此解是相合的。 证明:因 );();(|{ θθ ′≠ xxx pp 有正测度,根据 Jensen 不等式*),我们有 0);( );(log);( );(log =⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′<⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′ θ θ θ θ θθ x x x x p pEp pE 记参数真值为 0θ ,则对充分小的 0>δ ,有 Θδθδθ ⊂+− ),( 00 ,并且 0);( );(log 0 0 0 <⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − θ δθ θ x x p pE 0);( );(log 0 0 0 <⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ + θ δθ θ x x p pE 根据强大数定理,在几乎处处的意义下, ()()()→−− 00 ;;1 θδθ xx lln 0);( );(log 0 0 0 <⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − θ δθ θ x x p pE ()()()→−+ 00 ;;1 θδθ xx lln 0);( );(log 0 0 0 <⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ + θ δθ θ x x p pE 又因 );( θxl 在 Θδθδθ ⊂+− ),( 00 上连续,因而必有一个局部极大点,记为θ~ 。由于 );( θxl 可微, 因此θ~ 必是似然方程的解,所以,似然方程在 ∞→n 时以概率 1 有解,并且 δθθ <− |~| 0 ,δ 可以是 任意小的正数,即解θ~ 与 0θ 是相合的。 渐近正态性 相合性是估计量在 ∞→n 时的性质。对任意有限的 n,相合性是没有意义的,因为它不能说明 为了使 nθ~ 达到指定精度,n 应该至少取多大。事实上,相合估计可以不只一个,它们之间是有差异 *) Jensen 不等式:设 f,g 为区域 Ω 上的可积函数,且 ,0, 0mfMg gdΩ σ≤ ≤> >∫ 。若 h 是[m, M]上的下凸 函数,则 ()fgd g h f dh gd gd ΩΩ ΩΩ σ σ σσ ⎛⎞ ≤⎜⎟⎜⎟⎝⎠ ∫∫ ∫∫ ;若 h 上凸,则取相反的不等式。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 330 的,这种差异通常用估计量的渐近分布的渐近方差来反映,而最常用的渐近分布是正态分布。下面 给出估计渐近正态性的数学定义。 定义 14.1.3 设 )...,,(~ 21 nn xxxθ 是 θ 的估计,如果存在 )(2 θnσ 使得 )(/)~( 2 θθθ nn σ− 依测度收敛于 正态分布 ),( kIN 0 (其中 k 是参数向量的维数),则称 nθ~ 是 θ 的渐近正态估计。并记为 ))(,(~~ 2 knn IAN θθ σθ 。 对于最大似然估计,我们有下述定理: 定理 14.1.2 设 Θ 是一个开区间,若密度函数 );( θxp , Θ∈θ 满足下述条件: (1) 在参数真值 0θ 附近, );( θxp 关于θ 的一至三阶偏导数对所有 x 都存在; (2) 在参数真值 0θ 处,有 0);( );(,0);( );( 0 0 0 0 0 =⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′′=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′ θ θ θ θ θ θ θ θ x x x x p pEp pE 0);( );()(, 2 0 0 0 0 >⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ′= θ θθ θ θ x xI p pE 记 nθ~ 为似然方程的相合解,则在测度的意义下, ))(,0(/)~( 12/1 0 θI −→− Nnn θθ 这个定理表明,最大似然估计的渐近方差为 1))(( −θIn 。 定理 14.1.2 可以推广到高维参数的情形。在一般情况下,指数分布族都满足定理中的条件,更 一般的 Cramer-Rao 分布族也满足定理中的条件。因此,人们通常都说最大似然估计具有渐近正态性。 14.1.3 混合模型 在以上两节给出了最大似然估计的基本概念以及它的一些优良性质。在 14.1.1 节,指出最大似 然估计可以通过似然方程来求解,并且给出了两个例子。但是,对于实际问题,似然方程往往是高 度非线性的,不可能通过似然方程求解。本节所介绍的混合模型是计算机视觉中的常用模型,我们 将看出通过似然方程求解是十分困难的。 假定随机变量空间 X 包含 K 个成份,即 kX...XXX 21 ∪∪∪= ,每个成份 kX 被选择的概率为 kπ , 并且有各自的概率密度函数 );( kp θx 。因此,随机变量 x 的概率密度为 ∑= = K k kk pp 1 );(),;( θxθπx π (14.1.7) 其中: ),...,,(),,...,,( 2121 KK θθθθπ == πππ 是未知参数向量。 模型(14.1.7)通常称为混合模型,因为它是密度的混合或者说是密度的加权和。给定随机变量的 一组观测值: =X ),...,,( 21 Mxxx ,我们的问题是从混合模型(14.1.7)估计未知参数向量 θπ, 的值。 对于实际问题,在估计出 θπ, 之后,还要推断观测向量 jx 来自哪个成份 kX 。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 331 对于观测 =X ),...,,( 21 Mxxx ,模型(14.1.7)的似然函数为 ∏ ⎟ ⎠ ⎞⎜ ⎝ ⎛ ∑= = = M j K k kk pL 1 1 );(),;( θxθπX π (14.1.8) 由于(14.1.8)的对数似然方程的高度非线性,直接求解未知参数是十分困难的。在 14.3 节,我们将介 绍求解这类问题的 EM 算法。下面给出直线拟合的概率模型作为混合模型的一个例子,更多的应用 见 17.4 节。 直线拟合 假定平面上有 K 条直线,第 k 条直线的参数向量记为 ),,( kkkk cba=a ,该直线被选择的概率为 kπ 。假定随机变量是来自这 K 条直线的测量点,随机变量空间是来自所有测量点的集合。给定第 k 条直线,点 x 由它生成的概率为 );( kp ax ,即点 x 关于直线 ka 的条件概率密度。于是,生成点 x 的概率为 ∑= = K k kk pp 1 );(),;( axaπx π (14.1.9) 图像点的测量误差通常满足零均值、σ 方差的高斯分布,因此,我们假定 );( kp ax 具有下述形 式: =);( kp ax ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − 2 2 2/1 2 ),(exp )2( 1 σσπ kd ax 其中: ),(2 kd ax 是点 ),( yx=x 到直线 ka 之间的距离平方,即 22 2 2 )(),( kk kkk k ba cybxad + ++=ax 由于方差σ 也是未知参数,所以,我们将生成点 x 的概率(14.1.9)写成如下形式: ∑= = K k kk pp 1 ),;(),,;( σπσ axaπx (14.1.10) 其中: =),;( σkp ax ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − 2 2 2/1 2 ),(exp )2( 1 σσπ kd ax (14.1.11) 如果图像点集的实际测量是 X,则出现这个实际测量的概率是 ∏ ⎟ ⎠ ⎞⎜ ⎝ ⎛ ∑= = = M j K k kk pL 1 1 ),;(),,;( σπσ axaπX (14.1.12) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 332 这是在测量 X 下,参数 σ,,aπ 的似然函数。因此,我们应该选择使得这个概率达到最大的参数值作 为 σ,,aπ 的估计。这就导致一个最大似然估计问题。 14.2 Bayes 估计 14.2.1 贝叶斯模型 贝叶斯公式 在经典参数估计中,带有参数 Θ∈θ 的密度族记为 );( θxp ,它表示参数空间 Θ 中不同参数值 对应于不同的密度。但是,贝叶斯学派则将参数 θ 视为随机变量,认为 );( θxp 是随机变量取某个值 时的条件分布,因此,记为条件密度的形式 )|( θxp 。随机变量 θ 的先验信息确定了的先验密度, 记为 )(θπ 。按照贝叶斯的观点,以下述方式产生样本 X ),...,,( 21 kxxx= : (1) 设想先验密度 )(θπ 产生一个观测值 θ ; (2) 从条件密度 )|( θxp 产生观测样本值:X ),...,,( 21 kxxx= 。 此时,样本 X 的联合条件密度为 ∏= = n j jpp 1 )|()|( θxθX (14.2.1) 它包含了样本信息。不难看出,在经典参数估计中它是似然函数。使用先验密度 )(θπ ,可以将先 验信息与样本信息综合起来。显然,样本与参数的联合密度为: )()|(),( θθXθX ππ p= 由于我们的目的是对参数 θ 做出估计,为此,先求出 ),( θXπ 关于 X 的边际密度: ∫= Θ π θθθXX dpm )()|()( (14.2.2) )(Xm 与 θ 无关,即它不包含参数 θ 的任何信息。因此,对估计起作用的仅是条件密度: ∫ == Θ π πππ θθθX θθX X θXXθ dp p m )()|( )()|( )( ),()|( (14.2.3) 这是贝叶斯公式的密度形式。 给定样本 X, θ 的条件密度 )|( Xθπ 称为 θ 的后验密度,它集中了样本与先验中有关参数 θ 的 所有信息。后验密度 )|( Xθπ 是通过观测后所得到的,它比先验密度 )(θπ 更接近于真实情况。因此, 利用后验密度对参数可以作出更好的估计。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 333 注 式(14.2.3)所给出的是 X 和 θ 都是连续型变量的贝叶斯公式。在其它情况下,贝叶斯公式如 下: (1) X 为离散型变量: ∫ = === Θ π ππ θθθXX θθXXXXθ dp p i i i )()|( )()|()|( ; (2) θ 为离散型变量: ∑ = i ii ii i p p )()|( )()|()|( θθX θθXXθ π ππ ; (3) X, θ 均为离散型变量: ∑ = = == i iij iij ji p p )()|( )()|( )|( θθXX θθXX XXθ π π π 。 若随机变量 x 的概率密度为 )()( xx cgf = ,其中 c 是与 x 无关的常数,则将它记为 )()( xx gf ∝ , 并称 )(xg 为 )(xf 的核。如正态分布 ),( 2σµN 的核是 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −− 2 2 2 )(exp σ µx 在贝叶斯公式(14.2.3)中,边际密度 )(Xm 与参数 θ 无关,所以后验密度 )|( Xθπ 可记为 )()|()|( θθXXθ ππ p∝ (14.2.4) 后验密度 )|( Xθπ 的这种表示主要是便于运算。 贝叶斯模型 (1) 参数空间 Θ 的先验密度 )(θπ ; (2) 样本 X 的联合条件密度 )|( θXp ,通常称为样本密度; (3) 先验密度 )(θπ 与样本密度 )|( θXp 构成后验密度 )|( Xθπ ; (4) 贝叶斯估计准则:从后验密度 )|( Xθπ 对参数 θ 进行估计。 贝叶斯估计与经典参数估计的区别在于:经典参数估计是从密度函数族 );( θxp 出发,对参数进 行估计,而贝叶斯估计是从后验密度 )|( Xθπ 对参数 θ 进行估计。 下面给出贝叶斯估计的一个例子。 例14.2.1 设X ),...,,( 21 kxxx= 是来自正体总体 )1,(θN 的样本,θ 的先验密度为正态分布 ),( 2σµN (当然, 2,σµ 都是已知的),求θ 使得后验密度达到最大的估计。 因为 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −−= 2 2 2 )(exp 2 1)( σ µθ σπ θπ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 334 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −−= 2 )(exp 2 1)|( 2θ π θ xxp 所以,由贝叶斯公式,θ 的后验密度为 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∑ −−−−∝ = n j jx 1 2 2 2 )(2 1 2 )(exp)|( θ σ µθθπ X 通过简单的计算,我们有 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −−∝ 2 2 2 )(exp)|( η θθπ tX 其中 ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ + = + += 2 2 2 2 /11 1 /1 / σ η σ σµ n xnt 因此, ),(~)|( 2ηθπ tNX 。故θ 使得后验密度达到最大的估计为 µ σ σ σ θ 2 2 2 /1 /1 /1 ˆ + + + == n x n nt (14.2.5) 下面,我们解释贝叶斯估计θˆ 的意义。如果只有样本信息而毫无先验信息,则样本均值 x 是θ 的 估计;另一方面,如果只有先验信息 ),( 2σµN ,则我们只能用先验密度的均值 µ 作为θ 的估计。从 式(14.2.5)可以看出,当这两种情况都发生时,θ 的贝叶斯估计是这两种估计 x 和 µ 的加权平均,权 的比值为 2/1: σn 。这个比值是非常合理的,对样本而言,容量愈大,即样本信息愈多,x 的权值就 应该更大;对 µ 而言,其重要性在于 2σ 的大小, 2σ 愈大,表示先验信息愈不肯定(因为θ 在 µ 周围 散布愈大),反之, 2σ 很小,就可以肯定θ 在 µ 附近,因此 µ 的权值应该与 2σ 成反比。公式(14.2.5) 正好体现了上述分析。 14.2.2 无信息先验密度 在无先验信息时,如何确定先验密度?如何进行贝叶斯分析?贝叶斯学派对此进行了大量研究, 得到一批大量成果。这些成果统称为无信息先验密度。 贝叶斯假设 在对参数θ 无先验信息的情况下,人们对参数θ 的一切可能值将“一视同仁”,不可能对哪些值 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 335 有所偏受,即参数θ 取参数空间内的一切值都是同等可能的。这样,就导致了贝叶斯选取先验密度 的“同等无知”原则和假设: 无信息先验密度 )(θπ 是参数空间 Θ 上的“均匀密度”,即 C=)(θπ ,或 Θπ ∈∝ θθ ,1)( (14.2.6) 当 Θ 是无界区域时, )(θπ 可能不是一个正常的概率密度,而是一种广义先验密度。此时,称 )(θπ 为广义均匀密度。 广义先验密度 若 )(θπ 满足下述两个条件: +∞=∫ θθ dΘ π )( (14.2.7) +∞<∫ θθθx dpΘ π )()|( (14.2.8) 则称 )(θπ 为广义先验密度。 虽然,由式(14.2.7), )(θπ 不是正常的概率密度,但根据式(14.2.8),由式(14.2.3)所确定的后验 密度 )|( xθπ 存在,而这个后验密度仍能为贝叶斯分析提供依据。 当 )(θπ 为均匀密度或广义均匀密度时,必有 );()|()|( θxθxxθ Lp =∝π 即似然函数是后验密度的核。故采用均匀密度或广义均匀密度作为先验密度时,最大后验估计与最 大似然估计是一致的。 不变先验密度 如果一个概率密度在某个变换群下具有不变性,则称该密度是这个变换群的不变密度,简称不 变密度。根据变换不变性来选择的先验密度称为不变先验密度。下面介绍三种不变密度,它们分别 是位置参数、尺度参数以及位置-尺度参数的不变先验密度。 位置参数 下述形式的概率密度族称为位置参数族: )},(|)({ +∞−∞∈− θθxp (14.2.9) 其中θ 称为位置参数。由于位置的不变先验密度 )(θπ 要求对位置变换是不变的,即 RbRC ∈⊂∀ , , 记 {| }Cb cbcC−= − ∈ ,必有 ∫ −=∫=∫ − CbCC dbdd θθπθθπθθπ )()()( 由 C 与 b 的任意性,得到 )()( b−= θπθπ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 336 所以 )(θπ 是常数,从而 1)( ∝θπ 。这表明,位置的不变先验密度服从贝叶斯假设。 尺度参数 下述形式的概率密度族称为尺度参数族: ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ +∞∈⎟ ⎠ ⎞⎜ ⎝ ⎛ ),0(|1 σσσ xp (14.2.10) 其中σ 称为尺度参数。由于尺度的不变先验密度 )(σπ 要求对尺度变换是不变的,即 +∈⊂∀ RbRC , ,有 σσπσσπσσπσσπ dbbbdbdd CCbCC ∫∫==∫=∫ −−−− )()()()()( 1111 由 C 任意性,我们有 )()( 11 σπσπ −−= bb 上式对一切 0,0 >> bσ 成立,所以,令 σ=b ,得到 11 )1()( −− ∝= σπσσπ (14.2.11) 这就是尺度的不变先验密度。 位置-尺度参数 下述形式的概率密度族称为位置-尺度参数族: ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ +∞∈+∞−∞∈⎟ ⎠ ⎞⎜ ⎝ ⎛ − ),0(),,(|1 σθσ θ σ xp (14.2.12) 其中θ 是位置参数,σ 是尺度参数。用前面的类似方法,可证明位置-尺度的不变先验密度为 1),( −∝ σσθπ (14.2.13) Jeffreys 先验密度 设 ),...,,( 21 nxxx=x 是来自密度函数 )|( θxp 的一个样本,其中 ),...,,( 21 kθθθ=θ 是 k 维参数向量。 当 θ 无先验信息可用时,Jeffreys 根据变换群和(Harr)测度理论,用 Fisher 信息矩阵行列式的平方 根来表示先验密度。这种无信息先验密度称为 Jeffreys 先验密度。Jeffreys 先验密度可用下述步骤导 出: (1) 计算样本的对数似然函数: ∑== = k j jxpLl 1 );(log);(log);( θθxθx ; (2) 计算参数向量 θ 的 Fisher 信息矩阵: ]/[)( 2 | jix lEI θθθ ∂∂−∂=θ ; (3) θ 的无信息先验密度为 2/1)))((det()( θθ I∝π 。 例 14.2.2 设 ),...,,( 21 nxxx=x 是来自正态总体 ),( 2σµN 的样本,求参数向量 ),( σµθ = 的 Jeffreys 先验密度。 样本的对数似然函数为 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 337 ∑ −−−−= = k j jxnl 1 222 2/)(log)2log(2 1),;( σµσπσµx ),( σµθ = 的 Fisher 信息矩阵为 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂−∂∂∂−∂ ∂∂−∂∂−∂= 2 2 222 222 /20 0/ )/()/( )/()/()( σ σ σσµ σµµ n n lElE lEEI θ 422 /4)(det −∝= σσnI θ 所以, ),( σµθ = 的 Jeffreys 先验密度为 2),( −∝ σσµπ 。 下面给出例 14.2.2 的几个特殊情况: (1) 当 µ 为已知时, 222 /2)/()( σσσ nlEI =∂−∂= ,所以 +− ∈∝ Rσσσπ ,)( 1 ; (2) 当σ 为已知时, 222 /)/()( σµµ nlEI =∂−∂= ,所以 R∈∝ µµπ ,1)( ; (3) 当 µ 与σ 独立时, +− ∈∈∝ RR σµσσµπ ,,),( 1 。 可见,Jeffreys 先验密度表明:µ 与σ 的无信息先验密度是不独立的。在联合密度的两种形式 2−σ 与 1−σ 中,Jeffreys 推荐使用 +− ∈∝ Rσσσπ ,)( 1 。 注:在一般情况下,无信息先验不是唯一的,但它们对贝叶斯统计推断(参数估计、假设检验 等)的结果影响都很小,很少对结果产生重大影响。所以任何无信息先验密度都是可以使用的。当 今无论是在数理统计研究还实际应用中,采用无信息先验密度愈来愈多,即使是经典统计学者也认 为无信息先验是“客观”的,是可以接受的。 14.2.3 共轭先验密度 从例 14.2.1,可以看出:对于一元正态密度族(参数是均值),如果先验密度取正态密度,则后 验密度也是正态密度,即先验密度与后验密度属于同类型的密度族。这个例子可以推广到多元正态 分布的情形。 例 14.2.3 设 x ),...,,( 21 kxxx= ~),( ΣµkN , 其中 T k ),...,,( 21 µµµ=µ 未知, Σ 已知。令 X ),...,,( 21 kxxx= 是来自 ),( ΣµkN 的样本,则样本 X 的密度函数为 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∑ −−∝ − 2 1||||2 1exp)|( ΣµxµX jp 设 µ 的先验密度为 ⎟ ⎠ ⎞⎜ ⎝ ⎛ −−∝ − 2 0 1 0 ||||2 1exp)( Σπ µµµ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 338 00 ,Σµ 已知,则 µ 的后验密度为 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∑ −+−−∝ = −− k j j 1 22 0 11 0 ||||||||2 1exp)|( ΣΣπ µxµµXµ 记 ∑= = k j jk 1 1 xx ,则可以计算出 ⎟ ⎠ ⎞⎜ ⎝ ⎛ −−∝ − 2 1||||2 1exp)|( kk Σπ µµXµ 其中 )()( 1 0 1 0 111 0 xµµ −−−−− ++= ΣΣΣΣ kkk 111 0 )( −−− += ΣΣΣ kk 故后验密度 )|( Xµπ 与先验密度 )(µπ 同属于正态密度族。 后验密度 )|( Xµπ 与先验密度 )(µπ 属于同类型的密度族不是偶然的,事实上对于很多分布族都 有这种性质。为了描述这样的事实,引进下述定义。 共轭先验密度 设 }|)|({ Θθθ ∈= xpP 是以θ 为参数(向量)的密度函数族, )}({ θπΠ = 是θ 的 先验密度族。如果对任意 Pp ∈ 和 Ππ ∈ ,所得到的后验密度 Πθπ ∈)|( X ,则称 Π 为 P 的共轭密 度族,或者称 )(θπ 为参数(向量)θ 的共轭先验密度。 下表列出了若干常用的共轭先验分布。 常用的共轭先验分布 总体密度 共轭先验密度 后验密度 二项分布 ),( θnb β 分布 ),( baβ ),( xbnxa −++β 泊松分布 )(λP Γ 分布 ),( µαΓ ),( µαΓ ++ nx 指数分布 )( 1−θE 逆 Γ 分布 ),( µαΓI ),( xnI +µαΓ 均匀分布 ),0( θU Parato 分布 ),( 0θαaP },,...,,max{),,( 02111 θθθα na xxxnP =+ 正态分布 ),( 2σµN 2σ 已知 ),( 2 0 τµN ),ˆ( 2γµN , ⎟ ⎠ ⎞⎜ ⎝ ⎛ +⎟ ⎠ ⎞⎜ ⎝ ⎛ += − 2 0 2 1 22 1ˆ τ µ στσ µ xnn www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 339 1 22 2 1 − ⎟ ⎠ ⎞⎜ ⎝ ⎛ += τσ γ n 正态分布 ),0( 2σN 未知参数 2σθ = 逆 Γ 分布 ),( µαΓI ⎟ ⎠ ⎞⎜ ⎝ ⎛ ++ 2,2 xnI µαΓ 多元正态分布 ),( ΣµkN , Σ 已知 ),( 00 ΣµkN ),( kkkN Σµ )()( 1 0 1 0 111 0 xµµ −−−−− ++= ΣΣΣΣ kkk 111 0 )( −−− += ΣΣΣ kk 注:n 表示样本容量, )(xx 表示样本均值. 共轭先验分密度是对某一分布中的参数而言的。离开指定的参数及其所在的分布,讨论共轭先 验分布是没有意义的。引进共轭先验密度的目的是为了便于后验密度的计算,因为后验分布 )|( xθπ 可直接从它的分布核得到,无需计算边际分布 )(xm 。在其它情况下, )(xm 与 )|( xθπ 的计算都会遇 到困难,如 ),(~ 2σµNx 并且先验分布取柯希分布时,则后验分布只能通过数值计算得到。但值得 指出的是,选用共轭先验分布时必须注意先验的合理性,因为对于贝叶斯估计而言,毕竟先验的合 理性比计算方便更重要。 14.2.4 贝叶斯估计 记x ),...,,( 21 kxxx= 为来自某个密度族 }|)|({ Θ∈θθxp 的样本, )(θπ 是给定的先验密度, )|( xθπ 是相应的后验密度。我们的目的是从后验密度 )|( xθπ 对参数θ 进行贝叶斯估计。贝叶斯估 计使后验风险达到最小,而后验风险依赖于损失函数的选择,即不同类型的损失函数导致不同的后 验风险,这样就导致了参数 θ 的各种贝叶斯估计。 后验风险 令 )(xδδ = 是θ 的任一个估计,δ 的损失函数 ),( δθL 关于后验密度 )|( xθπ 的数学期望称为后验 风险,并记为 )](,([)|( | xδθxδ LER xθπ = ⎪⎩ ⎪⎨ ⎧ ∑ ∫= j jjL dL 为离散型变量, 为连续型变量, θxθxδθ θθxθxδθ )|())(,( )|())(,( π πΘ (14.2.14) 如果存在θ 的一个估计 )(** xδδ = 使得 )|(min)|*( xδxδ πδπ RR = (14.2.15) 则称 )(* xδ 为 θ 的贝叶斯(后验)估计。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 340 显然,对于给定的先验密度,贝叶斯估计与所选择的损失函数有关。在贝叶斯估计中,常用的 损失函数有以下几种类型: 1.平方损失函数: 2)(),( θδδθ −=L (14.2.16) 或加权平方损失函数: 2))((),( θδθδθ −= wL (14.2.17) 2.绝对损失函数: ||),( θδδθ −=L (14.2.18) 3.0-1 损失函数 ⎩ ⎨ ⎧ >− ≤−= ε εδθ ||,1 ||,0),( θδ θδL (14.2.19) 其中ε 是小正数。如果θ 是多维参数向量,上式中的绝对值改为向量的范数。 4.多元二次损失函数:对于多维参数向量 θ ,二次损失函数为 )()(),( θδθδδθ −−= GL T (14.2.20) 其中 G 是正定矩阵。如果 ),...,,( 21 ngggdiagG = ,则二次损失函数变为下述简单形式: )(),( 1 ∑ −= = n j jjj θδgL δθ (14.2.21) 贝叶斯估计 下面,我们给出各种损失函数下的贝叶斯估计。 定理 14.2.1 在平方损失下,θ 的贝叶斯估计是后验分布 )|( xθπ 的均值,即 ]|[)( xx θδ π E= (14.2.22) 证明:在平方损失下,θ 的任一个估计 )(xδδ = 的后验风险为 ]|[]|[2]|)[( 222 xxx θθδδθδ EEE +−=− 因此,仅当 )(xπδδ = 时上式达到最小。证毕。 定理 14.2.2 在加权平方损失下,θ 的贝叶斯估计为 ]|)([ ]|)([)( x xx θ θθδ π wE wE= (14.2.23) 证明:与定理 14.2.1 类似。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 341 定理 14.2.3 在绝对损失下,θ 的贝叶斯估计是后验密度 )|( xθπ 的中位数。 ]|[)( xx θδ π Med= (14.2.24) 证明:设 )(xδδ = 为θ 另一估计。不妨假定 πδδ > ,由绝对损失函数定义,我们有 ⎪ ⎩ ⎪ ⎨ ⎧ ≥− <<+− ≤− =− δθδδ δθδδδθ δθδδ δθδθ π ππ ππ π , ),(2 , ),(),( LL 当 δθδ π << 时,必有 πππ δδδδδδδθ −=+−≤+− )(2)(2 ,所以, ⎪⎩ ⎪⎨ ⎧ >− ≤−=− ππ ππ π δθδδ δθδδδθδθ , ,),(),( LL 根据中位数的定义,有 2/1)|( ≥≤ xP πδθ 且 2/1)|( ≤> xP πδθ 。因此,我们有 )],(),([)|()|( | δθδθδδ π θπ π π LLERR x −=− xx )|()()|()( xPxP ππππ δθδδδθδδ >−+≤−≤ 02/)(2/)( =−+−≤ ππ δδδδ 于是, )|()|( xx δδ π π π RR ≤ 。同理可证:当 πδδ < 时,也有 )|()|( xx δδ π π π RR ≤ 。故后验分布 中位数使得后验风险达到最小。证毕。 定理 14.2.4 对于参数向量 T n ),...,,( 21 θθθ=θ ,在二次损失函数下, θ 的贝叶斯估计是后 验密度 )|( xθπ 的均值向量,即 T nEEEE ])|[],...,|[],|[(]|[)( 21 xxxxθx θθθδ π == (14.2.25) 证明:在二次损失函数 )()(),( θδθδδθ −−= GL T 下, θ 的任一个估计 )(xδδ = 的后验风险为 ]|)()[(]|),([ xθδθδxδθ −−= GELE T ]|))()(())()[(( xθδδδθδδδ −+−−+−= ππππ GE T ]|)())[()()( xθδθδδδδδ −−+−−= ππππ GEG TT 在上述最后一个等式中,我们利用了 0]|)[( =− xθδπE 的性质。由于 ]|)())[( xθδθδ −− ππ GE T 是常 数,所以仅当 πδδ = 使后验风险达到最小。证毕。 定理 14.2.5 在 0-1 损失下, θ 的贝叶斯估计是后验密度 )|( xθπ 的最大值点(通常称为最大 后验,众数,或广义最大似然),即 )|(maxarg)( xθx πδ Θθ π ∈= (14.2.26) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 342 图 14.2.1 0-1 损失的贝叶斯估计 证明:由于 θ 的任一个估计 )(xδδ = 的后验风险为 θxθxδθxxδθ dLLE )|())(,(]|))(,([ πΘ∫= ∫−∫= ≤− εθδΘ ππ |||| )|()|( θxθθxθ dd ∫−= ≤− εθδ π|||| )|(1 θxθ d 因此,后验风险最小当仅当 ∫ ≤− εθδ π|||| )|( θxθ d 达到最大。当ε 较小时,δ 取后验密度的最大值点积分 ∫ ≤− εθδ π|||| )|( θxθ d 达到最大值(如图 14.2.1 所示)。故 πδδ = 使后验风险达到最小。 定理 14.2.1-定理 14.2.5 给出了三种贝叶斯估计:后验均值估计、后验中位数估计和最大后验 估计(又称为众数估计,或广义最大似然估计),并指出这些估计在各自损失下的风险达到最小。在 实际应用中,最广泛使用的是后验均值估计和最大后验估计。下表列出了常用分布的后验均值估计 和最大后验估计。 常用分布的后验均值估计和最大后验估计 总体分布 先验分布 后验均值估计 最大后验估计 二项分布 ),( θnb 参数θ ),( baβ 1 nba xa ++ + n x 2 1 −++ −+ nba xa 2 1 + + n x 泊松分布 )(λP 参数 λ ),( µαΓ 1 µ α + + n xn nx /1+ µ α + −+ n xn 1 x 指数分布 )( 1−θE 参 数θ ),( µαΓI 1++ + n xn α λ 1++ + n xn α λ πδεπ −δ επ +δ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 343 均匀分布 ),0( θU 参数θ ),( 0θαaP },,...,,max{1 021 θα α nxxxn n −+ + },,...,,max{ 021 θnxxx 正态分布 ),( 2σµN 2σ 已知 ),( 2 0 τµN ⎟ ⎠ ⎞⎜ ⎝ ⎛ +⎟ ⎠ ⎞⎜ ⎝ ⎛ + − 2 0 2 1 22 1 τ µ στσ xnn ⎟ ⎠ ⎞⎜ ⎝ ⎛ +⎟ ⎠ ⎞⎜ ⎝ ⎛ + − 2 0 2 1 22 1 τ µ στσ xnn 正态分布 ),0( 2σN 未知参数 2σθ = ),( µαΓI θ/1 22 2 1 2 −+ ∑+ = n x n j j α µ ∑− = n j jxn 1 2 2 1 22 2 1 2 ++ ∑+ = n x n j j α µ ∑+ = n j jxn 1 2 2 1 多元正态分布 ),( ΣµkN ,Σ 已知 ),( 00 ΣµkN )( )( 1 0 1 0 111 0 xµ −− −−− +× + ΣΣ ΣΣ k k )( )( 1 0 1 0 111 0 xµ −− −−− +× + ΣΣ ΣΣ k k 14.3 期望/最大化(EM)算法 EM(Expectation/Maximization)算法是一种迭代方法,由 Dempster 于 1977 年首先提出,最初主 要用于最大后验估计。当然,EM 算法也可以用于最大似然估计,因为最大后验估计与最大似然估 计,在计算上完全是相同的。EM 算法不是直接对复杂的后验分布(或似然函数)求极大值,而是 在观测数据的基础上添加“潜在数据”简化计算,通过一系列简单的极大化实现最大后验估计(最 大似然估计)。本节将具体介绍这种算法。 14.3.1 EM 算法 潜在数据 在实际问题中,求解最大似然估计或最大后验估计的困难主要是观测数据不能提供完全信息, 或者说存在一些“潜在数据”不能被观测到。这些潜在数据是“缺损数据(Missing Data)”也可以 是一些未知参数。当然,给“潜在数据”下一个准确的数学定义是非常困难的,下面通过两个具体 例子来说明。 例 14.3.1 在14.1.3 节所介绍的混合模型 ∑= = K k kk pp 1 );(),;( θxθπx π 中,如果已知每个成份 kX 被 选择的概率 kπ ,则对于观测数据 =X ),...,,( 21 Mxxx ,求解极大对数似然: ∑ ⎟ ⎠ ⎞⎜ ⎝ ⎛ ∑= == M j K k kk p 11 * );(logmaxarg θxθ πθ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 344 就要容易得多。如果 );( kp θx 是高斯密度,则非常容易求解极大对数似然。因此,可以将{ kπ }看 作是混合模型的潜在数据。 我们也可以从另一个角度来考虑混合模型,对每一个观测数据 jx 配置一个向量 K 维向量 jy 来 表征该观测数据来自哪一个成份,即定义: ⎩ ⎨ ⎧= 否则 个成份来自第 ,0 ,1 ky j jk x 通常称 jy 为索引变量,并称 ),( jjj yxz = 为完全数据。可以推出完全数据 Z 的对数似然函数为 ∑ ⎟ ⎠ ⎞⎜ ⎝ ⎛ ∑= == M j K k kjk pzZL 11 );(log);( θxθ 同样,如果已知索引变量 Y 的值,混合模型也是容易求解的。因此,我们也可以将索引变量 Y 的值 作为潜在数据。 下面给出一个将未知参数作为潜在数据的例子。 例 14.3.2 设观测数据 miIuNIuxxx iiiii nnnniniii ,...,2,1),,(~),|),...,,(( 21 == σσ 11X ii , }{ iX 是独 立的,其中 in1 是每个元素均为 1 的 in 维向量,并且 ),(~ 2τβµ Ni 。记 T m T ),...,,(,),,( 21 µµµτσβ == Yθ 它们都是未知参数向量,但我们感兴趣的是参数 θ 。假定参数 θ 的先验分布为 τπ ∝)(θ ,现在的问 题是从观测向量 },...,2,1;,...,2,1|{ iij njmix ===X 估计参数 θ 。由贝叶斯公式,不难得到后验密度: ∏∏⋅∏⋅∝ === m i n j iij m i i i x 111 ),|(),|(),,()|,( σµπτβµπτσβππ XYθ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∑∑ −−⋅⎟ ⎠ ⎞⎜ ⎝ ⎛ ∑ −−⋅∝ === m i n j iijn m i im i x 11 2 21 2 2 )( 2 1exp1)( 2 1exp1 µ σσ βµ ττ τ 其中, ∑= = m i inn 1 。将上式两边取对数,我们有 )|,(log XYθπ ∑∑ −−−∑ −−−−∝ === m i n j iij m i i i xnm 11 2 21 2 2 )( 2 1log)( 2 1log)1( µ σ σβµ τ τ 直接从上式求最大后验是非常困难的,其主要原因是不知道参数向量 T m ),...,,( 21 µµµ=Y 。 如果已知参数 T m ),...,,( 21 µµµ=Y ,则求解这个问题是相当容易的。因为,此时通过下述方程 组: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 345 ⎪ ⎪ ⎪ ⎩ ⎪⎪ ⎪ ⎨ ⎧ ∑ =−∝∂ ∂ ∑ =∑ −−∝∂ ∂ ∑ =−−−∝∂ ∂ = == = m i i m i n j iji m i i i xn m 12 11 2 3 1 2 3 0)(1)|,(log 0)(1)|,(log 0)(11)|,(log βµ τβ π µ σσσ π βµ τττ π XYθ XYθ XYθ 可以得到 ⎪ ⎪ ⎪ ⎩ ⎪⎪ ⎪ ⎨ ⎧ ∑ −−= ∑∑ −= ∑ == = == = m i i m i n j iji m i i m xn m i 1 22 11 22 1 )(1 1 )(1 1 µµτ µσ µµβ 因此,在这个问题中,未知参数 T m ),...,,( 21 µµµ=Y 是潜在数据。 EM 算法 令 X 为观测数据, θ 未知参数的后验密度 )|( Xθπ ,称为观测后验密度。我们的目的是求观测 后验密度 )|( Xθπ 的极大后验。记 ),|( YXθπ 为添加潜在数据 Y 后的后验分布,并称为添加后验密 度。 ),|( XθYπ 表示给定 θ 和观测数据 X 下的潜在数据 Y 的条件密度。 EM 算法是一种迭代算法,记 )( jθ 为第 j+1 次迭代开始时极大后验的估计值,则第 j+1 次迭代 分为以下两步进行: E 步:求 ),|( YXθπ 或 )),|(log( YXθπ 关于潜在数据 Y 的条件分布 ),|( )( XθY jπ 的期望: ],|)),|([log(),|( )()( XθYXθXθθ j Y j EQ π≡ ∫= YXθYYX dj ),|()),|(log( )(πθπ (14.3.1) M 步:求 ),|( )( Xθθ jQ 的极大点 )1( +jθ ,即 ),|(maxarg )()1( Xθθθ jj Qθ=+ (14.3.2) 这样就构成了 EM 算法的一次迭代。将上述 E 步与 M 步继续迭代下去,直至收敛。 在实际应用中,EM 算法的迭代终止条件为 ε<−+ |||| )()1( jj θθ (14.3.3) 或者 ε<− −+ ||),|(),|(|| )1()()()1( XθθXθθ jjjj QQ (14.3.4) 其中ε 是控制精度。 例 14.3.2 (续) 在例14.3.2 中,潜在数据为 T m ),...,,( 21 µµµ=Y ,下面给出它的 EM 算法。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 346 E 步:假定θ 的当前估计值为 ),,( )()()()( kkkk τσβ=θ 。E 步是在给定 )(, kθX 下求式(14.3.2)的期 望。由于正态分布是 iµ 的共轭先验分布,所以, ),ˆ(~),|( )()()( k i k i k i N δµµ Xθ 其中: ⎪⎪ ⎪ ⎩ ⎪⎪ ⎪ ⎨ ⎧ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ += ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ +⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ += − − 1 2)(2)( )( 2)( )( 2)( 1 2)(2)( )( )( 1 )( )()()( 1 )( ˆ kk ik i k k k ii kk ik i n xnn τσ δ τ β στσ µ (14.3.5) 因此,对任意与 iµ 无关的量 c,我们有 ],|[]),|[(],|)[( )(2)()(2 XθXθXθ k i k i k i VarEcE µµµ +=− )2()(2)( )()ˆ( k i k i c δµ +−= 在上式中,分别令 ijxc ,µ= ,立即得到式(14.3.2)在给定 )(, kθX 下的期望: ),|( )( Xθθ kQ ∑∑ +−−−∑ +−−−−= === m i n j k iij k k m i k i k i i xnm 11 )(2)( 21 )(2)( 2 ])ˆ[( 2 1log])ˆ[( 2 1log)1( δµ σ σδβµ τ τ (14.3.6) M 步:式(14.3.15)的极大化是简单的,通过解方程组 0=∂ ∂ θ Q ,我们得到: ⎪⎪ ⎪ ⎪ ⎩ ⎪⎪ ⎪ ⎪ ⎨ ⎧ ⎟ ⎠ ⎞⎜ ⎝ ⎛ ∑ +−−= ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∑∑ +−= ∑= = ++ == + = + 2/1 1 )(2)1()()1( 2/1 11 )(2)()1( 1 )()1( ])ˆ[(1 1 ])ˆ[(1 ˆ1 m i k i kk i k m i n j k iij k k k m i k i k m xn m i δβµτ δµσ µβ (14.3.7) 将式(14.3.5)代入上式,我们就得到了 EM 算法的完整迭代公式。与例 14.3.2 比较,EM 算法在 M 步中的极大化方法与完全数据(即已知 T m ),...,,( 21 µµµ=Y )情况下的极大化方法完全相同。 14.3.2 收敛性与估计精度 EM 算法是利用潜在数据将复杂的最大后验估计(或最大似然估计)转化为一系列简单的极小 化问题,并通过迭代技术来实现。一个很自然的问题是 EM 算法所得到的估计序列{ )( jθ }一定收 敛吗?如果收敛,一定收敛到最大点或局部极小点吗?作为一种估计,如何计算 EM 算法的估计精 度?下面将讨论这些问题。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 347 收敛性 关于 EM 算法的收敛性,有下述定理。 定理 14.3.1 在EM 算法中,估计序列{ )( jθ }所对应后验密度值序列 }|( )( Xθ jπ 是单调增的, 即 jjj ∀≤ + ),|()|( )1()( XθXθ ππ (14.3.8) 证明:根据全概率公式,我们有 )|(),|()|(),|(}|,( XYYXθXθXθYXYθ πππππ == 利用后一个等式,得到 ))|(log()),|(log()),|(log())|(log( XYXθYYXθXθ ππππ +−= (14.3.9) 所以,上式对 Y 关于 },|( )( XθY jπ 求期望,可得 YXθYXYXθYYXθXθ dj∫ +−= ),|())]|(log()),|(log()),|([log())|(log( )(πππππ ),(),|(),|( )()()( XθXθθXθθ jjj TRQ +−= (14.3.10) 其中: YXθYYXθXθθ dQ jj ),|()),|(log(),|( )()( ππ∫= ∫= YXθYXθYXθθ dR jjj ),|()),|([log(),|( )()()( ππ YXθYXYXθ dT jj ),|(]))|(log(),( )()( ππ∫= 将 )1()( , += jj θθθ 分别代入(14.3.10),我们得到 ))|(log())|(log( )()1( XθXθ jj ππ −+ )],|(),|([)],|(),|([ )()1()()1( XθθXθθXθθXθθ jjjj RRQQ −−−= ++ (14.3.11) 由 Jensen 不等式,得到 ),|(),|( )()1( XθθXθθ jj RR −+ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡= + ),|( ),|(log )( )1( ),|( )( XθY XθY j j XY jE π π θ 0 ),|( ),|(log )( )1( ),|( )( ≤ ⎪⎭ ⎪⎬ ⎫ ⎪⎩ ⎪⎨ ⎧ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡≤ + XθY XθY j j XY jE π π θ (14.3.12) 又因 ),|(maxarg )()1( Xθθθ jj Qθ=+ ,所以, 0)],|(),|( )()1( ≥−+ XθθXθθ jj QQ (14.3.13) 从式(14.3.11-13),我们有 0))|(log())|(log( )()1( ≥−+ XθXθ jj ππ 故 jjj ∀≤ + ),|()|( )1()( XθXθ ππ 。证毕。 定理 14.3.2 在EM 算法中,(1)如果 )|( Xθπ 有界,则 )}|({ )( Xθ jπ 收敛; www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 348 (2)如果 )|( ϕθQ 关于 ϕ,θ 都是连续的,则在 )|( Xθπ 满足很一般的条件下,估计序列{ )( jθ } 收敛到 )|( Xθπ 的稳定点。 注 在定理 14.3.2 的条件下,只能保证估计点列收敛到后验密度的稳定点,但不能保证收敛到 最大点或局部极大点,这是所有迭代算法的共性。在实际应用中,我们只能通过选择一个好的初始 点,或选取一系列的初始点进行 EM 迭代,然后比较迭代结果确定后验密度的最大点。 估计精度 Louis 算法 假定 *θ 是 EM 算法的估计结果,则 *θ 的渐近方差可以用 Fisher 观测信息矩阵的逆 来近似: 1 * 2 1 )|(log * − = − ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂∂ ∂−= θθθ θθ π lk I Xθ (14.3.14) 因此,关键问题在于(14.3.14)的计算。下面是 Louis 所给的算法。 由式(14.3.9),我们有 lklklk θθ π θθ π θθ π ∂∂ ∂−∂∂ ∂=∂∂ ∂ )),|(log()),|(log())|(log( 222 XθYYXθXθ 将上式对 ),|( XθYπ 求期望,得到 ∫ ∂∂ ∂−∫ ∂∂ ∂=∂∂ ∂ YXθYXθYYXθYYXθXθ dd lklklk ),|()),|(log(),|()),|(log())|(log( 222 πθθ ππθθ π θθ π θϕθϕ θθ ϕ θθ ϕ == ∂∂ ∂−∂∂ ∂= lklk HQ ),|(),|( 22 XθXθ 于是,我们有 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂∂ ∂−−⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂∂ ∂−=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂∂ ∂− ===== ** ),|(),|()|(log 22 * 2 θθϕθθϕθθ θθ ϕ θθ ϕ θθ π lklklk HQ XθXθXθ (14.3.15) 通常, ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂∂ ∂−⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂∂ ∂− lklk HQ θθθθ 22 , 分别称为完全信息与缺损信息,因此式(14.3.15)给出了所谓的缺 损信息原则:观测信息=完全信息-缺损信息。 Louis 曾经还得到了一个重要结论: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 349 ⎟ ⎠ ⎞⎜ ⎝ ⎛ ∂ ∂−⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂∂ ∂−=∂∂ ∂− θ YXθYXθXθ ),|(log),|(log)|(log ),|( 2 ),|( 2 π θθ π θθ π θθ XY lk XY lk VarE (14.3.16) 将 *θθ = 代入上式,取逆就得到 *θ 的渐近方差。 模拟(Monte Carlo)计算 从分布 )*,|(log XθYπ 抽取 r 个样本: ryyy ,...,, 21 ,当 r 充分大时, 则(14.3.16)右端均值可按下述近似公式进行计算: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∫ ∂∂ ∂=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂∂ ∂ YXθYYXθYXθ dE lklk XY )*,|(),|(log),|(log 22 ),|( πθθ π θθ π θ ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ ∑ ∂∂ ∂ ≈ = = * 1 2 ),|(log1 θθ θθ πr j lk j r yXθ (14.3.17) 类似地,协方差可按下近似述公式计算: ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ ∑ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂ ∂ ⋅∂ ∂ ≈⎟ ⎠ ⎞⎜ ⎝ ⎛ ∂ ∂ = = r j l jj XY rVar 1 * ),|( ),|(log),|(log1),|(log θθ θ θ π θ ππ yXθyXθ θ YXθ k 2 11 * log ( | , ) log ( | , )1 rrjj jjlr θθ ππ θθ=== ⎛⎞∂∂⎛⎞−⋅⎜⎟⎜⎟⎜⎟∂∂⎝⎠⎝⎠ ∑∑ k θ Xy θ Xy (14.3.18) 14.3.3 EM 算法的推广 GEM 算法 在 EM 算法中,M 步的极大化要求寻找 Q 函数的极小点(见式(14.3.2))。在实际应用中,Q 函 数通常都是多变量的高度非线性函数,这使得 M 步的实现异常困难,广义 EM(GEM)算法就是针 对这一困难而提出的。GEM 方法降低了 M 步求极大点的要求,它在 M 步是寻找一个点 )1( +jθ 使得 下式成立: )|(},|( )1()()()1( XθθXθθ −+ > jjjj QQ (14.3.17) GEM 算法所产生的迭代点列{ )( jθ }也能保证后验密度函数值序列 }|( )( Xθ jπ 是单调增的,即 jjj ∀≤ + ),|()|( )1()( XθXθ ππ 在一定的条件下定理 14.3.2 也成立。 Meng 和 Rubin 提出了的一种特殊的 GEM 算法,他们称之为 ECM(Expectation/Conditional www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 350 Maximization)算法,该算法通过一系列单变量的极大化实现 M 步。令 ),...,,( )()( 2 )( 1 )( j k jjj θθθ=θ 是 当前的估计值,则 ECM 利用下述一系列的极大化得到 )1( +jθ : ⎪ ⎪ ⎩ ⎪ ⎪ ⎨ ⎧ = = = + − +++ − ++ − + ),,...,,(maxarg ),,...,,(maxarg ),,...,,(maxarg )1( 1 )1( 2 )1( 1 )1( )()( 12 )1( 1 )1( 2 )()( 1 )( 21 )1( 1 2 1 k j k jjj k j k j k jj j k j k jj Q Q Q k θθθθθ θθθθθ θθθθθ θ θ θ (14.3.10) ECM 保持了 EM 的简单性和稳定性,它是值得推荐的算法。 MCEM(Monte Carlo EM)算法 GEM 算法是解决 EM 算法在 M 步的极大化时可能带来的困难。实际上,EM 算法的 E 步涉及 期望的积分计算,在众多实际问题中,也同样存在计算上的困难。MCEM 算法通过随机模拟来完成 E 步,具体步骤如下: E1 步:由分布 ),|( )( XθY jπ 随机抽取 r 个随机数(向量): ryyy ,...,, 21 ; E2 步:计算 ∑∑≡ == r j jj r j j rrQ 11 )( )),|(1(),,|(log1),|(ˆ XyθXyθXθθ ππ 或 。 根据大数定律,当 r 充分大时, ),|(ˆ )( Xθθ jQ 就足够接近 YXθYXYθXθθ dQ jj ),|()),|((log),|( )()( ππ∫= 因此,在 M 步可以对 ),|(ˆ )( Xθθ jQ 极大化。 在 MCEM 算法中,最棘手的两个问题是: (1) r 究竟取多大?从逼近 ),|( )( Xθθ jQ 的精度考虑,自然是愈大愈好。从计算的角度, 愈小愈好。计算效率不仅仅体现在 E2 步,更多的是体现在 M 步,因为 r 愈大 ),|(ˆ )( Xθθ jQ 愈复杂,从而极大化更加困难。对此,目前还没有非常有效方法,通常 所选取的策略是在满足计算资源的要求下,尽可能取较大的 r。 (2) 如何终止迭代?即收敛性的判断问题。在 MCEM 中,要求迭代点列 )( jθ 收敛到某一 点是不现实的。对此,人们普遍使用的方法是 ECEM 进行一定的迭代次数后,观察 以后的迭代点是否在某个点附近只有小幅度的摆动,如果是,则认为算法已收敛。否 则,继续迭代一定的次数后,再重新观察。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 351 14.4 混合模型的 EM 算法 混合模型是计算机视觉中最常用的概率模型,本节主要讨论它的 EM 算法。在混合模型的 EM 算法中,E 步的 Q 函数具有解析表达式,M 步的混合系数存在显式迭代表达式, 但 M 步中的成份 密度参数的确定依赖于成份密度函数的复杂性,但对于高斯成份密度参数可以得到显式迭代表达式。 14.4.1 一般混合模型 根据 14.1.3 节的讨论,K 个成份的混合模型由下式定义: ∑= = K k kkk pp 1 )|(),|( θxαx αΘ (14.4.1) 其中: x 是 D 维随机向量; )|( kkp θx 是第 k 个成份的密度函数, kθ 是它的参数向量; ),...,,( 21 Kααα=α ( 1 1 =∑ = K k kα )是混合系数向量, kα 表示第 k 个成份被选择的概率; ),...,,( 21 Kθθθ=Θ 是成份密度参数所构成的向量。 如果每个成份密度都是高斯的,则称(14.4.1)为高斯混合模型。 给定观测样本 ),...,,( 21 NxxxX = ,则参数 ),( Θα 的对数似然为 ⎟ ⎠ ⎞⎜ ⎝ ⎛ ∑∑=∏= === )|(log),|(log),;( 111 K k knkk N n N n n ppl θxαxαX αΘΘ (14.4.2) 直接求解极大似然将是非常困难的。 现在,引进潜在数据 ),...,,( 21 Nyyy=Y ,其中 },...,2,1{ Nyn ∈ ,如果 nx 是由第 k 个成份所生成 的,则 kyn = 。X 与 Y 构成完全数据: )},()...,,(),,{(},{ 2211 NN yyy xxxyX = 对于这个完全数据,参数 ),( Θα 的对数似然为 )|((log)()|(log),|,(log),;,( 11 nnn ynyy N n N n nrnnrr pyPyPPl θxxαyXαyX αΘΘ ∑=∏== == (14.4.3) EM 算法的 E 步 假定第+1 步迭代开始时,参数的估计值是: ),...,,( )()( 2 )( 1 )( s K sss ααα=α , ),...,,( )()( 2 )( 1 )( s K sss θθθ=Θ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 352 则容易计算 )|( )(s knkp θx 。所以,由贝叶斯公式, ny 的条件密度为 ∑ == = K k s kn s k s yny s y ss n ss nnss nn p p p ypyp nnn 1 )()( )()( )()( )()( )()( )|( )|( ),|( ),|,(),,|( θx θx αx αxαx α α Θ ΘΘ (14.4.4) 从而,y 的联合条件密度为 ∏= = N j ss jj ss ypp 1 )()()()( ),,|(),,|( ΘΘ αxαXy (14.4.5) 于是, ),;,( ΘαyXl 关于联合条件密度(14.4.5)的期望为 ],,|),;,([),;,( )()()()( ssss lEQ ΘΘΘΘ αXαyXαα = ∑∏⎟ ⎠ ⎞⎜ ⎝ ⎛ ∑= ∈ ==N nnnK N j ss jjynyy N n ypp },..,2,1{ 1 )()( 1 ),,|()|((log Y αxθx Θα ∑∑ ∑ ∏⎟ ⎠ ⎞⎜ ⎝ ⎛ ∑= == = == K y K y K y N j ss jjynyy N nN nnn ypp 11 1 1 )()( 112 ),,|()|((log.... Θα αxθx ∑∑ ∑ ∏∑∑= == = === K y K y K y N j ss jj K k knkkyk N nN n ypp 11 1 1 )()( 1 , 112 ),,|()|(log(.... Θαδ αxθx ∑∑ ∑ ∏∑∑= == = === K y K y K y N j ss jj K k knkkyk N nN n ypp 11 1 1 )()( 1 , 112 ),,|()|(log(.... Θαδ αxθx ∑∑ ∑ ∏∑∑= == = === K y K y K y N j ss jjyk N n K k knkk N n ypp 11 1 1 )()( , 11 12 ),,|(....)|(log( Θδα αxθx 下面,进一步化简上式。由于 ∑∑ ∑ ∏ == = = K y K y K y N j ss jjyk N n yp 11 1 1 )()( , 12 ),,|(.... Θδ αx ),,|(),,|(...... )()( 11 1,1 )()( 12 11 ss n K y K y K y N njj ss jj K y K y kpyp Nnn ΘΘ αxαx ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∑∑ ∑ ∏∑∑= == = ≠=−+ ),,|(),,|( )()( ,11 )()( ss n N njj K y ss jj kpyp j ΘΘ αxαx∏ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∑= ≠== ),,|( )()( ss nkp Θαx= 在第一个等式和最后一个等式的推导过程中,分别使用了下述等式: ∑ = = K y ss n ss nnyk n n kpyp 1 )()()()( , ),,|(),,|( ΘΘδ αxαx www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 353 1),,|(),,|( 1 )()( 1 )()( =∑=∑ == K k ss j K y ss jj kpyp j ΘΘ αxαx 所以, ),,|()|(log(),;,( )()( 11 )()( ss n N n K k knkk ss kppQ ΘαΘΘ αxθxαα ∑∑= == ),;(),;( )()( 2 )()( 1 ssss QQ ΘΘΘ ααα += (14.4.6) 其中: ),;( )()( 1 ssQ Θαα ∑∑= == N n K k ss nk kp 11 )()( ),,|()log( Θα αx (14.4.7) =),;( )()( 2 ssQ ΘΘ α ),,|())|((log )()( 11 ss n N n K k knk kpp Θαxθx∑∑ == (14.4.8) 这样,我们就完成了 E 步。 EM 算法的 M 步 M步是求解下述最大化问题: ),;(maxarg )()( 11 )1( 1 sss QK i i Θ α ααα = + ∑ = = (14.4.9) ),;(maxarg )()( 2 )1( sss Q ΘΘΘ Θ α=+ (14.4.10) 首先,求解最大化问题(14.4.9)。为此,引进 ),;( )()( 1 ssQ Θαα 的 Lagrange 乘子函数: ⎟ ⎠ ⎞⎜ ⎝ ⎛ −∑+= = 1),;(),;,( 1 )()( 1 )()( K k i ssss QLa αλΘΘλ αααα (14.4.11) 对上式求偏导,并令其为零,得到 ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ =∑ −=∂ ∂ ==+∑=∂ ∂ = = 01),;,( ,...,2,1,0),,|(1),;,( 1 )()( 1 )()( )()( K k l ss N n ss n kk ss La KkkpLa αλ Θλ λΘαα Θλ αα αxαα 解上述方程组,我们有 ⎪⎩ ⎪⎨ ⎧ =∑= −= = + KkkpN N N n ss n s k ,...,2,1,),,|(1 1 )()()1( Θα λ αx (14.4.12) 对于最大化问题(14.4.10),不能像求解混合参数 kα 那样,用密度函数给出它的显式迭代公式。 但是,对于高斯密度而言,仍能给出最大化问题(14.4.10)的显式迭代公式(见下一节)。因此,在一般 情况下,需要使用 16 章给出的优化技术才能得到最大化问题(14.4.10)的数值解。 综合上述讨论,我们得到混合模型的 EM 算法: 给定初始值: )0( lα , )0(Θ ,按下述公式进行迭代直至收敛: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 354 KkkpN N n ss n s l ,...,2,1,),,|(1 1 )()()1( =∑= = + Θα αx ),,|())|((logmaxarg )()( 11 )1( ss n N n K k knk s kpp ΘΘ Θ αxθx∑∑= == + 14.4.2 高斯混合模型 对于高斯混合模型,需要讨论的仅是求解最大化问题(14.4.10)。 令高斯密度函数为 () ⎟ ⎠ ⎞⎜ ⎝ ⎛ −−= − 2 2/12/ 1||||2 1exp det)2( 1),|( kk k Dkkkp ΣΣπ Σ µxµx (14.4.13) 则成份密度参数向量为 )),(),...,,(),,(( 2211 KK ΣΣΣΘ µµµ= 且 2Q 函数为 =),;( )()( 2 ssQ ΘΘ α ),,|())|((log )()( 11 ss n N n K k knk kpp Θαxθx∑∑ == Ckp ss n N n K k knk T knk +∑∑ ⎟ ⎠ ⎞⎜ ⎝ ⎛ −−−−= == − ),,|()()(2 1)log(det2 1 )()( 11 1 ΘΣΣ αxµxµx 其中 C 是与Θ 无关的常函数。 对 2Q 函数关于 kµ 求偏导,并令其为零,有 0αxµxµ α =∑ −=∂ ∂ = −N n ss nknk k ss kpQ 1 )()(1 )()( 2 ),,|()(),;( ΘΣΘΘ 于是,得到 Kk kp kp N n ss n N n ss nn s k ,...,2,1, ),,|( ),,|( 1 )()( 1 )()( )1( = ∑ ∑ = = =+ Θ Θ αx αxx µ (14.4.14) 下面求 )1( +s kΣ 。为此,将 2Q 函数改写成: =),;( )()( 2 ssQ ΘΘ α ()CMtrkpkp K k N n knk ss n N n ss nk +∑ ⎥⎦ ⎤ ⎢⎣ ⎡ ∑−∑ == − = − 11 , 1)()( 1 )()(1 ),,|(),,|()log(det2 1 ΣΘΘΣ αxαx 其中: Ts kn s knknM ))(( )1()1( , ++ −−= µxµx 对 1− kΣ 求偏导,有 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第14章:参数估计 355 = ∂ ∂ −1 )()( 2 ),;( k ssQ Σ ΘΘ α ∑ −−∑− == N n knkn ss n N n ss nkk diagMMkpkpdiag 1 ,, )()( 1 )()( )2)(,,|(2 1),,|()2(2 1 ΘΘΣΣ αxαx *) ∑ −−∑−= == N n knkn ss n N n ss nkk diagMMkpkpdiag 1 ,, )()( 1 )()( )2)(,,|(2 1),,|()2(2 1 ΘΘΣΣ αxαx diagGG −= 2 其中: )(),,|(2 1 , 1 )()( knk N n ss n MkpG −∑= = ΣΘαx 令 0α = ∂ ∂ −1 )()( 2 ),;( k ssQ Σ ΘΘ ,即 02 =− diagGG 。因此,必有 0)(),,|(2 1 , 1 )()( =−∑= = knk N n ss n MkpG ΣΘαx (14.4.15) 于是,得到 ∑ −−∑ = ∑ ∑ = = ++ = = =+ N n ss n Ts kn s kn N n ss n N n ss n kn N n ss n s k kp kp kp Mkp 1 )()( )1()1( 1 )()( 1 )()( , 1 )()( )1( ),,|( ))((),,|( ),,|( ),,|( Θ Θ Θ Θ Σ αx µxµxαx αx αx (14.4.15) 综上所述,我们有高斯混合模型 EM 算法的下述迭代公式: KkkpN N n ss n s l ,...,2,1,),,|(1 1 )()()1( =∑= = + Θα αx (14.4.16) Kk kp kp N n ss n N n ss nn s k ,...,2,1, ),,|( ),,|( 1 )()( 1 )()( )1( = ∑ ∑ = = =+ Θ Θ αx αxx µ (14.4.17) Kk kp kp N n ss n Ts kn s kn N n ss n s k ,...,2,1, ),,|( ))((),,|( 1 )()( )1()1( 1 )()( )1( = ∑ −−∑ = = ++ =+ Θ Θ Σ αx µxµxαx (14.4.18) *) 这里使用了等式: )(2)(),(2)det(log 11 BdiagBBA ABtrAdiagAA A T −+=∂ ∂−=∂ ∂ −− ,见第 9 章。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 15 章:代数方法 356 15.代数方法 计算机视觉中的估计问题,通常是指模型(或变换)以及某个数学实体的估计,这些估计问题 是以实际测量数据为基础的。如果没有测量误差的话,这些估计问题在数学上通常是容易求解的。 如果测量数据存存误差时,给出好的估计却是十分困难的,因为视觉中的大多数估计问题对测量误 差十分敏感。在计算机视觉估计问题的方法中,可分为如下四类:代数方法(基于代数距离的最小 化方法),这一类方法是线性的,所以通常又称为线性估计方法。第二类是几何方法(基于几何距离 的最小化方法),这类方法是非线性的,需要迭代计算,所以通常又称为迭代估计方法。以上两类方 法只适用于测量数据仅有小测量误差情况,而不适用于测量数据中包含错误数据点的情况。第三类 是鲁棒方法,对于测量数据包含错误数据点的情况,这类方法也能给出较好的估计。第四类是统计 方法,是基于概率框架下对模型参数进行估计,它的计算更为复杂、更为精细。在这四类方法中, 线性估计方法是最基本的,由于它不需要复杂的计算,所以在实践被广泛地使用。本章主要介绍线 性估计方法。 15.1估计问题概述 15.1.1 模型 给出模型确切的数学定义是困难的。在计算机视觉中的估计问题,通常是所涉及的变换估计或 其它数学实体的估计,因此本书中的模型是指变换或某个数学实体。下面列举一些在三维计算机视 觉中常见的估计问题。 直线估计 给定平面点集 {( , ) |1 }jjXxyjn=≤≤,估计一条直线 ),,( cba=l 使得点集 X 尽可能地 “接近”该直线,即尽可能地使下述等式成立: 0, ( , )jj jjax by c x y X+ += ∈ (15.1.1) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 15 章:代数方法 357 这一问题通常出现在图像数据的直线拟合中,例如图像边缘点的直线拟合,进而求两条直线的 交点或求空间平行直线在图像平面的隐消点等等。 二次曲线(曲面)估计 给定平面点集 {( , ) |1 }jjXxyjn= ≤≤ ,估计一条二次曲线 C 使得点集 X 尽 可能地“接近”该二次曲线,即尽可能地使下述等式成立: )1,,( jj yx ,0 1 = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ j j y x C (, )jjx yX∈ (15.1.2) 这一问题通常出现在图像数据的二次曲线的图像拟合中,因为二次曲线的图像仍是一条二次曲 线,例如:在基于圆环点的摄像机自标定中,由圆环点的图像点拟合出绝对二次曲线的图像曲线, 即摄像机 IAC。对于二次曲面的估计,也可以给出类似的描述。二次曲面估计也常常出现在三维计 算机视觉的有关问题中,例如在一般射影空间估计绝对二次曲面而获得度量重构。 在上述两个例子中,平面点集 {( , ) |1 }jjXxyjn= ≤≤ 通常也说成是相应模型的点对应集。而等 式(15.1.1)与等式(15.1.2)是由模型关系所确定的。 基本矩阵估计 给定两幅图像的点对应集: 12 2 12{( , ) | ( , ) , ( , ) ,1 }TT jj j jj j jjXxxRyyjn==∈=≤≤xy x y   估计一个矩阵 F 使得数据点它尽可能地“满足”下述等式: (,,)(,1) 0,(,)1 jTT jj j jjf FF X⎛⎞= =∈⎜⎟⎝⎠ yxy x xy    (15.1.3) 三焦张量估计 给定三幅图像的点对应集: 123 123 123{(,,)| (,,), (,,), (,,),1 }jjj j jjj j jjj j jjjXxxxyyyzzzjn====≤≤xyz x y z 估计一个三焦张量 kl it 使得点对应集尽可能地“满足” 下述等式: 0,(, ,)ikl kl j j j jku klv i uvj j j jx yz t Xεε = ∈xyz (15.1.4) 变换估计 给定 N 维空间到 M 维空间的点对应集: 12 12{( , ) | ( , , ) , ( , , ) ,1 }NN MM jj j jj j j jj jXxxxRyyyRjn== ∈=∈≤≤xy x y  ““ 估计一个变换 f 使得点对应集尽可能地“接近”该变换,即尽可能地使下述等式成立: ()0,(,)jj jjf X− =∈yx xy  (15.1.5) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 15 章:代数方法 358 关于变换估计,我们特别感兴趣的是下述一些特殊变换: 1. 三维射影变换: 44)( ×== ijhHf ,此时式(15.1.5)转化为: 0, ( , )11 jj jjjs HX⎛⎞ ⎛⎞= =∈⎜⎟ ⎜⎟⎝⎠ ⎝⎠ yxxy  其中, js 是非零常数因子。令 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= 1 ~ ,1 ~ j j j j yyxx 。消去 js 后,上式可写成下面的形式: 113 223 ()()(,,) 0,(,)()() TT jj j jj jjTT jj j yg HXy ⎛⎞−= =∈⎜⎟⎜⎟−⎝⎠ hx hxxy xyhx hx   (15.1.6) 如:在重构中,将不同视点下重构的三维空间点融合到同一个三维射影空间的问题就涉及 到三维射影变换估计,因为同一物体点在不同的射影坐标系下相差一个射影变换。在基于 三维特征的运动分析中,也同样涉及到三维变换的估计问题。 2.二维射影变换: 33)( ×== ijhHf ,此时式(15.1.5)转化为: (,,) 0,(,)11 jj jj jjg HH X⎛⎞ ⎛⎞= ×= ∈⎜⎟ ⎜⎟⎝⎠ ⎝⎠ yxxy xy   (15.1.7) 这种类型的估计,主要出现在由点对应(或线对应)计算二维单应矩阵的问题中。 3.三维射影空间到二维射影空间的投影变换: 34)( ×== ijpPf ,类似地,此时式(5)转化为: (,,) 0,(,)11 jj jj jjg HP X⎛⎞ ⎛⎞= ×= ∈⎜⎟ ⎜⎟⎝⎠ ⎝⎠ yxxy xy   (15.1.8) 这种类型的估计,主要出现在由摄像机矩阵估计问题中。 对于抽象模型,充当上面各个估计问题的“点对应”角色的数学量,称为抽象模型的测量向量 (或测量数据点)。 15.1.2 模型参数化 模型参数 给定模型 M,令 }),...,,,(|{ 321 k k Rpppp ∈== ppΦ 是 k 维向量集,如果对每一个 Φ∈p 都对 应模型 M 的一个解(或实例)。反之,对每一个模型 M 的解都对应于集Φ 中的一个向量 p,则称 p 为 模型参数向量,其分量都称为模型的参数,集Φ 称为模型的定义域。不难看出,模型的定义域由模 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 15 章:代数方法 359 型参数之间的约束条件所确定。模型的解集合称为模型的值域(或值空间),对于某个确定的参数向 量所对应的解也称为模型的实例。 根据参数向量与模型解之间的对应关系,模型可由它的参数向量来表达。用参数向量来表达给 定的模型,称为该模型的参数化。对于给定的模型,其参数化不是唯一的,在所有的参数化中,具 有最小参数数目的参数化称为模型的最小参数化。最小参数化中的参数个数由模型的自由度所确定。 给定模型 M 的参数化 }|{ kRS ⊂∈= ppΦ ,和一组测量向量 {|1 }jXjn= ≤≤x ,如果测量向量 是精确的,则由模型关系可导致关于参数 p 的一组等式: 0),( =jg xp , j X∈x (15.1.10) 其中: g 是标量函数也可能是向量值映射,由模型规则所确定。当测量向量精确时,可以通过求解 方程组(15.1.10)的非零解而得到参数向量 p 的值,从而获得模型的解。这不是模型估计问题所要研 究的对象。模型估计问题是指:当测量向量不准确(或带有噪声)时,求解参数向量 p 使得式(15.1.10) “尽可能满足”。 如果 g 关于参数向量 p 是线性的,则模型 M 关于参数化Φ 是线性的,否则称为非线性的。同 一个模型关于不同的参数化可能表现出不同性质,如上一节所提到的所有模型对于给定的参数化都 是线性的。但是,对于基本矩阵关于参数化表示(15.1.13)却是非线性的。三维计算机视觉中的大多 数估计问题在适当的过参数化下都是线性的。在本章,假定所讨论的模型在给定的参数化下都是线 性的。 如果模型 M 关于参数化 }|{ kRS ⊂∈= ppΦ 是线性的,则式(15.1.10)可以写成如下形式: 0=pM (15.1.11) 其中矩阵 M 称为测量矩阵。例如:二次曲线估计问题中,模型参数为对称矩阵 C 的上三角的 6 个元 素构成的向量 c,则式(15.1.11)可以表示为 0=cM ,测量矩阵 M 由下式定义: 22 1 11111 22 222222 22 1 1 1nnnnnn xxyyxy xxyyxyC xxyyxy ⎛⎞ ⎜⎟ ⎜⎟= ⎜⎟ ⎜⎟⎜⎟⎝⎠ ###### (15.1.12) 最小配置数与最小配置解 确定模型所需要的测量向量的最小数目称为模型的最小配置数,记为 n。如果给定的 s( n≥ )个 测量向量不能确定模型参数,则称这 s( n≥ )个测量向量是一组退化配置。由 n 个非退化配置的测量 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 15 章:代数方法 360 向量所确定的模型解称为最小配置解。以后,假定所给的测量向量集都是非退化的。最小配置数与 模型的自由度以及模型关系对测量向量导致参数向量的约束数有关。 例 15.1.1:在直线估计中,模型参数向量是非零三维向量 ),,( cba=l 。由于非零三维向量 ),,( cba=l 在相差任一非零常数因子的情况下都确定同一条直线,因此它的定义域是 Φ }1||),,(||:),,{( 2222 2 =++== cbacbacba 模型的值空间是平面上所有直线所构成的二维空间。由于平面直线的自由度等于 2,所以它的最小 参数化中的参数数目等于 2。例如,取 ),1,( ca −=l ,则是直线的一种最小参数化,但在这种最小参 数化中,不包含直线 0=y (即横坐标轴)。直线的任何一种最小参数化表示,实际上是直线的一种非 齐次表示。 例 15.1.2:在二维射影变换 H 估计中,模型参数向量是 3 阶矩阵 H 的 9 个元素,由于二维射影 变换是齐次的,即在相差任一非零常数因子的情况下都表示同一个射影变换,并且变换矩阵 H 是一 个可逆矩阵,因此它的定义域是Φ }0)det(,1|||||{ 33 ≠== × HHH F ,模型的值空间是 3 阶可逆的全体。 由于二维射影变换有 8 个自由度,所以它的最小参数化中的参数数目等于 8。二维射影变换的最小 参数化,也是它的非齐次表示。 例 15.1.3:在基本矩阵估计中,与二维射影变换估计类似,模型参数是 3 阶矩阵的 9 个元素, 与二维射影变换不同的是基本矩阵不是可逆的,而是一个秩为 2 的矩阵。因此在基本矩阵估计中, 模型的定义域是Φ 33{ ||| || 1,det( ) 2}FFF F×===。模型的值空间是秩为 2 的 3 阶矩阵的全体。基本矩 阵有 7 个自由度,因此最小参数化中的参数数目等于 7。基本矩阵的最小参数化表示是它的秩 2 参 数化的非齐次表示。下面给出它的一种最小参数化表示:由于基本矩阵 F 的秩为 2,所以 F 的三个 行向量必线性相关。因此,在一般情况下第三行可由前两行线性表示,同时第三列也可以由前两列 线性表示,于是基本矩阵可表示为下述形式: ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ +++++ + + = )()( fdebhfceagfdebfcea hdgcdc hbgaba F (15.1.13) 其中 TT hgfe )1,,(,)1,,( −−=−−=′ ee 是两幅图像的极点坐标。由于基本矩阵是齐次的,可以置其中 的某个元素等于 1,这样就得到了基本矩阵的最小参数化表示。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 15 章:代数方法 361 15.2直接线性方法 15.2.1 线性计算框架 令 f 是所要估计模型(变换)的参数向量,满足约束条件 1|||| =f 。给定一组测量向量 {|1 }jXjn=≤≤x ,它所对应的测量矩阵记为 mnM × ,定义: ||||),M( ff mnL Md ×= (15.2.1) 为模型的代数距离,其中 |||| ⋅ 是对应向量空间的欧氏范数。 如果测量向量无误差时,则 0),M( =fLd ,因此线性算法是求方程组 0=× fmnM 的非零解。当 测量数据存在误差时, 0),M( ≠fLd ,即方程组 0=× fmnM 不可能有非零解,通常用最小二乘方法 估计模型的解,即最小二乘解。这就是直接线性方法,有时也称为最小二乘估计。最小二乘估计是 求代数距离的平方达到最小的模型参数 f,即求解下述最小化问题: 2min || || || || 1 nmM subject to ×⎧ ⎨ =⎩ f f (15.2.2) 其中: nmM 是由测量数据和所要估计的变换(模型)所确定的矩阵,通常称为测量矩阵;f 是所要估计 的变换(模型)参数向量, |||| ⋅ 是对应向量空间的欧氏范数。 求解最小化问题(15.2.2),等价于在约束 1|||| =f 下求下述方程组的(欧氏范数)最小二乘解: 0=× fmnM (15.2.3) 根据 SVD 分解理论,最小化问题(15.2.2)的解是矩阵 mnM × 的最小奇异值的右奇异向量(见 8.4.4 节)。 因此,直接线性方法的数值计算是非常简单的,可通过 SVD 分解技术来实现。 15.2.2 视觉估计问题 摄像机矩阵 令 (,1) (,1)TTT jj ji=↔=XX xx  是 3D 空间到 2D 图像的一组测量点对应,它们关联于一个摄像 机矩阵: 11 12 13 14 21 22 23 24 31 32 33 34 PPPP PPPPP PPPP ⎛⎞ ⎜⎟= ⎜⎟⎜⎟⎝⎠ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 15 章:代数方法 362 即,当测量数据无误差时,必有 jjj PXx λ= 我们的任务是,从这组测量点对应估计出摄像机矩阵。记 11 12 13 14 21 22 23 24 31 32 33 34(, ,, , , , , , , , , )TPPPPPPPPPPPP=p , 则直接线性方法是在约束 1|||| =p 条件下,求下述方程组的最小二乘解: 0p =×122nM (15.2.4) 其中: =×122nM 111 111 TT T TT T TT T nnn TT T nnn x y x y ⎛⎞− ⎜⎟−⎜⎟ ⎜⎟ ⎜⎟ −⎜⎟ ⎜⎟−⎝⎠ ## # X0 X 0X X X0 X 0X X (15.2.5) 单应矩阵 令{ ( ,1) ( ,1)TT TT jj jj′′=↔=xx xx, j=1,2,…,n}是摄像机关于空间平面的两幅图像间的一组点对 应,这组点对应关联于一个单应矩阵: 11 12 13 21 22 23 31 32 33 HHH HHHH HHH ⎛⎞ ⎜⎟= ⎜⎟⎜⎟⎝⎠ 我们的问题是,从测量点对应 jj xx ′↔ 估计单应矩阵 H。 记 11 12 13 21 22 23 31 32 33(,,,,,,,,)THHHHHHHHH=h ,单应矩阵估计的直接线性方法是在约束条件 1|||| =h 下,求下述方程组的最小二乘解: 092 =× hnM (15.2.6) 其中 92 ×nM 具有如下形式的测量矩阵: 111 111 29 TT T TT T n TT T nnn TT T nn nn x y M x y × ⎛⎞′− ⎜⎟′−⎜⎟ ⎜⎟= ⎜⎟′−⎜⎟ ⎜⎟′−⎝⎠ ## # x0 x 0x x x0 x 0x x (15.2.7) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 15 章:代数方法 363 FOE 当摄像机作纯平移运动时,运动前、后两幅图像的所有对应点的连线必交于一点,该点称为 FOE 点。显然,FOE 点是平移运动的两幅图像的极点。我们的任务是从一组给定的测量点对应 { ( ,1) ( ,1)TT TT jj jj′′=↔=xx xx, j=1,2,…,n},估计 FOE 点。 记 FOE 点为 e,直接线性方法是在约束条件 1|||| =e 下,求下述方程组的最小二乘解: 0e =×3nM (15.2.8) 其中: 1 1 1 1 11 11 2 2 2 2 22 22 3n nn nnnnnn yy xx xyxy y y x x xy xyM yy xxxyxy × ′ ′′′−−+ −⎛⎞ ⎜⎟′ ′′′−−+ −⎜⎟= ⎜⎟ ⎜⎟′ ′′′−−+ −⎝⎠ ## # (15.2.9) 基本矩阵 令{ ( ,1) ( ,1)TT TT jj jj′′=↔=xx xx, j=1,2,…,n}是两幅图像间的一组测量点对应,根据两幅图像间 的极几何,它们必关联于一个基本矩阵: 11 12 13 21 22 23 31 32 33 FFF FFFF FFF ⎛⎞ ⎜⎟= ⎜⎟⎜⎟⎝⎠ 即,当测量数据无误差时,必有 0=′ j T j Fxx 我们的任务是从测量点对应估计出基本矩阵。基本矩阵估计的直接线性方法,先是求解下述最 小化问题: ⎪⎩ ⎪⎨ ⎧ = ∑ ′ = 1||||tosubject )(min 1 2 F n j j T jF F Fxx (15.2.10) 然后通过 SVD 分解技术,以问题(15.2.10)的最小化解在 F-范数意义下的最佳秩 2 矩阵近似作为基 本矩阵的估计,这一步是必要的,因为基本矩阵是一个秩为 2 的矩阵。记 11 12 13 21 22 23 31 32 33(, ,, , , , , , )TFFFFFFFFF=f , 则 8 点算法等价于在约束条件|| || 1=f 下,求下述方程组的最小二乘解: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 15 章:代数方法 364 0f =×9nM (15.2.11) 其中 9×nM 是测量矩阵: 11 11 1 22 22 2 9 TTT TTT n TTT nn nn n xy xyM xy × ⎛⎞′′ ⎜⎟′′⎜⎟= ⎜⎟ ⎜⎟⎜⎟′′⎝⎠ xxx xxx xxx ### (15.2.12) 因此,基本矩阵估计的直接线性方法由下述两个步骤构成: 1. 由 SVD 分解技术,求解矩阵 mnM × 的最小奇异值的单位右奇异向量 *f ; 2. 由向量 *f 得到对应的矩阵 *F ,并对 *F 进行 SVD 分解 VUdiagF ),,( 321 * σσσ= ,得到基 本矩阵的估计: VUdiagF )0,,( 21 σσ= 。 三焦张量 三幅视图之间的对应点以及对应线之间满足三线性关系,并且这种三线性关系囊括在三焦张量 之中.令{}ijk′′′↔↔xx x是三幅图像的一个三点对应,则有三焦张量 qr it 的线性约束关系[1]: 0ijk qr jqu krv i uvxx x tεε′′′ = (15.2.13) 其中张量 jquε 的定义如下: 0, , , 1, 123 , 1, 123 . jqu jq u jqu jqu ε =+ − ⎧⎪⎨ ⎪⎩ 若 , 不相异 若 是 的偶排列 若 是 的奇排列 在等式(15.2.13)中每一个自由指标 u(v)都有 3 种不同的选择,所以一共可得到 9 个三线性关系式, 但是在这 9 个三线性关系式中仅有 4 个是关于 qr it 独立的。 令 ( ,1) ( ,1) ( ,1)TT TT TT′ ′ ′′ ′′=↔=↔=xx x x x x 是三幅视图之间的一组点对应,则由方程(15.2.13) 可以得到如下四个独立的三线性关系式: 13 33 31 11 13 33 31 11 13 33 31 11 111122223333()()()0x xt xxt xt t y xt xxt xt t xt xxt xt t′′ ′′ ′ ′ ′′ ′′ ′ ′ ′′ ′′ ′ ′−+−+−+−+−+−= 13 33 32 12 13 33 32 12 13 33 32 12 111122223333()()()0xyt yxt xt t y yt yxt xt t yt yxt xt t′′ ′′ ′ ′ ′′ ′′ ′ ′ ′′ ′′ ′ ′−+−+−+−+−+−= 23 33 31 21 23 33 31 21 23 33 31 21 1 1 11 1 1 11 1 1 11()()()0x xt xxt yt t y xt xxt yt t xt xxt yt t′′ ′′ ′ ′ ′′ ′′ ′ ′ ′′ ′′ ′ ′−+−+−+−+−+−= 23 33 32 22 23 33 32 22 23 33 32 22 1 1 11 1 1 11 1 1 11()()()0xytyytytt yytyytytt ytyytytt′′ ′′ ′ ′ ′′ ′′ ′ ′ ′′ ′′ ′ ′− + −+ − + −+ − + −= 令 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 15 章:代数方法 365 111 222 427 333 444 xy xy xy xy × ⎛⎞ ⎜⎟ ⎜⎟= ⎜⎟ ⎜⎟ ⎝⎠ CCC CCC CCC CCC M (15.2.14) 其中: 1 (1 0 0 0 0 0 )x xxx′′ ′ ′ ′′=− −C , 2 (0 1 0 0 0 0 )yxxy′′′′′′= −−C , 3 (0 0 0 1 0 0 )x yyx′′ ′ ′ ′′=− −C , 4 (0 0 0 0 1 0 )yyyy′′′′′′= −−C , 则上述四个独立的三线性关系可以写成如下的矩阵形式 427271 410M × ××=t 其中: 11 12 13 21 22 23 31 32 33 11 12 31 32 33 11111 1 11 1 22 33 3( , , , , , , , , , , ,..., , , )Tttttttttttt ttt=t 。因此,给定三幅视图的 n 组点 对应,可得到 4n 个关于三焦张量独立的线性方程: 427 0nM × =t (15.2.15) 直接线性算法就是在约束条件 || || 1=t 下求方程组(15.2.15)的最小二乘解.由于三焦张量共有 27 个 参数,至少需要三幅图像中的 7 组对应点才能在相差一个公共因子的意义下确定三焦张量。 15.3 因子化线性方法 直接线性方法的主要不足之处是测量数据的较小误差可能会导致较坏的估计结果。发生这种情 况的主要原因有:(1) 测量矩阵的元素是测量数据的非线性函数(参见式(15.2.5),(15.2.7),(15.2.,9), (15.2.,12)),从而放大了测量误差,使得测量矩阵严重地偏了真实矩阵,因此导致直接线性方法的估 计结果与真实值有很大偏差。(2)测量矩阵可能有较大的条件数,导致估计结果的不稳定性。 本节所介绍的因子化线性方法,旨在降低测量矩阵元素关于测量数据的非线性,以抑制测量误 差对估计结果的影响,从而克服直接线性方法的第一个缺点。下一节将克服直接线性方法第二个缺 点的归一化线性方法。 15.3.1 因子化计算框架 如果测量矩阵 nmM × 中的元素是测量数据的多重线性函数,则称相应的估计问题为多重线性估计 问题,如:估计基本矩阵,摄像机矩阵和单应矩阵等为二重线性估计问题;估计三焦张量则是三重 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 15 章:代数方法 366 线性估计问题。因子化线性方法是针对多重线性估计问题而设计的。 因子化线性方法不是根据直接线性方法的测量矩阵直接求解估计问题,而是先将直接线性方法 的测量矩阵分解为若干个因子矩阵的乘积,使得因子矩阵的元素是某一幅图像的测量数据值或者是 常量;然后引进中间变量构造新测量矩阵,并使得新测量矩阵的元素仅是某个测量数据值或者是常 量;最后求解相应线性问题的最小二乘解。因子矩阵的个数等于线性估计问题的重数,如在估计基 本矩阵因子化方法中,有 2 个因子矩阵;对于三焦张量,则有 3 个因子矩阵。因子化线性方法不仅 仅是一种线性方法,更重要的是它能降低测量矩阵元素的关于测量数据的非线性,从而有效地抑制 了测量误差对估计结果的影响。具体地说,一般估计问题的因子化方法主要由下述三个步骤所构成: 1. 分解直接线性方法中的测量矩阵 mnM × 为下述形式: )()2()1( ... k mn AAAM =× (15.3.1) 其中: )( jA 的每一个元素或者是某个测量数据值或者是一个常量; 2. 引进中间变量: )2()2()1()1()1()2()()1( ,, −−− === kkkk AAA ffffff “ ,并构造新测量矩阵: () (1) (2) (1) k k k new AI AI M A I A − − ⎛⎞− ⎜⎟−⎜⎟ ⎜⎟= ⎜⎟ −⎜⎟ ⎜⎟⎝⎠ % % (15.3.2) 3. 利用 SVD 分解技术,在约束条件 1||~|| =f 下,求下述线性方程组的(欧氏范数)最小二乘解: 0~ =fnewM ( (1) ( 1)(, , , )kT−= “fff f ) (15.3.3) 在测量数据无误差时,由方程组(15.3.3)的最小二乘解 *f 与方程组(15.2.3)的最小二乘解相差一 个非零因子,即两种方法的估计结果是一致的。在测量数据出现较小误差时,测量矩阵 mnM × 可能 严重地偏离真实系数矩阵,而测量矩阵 newM 仍接近对应的原始真实系数矩阵,这是为什么因子化线 性方法要优于直接算法的原因。 15.3.2 视觉估计问题 摄像机矩阵 1. 将测量矩阵(15.2.5)分解为下述形式: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 15 章:代数方法 367 4141 4141 212 28 812 44 44 T T n nn n T nn T nn IxI IyI MAB IxI IyI × ×× −⎛⎞⎛⎞ ⎜⎟⎜⎟−⎜⎟⎜⎟ ⎜⎟⎜⎟==⎜⎟⎜⎟−⎜⎟⎜⎟ ⎜⎟⎜⎟−⎝⎠⎝⎠ ## #% 0X 0X 0X 0X (15.3.4) 2. 引进中间变量 pg 128 ×= nB ,构造新测量矩阵: 812 8 212 28 nn new nnn BIM A × ×× −⎛⎞= ⎜⎟⎝⎠0 (15.3.5) 3. 在约束条件 1||~|| =p 下,求下述方程组的最小二乘解: 0p =~ newM ⎛⎞⎛⎞=⎜⎟⎜⎟⎝⎠⎝⎠  pp g (15.3.6) 中间变量的几何意义 不难计算 8( 1) 1 8( 1) 1 4 4 (1) (3) 44 (2) (3) 8( 1) 1 0 0 j TT jjj j TT j j j g gxx y y g −+ −+ −+ ⎛⎞ ⎜⎟ − ⎛⎞−⎛⎞⎜⎟== =⎜⎟⎜⎟⎜⎟⎜⎟ − −⎝⎠⎝⎠⎜⎟⎜⎟⎝⎠ # IIppgpII pp (15.3.7) 其中 )( jp 是摄像机矩阵 P 的第 j 行所构成的行向量。由于空间平面 T j T x )3()1( pp − 是过图像点 jx 的 铅直线的反投影平面,而 T j T y )3()2( pp − 是过图像点 jx 的水平直线的反投影平面,所以 jg 是摄像机中 心与图像点 jx 的连线,如图 15.3.1 所示。综上所述,当测量数据无误差时,必有 T j jT j ⎛⎞ =⎜⎟⎜⎟⎝⎠ X g0X 。 图 15.3.1: 中间变量的几何意义(摄像机矩阵) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 15 章:代数方法 368 单应矩阵 1. 将测量矩阵(15.2.7)分解成下述形式: 3131 3131 29 26 69 33 33 T T n nn n T nn T nn IxI IyI MAB IxI IyI × ×× ′−⎛⎞⎛⎞ ⎜⎟⎜⎟′−⎜⎟⎜⎟ ⎜⎟⎜⎟==⎜⎟⎜⎟′−⎜⎟⎜⎟ ⎜⎟⎜⎟′−⎝⎠⎝⎠ ## #% 0x 0x 0x 0x (15.3.8) 2. 引进中间变量 hg 96 ×= nB ,构造新测量矩阵: 69 6 29 26 nn new nnn BIM A × ×× −⎛⎞= ⎜⎟⎝⎠0 (15.3.9) 3. 在约束条件 1||~|| =h 下,求下述方程组的最小二乘解: 0h =~ newM ( ⎛⎞= ⎜⎟⎝⎠  hh g ) (15.3.10) 图 15.3.2: 中间变量的几何意义(单应矩阵) 中间变量的几何意义 由于 2( 1) 1 3 3 (1) (3) 2( 1) 1 3 3 (2) (3) 10 01 TT jj jj TT jj jj IxI xx HIyI yy −+ −+ ′′−−⎛⎞′−⎛⎞⎛ ⎞ ⎛ ⎞===⎜⎟⎜⎟⎜ ⎟ ⎜ ⎟⎜⎟′′−−′−⎝⎠⎝ ⎠ ⎝ ⎠⎝⎠ g0hhhg0 hh 而矩阵 10 01 j j x y ′−⎛⎞ ⎜⎟′−⎝⎠ 的两行分别是通过点 jx′ 的铅直线与水平线,所以 1)1(21)1(2 , +−+− jj gg 分别是过点 jx′ 的铅直线与水平线 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 15 章:代数方法 369 在第一幅图像上的对应直线(如图 15.3.2所示)。如果点对应 jj xx ′↔ 无误差的话,则 1)1(21)1(2 , +−+− jj gg 必相交于点 jx ,即 2( 1) 1 2( 1) 1 TT jj TT jj −+ −+ ⎛⎞⎛⎞=⎜⎟⎜⎟⎜⎟⎝⎠⎝⎠ gx0 0g0x 。 基本矩阵 1. 将测量矩阵(15.2.12)分解成: 9×nM 933 ××= nnn BA , (15.3.11) 其中: 1 2 3 3 0 000 0 000 00 00 0000 T T T nn T n A × ⎛⎞′ ⎜⎟′⎜⎟ ⎜⎟= ′⎜⎟ ⎜⎟ ⎜⎟′⎝⎠ ###%# x x x x , 1 1 1 2 2 39 2 00 00 00 00 00 00 00 00 00 T T T T T n T T n T n T n B × ⎛⎞ ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟= ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟⎝⎠ ### x x x x x x x x x ; 2. 引进中间变量 fg 93 ×= nB ,构造新测量矩阵: 39 3 93 nn new nnn BIM A × ×× −⎛⎞= ⎜⎟⎝⎠0 (15.3.12) 3. 由 SVD 分解技术,在约束条件下 1||~|| =f 下,求下述方程组的最小二乘解: 0fM =~ new ( ⎛⎞= ⎜⎟⎝⎠  ff g ) (15.3.13) 即,方程组(15.3.13)的最小二乘解 * * * ⎛⎞= ⎜⎟ ⎝⎠  ff g 是测量矩阵 newM 的最小奇异值的右奇异向 量; 4. 由向量 *f 得到对应的矩阵 *F ,并对 *F 进行奇异值分解: VUdiagF ),,( 321 * σσσ= ,最后 得到基本矩阵的估计: VUdiagF )0,,( 21 σσ= 。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 15 章:代数方法 370 中间变量的几何意义 记 1 2 39n n B × ⎛⎞ ⎜⎟ ⎜⎟==⎜⎟ ⎜⎟ ⎝⎠ # g ggf g , 3( 1) 1 3( 1) 2 3( 1) 3 ,1,2,..., j jj j g g jn g −+ −+ −+ ⎛⎞ ⎜⎟==⎜⎟ ⎜⎟⎝⎠ g 由于, 3( 1) 1 3( 1) 2 3( 1) 3 T jj T jjj T jj g g F g −+ −+ −+ ⎛⎞⎛⎞ ⎜⎟⎜⎟==⎜⎟⎜⎟ ⎜⎟⎜⎟⎝⎠⎝⎠ x x f x x , (15.3.14) 所以,当数据无误差时,中间变量 g 是第一幅图像点在第二幅图像上的对应极线。 最小代数残差 记 Lsf 是方程组(15.2.3)在约束条件 1|||| =f 下的最小二乘解,对应的矩阵记为 LsF ,则方程组(15.2.3)的最小代数残差为: ∑ ′== = × n j jLs T jLSnLs FMr 1 22 9 )(|||| xxf 令 LsnB fg 93ˆ ×= , 2 1 ˆˆ1|||| Ls⎛⎞= ⎜⎟⎝⎠+  ff gg ,则 1||~|| =f ,且 =2||~|| fnewM 2||ˆ||1 1 g+ 2 39 3 93ˆ nnLs nnn BI A × ×× −⎛⎞⎛⎞ ⎜⎟⎜⎟⎝⎠⎝⎠ f 0 g = 2||ˆ||1 1 g+ )||ˆ||||ˆ(|| 2 3 2 93 ggf nnLsn AB ×× +− = 2||ˆ||1 1 g+ )||(|| 2 933 Lsnnn BA f×× = 2||ˆ||1 1 g+ ∑ ′ = n j jLs T j F 1 2)( xx Lsr< 所以,有 LsnewLs rMr <= = 2 1||~|| ||~||min~ ff (15.3.15) 这说明,方程组(15.3.13)的最小代数残差总小于方程组(15.2.3)的最小代数残差。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 15 章:代数方法 371 三焦张量 按照因子化计算框架,首先需要将三焦张量测量矩阵 427nM × 分解为三个因子的乘积,使得每个 因子矩阵的每一元素是某一幅图像的测量数据或者是一个常量。令 ()()()()10 , 01 , 10 , 0 1TTTTx yxy′ ′ ′ ′ ′′ ′′ ′′ ′′=−=− =− =−UV U V 显然 ′U 和 ′V 分别是第二幅视图中过点 ′X 的铅直线和水平线; ′′U 和 ′′V 分别是第三幅视图中过点 ′′X 的铅直线和水平线。不难看出: 1 (1 0 0 0 0 0 ) TTxxxx′′′′′′′′′=− − = ⊗CUU, 2 [01 0000 ] TTyxxy′′′′′′′′′=− −=⊗CUV, 3 [00010 0 ] TTxy yx′′′ ′′′′ ′′=− −=⊗CVU, 4 [00001 0 ] TTyyyy′′′′′′′′′=− −=⊗CVV*). 因此,(15.2.14)式可以写成: 427 TT T TTT TT T TT T M × ⎛⎞′ ′′⊗⊗ ⎜⎟′ ′′⊗⊗⎜⎟= ⎜⎟′ ′′⊗⊗⎜⎟⎜⎟′ ′′⊗⊗⎝⎠ XU U XU V XV U XV V 3 3 4 3 3 () TT TT T TT TT I II I I ⎛⎞′ ′′⊗⊗ ⎜⎟′ ′′⊗⊗⎜⎟=⊗ ⎜⎟′ ′′⊗⊗⎜⎟⎜⎟′ ′′⊗⊗⎝⎠ UU UVX VU VV 由于 399 23 6 399 () () TT T T TT TT T T IIIII I III ⎛ ⎞ ⎛⎞ ⎛⎞′′′ ′′ ′′⊗⊗ ⊗ ⊗′′=⊗⊗ =⊗⎜ ⎟ ⎜⎟ ⎜⎟⎜ ⎟ ⎜⎟ ⎜⎟′′′ ′′ ′′⊗⊗ ⊗ ⊗⎝ ⎠ ⎝⎠ ⎝⎠ UU U UUU UV V V 和 399 23 6 399 () () TT T T TT TT T T IIIII I III ⎛⎞ ⎛⎞⎛⎞′′′ ′′ ′′⊗⊗ ⊗ ⊗′′=⊗⊗ =⊗⎜⎟ ⎜⎟⎜⎟⎜⎟ ⎜⎟⎜⎟′′′ ′′ ′′⊗⊗ ⊗ ⊗⎝⎠ ⎝⎠⎝⎠ VU U UVV VV V V 所以,可得到 69 427 4 69 () TT T TT IIMI II× ⎛⎞⎛⎞′ ′′⊗⊗=⊗ ⎜⎟⎜⎟⎜⎟⎜⎟′ ′′⊗⊗⎝⎠⎝⎠ UUX VV (15.3.16) 因此,给定三幅图像的 n 组点对应{}j jj′ ′′↔ ↔XXX,相应的三焦张量测量矩阵 427n×M 能够被分解为: 427nM × = 41212181827nn nn nPQ L××× (15.3.17) 其中 41241424(,,...,)TT T nn nPdiagII I× =⊗⊗⊗XX X, *) ⊗ 表示矩阵的直积,见 9.4 节。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 15 章:代数方法 372 61 62 6 12 18 61 62 6 , ,..., TT T n nn TT T n II IQdiag II I× ⎛⎞⎛⎞⎛⎞⎛⎞′ ′′⊗⊗ ⊗= ⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟′ ′′⊗⊗ ⊗⎝⎠⎝⎠⎝⎠⎝⎠ UU U VV V , 91 91 92 18 27 92 9 9 T T T T n T n T n I I I L I I I × ⎛⎞⎛⎞′′⊗⎜⎟⎜⎟⎜⎟′′⊗⎜⎟⎝⎠ ⎜⎟⎛⎞′′⊗⎜⎟⎜⎟⎜⎟⎜⎟= ′′⊗⎝⎠⎜⎟ ⎜⎟ ⎜⎟⎛⎞′′⊗⎜⎟⎜⎟⎜⎟⎜⎟′′⊗⎝⎠⎝⎠ U V U V U V # 显然,因子矩阵 412nnP × 、 12 18nnQ × 和 18 27nL × 的元素是图像的测量数据或者是一个常量,并且 412nnP × ( 12 18nnQ × , 18 27nL × )分别仅与第一(二、三)幅视图相关。 引进中间变量 18 27nL ×=ht 和 12 18nnQ ×=lh,构造新的测量矩阵: 18 27 18 18 34 (30 27) 12 18 12 12 412 nnn nn nn nn nn LI MQI P ×× ×+ × × × −⎛⎞ ⎜⎟=−⎜⎟⎜⎟⎝⎠  (15.3.18) 则因子化算法是在约束条件|| || 1=t 下,求下述方程组的最小二乘解: 34 (30 27) 0nnM ×+ =t  ( (, ,)TTTT=tthl ) (15.3.19) 因此通过对矩阵 34 (30 27)nnM ×+  进行 SVD 分解,在相差一个比例因子意义下得到三焦张量 qr it 。 中间变量的几何意义 令 ( )18 27 1 2 TTT T nnL ×==hthhh“ , 18,1,2,...,j R jn∈=h ,则有 311 322 3339 9 131 232 333 () () ()() ()() () () T j j T j j TT j jj j T Tj jj T jj T jj I T I T I TI I TI TI TI ⎛⎞⎛⎞′′ ′′⎛⎞⊗⎜⎟⎜⎟⎜⎟′′ ′′⊗⎜⎟⎜⎟⎜⎟ ⎜⎟⎜⎟⎜⎟′′ ′′⊗⎛⎞′′⊗ ⎝⎠⎝⎠⎜⎟== =⎜⎟⎜⎟⎜⎟′′⊗ ′′⎛⎞⎛′′⊗⎝⎠⎜⎟⎜⎟⎜⎜⎟′′′′⊗⎜⎟⎜⎜⎟⎜⎟⎜⎜⎟′′′′⊗ ⎝⎝⎠⎝⎠ Ut U Ut U Ut UUth Vt VVt VVt VVt 1 2 j j ⎛⎞ ⎜⎟ ⎜⎟ ⎜⎟⎛⎞⎜⎟⎜⎟⎜⎟⎜⎟⎞ ⎝⎠⎜⎟⎟⎜⎟⎟⎜⎟⎟⎜⎟⎠⎝⎠ h h (15.3.20) 其中 11 12 13 21 22 23 31 32 33[,,, , , ,, , ],1,2,3T i iiiiiiiiittttttttt i==t , 11 12 13 21 22 23 31 32 33 ,1,2,3 iii iiii iii ttt Tttti ttt ⎛⎞ ⎜⎟==⎜⎟ ⎜⎟⎝⎠ 。显然,向量 jh 是由第三幅视图 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第 15 章:代数方法 373 中过点 j′′X 的铅直线 j′′U 和水平线 jV′′ 的两个反向投影平面诱导的单应 1jh 和 2jh 所构成的, 1,2,...,j n= 。 令 ()12 12 18 1 2 , , 1,2,...,TTT T nn n jQRjn×== ∈=lhllll“ ,则 31 1632 2631 32 () (),1,2,...,() () T jj TT jjjj j TT jjjj T jj I IIj nII I ⎛⎞′⊗ ⎜⎟⎛⎞′′⊗⎛⎞⊗⎜⎟== =⎜⎟⎜⎟⎜⎟⎜⎟′′⊗⊗⎝⎠⎝⎠⎜⎟⎜⎟′⊗⎝⎠ Uh hUUhl hVVh Vh . (15.3.21) 因此,向量 jl 是由第二幅视图中过点 j′X 的铅直线 j′′U 和水平线 j′V 在单应 1jh 和 2jh 作用下的像直线构 成的,其中 1,2,...,j n= 。 最小代数残差 记LSt 是方程组(15.3.19)在约束条件 || || 1=t 下的最小二乘解,则方程组 (15.3.1,9)的最小代数残差为: 2 427LS n LSrM×= t 令 18 27 ˆ nLSL ×=ht, 12 18 ˆˆnnQ ×=lh, 22 1 ˆ ˆˆ1 ˆ ⎛⎞ ⎜⎟= ⎜⎟ ⎜⎟++⎝⎠ LSt th hll  ,则 t1= ,并且有 2 18 27 18 18 2 34 (30 27) 12 18 12 1222 412 1 ˆ ˆˆ1 ˆ nnn nn nn nn nn LI MQI P ×× ×+ × × × ⎛⎞−⎛⎞⎜⎟⎜⎟=−⎜⎟⎜⎟⎜⎟⎜⎟++⎝⎠⎝⎠ LSt th hl l   222 18 27 12 18 4 1222 2 41222 2 4121218182722 2 42722 1 ˆˆˆˆ() ˆˆ1 1 ˆ ˆˆ1 1 ˆˆ1 1 ˆˆ1 nLS nn nn nn nn nn n LS nLSLS LQP P PQ Lt Mr ××× × ××× × =−++ ++ ≤ ++ = ++ =< ++ th h-l l hl l hl hl t hl 所以, 2 2 34 (30 27)1 minLSnnLSrM r×+= === −+ −=∑∑ ∑w,1 ( ) ( ) ,所以 ⊥w 1 ,于是我们有 2222 00f xy s sn fxy=+ = +≥ =ww w( , ) || 1 || || || || || ( , ) 这样,最小化问题(16.1.4)归结为下述最小化问题: ⎪⎩ ⎪⎨ ⎧ =+ ∑ −+− = 1tosubject ))()((min 22 1 2 ba yybxxa n j jj (16.1.5) 这个最小化问题的解是矩阵 ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ −− −− −− ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ −− −− −− = yyxx yyxx yyxx yyxx yyxx yyxx M nn T nn #### 22 11 22 11 的最小特征值的单位特征向量。 综合上述讨论,可以看出直线几何估计的算法是简单的,它存在闭合形式的解。 二次曲线 点 Tyx )1,,(=x 到二次曲线 C 的几何距离被定义为 }0|||min{||),( =−= yyyxx CCd T G 假定点集 {( , ,1) |1 }jjXxy jn=≤≤是来自一条二次曲线上点的测量。几何估计方法是求解一条 二次曲线 C 使测量点到它的几何距离平方和达到最小,即求解下述最小化问题: ∑ = n j jGC Cd 1 ),(min x (16.1.6) 由于几何距离 ),( CdG x 没有显式的解析表达,上述最小化问题在数学上缺乏可操作性。因此,二次 曲线的几何估计常通过求解下面的最小化问题来实现: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 379 ⎪⎩ ⎪⎨ ⎧ = ∑ − = 0ˆˆtosubject ||ˆ||min 1 2 }ˆ,{ j T j n j jjC C j xx xxx (16.1.7) 可见,二次曲线的几何估计比直线的几何估计要复杂得多,不仅需要优化二次曲线参数,同时还需 要优化测量数据点。因此,在二次曲线的几何估计过程中,需要使用非线性最优化迭代技术。 16.1.2 几何距离最小化 类比直线与二次曲线估计的几何方法,可以给出一般模型估计的几何方法。 对于一般模型 M,对模型参数向量 Φ∈p 的实例 pM 可以看作是高维空间 NR 中一张曲面,这 张曲面通常是某个方程(组)的解集: {|M() 0}Ψ = =ppxx (16.1.8) 因此,模型 M 可以看作是高维空间 NR 中某类曲面的集合。 给定模型 M 的一组测量向量 {|1 }j j n=≤≤Xx ,估计模型 M 的代数方法是寻找一个模型参数 向量 p 使得代数距离平方和达到最小: 2n 1j ||)(M||min ∑ = jxpp 。 点 NR∈x 到模型 M 的几何距离被定义为点 NR∈x 到曲面 pΨ 的欧氏距离 ),M( xpGd ,即 }0)(M|||min{||)M,( =−= yyxx ppGd (16.1.9) 估计模型 M 的几何方法是寻找一个模型参数向量 p 使得几何距离平方和最小化: ⎪⎩ ⎪⎨ ⎧ ∈ ∑ = Φp x pp tosubject )M,(min 1 2n j jGd (16.1.10) 一般模型 M 的几何估计需要非常复杂的计算,没有直线的几何估计那样简单,这是因为一般模 型的几何距离 ),M( xpGd 往往没有解析表达式,例如二次曲线的几何距离就没有解析表达式。 在几何距离 ),M( xpGd 没有解析表达式的情况下,为了使几何方法在数学上易于操作,需要将 最小化问题(16.1.10)转换为另一种等价形式。如果最小化问题(16.1.10)的解为 0p ,令 0 ˆ px Ψ∈j 使得 ),(M||ˆ|| 0 jGjj d xxx p=− ,则必有 ∑∑−= == n j n j jjjGd 11 22 ||ˆ||),(Mmin xxxpp (16.1.11) 且 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 380 njj ,...,2,1,0)ˆ(M 0 ==xp (16.1.12) 反之,如果 0p Φ∈ ,且 jxˆ 满足式(16.1.11)和(16.1.12),则 0p 必为最小化问题(16.1.10)的解。因此, 几何估计等价于求解下述最小化问题: ⎪⎩ ⎪⎨ ⎧ ==∈ ∑ − = njj n j jjj ,...,2,1,0)ˆ(M,tosubject ||ˆ||min 1 2 }ˆ,{ xp xx p xp Φ (16.1.13) 最小化几何距离 ||ˆ|| xx − 的向量 xˆ 是曲面 pΨ 上最接近测量 x 的点,因曲面 pΨ 的非线性,所以 xˆ 不能被直接地估计,需要通过迭代技术来实现。几何方法不仅要优化模型参数,同时还需要优化测 量数据,这使得几何方法通常是求解一个众多变量的非线性优化问题。 Sampson 近似 Sampson 在“ 曲 面 pΨ 的每点附近都能被很好的线性近似”的假定下,提出了估计点 xˆ 的一阶近 似的思想,将最小化代价函数化为仅与模型参数有关的函数,得到了一种近似几何估计方法,通常 称为 Sampson 近似。下面介绍这种方法。 测量点 x 通常使得 0)(M ≠xp ,我们希望在 x 附近寻找一点 xxx ∆+=ˆ 使得 0)(M =+ xp x ∆ 为此,在 x 附近, )(M xp 用它的一阶 Taylor 展开式来近似: xppxp xxx ∆∆ ⋅+=+ )()(M)(M J (16.1.14) 其中 xx p p ∂ ∂ = M )(J 是曲面 pM 的 Jacobi 矩阵。于是,我们有 0)()(M =+ xpp xx ∆J 即 )(M)( xx pxp −=∆J (16.1.15) 这样,现在所面临的问题是 ⎪⎩ ⎪⎨ ⎧ −= )(M)(tosubject ||||min 2 xx pxp x ∆ ∆ J (16.1.16) 求解这种问题的标准方法是 Lagrange 乘子法。在引进 Lagrange 乘子 2 λ 后,(16.1.16)化为最小 化下述函数: ( ))(M)(2 xxλ pxpxx +−= ∆∆∆ Jf TT (16.1.17) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 381 先求 f 关于 x∆ 的导数,并令其为零,我们有 0)(22 =− xλ px JT∆ 因此, λxpx TJ ))((=∆ (16.1.18) 再求 f 关于 λ 的导数,我们有 0)(M)( =+ xx pxp ∆J (16.1.19) 从式(16.1.18)和(16.1.19),得到 )(M))()(( xλxx ppp −=TJJ 于是,有 )(M]))()(([ -1 xxxλ ppp TJJ−= 将上式代入式(16.1.18),得到 )(M]))()(()[( -1 xxxx ppppx TJJJ−=∆ 因此, )(M]))()(()[(M||ˆ|| -12 xxxxxx ppppxx TTT JJ==− ∆∆ (16.1.20) 根据上面的讨论,一般模型的 Sampson 近似是求解下述最小化问题: ∑ ⋅ = n j j T jjj T JJ 1 1- )(M]))(()()[(Mmin xxxx ppppp (16.1.21) 其中: xx p p ∂ ∂ = M )(J 是曲面 pM 的 Jacob 矩阵。这里的代价函数仅与模型参数 p 有关。 注意:由 Sampson 近似得到测量点 x 的估计 xˆ 一般不严格满足 0)ˆ(M =xp ,因为它仅是曲面 pM 上距测量点 x 的最近点 x 的一阶近似,如下图 16.1.1 所示。 图 16.1.1 Sampson 近似 测量点 x Sampson 近似 xˆ 真实点 x www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 382 例:考虑二次曲线的 Sampson 近似。假定点集 }1|)1,,({ njyx jjj ≤≤=x 是来自一条二次曲线 C 的测量数据点集。由于 xxx CT C =)(M ,不难计算: ))(,)((2)(,)()( 21 xxxxxxx CCy C x CJ TT C =⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∂ ∂ ∂ ∂= 因此, )(M)]()()[(M||ˆ|| -12 xxxxxx xx C T CC T C T JJ ⋅==− ∆∆ ))()((4 )( 2 2 2 1 2 xx xx CC CT + = 所以,二次曲线的 Sampson 近似是求解下述最小化问题: ∑ += n j jj j T j C CC C 1 2 2 2 1 2 )()( )( min xx xx (16.1.22) 16.2 在视觉问题中的应用 16.2.1 单应矩阵 给定两幅图像间的单应矩阵: 11 12 13 21 22 23 31 32 33 HHH HHHH HHH ⎛⎞ ⎜⎟= ⎜⎟⎜⎟⎝⎠ 令 TT xxxx )1,,()1,,( 2121 ′′=′↔= xx 是它的点对应,记 11 12 13 21 22 23 31 32 33(,,,,,,,,)THHHHHHHHH=h 则有 M( ) 0 TT T H TT T x y ⎛⎞′−≡ =⎜⎟′−⎝⎠ x0 xXh 0x x (16.2.1) 其中 4),,,( Ryxyx T ∈′′=X 被称为测量空间的点,它是由点对应的非齐次坐标构成的 4 维向量。实 际上, M( )H X 是 3 维向量 xx H×′ 的前两个分量,这里仅考虑前两分量的理由是第三个分量为前两 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 383 个分量的线性组合。所以,单应矩阵 H 可以看作是 4 维测量空间中两个二次曲面的交集: }0)(M|{ H 4 =∈= XX RS H (16.2.2) 假定{(,,1)(,,1)TT jjj jjjxy xy′′′=↔=xx, j=1,2,…,n}是来自单应矩阵 H 的一组测量对应点,即我 们有单应矩阵 H 的一组测量向量{ T jjjjj yxyx ),,,( ′′=X ,j=1,2,…,n}。由这组测量向量估计单应矩阵 H 的几何方法是求解下述最小化问题: ⎪⎩ ⎪⎨ ⎧ == ∑ − = njX X jH n j jjXH j ,...,2,1,0)(Mtosubject ||ˆ||min 1 2 }ˆ,{ X (16.2.3) 由于 22222 )ˆ()ˆ()ˆ()ˆ(||ˆ|| jjjjjjjjjj yyxxyyxxX ′−′+′−′+−+−=−X 22 ||ˆ||||ˆ|| jjjj xxxx ′−′+−= 并且 0)ˆ(M =jH X ⇔ 0ˆˆ =×′ jj Hxx 所以,式(16.2.3)可改写成: ⎪⎩ ⎪⎨ ⎧ ==×′ ∑ ′−′+− = ′ njH jj n j jjjjH jj ,...,2,1,0ˆˆtosubject ||ˆ||||ˆ||min 1 22 }ˆ,ˆ,{ xx xxxxxx (16.2.10) 因此,几何方法是从一组测量点对应 }{ jj xx ′↔ 确定一组与单应矩阵 H 完全相匹配的点对应 }ˆˆ{ jj xx ′↔ ,并使得它们的重投影 jj HH xx ˆ,ˆ1 ′− 与原始测量点之间的距离平方和最小,如图 16.2.1 所示。即几何方法等价于求解下述最小化问题: ∑ ′+′ = − ′ n j jjjjH HdHdjj 1 212 }ˆ,ˆ,{ )),ˆ(),ˆ((min xxxxxx (16.2.4) 图 16.2.1 单应几何估计 式(16.2.4)通常称重投影误差最小化。重投影误差最小化方法是计算机视觉估计问题的常用方 x x’ H xˆ x′ˆ 1−H www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 384 法。上面分析表明,对于单应矩阵估计,几何方法与重投影误差最小化方法是等价的。 Sampson 近似 由(16.2.1)式,容易计算出测量点 X 与 Sampson 估计 Xˆ 之间的距离: )(M]))()(()[(M||ˆ|| -12 XXXXXX H T HH T H JJ=− 其中: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −−−′−′− −−−′−′−= 33323132223121 33323132123111 0 0)( HyHxHHyHHyH HyHxHHxHHxHJ H X M( ) TT T H TT T x y ⎛⎞′−≡ ⎜⎟′−⎝⎠ x0 xXh 0x x 所以,从一组测量向量{ T jjjjj yxyx ),,,( ′′=X ,j=1,2,…,n},估计单应矩阵的 Sampson 近似是求解下 述最小化问题: ∑ = n j jH T jHjHj T HH JJ 1 1- )(M]))()(()[(Mmin XXXX (16.2.4) 16.2.2 基本矩阵 对一个给定的基本矩阵 F 和任一点对应 TT yxxx )1,,()1,,( ′′=′↔= xx ,必有 0=′ xx T F 令 4),,,( Ryxyx T ∈′′=X ,则上式可改写成下面的形式 01)1,()( =⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= XXX F T F Mg 其中 ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = 3323133231 232221 131211 322212 312111 2 00 00 00 00 fffff fff fff fff fff M F (16.2.5) 由基本矩阵的性质,可以证明 rank( FM )=4,因此 Fg (X)=0 定义了 4 维空间中的一个锥面。 令 { (, ,1) (, ,1)TT jjj jjjxy xy′′′=↔=xx, j=1,2,…,n} 是两幅图像间的一组测量点对应,记 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 385 (, ,, )T jjjjjx yxy′′=X , j=1,2,…,n,它是测量空间 4R 的一组测量数据。于是,基本矩阵的几何估计是 求解下述最小化问题: ⎪⎩ ⎪⎨ ⎧ == ∑ − = njg jF n j jjF j ,...,2,1,0)ˆ(tosubject ||ˆ||min 1 2 }ˆ,{ X XXX (16.2.6) 由于 222 ||ˆ||||ˆ||||ˆ|| jjjjjj xxxxXX ′−′+−=− ,且 0ˆˆ0)ˆ( =′⇔= j T jjF Fg xxX ,式(16.2.6)可改写为 ⎪⎩ ⎪⎨ ⎧ ==′ ∑ ′−′+− = ′ njF j T j n j jjjjF jj ,...,2,1,0ˆˆtosubject ||ˆ||||ˆ||min 1 22 }ˆ,ˆ,{ xx xxxxxx Sampson 近似 不难计算 =∂ ∂= XX F F gJ )( ))(,)(,)(,)(( 2121 xxxx FFFF TT ′′ 所以 )(g]))()(()[(g||ˆ|| -12 XXXXXX F T FF T F JJ=− 2 2 2 1 2 2 2 1 2 )()()()( )( xxxx xx FFFF F TT T ++′+′ ′= 因此,基本矩阵的 Sampson 近似是求解下述最小化问题: ∑ ++′+′ ′ = n j jjj T j T j T j F FFFF F 1 2 2 2 1 2 2 2 1 2 )()()()( )( min xxxx xx (16.2.7) 极距离最小化 根据极几何理论,还可以给出十分类似于 Sampson 近似的估计方法。对于第一幅像平面上任一 点 x,它在第二幅像平面上的对应点 x′ 必位于对应的外极线 xl′ 上。由基本矩阵的性质,极线 xl′ =Fx, 并且不难计算 x′ 到极线 xl′ 距离为 )( x,x Fd ′ 2 2 2 1 )()( || xx xx FF FT + ′= 对于精确的点对应,上述距离应等于零。类似地,有 x 到极线 xl ′ 距离为 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 386 )( xx, ′TFd 2 2 2 1 )()( || xx xx ′+′ ′= TT T FF F 因此,基于极距离最小化的基本矩阵估计是解下述最小化问题: 2 1 2 2 2 1 2 2 2 1 )( )()( 1 )()( 1min j T j n j j T j T jj F F FFFF xx xxxx ′∑ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ ′+′+ += (16.2.8) 注意:估计基本矩阵的几何方法所得到的矩阵 F 不满足基本矩阵的秩 2 约束,为了保证秩 2 约 束成立,可通过两种方法来实现。第一种方法与线性方法相同,对矩阵 F 在 F-范数下作秩 2 矩阵的 最佳近似,这可通过 SVD 分解技术来实现。第二种方法是对 F 作适当的参数化,使得几何方法的 估计结果是一个秩 2 矩阵,这种方法将导致几何方法的高度非线性。下面介绍两种基本矩阵的参数 化方法。 秩 2 参数化表示 极参数表示 由于基本矩阵 F 的秩为 2,所 以 F 的三个行向量必线性相关。因此,在一般情况下 第三行可由前两行线性表示,这样基本矩阵就可表示为下述形式: ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ +++ = hfgchegbhdga fed cba F 不难验证:极点 Thg )1,,( −−=′e 。 在迭代算法中如果使用这种参数表示,则其初始值可按下述方法确定:令线性算法的解为 ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 090807 060504 030201 0 fff fff fff F 取 060504030201 ,,,,, fffefdfcfbfa ====== 作为其初始值,g,h 的初始值取下述最小线性二乘 问题的解: ])()()min[( 2 090603 2 080502 2 070401 fhfgffhfgffhfgf −++−++−+ 这种表示方法的不足之处在于,它可能导致算法的不稳定。这是因为第三行不总是可以由前两 行线性表示。由于 F 的秩为 2,所以第三行不能由前两行线性表示的充要条件是前两行线性相关, 而前两行线性相关等价于极点在无穷远点,即 Tee )0,,( 21 ′′=′e 。这说明在实际问题中,这种情况很 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 387 少会发生。另外,可以利用 8-点算法对极点的估计结果来预测是否发生这种情况。如果 8-点算法所 估计的极点距图像中心非常远,则改变参数化方式,如用第一行和第三行来线性表示第二行。 双极表示 在一般情况下第三行可由前两行线性表示,同时第三列也可以由前两列线性表示,于 是基本矩阵可表示为下述形式: ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ +++++ + + = )()( fdebhfceagfdebfcea hdgcdc hbgaba F 同样,可以验证 TT hgfe )1,,(,)1,,( −−=−−=′ ee 。 给定代价函数,如果有若干种参数化可供选择的话,参数化的一般策略是所选择参数与求解的 问题相匹配,同时用这些参数计算代价函数时有较小的计算量。例如 F 可以用 9 个参数来参数化— —那么它是过参数化的,因为实际上 F 仅有 7 个自由度。如果最小化问题不是太过参数化,只要所 采用的参数化与最小化问题相匹配,就不会产生坏的效应。因为一个性能好的非线性最小化算法会 “注意”不必要在冗余方向移动,能有效地丢弃冗余参数组合,如 Levenberg-Marquardt 算法就很容 易处理冗余参数化问题。经验发现采用最低限度参数化时常使代价函数变得更为复杂,这样陷入局 部最小值的机会就可能更多。因此,在基本矩阵的参数化过程中,不必用 7 个参数表达。但是,如 果采用的参数化与最小化问题不相匹配,过参数化会产生坏的效应。例如,纯平移运动下的基本矩 阵,是一个反对称矩阵,有两个自由度,用一个 3 参数的反对称矩阵来表示虽然过参数化,但不会 影响计算结果。如果利用 9 参数或 8 参数的基本矩阵来表示,与对应的最小化问题就不相匹配,其 计算结果往往都不是一个反对称矩阵,这不是所期望的结果。 16.2.3 三焦张量 给定三幅图像之间的三焦张量 qr it ,令 TTT xxxxxx )1,,(,)1,,(,)1,,( 212121 ′′′′=′′′′=′= xxx 是三幅图像间三点对应,根据第 12 章的讨论,我们有 uv qr ikrvjqu kji txxx 0=′′′ εε (16.2.9) 其中 1333 =′′=′= xxx ,并且在这 9 个方程中,仅有 4 个是相互独立的。因此,三焦张量 qr it 是 6R 维 空间中 4 个三次曲面的交集,记为 0)(M qr i =Xt ,其中 Txxxxxx ),,,,,( 212121 ′′′′′′=X 。 令{ jjj xxx ′′↔′↔ ,j=1,2,…,n}是三幅图像间的一组测量点对应,则不难看出三焦张量 qr it 的几 何估计是求解下述最小化问题: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 388 ⎪⎩ ⎪⎨ ⎧ == ∑ − = njM jt n j jjt qr i j qr i ,...,2,1,0)ˆ(tosubject ||ˆ||min 1 2 }ˆ,{ X XXX (16.2.10) 注意:这里没有考虑三焦张量的内在约束。如果考虑内在约束,则需要求解更复杂的优化问题。 16.2.4 FOE FOE 估计是基本矩阵估计的特别情况,因为 FOE 是摄像机作纯平移所获取两幅图像上的极点 12(, ,1)Tee=e ,此时的基本矩阵为 []F ×= e 。根据基本矩阵估计的几何方法,FOE 估计的几何方法 是从测量点对应{}jj↔xy求解下述非线性最小化问题: ˆˆ,{ } 1 ˆˆ(|| || || ||) ˆˆsubject to ( ) 0, min jj n j jjj j jj j ↔ = ⎧ −+−⎪⎪⎨ ⎪ ⋅× = ∀⎪⎩ ∑ ex y xx yy yex (16.2.11) 这是一具有 22n + 个变量的最小化问题。下面,利用 FOE 的特殊性,将它转化为两个变量的最小化 问题。 假定 (ˆˆ ˆ,{ }jj↔ex y ) 是最小化问题 (16.2.11)的解,则 ˆe 必在直线 ˆˆjjj= ×lxy上,并且从 ()jjx y 到线 ˆˆjjj=×lxy 的垂足为 ˆˆ()jjxy,因此不难证明 最小化问题(16.2.11) 与下述最小化问题 等价: 22, 1 12 |(,) ||(,) | (( ,))(( ,)) min j M j jjjjj j jj jjλ λλ λλ= ⋅+ ⋅ + ∑ e lexley le le (16.2.12) 其中: (,) ()jj jjλ λ=×leep 是由两点 e , () (1)j jjjjjλλ λ=+−px y 确定的直线; (( ,))j jkλle 是直线 (,)λlejj 的第 k 个坐标分量; 1 22 12 |(,) | (,) (( ,))(( ,)) jj j j jj jj d λ λ λλ ⋅ = + lex e le le 是点 jx 到线 (,)jjλle的距离; www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 389 2 22 12 |(,) | (,) (( ,))(( ,)) jj j j jj jj d λ λ λλ ⋅ = + ley e le le 是点 jy 到线 (,)jjλle的距离。 假定( ˆˆ, jλe )是最小化问题 (16.2.12)的解,则 ˆˆ{,}jjxy位于 ˆ ˆ(,)jjλle上,并且测量点对应{}jj↔xy 到 线 ˆ ˆ(,)jjλle的距离在 ˆˆ{,}jjxy达到最小值。因此,必有 2 2 ˆˆˆ()(())ˆˆˆˆ(() )ˆ ˆ|| ( ) || ˆˆˆ()(())ˆˆˆˆ(() )ˆ ˆ|| ( ) || jjj jjj jj jjj jjj jj λ λ λ λ λ λ ⎧ −⋅ − ⎪ =−+ ⎪ −⎪⎨ −⋅ −⎪ =−+⎪ −⎪⎩ xep e xpee pe yep e ypee pe . (16.2.13) 简化的几何方法 纯平移摄像机得到的图像点对应{}↔xyjj必满足下述序约束: 如果摄像机朝向物体运动,则有 || || || ||jj− >−xe y e ; 否则,如果摄像机背离物体运动,则有 || || || ||jj− <−xe ye。 通过比较物体在两幅图像中面积的大小,我们可以确定是朝向物体运动,还是背离物体运动。 根据这个约束,我们可以证明下述结论: 引理 令( ˆˆ, jλe )是最小化问题 (16.2.12)的解。 摄像机朝向物体运动, 则 ˆ 0λ =j ;否则,否则, 如果摄像机背离物体运动,则 ˆ 1jλ = 。 证明 对每一个 j,考虑下述最小化问题: 22 12 |(,) ||(,) | (( ,))(( ,)) min j jj j jj j jj jjλ λλ λλ ⋅+ ⋅ + lexley le le (16.2.12’) 令 1 22 12 ˆ|(,) | () ˆˆ(( ,))(( ,)) jj j j jj jj d λ λ λλ ⋅ = + lex le le www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 390 2 22 12 ˆ|(,) | () ˆˆ(( ,))(( ,)) jj j j jj jj d λ λ λλ ⋅ = + ley le le 假定摄像机朝向物体运动,则 当 0jλ 时,我们有 (见图 16.2.2 (b)): )()()()1()1()1( 212221 jjj dddddd λλλ +<<=+ . (16.2.15) 当 10 ≤≤ jλ 时,我们有 (见图 16.2.2 (c)): 1ˆˆ2( ( ))|| ( )||( )j jj jj jdσ λλλ= −⋅xep e p , 2ˆˆ2( ()|| ()||()j jj jj jdσ λλλ= −⋅yep e p , 其中 )(abcσ 表示 ∆ abc 的面积。显然, ˆ()jjσ =xey ˆˆ( ( )) ( ( ))j jj j jjσ λσ λ+xep yep , 因此,有 =+ )()( 21 jj dd λλ ˆ2( ) ˆ|| ( ) || j j j j σ λ− xey ep . 根据序约束,我们有 ˆˆ|| (0) || || (1) ||jj− >−ep ep 所以, ˆ|| ( ) ||jjλ−ep 在[0, 1]上单调递减,从而 )()( 21 jj dd λλ + 在[0, 1]上单调递增。于是,当 10 ≤< jλ 时, 我们有 )()()0()0( 2121 jj dddd λλ +<+ . (16.2.16) 根据 (16.2.14, 16.2.15, 16.2.16), )()( 21 jj dd λλ + 在 0=jλ 达到最小值。这样,下述代价函数 221 12 |(,) ||(,) | (, ) (( ,))(( ,)) M j jjjjj j j jj jj f λλ λ λλ= ⋅+ ⋅ = + ∑ lexley e le le www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 391 必在 0=jλ 达到最小值。由于 ( ˆˆ, jλe ) 最小化问题 (16.2.12)的解,所以 ˆ 0λ =j 。类似地,可以证明 当摄像机背离物体运动时,相应的最小化问题在 ˆ 1jλ = 达到最小值。 图 16.2.2. 点 ()j jxy到线 ˆ(,)jλle的距离 12()(())j jddλ λ :(a) 0jλ < ; (b) 1jλ > ; (c) 01jλ≤≤. 根据上述引理结论,我们有 命题 7.2.1 如果摄像机朝向物体运动, 则几何方法等价于求解下述最小化问题: 221 12 |( ) | ()() min M jj j jj= ×⋅ ×+× ∑ e ey x ey ey (16.2.17) 如果摄像机背离物体运动, 则几何方法等价于求解下述最小化问题: 221 12 |( ) | ()() min M jj j j j= ×⋅ ×+× ∑ e ex y ex ex (16.2.18) 证明 假定摄像机朝向物体运动,根据引理,最小化问题 (16.2.12) 等价于下述最小化问题: 221 12 | (0, ) | | (0, ) | ( (0, )) ( (0, )) min M j jj j j jj= ⋅+ ⋅ + ∑ e lexley le le . (16.2.19) 由于 (0, ) (0)jjj=× =×leep ey,所 以 (0, ) ( )j jjj⋅ =× ⋅lexeyx, (0, ) ( ) 0jj jj⋅ =× ⋅ =leyeyy ,因 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 392 此 (16.2.19) 化为(16.2.17)。同理,可证明摄像机背离物体运动的情况。 16.3 最大似然方法 16.3.1 高斯分布 令 T nxxx ),...,,( 21=x 是一个 n 维随机向量,它的均值为 ][xx E= ,其中 ][⋅E 表示期望值,而且 它的协方差矩阵为 ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ =−−= nnnn n n TE σσσ σσσ σσσ Σ “ ### “ “ 21 22221 11211 ]))([( xxxx 其中 )])([( jjiiij xxxxE −−=σ 。 如果 x 有概率密度 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −−= 2 |||| ))(det()2( 1)( 2 2/12/ Σ Σπ xxx Expf n (16.3.1) 其中 Σ 为正定矩阵, 2/11 ))()((|||| xxxxxx −−=− −ΣΣ T (通常称为 Mahalanobis (Mah) 距离),则 称 x 服从高斯分布,或者说 jx 服从一个联合高斯分布,记作 ),(~ Σxx nN 。可以验证 x ,Σ 分别为这 个分布的均值和协方差矩阵。 当 I2σΣ = (纯量矩阵)时,高斯密度有下面的简单形式: ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − −= 2 2 2/ 2 |||| )2( 1)( σπσ xx x Expf n (16.3.2) 并称随机向量 x 有各向同性的高斯分布。 坐标变换 由于 Σ 为正定矩阵,所以它有特证值分解 DUU T=Σ ,其中 U 是正交矩阵, D ),...,,( 22 2 2 1 nddddiag= 是对角矩阵。置 xy U= ,则 xy U= ,并将它们代入式(16.3.1),我们有 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −−= 2 |||| ))(det()2( 1)( 2 2/12/ D n Exp D g yyy π (16.3.3) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 393 这表明由正交坐标变换将一般高斯密度函数变为具有对角协方差矩阵的高斯密度函数。如果在每个 方向上再进行一个 jd 的伸缩变换,即 1/2D−=z y ,则有 1/2D−=z y ,并且 2 /2 || ||1() 2(2 )nhExp π ⎛⎞−=−⎜⎟ ⎝⎠ zzz (16.3.4) 即 yz 2/1D= 是一个各向同性的高斯随机变量。对于更一般情况,有下述命题。 命题 16.3.1 (1) 若 ),(~ Σxx nN , bxy += A ,其 中 b 是 n 元常向量,A 是秩为 m 的 nm× 矩阵, 则 ),(~ T m AAAN Σbxy + 即 y 是服从均值为 bx +A 、协方差矩阵为 TAAΣ 的高斯随机向量; (2) 若 ),(~ Σxx nN ,令 2 1 2 1 2 1 2 1 , n n n n ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= x xxx xx )(, 21 2 1 2221 1211 nnnn n =+⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= ΣΣ ΣΣΣ 则 ),(~),,(~ 22221111 21 ΣΣ xxxx nn NN (3) 若 ),(~ Σxx nN ,则 ji xx , 相互独立的充要条件为 0=ijσ 。又 若 2 1 2 1 n n ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛= x xx ,则 21, xx 相互 独立的充要条件为 012 =Σ 。 16.3.2 最大似然估计 几何方法的代价函数与测量点和被估计点之间的几何距离有关,没有考虑测量误差(噪声)的类 型。为了得到一个最优(最好)的估计,需要为噪声建模。假定在点 X 没有测量误差时,其真实点 X 准确地满足一个模型实例 pM ,即 0)(M =Xp 。通常,还假定测量误差 XX − 服从均值为零、协方 差矩阵为 Σ 的高斯(或正态)分布。当然,这个假设一般没有被验证。在测量数据中包含有严重的误 差(错误数据,即偏离真实非常远),这个假设是靠不住的,如果测量数据中不包含错误数据或者这 样的数据事先被去除,则这个假设是比较可靠的,尽管仍没有严格论证。于是,测量点 X 的概率密 度为 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 394 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −−= 2 |||| ))(det()2( 1)M|( 2 2/12/p Σ Σπ XXX Expf n (16.3.5) )M|( pXf 表示在给定模型实例 pM 时得到测量 X 的概率。 进一步假定每个点的测量误差是相互独立的,则受噪声干扰的测量数据{ jX }的概率密度是它 们单个密度的积,即 ∏ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − −= = n j jj nj Expf 1 2 2/12/p 2 |||| ))(det()2( 1)M|}({ Σ Σπ XX X (16.3.6) 因此,测量数据{ jX }的对数似然为 () +∑ −−= = n j jjjf 1 2 p ||||2 1)M|}({log ΣXXX 常数 因此,模型的最大似然(ML)估计 pˆM 使得这个对数然似最大化,即使得下式最小化: ∑ − = n j jj 1 2|||| ΣXX (16.3.7) 在实际应用中,无法确定真实值{ jX },只能寻找满足模型 pM 的点{ jXˆ },即满足 pM ( jXˆ )=0 的点,作为真实值{ jX },因此模型的最大似然方法是求解下述最小化问题: ⎪⎩ ⎪⎨ ⎧ = ∑ − = 0)ˆ(Mtosubject ||ˆ||min 1 2 }ˆ,{ j n j jjX j X XX p p Σ (16.3.8) 由此可见,最大似然方法与几何方法的不同之处是用 Mah 距离代替几何距离。 如果测量误差服从各向同性高斯分布,即, I2σΣ = ,则最大似然方法求解下述最小化问题 2 ˆ 2{, } 1 1 ˆmin || || ˆsubject to M ( ) 0 j n jjX j j σ = ⎧ −⎪ ⎨ ⎪ =⎩ ∑p p XX X (16.3.9) 此时,最大似然方法等价于几何方法。 单应矩阵 假定{ (, ,1) (, ,1)TT jjj jjjxy xy′′′=↔=xx, j=1,2,…,n}是来自单应矩阵 H 的一组测量点 对应,并且所有点的测量误差是互相独立的,分别具有协方差矩阵 ,Σ Σ ′ ,则单应矩阵 H 的最大似 然估计是求解下述最小化问题: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 395 22 ˆˆ{, , } 1 ˆˆmin || || || || ˆˆsubject to 0, 1,2,..., jj n Hjjjj j jjHj n Σ Σ′ ′ = ⎧ ′′−+−⎪⎨ ⎪ ′ ×==⎩ ∑xx xx xx xx (16.3.10) 基本矩阵 假定{ (, ,1) (, ,1)TT jjj jjjxy xy′′′=↔=xx, j=1,2,…,n}是来自两幅图像间的一组测量对 应点,并且所有点的测量误差是互相独立的,分别具有协方差矩阵 ,Σ Σ ′ ,则基本矩阵 F 的最大似 然估计是求解下述最小化问题: 22 ˆˆ{, , } 1 ˆˆmin || || || || ˆˆsubject to 0, 1,2,..., jj n Fjjjj j T jjFj n Σ Σ′ ′ = ⎧ ′′−+−⎪⎨ ⎪ ′ ==⎩ ∑xx xx xx xx (16.3.11) 16.3.3 残差与估计误差 上节指出,模型估计的最大似然方法是求解 Mah 距离最小化问题。当测量误差满足各向同性高 斯分布时,最大似然方法与几何方法等价。在本节中,假定测量误差满足各向同性高斯分布 ),0( 2 IN m σ ,其中 m 测量数据的维数,即 jX 的维数。 令 1/2 2 12 1 1ˆˆ ˆ ˆ( , ,..., ) || || n res n j j j e nm = ⎛⎞=−⎜⎟⎝⎠ ∑XX X X X (16.3.12) 并称为均方根(RMS)残差。因此,最大似然估计使得 RMS 残差最小,即 mel rese = 2 12 ˆˆ ˆ ˆmin{ ( , ,..., ) : ( ) 0, }res n p jeMpΘ=∈XX X X (16.3.13) 记 jX 是测量 jX 的真值,则称 1/2 2 1 1 ˆ|| || n est j j j e nm = ⎛⎞=−⎜⎟⎝⎠ ∑ XX (16.3.14) 是 RMS 估计误差。 下面讨论最大似然估计的 RMS 残差和 RMS 估计误差的数学期望,即在平均的意义下给出最大 似然估计的 RMS 残差和 RMS 估计误差,这是非常有意义的。因为这些值给出了评价一个具体算法 的残差和估计误差的下界。 为了达到上述目的,我们需要用更抽象方式来表述模型估计问题。 估计问题由下述三个成份组成: 1. 由测量向量 ),...,,( 21 nXXXX = 构成一个测量空间 NR ,其中 N=mn; 2. 模型被视为测量空间的子集 NR⊂M 。如果测量向量 MX ∈ ,则称 X 满足此模型 M。通 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 396 常,M 是测量空间的子流形(或代数族)。模型的维数等于参数化子流形 M 的最小参数的 数目 D, DR 称为模型的参数空间。通常称 d=N-D 为模型的余维数。 3. 给定测量空间中的一个测量向量 X,估计问题就是求解距离 X 最近且满足模型 M 的向量和 相关模型参数。 为了理解模型估计问题的这种抽象表述,下面给出两个例子。 单应矩阵 假定{(,,1)(,,1)TT jjj jjjxy xy′′′=↔=xx, j=1,2,…,n}是来自单应矩阵 H 的一组测量点 对应,共有 4n 个测量值,它们构成一个 4n 维测量向量 T nnnn yxyxyxyx ),,,,...,,,,( 1111 ′′′′=X ,测量空 间是 nR 4 。 在 nR 4 中,并非每一个点都与单应相关联。对单应 H,仅对所有 nj ≤≤1 都满足 jj Hxx =′ 的点 对应{}jj′↔xx组成的向量 X 才能构成该模型 MH,它是 nR 4 中的子流形(确切地说它是代数族)。 考虑 MH 的维数。为此,在第一幅图像上任取 n 个点 jxˆ ,单应 H 也可以任意选择。一旦它们被 选定,仅当第二幅图像上的点满足 jj Hxx ˆˆ =′ 时,相应向量 Xˆ 才能满足该模型(即 ∈Xˆ MH)。因此, MH 中的点需要 82 +n 个参数来确定,这 82 +n 个参数由 n 个点 jxˆ 的2n 个坐标和 H 的 8 个独立参数 所形成,所以模型 MH 的维数是 82 += nD ,余维数是 824 −=−= nDnd 。 给定测量向量 X,估计单应是求解距离 X 最近且满足模型 MH 的向量 Xˆ 和 H ,即求解下述最小 化问题: ⎪⎩ ⎪⎨ ⎧ ∈ − H XH Mtosubject X XX ˆ ||ˆ||min 2 }ˆ,{ (16.3.15) 由于 0ˆˆˆ,||ˆ||||ˆ||||ˆ|| 22 1 2 =×′⇔∈′−′+−=− ∑ = jjHjjjj n j HM xxXxxxxXX ,所以上述最小化问题与几何 最小化问题(16.2.10)是一致的。 基本矩阵 假定{ (, ,1) (, ,1)TT jjj jjjxy xy′′′=↔=xx, j=1,2,…,n}是来自基本矩阵 F 的一组测量点 对应,共有 4n 个测量值,它们构成一个 4n 维测量向量 T nnnn yxyxyxyx ),,,,...,,,,( 1111 ′′′′=X ,因 此 nR 4 是测量空间。 与单应矩阵一样,在 nR 4 中并非每一个点都与基本矩阵相关联。对基本矩阵 F,仅对所有 nj ≤≤1 都满足 0=′ j T j Fxx 的点对应形成的向量 X 才能构成该模型 MF,它也是 nR 4 中的代数族。考虑 MF 的 维数。为此,在第一幅图像上任取 n 个点 jxˆ ,基本矩阵 F 也可以任意选择。一旦它们被选定,仅当 第二幅图像上的点满足 0ˆˆ =′ j T j Fxx 时,相应向量 Xˆ 才能满足该模型(即 ∈Xˆ MF)。与单应不同的是 在极线 jFxˆ 上的点均可以作为 jxˆ′ ,因此 jxˆ′ 的第一个坐标分量可以任意选取。于是,MF 中的点由 73 +n 个参数来确定,其中 n3 个参数来自于第一幅图像上 n 个点的坐标分量和第二幅图像上 n 个点 的第一个坐标分量,另外的 7 个参数是基本矩阵的 7 个独立参数。所以,模型 MF 的维数是 73 += nD , 余维数是 74 −=−= nDnd 。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 397 给定测量向量 X,估计基本矩阵是求解距离 X 最近且满足模型 MF 的向量 Xˆ 和 F,即求解下述 最小化问题: ⎪⎩ ⎪⎨ ⎧ ∈ − F XF Mtosubject X XX ˆ ||ˆ||min 2 }ˆ,{ (16.3.16) 由于 0ˆˆˆ,||ˆ||||ˆ||||ˆ|| 22 1 2 =′⇔∈′−′+−=− ∑ = j T jFjjjj n j FM xxXxxxxXX ,所以最小化问题(16.3.16)与几 何最小化问题(16.2.6)是一致的。 从上面两个例子,可以看出在一般抽象模型中有两类参数,一类与测量空间有关,这类参数随 测量空间的维数增加而增多,另一类参数不随测量空间的维数变化而发生变化,仅与估计对象有关。 后一类参数称为模型的本质参数。 根据一般抽象模型的表述,一般估计问题涉及到一个从参数空间 DR 到测量空间 NR 一个映射 g。 令 NR∈X ,且存在一个参数向量 DRΘ ∈ 使得 ()g Θ = X 。例如,在单应估计中, 11( , ,,..., , , )T nnx yxyHΘ = , ()g Θ==X T n T n T n T n TTTTT nn hhhhhhhhyxyx )/,/,...,,/,/,,,...,,,( 3231 1 3 1 2 1 3 1 1 11 xxxxxxxx 。 当参数向量Θ 在Θ 周围变化时,映射 g 的值 ()g Θ 在测量空间中形成过点 ()g Θ = X 的曲面片 MS , 如图 16.3.1 所示。它是模型 M 的子集,其维数等于模型的维数。这样,通过模型参数可以将模型进 行函数化。最大似然估计就是在曲面片 MS 上靠近真值 X 的周围寻找一点 ˆX 使得它距离测量向量 X 最近,将最大似然估计算法所返回的向量 ˆX 称为校正向量,由于假定了测量向量服从各向同性高斯 分布 2(, )NN IσX ,最大似然算法与几何最小化算法等价,所以校正向量通常也称为几何校正向量。 图 16.3.1 模型的函数化 现在假定曲面片 MS 在 X 的邻域内可由一个平面很好地近似,至少在 X 周围处于σ -邻域内是如 RD RN X g SM Θ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 398 此。在这个假定下,校正向量 ˆX 是测量向量到点 X 的切平面上的垂足,即误差向量 ˆ −XX是向量 −XX在点 X 的切平面上的投影,而残差向量 ˆ −XX是 −XX在点 X 的法平面上的投影,如图 16.3.2 所示,其中 X 是未知的。但是,我们知道 2~(0,)NNIσ−XX ,因切平面的维数等于模型的 维数 D,法平面的维数等于模型的余维数 N-D,所以,根据命题 16.3.1,通过正交变换知 2~(0, )NDNIσ −−XX , 2ˆ ~(0,)DNIσ−XX 。 图 16.3.2 切平面局部近似 MS 。X, ˆX 和 X 分别是测量值,估计值和真值 根据上面的讨论,我们有下述命题: 命题 16.3.1 如果测量向量 2~(, )NNIσXX ,模型维数为 D,则 (1) 最大似然估计的 RMS 残差期望值是 21/2 1/2ˆ(|| || / ) (1 / )res ENDNε σ=− =−XX (16.3.16) (2) 最大似然估计的 RMS 估计误差期望值是 21/2 1/2ˆ(|| || / ) ( / )est ENDNε σ=− =XX (16.3.17) 其中, ˆX , X 分别是估计值和真值。 现在,将上述命题应用到单应矩阵、基本矩阵和摄像机矩阵估计问题。 单应矩阵 对于单应矩阵估计, 4, 2 8NnDn= =+,其中是点对应数,所以最大似然估计的 RMS SM X X ˆX www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 399 残差和估计误差期望值分别是 1/24 2res n nε σ−⎛⎞= ⎜⎟⎝⎠ (16.3.18) 1/24 2res n nε σ+⎛⎞= ⎜⎟⎝⎠ (16.3.19) 可以看出,残差与估计误差的渐近值均为 /2σ 。考评一个具体算法,如果在模拟实验中,当 匹配点增加时,残差与估计误差都稳定在 /2σ 附近,可认为它是一种好算法,至少在最大似然的 意义下是如此。另一方面,当 4n = 时残差为零,这是自然的,因为对任意 4 对匹配点,不论测量误 差有多大,总能找到一个单应满足这些匹配点。因此,我们不能仅从残差的指标来考评算法的优劣, 试想还有什么比残差为零会更好呢? 如果测量误差仅发生在一幅图像上,例如第二幅图像,即第一幅图像上的测量是精确的,则此 时 2, 8NnD==,因给定第一幅图像上的 n 个点 jx (它是精确的不需要校正),任意选择一个单应 H,由 jj Hxx ˆˆ =′ 构成的向量 2n 维向量 X 总满足模型,所以 8D = 。因此, ()1/214/res nε σ=− (16.3.20) ()1/24/res nε σ= (16.3.21) 由上式,残差随匹配点增加而递增地趋于标准差,这是自然的。估计误差随匹配点增加而递减 地趋于 0,这也是自然的,因为第一幅图像上的测量是精确的,匹配点增加导致单应估计越来越准 确,校正点将趋于真值。 基本矩阵 对于基本矩阵估计, 4, 3 7NnDn= =+,其中 n 是点对应数,所以最大似然估计的 RMS 残差和估计误差期望值分别是 1/2371 4res n nε σ+⎛⎞=−⎜⎟⎝⎠ (16.3.22) 1/237 4res n nε σ+⎛⎞= ⎜⎟⎝⎠ (16.3.23) 可以看出,估计误差的渐近值均为 3/2σ ,大于单应矩阵的估计误差的渐近值,这说明基本矩 阵估计对数据噪声比单应估计更敏感,实践也支持这个结论。当 7n = 时残差为零,这是自然的,因 为对任意 7 对匹配点,不论测量误差有多大,总能找到一个基本矩阵满足这些匹配点。 摄像机矩阵 假定三维空间点没有测量误差,这在实践中是靠得住的,因为标定物上的空间点 通常已经过精确测量。对应图像点的测量误差满足零均值方差σ 的各向同性分布。在这个估计问题 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 400 中,测量空间的维数是 2Nn= ,模型参数是摄像机矩阵的 11 个独立参数,即 11D = 。根据命题 16.3.1,最大似然估计的 RMS 残差和估计误差期望值分别是 ()1/2111/2res nε σ=− (16.3.22) ()1/211/ 2res nε σ= (16.3.23) 16.3.4(本质)参数的协方差 上节我们对最大似然估计的残差与估计误差进行了分析,但在实际应用中,更关心的是估计对 象的准确度,如单应矩阵、基本矩阵、摄像机矩阵等估计的准确度。在视觉中估计对象通常涉及到 的是变换。变换估计的不确定性,不像残差与估计误差那样仅涉及到点对应的数目及匹配的准确性, 它还与点配置有关。用接近于退化配置数据所得到的估计是非常不可靠的,例如用接近一条直线的 数据,不论使用什么方法都很难对单应做出好的估计,因为此时缺少与直线垂直维度的信息。变换 估计的不确定性通常由描述它的参数向量的协方差矩阵(简称变换的协方差矩阵)来衡量,下面介 绍如何通过测量向量的协方差矩阵计算变换的协方差矩阵。 模型参数中的本质参数是描述变换的参数,而另外的参数是由测量向量的部分分量所构成的, 如果能求出模型参数的协方差矩阵,我们就可以分解出变换的协方差矩阵。先考虑本质参数数目是 变换的最小化参数化数目,即我们暂不考虑过参数化的情况。此时,模型函数化映射 : D Ng RR→ 的 值域 ()Dg RM= ,因 此 dim dim ( )DM gR D==。最大似然估计算法从测量向量 X 不仅返回校正向量 ˆX 同时也返回了相应的参数向量 ˆΘ ,下面利用映射来描述这个过程。返回校正向量 ˆX 的过程确定 了一个映射 : Nmel R M→ ,即 ˆ ()argmin{|| ||: }Mmel SΣ=≡ −∈XX XYY (16.3.24) 其中 Σ 是 X 的协方差矩阵。假定 g 可逆(实际上,只需局部可逆),并记为 1 : D Mg SR− → ,其中 MSM⊂ 是包含均值 X 的曲面片,则复合映射 1 :,NDg mel R R− →D 1ˆ ()gmelΘ −= XD (16.3.25) 实现了最大似然估计算法返回参数向量 ˆΘ 的过程。根据式(16.3.25),我们可以由 X 的协方差矩阵对Θ 的协方差矩阵进行估计。 仿射变换 考虑g 为仿射变换的情况,此时 1g mel− D 也是一个仿射变换。为了说明这一点,令 () ( ) ()gA gΘ ΘΘ Θ=−+ ,其中 ()g Θ=X 是 X 的均值。因 dim ( )Dg RD= ,所以 A 是列满秩的。最大 似然估计 ˆX 最小化 ˆˆ|| || || ( ) ||gΣΣ−=−XX X P ,由于 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 401 ˆˆ|| ( ) || || ( ) ( ) ||gAΣΣΘΘΘ−=−−−XXX 1/2 1/2 ˆ|| ( ) ( ) ||AΣΣΘΘ−−=−−−XX 所以,当 1/2 1/2 1 1/2 1/2 1 1 1ˆ (() )()()() ()TT TT W AA A AAAΘΘ Σ Σ Σ Σ Σ Σ−−−−− −−−−= − = −XX XX 时,上式达到 最小。于是,我们有 1 ˆ()gmel Θ− = =XD 11() ()()() ()WWgWgemlΘ −−−+= −+ = −+XX XX X XX XD 即, 1g mel− D 是仿射变换。所以, 1ˆ[] ()EgΘΘ −== X (16.3.26) ˆ[] TCov W WΘΣ==11 1 11 1 11(( ) ) (( ) ) ( )TT TTTTAAA AAA AAΣΣΣΣΣ Σ−− − −− − −−= (16.3.27) 总结上述讨论,我们有下述命题。 命题 16.3.2 假定测量向量 X 是一个均值为 X 、协方差为 Σ 的随机变量。若模型函数化映射 : D Ng RR→ 是一个仿射映射 () ( ) ()gA gΘ ΘΘ Θ=−+ ,且 dim ( )Dg RD= ,则最大似然估计算法返回 的参数向量 ˆΘ 是均值为 1()g − X 、协方差为 11()TAAΣ − − 的随机变量。 非线性变换 对于非线性情况不像仿射变换那样,很难对最大似然算法返回的参数向量的协方 差矩阵作准确估计,一种通常使用的方法是用仿射变换对模型函数化映射作局部近似,从而给出协 方差矩阵的一阶近似估计。设 : D Ng RR→ 是可微映射,它在点Θ 处的 Jacobian 矩阵记为 J,即 ()gJ ΘΘ ∂= ∂ 。如果 rank(J)=D,则 g 在Θ 的邻域内是一一映射,即局部可逆。此时,可以使用仿射 变换 () ( ) ()agJ gΘ ΘΘ Θ=−+ 在该邻域对 g 作一阶近似。于是,应用命题 16.3.2,我们就得到下面 的命题。 命题 16.3.3 假定测量向量 X 是一个均值为 X 、协方差为 Σ 的随机变量。若模型函数化映射 g 是可微的且局部可逆的,则最大似然估计算法返回的参数向量 ˆΘ 的均值和协方差的一阶近似估计分 别是 1()g − X 和 11()TJ JΣ −−。 注 我们并不知道测量向量的真值 X ,因而也无法知道Θ ,即无法确定映射 g 的 Jacobian 矩 阵在点 ˆΘ 的值。实际应用中,通常是以最大似然估计返回的 ˆΘ 代替Θ 得到 Jacobian 矩阵在点Θ 的 近似值,这样做是基于数据真值与被估计值非常接近的假设,以致协方差矩阵没有发生本质的变化。 过参数化 现在,考虑过参数化的情形,我们的目的是将命题 16.3.3 推广到过参数化。在这种情形下, : D Ng RR→ 不是局部可逆的。例如,在估计单应时使用 9 维向量,即单应矩阵的 9 个元素,则映 射 g 就不是局部可逆的,因为对任意非零常数,等式 (,) (, )g gs=ph p h均成立,它们表示测量空间 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 402 中的同一个点,这里模型参数 (,)Θ = ph被分解为测量点坐标分量 p 和单应参数 h。在过参数化情形 下,映射 : D Ng RR→ 的Jacobian矩阵J 不是列满秩的,它的秩 dD< ,因 此 D 阶方阵 1TJ JΣ − 不可 逆,因而我们不能直接应用命题 16.3.3。 如果没有进一步约束,则最大似然估计算法返回的本质参数,如单应参数 ˆh ,可以相差任意非 零常数因子而无界的变化,即本质参数有无穷大的方差,这显然是不合理的。因此,对参数向量 P 进行进一步约束是必要的。例如在单应中,通常使用的约束是|| || 1=h ,在这样的约束下 {( , ) :|| || 1}DS ==ph h 是参数空间中的一个 2n+8 维柱面。一般地,我们可假定被估计的参数向量 P 在参数空间 DR 中的某个 d 维流形 DS 上,g 在这个流形上的限制 | DSg 是局部可逆的,且 ()D Mg SS= 。 由于 | DSg 是局部可逆的,因此在流形 DS 的点Θ 邻域UΘ 内, | DSg 实现从 PU 到 |( )DSMXPOg U S=⊂ 的一一映射,逆映射仍记为 1g − 。定义可微映射 : dDhR R→ ,它将 dR 在点 x 邻域 xW 一一映射到流 形 DS 在点Θ 的邻域UΘ ,且 ()h Θ=x 。如图 16.3.3 所示。 图 16.3.3 参数空间中约束流形 DS ,映射 h 将 dR 的邻域 xW 一一映到 DS 点Θ 的邻域UΘ 且 ()h Θ=x 复合映射 g hD 在邻域 xW 内是可逆的,并且满足命题 16.3.3 的条件,于是令 g,h 的 Jacobian 矩阵分别为 ,g hJ J ,则 g hD 的 Jacobian 矩 阵 g hghJ JJ=D ,且在 xW 内具有协方差矩阵 RD RN Θ X g SD SM Rd x h g。h UΘ xW www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 403 11()TT hg ghJJ JJΣ −−,其中 Σ 测量向量 X 的协方差矩阵。再通过映射 h 将它传递到 PU 上,所以参数Θ 具有协方差矩阵: 11[] ( )TT T hhg gh hCov J J J J J JΘΣ−−= (16.3.28) 现在的问题是如何确定 hJ ,即如何定义 h.为此考虑流形 DS 在点Θ 切空间TΘ :因 dim( )DSd= ,所 以切空间TΘ 也是 d 维的。令 12{, ,...,}dtt t 是 PT 的一组基向量,如图 16.3.4 所示,则切空间TΘ 可表 示为 {:}dTT RΘ Θ=+ ∈xx , 12(, ,...,)dT = tt t 。定义 ,:,()()D dD NShR R h Tπ→=+xxP,其中 , DNSπ 表 示切空间 PT 沿法空间 PN 到流形 DS 上的投影,则 h 为满足上述条件,且 hJ =T 。注意到对任意 d 阶可逆矩阵 B,我们有 11 11( )(( ) ( )) ( ) ( )TT T TT T hhgghh hhgghhJ BJBJ JJB JB JJJ JJ JΣΣ−− −−= 所以,式(16.3.28)中的矩阵 hJ 可以选择流形 DS 切空间 PT 的任一组基向量所构成的 Dd× 矩阵。 图 16.3.4 切空间 PT 沿法空间 PN 到流形 DS 上的投影 , DNSπ 实现映射 h,它的 Jacobian 矩阵的列向量张成切空间 PT 。 总结上述讨论,我们有下述命题。 命题 16.3.4(过参数化)假定测量空间 NR 的向量 X 是一个均值为 X 、协方差为 Σ 的随机变量, 并且模型函数化映射 g 是可微的。令 DS 是嵌入参数空间 DR 过点Θ 的 d 维光滑流形,使得 g 在 DS 上 的点Θ 是局部可逆的。若 Dd× 矩阵 T 的列向量张成 DS 的切空间TΘ ,则最大似然估计算法返回的参 数向量 ˆΘ 的协方差矩阵的一阶近似估计是 11ˆ[] ( )TT T ggCov T T J J T TΘΣ−−= (16.3.29) SD t2 Rd PU xW 1tΘ www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 404 上述命题给出了参数在任何约束下的协方差矩阵一阶近似估计,也就是说参数约束的不同形式 可导致矩阵 T 的不同选择。其中,有一种约束非常重要,它能简化协方差矩阵的计算。这种重要的 约束是“约束曲面 DS 局部地正交于 g 的 Jacobian 矩阵 gJ 零空间”。例如,约束|| || 1Θ = ,它是齐次 参数中的一种常用的约束,就满足“曲面 DS 局部地正交于 g 的 Jacobian 矩阵 gJ 零空间”这一条件。 在约束|| || 1Θ = 下,曲面 DS 是一个单位球面,任何一点的切平面都垂直该参数向量,另一方面,函 数 ()g Θ 不因齐次因子而变化,即径向向量 OΘ JJJG 是 gJ 零空间,即 gJ 的零向量是曲面 DS 在Θ 的法向 量,因此曲面 DS 局部地正交于 g 的 Jacobian 矩阵 gJ 零空间。如果两个矩阵 A,B 有相同的左零空 间,即{{| 0}{| 0}TTAB== =yy yy },则必有 1()TTABBABB+−= 。因此,在上述约束下,式(16.3.29) 右端可简化为 11 1()()TT T T gg ggTTJJTTJJΣΣ−− −+= 。于是,我们得到下述命题。 命题 16.3.5 假定测量空间 NR 的向量 X 是一个均值为 X 、协方差为 Σ 的随机变量,并且模型 函数化映射 g 可微。令 DS 是嵌入参数空间 DR 过点Θ 的 d 维光滑流形,使得在 DS 上 g 在点Θ 是局 部可逆的,并且曲面 DS 局部地正交于 g 的 Jacobian 矩阵 gJ 零空间,则最大似然估计算法返回的参 数向量 ˆΘ 的协方差矩阵的一阶近似估计为 1ˆ[] ( )T ggCov J JΘΣ− += (16.3.30) 应用举例 上面讨论了参数协方差矩阵估计问题,在数学上有一定的难度。为了帮助理解与应用,我们介 绍如何计算摄像机矩阵的协方差矩阵。假定三维空间点没有测量误差,即空间点已经过精确测量。 每个图像点的测量误差均满足零均值协方差矩阵 iΣ 的高斯分布。在估计问题中,有 n 个空间点到图 像点的对应: ,1,2,...,11 jj jjj n ⎧⎫⎛⎞ ⎛⎞⎪⎪=↔==⎨⎜⎟ ⎬⎜⎟⎪⎝⎠⎪⎝⎠⎩⎭ mMMm   因此,测量向量 12(,,...,)TT TT n=Xmmm  服从均值 X 、协方差矩阵 12(, ,...,)ndiagΣ ΣΣ Σ= 的2n 维高斯 分布,令 ˆˆ, PX 是最大似然估计算法的返回值,其中 ˆX 是测量向量的校正, ˆP 是摄像机矩阵的估计 值。我们的目的是计算 ˆP 的协方差矩阵,下面分摄像机为仿射的和射影的两种情况来考虑此问题。 仿射摄像机 因仿射摄像机矩阵形式是 01P ⎛⎞= ⎜⎟⎝⎠ Ab,记 12(, )T=ppp,其中 12,pp是 P 的前两 行。于是,映射 g 由下式确定: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 405 1 1 21 2 22 2 2 () T T T T T T T nT n T n I Ig I ⎛⎞⎛⎞ ⎜⎟⎜⎟ ⎜⎟⎝⎠⎛⎞⊗⎜⎟⎛⎞⎜⎟⎜⎟⊗⎜⎟⎜⎟⎜⎟==⎝⎠⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⊗⎝⎠⎜⎟⎛⎞⎜⎟⎜⎟⎜⎟⎝⎠⎝⎠ M p M MM p MppM M M p M # # (16.3.31) 它是从参数空间到测量空间的 8 维仿射变换,它的 Jacobian 矩阵为 g∂ =∂p 21 22 2 T T T n I I I ⎛⎞⊗ ⎜⎟⊗⎜⎟ ⎜⎟ ⎜⎟⎜⎟⊗⎝⎠ M M M # 根据命题 16.3.2, ˆP 的协方差矩阵为 ˆ[]Cov P = 1 1 21 1 21 1 22 2 22 1 22 TTT TT TT nnn II II II Σ Σ Σ − − − − ⎛⎞⎛⎞⎛ ⎞⎛⎞⊗⊗⎜⎟⎜⎟⎜ ⎟⎜⎟⎜⎟⊗⊗⎜⎟⎜ ⎟⎜⎟⎜⎟⎜⎟⎜ ⎟⎜⎟⎜⎟⎜⎟⎜ ⎟⎜⎟⎜⎟⎜ ⎟⎜⎟⎜⎟⊗⊗⎝⎠⎝ ⎠⎝⎠⎝⎠ MM MM MM #%# 1 1 22 1 ()() n T jj n j IIΣ − − = ⎛⎞=⊗ ⊗⎜⎟⎝⎠ ∑ MM (16.3.32) 射影摄像机 射影摄像机矩阵形式是 1 2 2 P ⎛⎞ ⎜⎟= ⎜⎟ ⎜⎟⎝⎠ p p p ,记 123(, , )T=pppp。于是,映射 g 由下式确定: 1 1 3 2 2131 1 1 1 2 1 2233 2 22 2 2 1 233 2 1 1 11 () 11 T T T T T T T T T T T T T T Tn n T T nn n I I g I ⎛⎞⎛⎞⎛⎞⎛⎞⎜⎟⎜⎟⎜⎟ ⊗⎜⎟⎜⎟⎝⎠⎝⎠⎜⎟⎜⎟⎜⎟⎛⎞⎛⎞⎜⎟⊗ ⎛⎞⎜⎟⎜⎟⎜⎟⎜⎟==⎜⎟⎝⎠⎝⎠⎜⎟⎜⎟⎝⎠⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎛⎞⎛⎞⎜⎟⊗⎜⎟⎜⎟⎜⎟⎜⎟⎝⎠⎝⎠⎝⎠⎝⎠ M p MpM M p pM M p M ppMp pM M p p M p M pMpM M p ## (16.3.33) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 406 它是从参数空间到测量空间的 12 维非线性变换。在约束|| || 1=p 下,我们可以根命题 16.3.5 计算 ˆP 的协方差矩阵。因 g 的 Jacobian 矩阵为 g∂ =∂p 1 1 21 13322 111 1 2 22 23322 222 1 23322 11 () 11 () 11 () TT TT TTn nn nnn I I I ⎛⎞⎛⎞⊗−⎜⎟⎜⎟ ⎜⎟⎝⎠ ⎜⎟⎛⎞⎜⎟⊗− ⎜⎟⎜⎟⎝⎠⎜⎟ ⎜⎟ ⎜⎟⎛⎞⎜⎟⊗− ⎜⎟⎜⎟⎝⎠⎝⎠ pMMM pM pM pM pMMM pM pM pM pMMM pM pM pM ## 所以, ˆP 点的 Jacobian 矩阵为 ˆ()g∂ =∂ pp 1 1 21 13322 21 11 111 11 1 2 22 2222 23322 22222 1 223322 ˆ11 11ˆˆˆˆ() ˆˆ ˆ 1111 ˆ ˆˆˆˆˆ() 1ˆ11 ˆˆˆˆ() TTTT TTTT TTn nnnnnn I Iww II ww II w ⎛⎞⎛⎞⊗−⎜⎟⎜⎟ ⊗−⎜⎟⎝⎠ ⎜⎟⎛⎞⎜⎟⊗−⊗− ⎜⎟⎜⎟=⎝⎠⎜⎟ ⎜⎟ ⎜⎟⎛⎞⎜⎟⊗− ⎜⎟⎜⎟⎝⎠⎝⎠ pMMMMmMpM pM pM pM MmMMM pM pM pM pMMM pM pM pM #### 1 ˆ ˆ TT nnn nw ⎛⎞ ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟ ⎜⎟⊗−⎜⎟⎝⎠ MmM 其中 ˆ ˆˆ 1 j jjwP⎛⎞=⎜⎟⎝⎠ m M 。根据命题 16.3.5, ˆP 的协方差矩阵为 ˆ[]Cov P = 2 1 11 2 1 11 11 111 1 1 2 2 22 2 2 222 22 22 1 2 2 11 11ˆˆ ˆˆ ˆˆ 11 11ˆˆ ˆˆ ˆˆ 11 11ˆˆ ˆˆ ˆˆ T TT TT TT TT n TT TT nnn nnn nn nn IIww ww IIww ww IIww ww Σ Σ Σ − − − ⎛⎞⎛⎞⊗− ⊗−⎜⎟⎜⎟ ⎜⎟⎜⎟⎛⎞⎜⎟⎜⎟⎜⎟⊗− ⊗−⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎝⎠⎜⎟⎜⊗− ⊗−⎜⎟⎜⎝⎠⎝⎠ MmM MmM MmM MmM MmM MmM %## ## +⎛ ⎞ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎟⎜ ⎟⎟⎜ ⎟⎝ ⎠ 11 22 222 11 11 222 11 11ˆ()() ()ˆˆ 11ˆˆˆ()ˆˆ nnTT jj j jjjj jjjj nnTT TT jjj j jjj j j jjjj II I ww I ww ΣΣ ΣΣ + −− == −− == ⎛⎞⊗⊗−⊗⎜⎟ ⎜⎟= ⎜⎟ −⊗⎜⎟⎜⎟⎝⎠ ∑∑ ∑∑ MM MmM Mm M Mm mM (16.3.34) 如果三维空间点 jM 测量误差也满足一个零均值、协方差矩阵 jΛ 的高斯分布,则模型的测量向 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第16章:几何方法 407 量为 12 12( , ,..., , , ,..., )TT TTT TT nn=XMMMmmm   ,显然它服从一个均值为 X 、协方差矩阵为 12 12( , ,..., , , ,..., )nndiagΦΛΛΛΣΣΣ= 的5n 维高斯分布。令 ˆˆ, PX 是最大似然估计算法的返回值,其中 ˆX 是测量向量的校正, ˆP 是摄像机矩阵的估计值。下面仅考虑摄像机为仿射情况。不难看出,映射 g 由下式确定: 3 0() ,0 nIg MΨΨ⎛⎞= ⎜⎟⎝⎠ 21 22 2 T T T n I IM I ⎛⎞⊗ ⎜⎟⊗⎜⎟= ⎜⎟ ⎜⎟⎜⎟⊗⎝⎠ M M M # (16.3.35) 其中 12(,,...,,)TT TTT nΨ = MM Mp  是参数向量。g 是从参数空间到测量空间的 3n+8 维非线性变换,下 面计算它的 Jacobian 矩阵。因 3 3 (|0) (|0)n n I IΨ Ψ ∂ =∂ , (0 | )M Ψ Ψ ∂ =∂ 21 22 2 (| ) T T T n D M A I A I DM A I ⎛⎞ ⎜⎟⊗⎜⎟⊗⎜⎟=⎜⎟ ⎜⎟ ⊗⎜⎟⎜⎟⎝⎠ M M M % #   , 其中 A 是摄像机矩阵左上角的 23× 子矩阵。所以,映射 g 的 Jacobian 矩阵为 g Θ ∂ =∂ 3 0nI DM ⎛⎞ ⎜⎟⎝⎠ 令 21 22 2 ˆ ˆ ˆˆˆˆ, ˆˆ T T T n IA IADM IA ⎛⎞⎛⎞⊗⎜⎟⎜⎟ ⊗⎜⎟⎜⎟==⎜⎟⎜⎟ ⎜⎟⎜⎟ ⎜⎟⎜⎟⊗⎝⎠⎝⎠ M M M #% , 12 12( , ,..., ), ( , ,..., )nndiag diagΛ ΛΛ Λ Σ Σ Σ Σ= = ,则根据命题 16.3.3, ˆΨ 的协方差矩阵为 ˆ[]CovΨ = 1 1 33 1 00 ˆˆ ˆˆ T nnII DM DM Λ Σ − − − ⎛⎞⎛⎞ ⎛⎞⎛⎞⎜⎟⎜⎟ ⎜⎟⎜⎟⎜⎟ ⎜⎟⎜⎟⎝⎠⎝⎠ ⎝⎠⎝⎠ 111 1 11 ˆˆˆˆ ˆˆˆˆ TT TT DDDM MDMM ΛΣ Σ ΣΣ −−− − −− ⎛⎞+= ⎜⎟⎜⎟⎝⎠ (16.3.36) 它的右下角88× 子矩阵是摄像机的协方差矩阵。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第17章:鲁棒方法 408 17.鲁棒方法 前面两章给出的求解估计问题的代数方法与几何方法,均假定测量数据点误差来源仅发生在对 该点的位置测量,并且服从高斯分布。在实际情况中,测量点误差不可能都服从高斯分布,存在一 些测量数据点的数值由于种种原因而严重偏离真值,这些测量数据点对于高斯(或其它类型)误差分 布来说是外点(outlier)有时也称为错误点。例如,在估计基本矩阵时错误匹配点就是外点。一旦测量 数据存在外点,即使外点的数目很少,如果使用代数方法和几何方法,则得到的估计结果也可能与 真实值有极大的偏差。因此,我们必须使用某种方法对外点加以识别,或者说从测量数据中确定出 内点(inlier)有时也称为有效点,然后再使用前两章所描述的方法在这些内点中进行模型估计,这就 是所谓的鲁棒估计(Robust Estimation)。在本章,着重介绍 RANSAC 方法和最大后验 RANSAC 方 法,另个还简要介绍另两种鲁棒方法:M-估计与最小中值估计。 17.1 RANSAC 估计 RANSAC(RANdom SAmple Consensus)方法是由 Fischler 和 Bolles 于 1981 年所引入的鲁棒方 法。最初它被用于三点确定摄像机姿态的估计,现在无论在计算机视觉领域还是在其它学科的估计 问题中都有广泛的应用。对于处理大比例的外点,RANSAC 是十分有效的。我们先从直线估计的简 单例子来说明 RANSAC 的基本思想。 17.1.1 直线的 RANSAC 估计 在几何上,鲁棒估计一条直线可描述为:给定一组二维测量数据点,寻找一条直线使得测量点 到该直线的几何距离的平方和达到最小,即该直线最小化测量点到直线的几何距离平方和,并且使 得内点偏离该直线的距离小于 t 个单位。因此,这个问题有两个要求: 1. 用一条直线拟合测量数据点; 2. 根据阈值 t 将测量数据分为内点与外点; 其中,阈值 t 是根据测量噪声而设置的,具体做法将在下文中讨论。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第17章:鲁棒方法 409 RANSAC 的思想是比较简单的,主要有以下几步: 1. 随机选择两点(确定一条直线所需要的最小点集);由这两个点确定一条线 l; 2. 根据阈值 t,确定与直线 l 的几何距离小于 t 的数据点集 S(l),并称它为直线 l 的一致集; 3. 重复若干次随机选择,得到直线 nlll ,...,, 21 和相应的一致集 )(),...,(),( 21 nSSS lll ; 4. 使用几何距离,求最大一致集的最佳拟合直线,作为数据点的最佳匹配直线。 如果随机选择的两点中存在外点,则这两点所确定的直线一般不会有大的一致集,所以根据一 致集的大小对所估计的直线进行评价有利于获取得更好的拟合直线,如图 17.1.1 所示。正如 Fischler 和 Bolles 所指出:RANSAC 与通常的数据最佳拟合技术相反,不是用尽可能多的数据点去获得模 型的估计,而是用尽可能少的可行数据并尽量地扩大一致性数据集。 (a) (b) (c) (d) 图 17.1.1:直线的 RANSAC 估计。(a)是来自一条直线的 18 个测量数据点,在给定的距离阈值下有 7 个外点; (b)是两个外点所确定的直线,它的一致集仅含有三个数据点;(c)是由一个内点与一个外点所确定的直线,它的 一致集含有 8 个数据点;(d)是 RANSAC 最终估计的直线,它具有最大的一致集,并且所有的外点都被去除。 17.1.2 RANSAC 根据上节估计直线的思想,对于一般模型 M 和给定的测量数据点集 D, RANSAC 估计模型参 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第17章:鲁棒方法 410 数 p 的一般步骤如下: 1. 确定求解模型 M,即确定模型参数 p ,所需要的最小数据点的个数 n。由 n 个数据点组成 的子集称为模型 M 的一个样本; 2. 从数据点集 D 中随机地抽取一个样本 J,由该样本计算模型的一个实例 )(JM p ,确定与 )(JM p 之间几何距离 < 阈值 t 的数据点所构成的集合,并记为 S( )(JM p ),称为实例 )(JM p 的一致集; 3. 如果在一致集 S( )(JM p )中数据点的个数# S( )(JM p ) > 阈值 T, 则用 S( )(JM p )重新估计模 型 M,并输出结果;如果# S( )(JM p ) < 阈值 T,返回到步骤 2); 4. 经过 K 次随机抽样,选择最大的一致集 ))(( JMS p ,用 ))(( JMS p 重新估计模型 M,并输出 结果。 下面对 RANSAC 的细节作一些必要说明。 抽样次数 样本由从测量数据集中均匀随机抽取的子集所构成,每个样本所包含数据点的个数 n 是确定模 型参数所需要数据点的最小数目,例如:直线最少需要两个数据点才能确定,即 2=n ;圆最少需要 3 个数据点,即 3=n 。至于为什么要选择最小数目,下文将给出解释。为了陈述方便,称不包含外 点的样本为好样本,否则称为坏样本。 在执行 RANSAC 时,通常没有必要尝试每一种可能的抽样,实际上尝试每一种可能的抽样在 计算上也是不可行的。只要选择足够多的抽样次数 K,保证至少能得一个好样本就可以了。假定数 据点集中含有内点的比例是 w,那么一个样本为好样本的概率 nwp = 。于是,为了得到一个好样本 需要抽样次数 K 的期望为 ...321)( 321 +⋅+⋅+⋅= pppKE 其中, jp 为在 j 次抽样中得到一个好样本的概率,显然, njn j wwp 1)1( −−= 因此, ...)1(3)1(2)( 2 +−+−+= nnnnn wwwwwKE ...))1(3)1(21( 2 +−+−+= nnn www n wx n wx xw n − −= = ′ ⎟ ⎠ ⎞⎜ ⎝ ⎛ −= 1 1 所以,为了保证得到一个好样本,抽样次数 K 应大于 nw− 。这很自然地联系到 K 的标准差 ][KSD , www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第17章:鲁棒方法 411 即抽样次数 ][][ KSDKEK += ,就能保证得到一个好样本。不难计算 n n w wKSD −= 1][ 因此, n n w wK −+= 11 (17.1.1) 处理这个问题的另一种方法,是使得在 K 次抽样中所有样本均为坏样本的概率非常小,以保证 获得一个好样本的概率非常大。记 z 为在 K 次抽样中所有样本均为坏样本的概率,则 Knwz )1( −= 所以, )1log( log nw zK − = (17.1.2) 换句话说,在 )1log( log nw zK − = 抽样中得到一个好样本的概率为 z−1 。 表 17.1.1:样本所含数据点个数 n 与抽样次数 K 的一些对应值(45.0=w , 02.0=z ) n 2 3 4 5 7 9 13 16 20 K 18 41 94 210 1045 5168 126076 1.38 610× 3.37 710× 图 17.1.2:抽样次数 K 与外点的比例( w−1 )之间的变化关系 取 45.0=w (内点的比例为 45%), 02.0=z (以 0.98 的概率获得一个好样本),表 (17.1.1)给出了样 0.1 0.2 0.3 0.4 0.5 0.61-w 0 50 100 150 200 250 300 350 K n=5 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第17章:鲁棒方法 412 本所含数据点个数 n 与抽样次数 K 的一些对应值。可以看出,随 n 增加抽样次数 K 将急剧增加,因 此所需要数据点总数也将急剧增加,这就是为什么在执行 RANSAC 时需要对模型进行最小参数化使 得样本由尽可能少的数据组成的原因。 值得说明的是,抽样次数 K 与外点的比例不是正相关的,抽样的计算代价即使在外点数目很大 的时候也是可以被接受的。图 17.1.2 给出 5=n 时,抽样次数 K 与外点的比例( w−1 )之间的变化关 系。 距离阈值 如果我们希望所选取的阈值 t 使得内点被接受的概率是α ,则需要通过由内点到模型之间几何 距离的概率分布来计算距离阈值 t,这是非常困难的。在实际中,距离阈值通常靠经验选取。但是, 如果测量误差服从具有零均值和σ 标准方差的高斯分布,则可以计算 t 的值。因为在这种情况下点 到模型几何距离的平方 2d 是高斯变量的平方和,因此它服从一个自由度为 m 的 2 mχ 分布*)。例如: 在直线估计中,仅测量点到直线的几何距离 d,根据假定 ),0(~ σNd ,所以 2 1 2 ~ χd 。在单应估计 中,数据点 ),( xx ′ 到模型之间的几何距离是 )ˆ,()ˆ,( 2 2 12 1 2 2 2 1 2 xxxx HdHdddd +=+= − , 由假定 ),0(~),( 221 INdd σ ,所以 2 2 2 2 2 1 2 ~ χddd += 。类似地,对于基本矩阵 F 有 2 1 2 ~ χd ,而对 于三焦张量 jk iT 有 2 3 2 ~ χd 。由随机变量 2 mχ 小于 k2 的概率由分布 ξξχ dkF k mm )()( 2 0 22 ∫= 来计算( 2 mχ 分 布见 17.1.4 节),所以, 212 )( σα−= mFt (17.1.3) 于是,我们可以将内点与外点的划分为: ⎪⎩ ⎪⎨ ⎧ ≥ < − − 212 212 )( )( σα σα m m Fd Fd 外点, 内点, (17.1.4) 通常α 取 0.95,即数据点为内点的概率是 95%,它的意义是一个内点被排斥的错误概率仅是次数的 5%。表 17.1.2 给出了一些计算机视觉问题的距离阈值。 表 17.1.2 内点被接受的概率α =0.95,距离阈值 212 )( σα−= mFt m 模型 2t 1 直线、基本矩阵 3.84 2σ 2 单应、摄像机矩阵 5.99 2σ *) 参考 17.1.4 节。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第17章:鲁棒方法 413 3 三焦张量 7.81 2σ 终止阈值 终止阈值是难以设置的问题。经验的做法是:给出内点比例 w 的一个估计值ε ,如果一致集大 小相当于数据集的内点规模则终止。由于很难给出内点比例 w 的一个准确估计,所以经验做法往往 不能获得较好的估计结果。由于终止阈值仅仅是用来终止 RANSAC 的抽样,所以通常的做法是:初 始时,给出内点比例 w 的一个最保守的估计,然后在抽样过程中不断地修正它,并利用公式(17.1.2) 估计为了得到一个好样本所需要的抽样次数 K,一旦当前的抽样次数达到或超过这个估计值 K 时, 就终止抽样,结束 RANSAC 的抽样过程。在初始时,抽样次数 K 的估计值可能是非常大的,但随 着抽样过程对内点比例 w 的更新,抽样次数的估计值将迅速的减小。这种终止抽样的方法是自适应 的,详尽的算法如下所述。 自适应算法(终止 RANSAC 抽样): 1) 对内点比例作最保守估计 0ww = (如 1.00 =w ,这意味着在数据点集中可能有 90%的外点, 这确实是一个保守估计),应用公式(17.1.2),得到抽样次数 K 的初始值 0K ; 2) 抽样并更新 00 , Kw :令当前抽样的一致集所含数据点占整个数据点的比例为 w,若 0ww > , 则更新 ww =:0 ,并且应用公式(17.1.2)更新抽样数 0K ;否则,保持原来的 00 , Kw ; 3) 如果抽样次数已达到或超过 0K ,则终止抽样;否则,返回步骤 2)。 不难看出,抽样次数在更新过程中是单调下降的,所以抽样过程必终止。注意:自适应算法同 时还保证了有足够多次抽样,是一种值得推荐的自适应算法。 最终估计 RANSAC 方法将数据分为内点(最大一致集)和外点(剩下的数据)两个不相交的子集,同时给出 模型的估计 0 M p ,它由最大一致集所对应的样本计算出来。RANSAC 的最后一步是用所有的内点(最 大一致集中的数据点)重新估计模型,该估计要涉及到代数方法或几何方法,最好使用几何方法(为 了简化计算也可以应用 Sampson 几何近似),它们需要迭代最小化,而 0 M p 可作为最小化的初始点。 这个过程的唯一缺点是内点与外点的分类变得不明确。这是因为将距离阈值应用于当前最大一 致集所估计的 pM 时,很可能有些点变为内点。解决这个问题的方法是:由内点得到模型估计 pM ; 由 pM 应用(17.1.4)重新划分内点与外点;继续这个过程直至内点集收敛。 最后,值得指出的是,RANSAC 方法被实践证明是一种非常有效的鲁棒性方法。在可能的情况 下,建议读者使用这种方法。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第17章:鲁棒方法 414 17.1.3 基本矩阵的 RANSAC 估计 作为一个例子,将 RANSAC 用于基本矩阵的估计。我们只需要 1. 定义样本; 2. 给定样本,求该样本所对应的基本矩阵; 3. 由最大一致集重新估计基本矩阵。 定义样本 令 }1|{ njD jj ≤≤′↔= mm 是给定的两幅图像的点对应集。由于确定基本矩阵的最低 限度需要 7 个点对应,所以定义点对应集 D 中的 7 个对应点构成的子集为一个样本,所有样本的集 合简称为样本集。 求样本 k 所对应的基本矩阵 kF 由于样本 k 中仅有 7 个点对应,根据基本矩阵的 7-点算法,可 能得到基本矩阵的 3 个解 )3()2()1( ,, kkk FFF ,将一致集最大的解作为该次抽样的基本矩阵。具体方法如 下: 根据下述公式计算 )3()2()1( ,, kkk FFF 的一致集: }))(,(),(|){()( 2)(2)(2)( tFdFdDFS Tj k j k j k <′+′∈′↔= mmmmmm (17.1.5) 其中, d 表示点到直线的距离,t 是距离阈值。求 0j 使得 )}(#),(#),(max{#)(# )3()2()1()( 0 kkk j k FFSFSFS = 令 )( 0j kk FF = 为该次抽样的基本矩阵, )()( )( 0j kk FSFS = 为该次抽样的一致集。 由一致集重新估计基本矩阵 令 )( 0kFS 是最大的一致集,则 0kF 是最低限度子集所确定的基本矩 阵,将它作为初值,用 Sampson 近似方法重新估计基本矩阵: 2 )()( 2 2 2 1 2 2 2 1 )() )()()()( 1(min 0 jj FSmm j T j T jj F FFFFkjj mm mmmm ′×∑ ′+′++∈′↔ 基本矩阵的自动估计 RANSAC 方法可以从有误匹配的点对应集中估计基本矩阵,这使得从两幅图像自动估计基本矩 阵成为可能。基本矩阵自动估计的步骤如下: 1. 自动提取两幅图像的特征点集并建立初始“匹配对集” ; 2. RANSAC 去除错误匹配对: z 计算当前抽样所确定的基本矩阵 F,和它的一致点集 S(F); z 如果当前的一致集大于原先的一致集,则保持当前的一致集 S(F)和相应的基本矩阵 F, 并删去原先的一致集和相应的基本矩阵; www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第17章:鲁棒方法 415 z 由自适应算法终止抽样过程,获得最大一致集,最大一致集中的匹配对(内点)是正确 匹配对。 3.由最大一致集(即正确匹配对)重新估计基本矩阵。 为了自动估计基本矩阵,首先需要从两幅图像自动建立一个“点对应集”,可以容忍这个点对应 集包含有大量的误匹配,因为在 RANSAC 估计方法中,理论上只要存在 8 个“好”的点对应就可以 估计出基本矩阵。 17.1.4 2 mχ 分布 若随机变量 x 的密度函数为 ⎪⎩ ⎪⎨ ⎧ ∞<<= −− 其它,0 0, )2/(2 1 )( 12/2/ 2/2 xxe nxp nx n n Γχ (17.1.6) 则称它服从自由度为 n 的 2 nχ (卡方)分布,并记作 x~ 2 nχ 。 2 nχ 变量 x 的分布函数(简称 2 nχ 分布)为 ∫ −== x n n xndttpxF n0 )2/( )2/,2/(1)()( 2 Γ Γ χ (17.1.7) 其中: )(⋅Γ 为 Gamma 函数,即 dtetz tz −−∞∫= 1 0)(Γ ;而 ),( ⋅⋅Γ 为不完全的 Gamma 函数,即 dtetza ta z −−∞∫= 1),(Γ 。 图 17.1.4 给出了 2 nχ 密度函数与分布的图示。表 17.1.3 给出了 2 nχ 分布逆 )(1 PFx n −= 的若干对应值。 2 4 6 8 10 0.1 0.2 0.3 0.4 0.5 2 4 6 8 10 12 14 0.2 0.4 0.6 0.8 1 图 17.1.4 给出了 2 nχ 密度函数(左图)与分布(右图)。 在横轴为 4 处,由下至上分别表示自由度 n=1,2,3,4 的情形。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第17章:鲁棒方法 416 表 17.1.3: 2 nχ 分布逆( )(1 PFx n −= ) n=1 n=2 n=3 n=4 n=5 n=6 P=0.5 0.45 1.39 2.37 3.35 4.35 5.34 P=0.8 1.64 3.21 4.64 5.99 7.29 8.56 P=0.9 2.71 4.61 6.25 7.78 9.24 10.64 P=0.95 3.84 5.99 7.81 9.49 11.07 12.59 P=0.99 6.63 9.21 11.34 13.28 15.09 16.81 对于高斯随机向量与 2 nχ 分布之间的关系,我们有下述命题: 命题 5.1.1 若 n 维随机向量 ),(~ Σµx N ,且 x 的分量相互独立,即协方差矩阵 Σ 可逆,则随机 变量 21 ~)()( n Ty χΣ µxµx −−= − ,特别地,n 维标准高斯随机向量的范数平方服从 2 nχ 分布。 17.2 M-估计 在代数方法与几何方法中,在形式上它们都是最小化下述函数: ∑ j jjr ),(2 px (17.2.1) 其中 p 为模型参数, ),( pxiir 是模型 pM 在数据点 ix 的残差(在代数方法中, ),( pxiir 是代数残差, 即测量点到估计点的代数距离;在几何方法中, ),( pxiir 是几何残差,即测量点到估计点的几何距 离)。一旦测量数据中有外点(错误数据点),这些方法是不鲁棒的,因为它们在最小化过程中内点与 外点不加区别而同等对待。 在 M-估计方法中,用残差的函数代替残差。在形式上,M-估计方法是最小化下述函数: ∑ j iir ));,(( σρ px (17.2.2) 在最小化过程中,函数 ),( σρ t 必须具有抑制外点的作用,使得外点对最小化几乎不起作用。这样的 函数,我们称为 M-估计子。例如,Huber 给出的估计子是: ⎪⎩ ⎪⎨ ⎧ ≥ <= σσ σσρ ||, ||,);( 2 2 t ttt (17.2.3) 它的图像如图 17.2.1 所示。这个估计子,在残差较小时取值为残差的平方;当残差较大时取一个常 值σ 的平方。如果将σ 看作是 RANSAC 的距离阈值,则 Huber 估计子在内点取其残差的平方,外 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第17章:鲁棒方法 417 点取常数,即距离阈值的平方。在外点取常值是有一定的道理的,通常认为外点服从均匀分布,而 均匀分布的对数似然为常数。 -10 -5 0 5 10 0 1 2 3 4 图 17.2.1:Huber 估计子( 2=σ ) 一般地,M-估计子 ),( σρ t 在以 0=t 为中心长度为 2σ 的区间上看上去象 2t ,而在其它部分很 平坦。M-估计子有各种各样的选择,较普遍的选择是 22 2 );( σ σρ + = t tt (17.2.4) 参数σ 用于控制平坦区域,以抑制外点在最小化过程中的作用。图(17.2.2)是在不同参数σ 下函数 ),( σρ t 的图形。 M-估计方法有两个问题较难处理。第一个问题是最小化是非线性的,需要迭代求解且容易陷入 局部极小。因此,这种方法需要一个好的初始点。解决这个问题的一般策略是,如同 RANSAC 那样 进行抽样,用一个好样本对应的模型解作为迭代初始点。第二个问题是参数σ 的选择,它既不能过 大也不能过小(如图 17.2.3)。这是 M-估计中最棘手的问题。一种被认为比较好的策略是在每一步迭 代中给出参数σ 的估计,通常取残差绝对值的常数倍,即 |},({|4826.1 )()()( n j n j n rMedian px=σ (17.2.5) 在 M-估计中,另一种常用的估计子是 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第17章:鲁棒方法 418 ⎪ ⎩ ⎪ ⎨ ⎧ ≥ <≤ < = σ σσσ σ σρ 3||,0 3|||,|/ ||, );( 2 t tt tt t (17.2.6) 其中σ 残差的标准差。这种估计子与前面的差别在于:当残差很大时,这个数据被认为是错误的, 因而在估计中不起任何作用。 -10 -5 0 5 10 0 0.5 1 1.5 2 2.5 图 17.2.2:函数 ),( σρ t 的图形。在横轴 5=t 处,至上而下分别对应于 3,2,1,2.0=σ 的情形;中间是 2t 的图形。 图 17.2.3:参数σ 对估计的影响。左:σ 近似正确值;中:σ 太小使得所有数据对优化 都不敏感;右:σ 太大使得错误数据对优化很敏感。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第17章:鲁棒方法 419 17.3 最小中值估计 最小中值方法是通过求解下述最小化问题来估计模型参数: 2min {| ( , ) |}jjedian r xp (17.3.1) 这种方法给出数据残差平方中值达到最小的模型参数。关于这种方法的计算过程无需多作说明,因 为其计算过程与 RANSAC 方法十分类似,也是通过抽样来实现,所不同的是不再将数据分为内点与 外点,最小化在整个数据集上进行。这种方法的优点是不需要内点与外点的先验知识,也就是说不 需要划分内点与外点的距离阈值的先验知识,经验表明这种方法对错误数据也是很鲁棒的。由于在 整个数据集上取中值,当数据集有大于 50%的错误数据点时,这种方法不可能给出正确估计结果, 这是最小中值方法相对 SANSAC 的主要不足之处。 当数据测量误差服从高斯分布时,最小中值法的效率非常差(关于估计方法的效率通常定义为给 定方法给出的方差与理论上能达到的方差之比)。为了弥补这个不足,可以在执行最小中值方法之后, 再对估计结果进一步进行加权最优化,其具体步骤如下: 首先计算鲁棒标准方差(robust standard deviation): MednN )(51(4826.1ˆ −+=σ (17.3.2) 其中 Med 是最小中值;常数 1.4826 是为了保证达到(高斯误差分布)最大然似估计的同样效率的校正 系数;N,n 分别是整体数据点的个数与样本所含数据点的个数,5/(N-n)是为了补偿小数据集的效应 (显然,仅有 n 个数据点时,总存在一个解使得模型能完全拟合这 n 数据点,这样计算方差将失去意 义)。 再根据σˆ ,为每一个数据点匹配一个权值: ⎪⎩ ⎪⎨ ⎧ ≥ <= 22 22 )ˆ5.2(),(,0 )ˆ5.2(),(,1 σ σ px px jj jj j r rw (17.3.3) 即,残差平方大于 2)ˆ5.2( σ 的那些数据点被认为是错误数据而不再考虑。 最后通过求解下述问题优化模型参数 p: ∑ j jjjp rw ),(min 2 px (17.3.4) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第17章:鲁棒方法 420 17.4 鲁棒最大后验估计 17.4.1 鲁棒最大后验估计 本节主要介绍模型鲁棒估计的 Bayes 方法。为了得到模型参数Θ 的最优估计 ˆΘ ,我们引入最大 后验(MAP)估计: () ( ) ( ) ()ΘΘ ΘΘΘΘ==XMI MIXMI XMI Pr , , Pr ,arg max Pr , , arg max Pr , (17.4.1) 其中, ˆΘ 为真实值Θ 的估计。X 为测量数据集合,I为给定的信息。(17.4.1)式中分子的第一项是似 然项,第二项是先验项,分母为证据项。当M固定时证据项为常数,所以在 MAP 估计中可以被省 略。在下一章,将会看到证据项对于模型选择是非常重要的。 模型参数Θ 与第 16.3.3 节中的参数不尽相同,有必要对它进行解释。这里参数Θ 包括三个部分 α , β 和γ : α 部分是模型的本质参数,它与 16.3.3 节中的相应参数的意义相同,但这里使用最小化参数的 数目,例如:对于单应矩阵,α 包括 8 个参数;对于基本矩阵,α 包括 7 个参数等等。 β 部分对应于测量数据坐标分量,这里与 16.3.3 节中的相应参数的不同点在于它包括测量数据 的所有坐标分量,例如使用 n 个点对应估计单应或基本矩阵时, β 包括 4n 个参数,但在 16.3.3 节 中,单应相应的参数个数是 2n 而基本矩阵是 3n。 β 的估计值 βˆ 是测量数据的校正。 γ 部分是新引进的参数,是区别内点和外点的指标参数,其中参数个数等于测量数据集所包含 数据点的个数。如第 i 个测量数据点是内点,则γ = 1i ,否则 γ = 0i 。估计值 γˆ对应于测量数据的内 点与外点的一个划分。 参数集合α 与 β 和γ 不同之处在于参数集合α 中的参数个数是固定的,不随测量数据的增加而 增多,但估计精度随着测量数据的增加而提高;参数集合 β 的数量随测量数据量的增加而增加,它 的估计精度不会随测量数据的增加而提高。γ 与 β 类似。 β 和γ 称为潜在参数,因为一旦它们被估 计通常可以线性地估计出α 。 在实际估计问题中有三种情况,第一种情况是对α , β 和γ 都兴趣,例如在基本矩阵估计中, 通常应用估计的α 计算摄像机视点(或者摄像机运动),利用估计的 β 和γ 计算场景的 3D 结构。第 二种情况是对α 和 β 兴趣,例如不存在外点时。最后一种情况是仅对α 兴趣,例如曲线拟合。这三 种情况很容易在 Bayes 框架下通过对参数进行边缘化(对该参数积分,去掉该参数,如: () ()x xy y∞ −∞=∂∫IIPr Pr , )加以解决,即通过边缘分布加以解决。这里,我们主要讨论第一种最为一 般的情况。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第17章:鲁棒方法 421 在参数集Θ 的上述分解下,(17.4.1)式中的似然项可表达成如下的形式: ()( ) ( )Pr ,, Pr ,,,, Pr ,,,Θ αβγ βγ==XMI X MI X MI (17.4.2) 这表明似然项只与潜在参数 β 和γ 有关。先验项也可以写成如下的形式 ( ) ( ) ( ) ( )Θ αβγ βγα α==MI MI MI MIPr , Pr , , , Pr , , , Pr , (17.4.3) 因此,式(17.4.1)可改写成: ( ) ( ) ( )ΘΘβγβγαα= XMI MIMIarg max Pr , , , Pr , , , Pr , (17.4.5) 上式是最一般情况下最大后验估计的形式。在下一节,我们将导出一个具体的形式,当然这种 形式仍是非常普遍的,适用于大多数视觉中的实际问题。 17.4.2 似然项与先验项的具体形式 本节主要给出似然项关于内点与外点分布的混合模型和确定先验项的方法。在本节中,假定内 点的服从高斯分布,外点服从均匀分布。这些假设尽管在理论上没有证明,但计算机视觉中大多数 估计问题的实验结果都支持这一假设。 假定测量数据集由 n 个测量数据点所组成并且每个测量点是 D 维的。 βj 的估计值记为 12 ˆ ˆˆ ˆ(,,...,)j jj j Dx xxβ = , 1,2,...,j n= 。例如估计基本矩阵时,测量点是点对应,它是 4 维的,即此时 D=4。根据第 16.3.2 节的讨论我们知道,对内点的高斯误差假设等价于普遍使用的高斯最小二乘原 则,所选择的估计将误差平方和 2 1 n j j e = ∑ 最小化,其中 22 1 ˆ() D jj jii i exx = =−∑ (17.4.6) 即,假设 2 j ide= 服从各向同性的高斯分布且误差相互独立,所以 () 2 2 1 1Pr , , exp 22 nD j in eβ σπσ = ⎛⎞⎛⎞=−⎜⎟⎜⎟ ⎜⎟⎝⎠ ⎝⎠ ∏ “ XMI , (17.4.7) 下面考虑外点的分布。在一般情况下,测量数据位于 DR 的有界区域,并服从密度函数为1/v 的 均匀分布,其中 v 是该有界区域的体积(其单位与σ相同)。如果每一个测量数据,满足 0 ix L≤≤则 DvL= 。当使用对数似然处理问题时,我们关心的是数值的幂指数,小的扰动不会对最后的 MAP 估计产生大的影响。对于更具体的两视点对应,幂指数相同但 v 稍有变化,这是因为来自第二个视 点的特征点位置受到了搜索区域的限制。假设第二个视点的特征点搜寻区域是一个 SS× 的矩形区 域,则匹配中位于第一幅图像上的特征点是图像区域的均匀分布,位于第二幅图像上的特征点在对 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第17章:鲁棒方法 422 应的 SS× 区域中选择,所以此时外点均匀分布为 221/ 1/vLS= 。 如果第 i 个测量数据点是内点,则γ = 1i ,否则γ = 0i 。所以结合式(17.4.7),似然项可表示为 () () () 2 2 11 () 11Pr , , , exp 1 22 i D i iii in in e e ev Ψ βγ γ γ ψ σπσ== ⎛⎞⎛⎞⎛⎞⎜⎟=−+−=⎜⎟⎜⎟⎜⎟⎝⎠⎝⎠⎝⎠ ∏∏ ““  XMI (17.4.9) 关于 β 和γ 最大化(17.4.7),得到鲁棒最大似然估计(MLE),相对应的对数似然的最大值记为 ( )( )ˆ ˆlog Pr , , ,βγ=LXMI (17.4.9) 到目前为止,上述推导与最大似然方法没有什么不同,只是这里引进了外点分布。在考虑先验 项时,就会出现有趣的区别。可以看出,对于两个先验项,第一项 ( )Pr , , ,βγαMI 是给定本质参数 α 和测量数据后的 β 和γ 的先验知识,例如在基本矩阵估计中是匹配的先验知识。第二项是本质参 数的先验知识 ( )Pr ,α MI 。假设 β 与γ 相互独立,这在大多数情况下是合理的,例如匹配点是否是 外点仅取决于测量时的错误,而不取决于匹配规则 (除非在摄像机镜头上有污点),因此 ( ) ( ) ( ) ( )Pr, Pr,,Pr,,Pr,Θβαγαα=MI MI MI MI (17.4.10) 为了定义第一项 ( )Pr , ,βαMI ,需要定义 β 在由α 决定的流形 Sα 上的分布(例如基本矩阵的本质 参数α 确定一个 4 维空间的锥面)。第一个假设是与每个测量点相关联的 βj (流形 Sα 上一点)参数相 互独立,则贝叶斯先验是假设 βj 在 Sα 上服从均匀分布, ( )Pr , , =1/cβαMI 。若 Sα 相当平滑,也就 是说在流形上的自然测度是 Lebesgue 测度,则 c 是曲面面积。当流形 Sα 有界时,比如椭圆或线段, Bayes 估计将会导致有趣的新结果,即 MAP 估计与流形包含的面积相关。如果几乎没有什么观察数 据时,此种假设将会导致所估计的流形缩小(例如椭圆的一部分弧长变短)。一般情况下,流形扩展 到 DR 边界时,c 可近似为 DR 的横截面面积,此曲面面积为 ()d d iRcLβ=∂=Ο∫ 。两视点问题,c 的取 值稍有不同,例如对于 2D 关系(单应和仿射单应), 2cL≈ ;对于 3D 关系(基本矩阵和仿射基本 矩阵), 2cLS≈⋅。一般地,对于贝叶斯模型估计和选择,没有必要获得 c 的精确数值。 对于指标参数集γ ,假设对于所有的 j , jγ 是相互独立的,一个测量点为内点的先验概率为 常数ξ ,即 { }Pr 1jγ ξ= = , j∀ (17.4.10) 其中,ξ 是内点的先验期望,用于定义 ( )Pr , ,γαMI 。 除非有重要的附加信息,否则对于大量的测量数据,α 上的先验知识无关紧要,可以假设它在 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第17章:鲁棒方法 423 后验概率的峰值附近相对平滑,因此对估计结果几乎不产生影响。一种可能的选择先验方法是借助 积分几何方法得到α 的一个先验密度,此先验密度在某种变换群下保持不变,如欧氏变换群,射影 变换群等。例如,平面内直线α ,对欧氏变换不变的先验密度分布为 ()( ) 3/222Pr , uvα − ∝+MI (17.4.10) 其中α = (,)uv ,对应的直线方程是 + = 1ux uy ,它等价于定义直线到原点的距离为一个均匀先验分 布。形式为 sin cosxyω ωρ+=的直线集合 G(r,ω)的测度被叫做线集合的密度,它对欧氏变换不变的 微分形式是 dG dp dω=∧ ,式(17.4.10)可由此式导出。这种结果可以扩展到更复杂的高位流形,但 这已经超出我们讨论的范围。在这里,假设当 n →∞时,无论 ( )Pr ,α MI 选取什么形式,对结果几 乎没有影响。因此,模型的后验概率可以表达为 ( ) () ( )( )1 Pr , , Pr , ,ii in eΘψβα = ∝ ∏ “ XMI MI ( )Pr , ,γαMI (17.4.11) 注 当数据量很大时,先验知识将变得不那么重要了,此时最大似然估计(MLE)等同于最大后 验估计(MAP),最大后验估计不会在很大程度上改变参数估计的结果。然而,对于模型选择问题(详 见第 18 章),情况却不是这样,最大后验估计方法可以得到一个逻辑相容估计,这与最大似然估计 有很大的差别。 17.4.3 最大化边缘后验 对于大多数视觉估计问题,给定 ˆα , ˆβ 和 ˆγ 可以被确定,因此最优算法只需要在α 上寻找即可。 首先指出给定 ˆα 时,确定 ˆβ 的方法。对于一个内点,在高斯分布的假设下, ˆβ 的 MAP 估计在流形 ˆSα 上,并且该点到测量点的欧氏距离最小,即使 2 ie 最小,由此我们可以由 ˆSα 计算 ˆβ 。对于两视点匹 配情况,这等价于在射影重建中经常使用的最小化重投影误差。因此,Bayes 公式直接揭示出在什 么条件和假设下可以使用最小化投影误差。在 Sα 为代数簇的情况下,最小化重投影误差等价于正交 回归(orthogonal regression),也叫整体最小二乘(total least squares)。显然,在 Sα 为线性流形时,我们 可以通过参数 β 边缘化的边缘后验最大化就得到一个稳定的 ˆα 。例如,上一章中关于直线的几何估 计方法。 如果流形 Sα 是非线性的,那么是否有可能在某些情况下,最大化边缘后验能得到一个更稳定的 估计值 ˆα ? Kanatani 注意到最小化几何距离将导致流形的有偏估计(曲率偏高,即曲线被紧缩,如 线段的情况下,估计值会比真实的线段短)并提出了重归一方法来进行校正。有些非 Bayes 统计方法 把无偏性作为估计的重要准则,直观上看这是很有必要的,可是在最小化偏差时将导致变量的增加。 关于无偏性的一个普遍问题是,即使在一个近似无偏方法中,也不能做到一次同时估计几个参数。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第17章:鲁棒方法 424 例如,对θ θ“1,,J 进行无偏估计将导致对θ +1J 有过大的有偏估计。因此,如果只需要估计α ,忽 略 β 是有意义的。可是,如果需要同时估计α , β 和γ ,我们就不可能获得所有参数的无偏估计,并且 不知道最大化边缘后验与最大化后验哪个更合适。下面我们将会看到,除测量数据集中在流形 Sα 的 高曲率区域的情况外,应用最大化边缘后验与最大化后验,对于估计α 和 β 差别不大。同时,我们 还会看到在确定γ 时最大化边缘后验与最大化似然有很大差别。 边缘后验 α γ(,)的边缘后验是后验(17.4.11)对 ( )β ββ= “1,,n 的积分,其形式为: () ()()()1 Pr,, Pr,, P(|,,)ββΘβψβαβγα = ∂∝ ∂∏∫∫ “ XMI MI MIi ii ir in e (17.4.12) 其中: () 2 2 11() exp 1 22 D i ii i ee vΨ γγ σπσ ⎛⎞⎛⎞=−+−⎜⎟⎜⎟⎝⎠⎝⎠ 记 ( )βα =MIPr , , 1/i c 。为了计算积分 ( ) ( )β ψ βα β∂∫ MIPr , ,i ii ie ,分别考虑均匀分布项和 高斯分布项。首先,很容易计算均匀分布项的积分: () ()β γβγ⎛⎞−∂=−∫ ⎜⎟⎝⎠ 11 111i iiivc v (17.4.13) 再计算高斯分布项的积分:我们所使用的关键假定是测量数据到流形 Sα 的垂足,记为 α β(( ))iX , 的周围是局部近似平坦的,该点的切平面记为( Π αβ(( ))i )。在这种情况下,余维数为 D-d, dim( )dSα= 。根据毕达格拉斯定理,平方误差 2 ie 可分解为两部分,即与流形垂直的部分 2 ⊥e 和平行 的部分 2 &e ,使得 222 ⊥=+&ieee。应用恒等式 ( )2/2 2(2 ) / 2 1n exp dπσ σ− − =∫ nR xx x (17.4.14) 我们得到 ( )222 2 2 22 211 222i dD D iii ee eexp expccβ πσ γβγσσπσ − ⊥ ⊥ ⎛⎞⎛⎞⎛⎞⎛⎞ + ⎜⎟⎛⎞⎜⎟−∂≈ −⎜⎟⎜⎟ ⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎝⎠⎝⎠⎝⎠ ⎜⎟⎝⎠⎝⎠ ∫ & (17.4.15) 从上式可以看出,当流形局部线性时,先验项中平行于流形 Sα 的部分被积分掉了,只有正交项起作 用。在下一章中,我们还会看到此积分对模型选择同样重要。因此,后验(17.4.11)关于 ( )α γ, 的边 缘后验为 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第17章:鲁棒方法 425 () 22( )/2 21 1(2 )Pr , , P ( | , , )2 dD i ir in eexpcvβ γπσΘβγ γασ − ⊥ = ⎛⎞⎛⎞⎛⎞−∂∝ − +∏⎜⎟∫ ⎜⎟⎜⎟⎜⎟⎝⎠⎝⎠⎝⎠“ XMI MI (17.4.16) 如果α 的先验是局部足够平坦的,我们可以通过最大化这个边缘后验得到 ( )α γ, 的 MAP 估计。 计算方法是直接使用 13 章的非线性优方法,或者将γ 作为潜在参数应用 14 章的 EM 方法。 最大化边缘后验与最大化似然的差异 比较式(17.4.7)与(17.4.16),不难发现最大边缘后验与最 大化似然是有区别的。下面就这两种方法区分内点与外点的阈值差异,来说明它们之间的不同。如 果 β 是流形 Sα 上距测量数据最近的点集,则指标参数集γ 能被确定。 参考式(17.4.7),由于内点的先验期望为ξ ,所以第 i 个测量点为内点与外点的概率分别是 2 2 11() exp,()22 D i rr eP i inlier k P i outlier k v ξξ σπσ ⎛⎞ −⎛⎞∈=⋅⋅ − ∈ =⋅⎜⎟⎜⎟⎝⎠⎝⎠ 其中 k 是一个常数,使得 ()()1rrP i inlier P i outlier∈+∈=。如果第 i 个测量点为内点,必有 ()()rrP i inlier P i outlier∈>∈ ,因此, 2 2/2 2 1(2)2log D ie v ξπσ ξσ ⎛⎞−<− ⋅⎜⎟ ⎝⎠ (17.4.18) 所以,对于最大化似然的情况, 2 2 2 2 1, ˆ 0, i mle i i mle e T e T σγ σ ⎧ <⎪⎪= ⎨ ⎪ ≥⎪⎩ (17.4.19) 其中 2/2 2/ 2 1(2)2log 2log log12 DD mle vTDv ξπσ ξ ξξπσ ⎛⎞ ⎛⎞⎛⎞−=− ⋅ = + ⋅⎜⎟ ⎜⎟⎜⎟−⎝⎠⎝⎠ ⎝⎠ (17.4.20) 对于最大边缘后验的情况,通过类似的分析,我们给得到 2/ 2( )/2 2 1(/)2log (2 ) 2log ( ) log12 Dd Dd map cvcTDdv ξξπσξξπσ − − ⎛⎞⎛⎞⎛⎞−=− ⋅ ⋅ = + − ⋅ ⎜⎟⎜⎟⎜⎟−⎝⎠⎝⎠⎝⎠ (17.4.21) 特别地,对于 2D 关系(单应和仿射单应), www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第17章:鲁棒方法 426 2 22log 2( ) log12map STDdξ ξπσ ⎛⎞⎛⎞=+−⋅⎜⎟⎜⎟−⎝⎠ ⎝⎠ (17.4.21a) 对于 3D 关系(基本矩阵和仿射基本矩阵), 2 22log ( ) log12map STDdξ ξ πσ ⎛⎞⎛⎞=+−⋅⎜⎟⎜⎟−⎝⎠ ⎝⎠ (17.4.21b) 式(17.4.21a)与(17.4.21b)的第 2 项因子 2 1 2log 2 Sλ πσ ⎛⎞= ⎜⎟ ⎝⎠ ,在模型选择的 GRIC 标准中具有非常重要的 作用,见 18.4.1 节。 在最大化似然和最大化后验两种情况下,测量点是内点还是外点的决策规则都依赖于误差平方 2 ie 。尽管如此,当在最大似然估计时,阈值依赖于数据的维数 D;在最大化边缘后验时,阈值依赖 于流形的余维数 r=D-d。下面作进一步分析,不难计算: 2 2log (2 )mle map d cTT πσ ⎛⎞−=⎜⎟ ⎝⎠ (17.4.22) 对于视觉估计问题,总是有 d dd iRcLSβ=∂≈>∫ ,例如,在单应矩阵、基本矩阵、三焦张量估计中, 2L 是第一幅图像的大小,S 是在其它图像搜索对应点时所使用的窗口尺寸。因此,对于视觉估计问 题总是有 22 2(2 )ddcS πσ>> ,所 以 mle mapTT> 。这说明最大似然算法决策一个测量点是内点还是外点 时,总是偏向于内点。所以,在视觉估计问题中,外点存在时,我们更倾向于使用最大化边缘后验 算法或最大化后验算法,而不是最大似然估计算法。 7.4.3 最大后验一致抽样算法(MAPSAC) 在本节我们将后验概率模型与 RANSAC 方法结合起来,给出一个高效估计算法,称为最大后 验一致抽样算法(MAPSAC)。RANSAC 算法已被实践证实是一个非常成功的鲁棒估计算法,在此, 将它扩展到寻找最大后验的模型估计方法中。对 RANSAC 的思考可以得出,事实上它是对如下损失 函数最小化 2 2 1 n i i eC ρ σ= ⎛⎞= ⎜⎟ ⎝⎠ ∑ (17.4.23) 其中 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第17章:鲁棒方法 427 2 2 2 2 2 2 0, 0, i i i e Te es T σρ σ σ ⎧ <⎪⎛⎞⎪= ⎨⎜⎟ ⎝⎠⎪ >≥⎪⎩ (17.4.24) RANSAC 的一个不足是考虑内点时如果阈值 T 设置太高,估计的性能将会很差。换句话说,此时内 点之间将没有什么区别,而对外点的惩罚是一个常数。因此,阈值 T 越高,有相同值 C 的估计性能 越差。例如,若 T 足够大,则损失将会相同,因为每个测量点都将是内点。 为了克服 RANSAC 的上述不足,MAPSAC 算法使用最小化后验对数或边缘后验对数而不是最 小化 C。在给定α 的情况下,后验对数或边缘后验对数是容易计算的。给定α 时,在对 β 边缘化的 同时,优化对内点与外点的选择,可以通过下述最小化来完成: 2 2 1 n i map map i eC ρ σ= ⎛⎞= ⎜⎟ ⎝⎠ ∑ (17.4.25) 其中 22 2 22 2 2 2 , , ii map i map i map map eeTe eTT σσρ σ σ ⎧ <⎪⎛⎞⎪= ⎨⎜⎟ ⎝⎠⎪ ≥⎪⎩ (17.4.26) 阈值 mapT 由(17.4.21)式定义。 从上式可以看出,对于每个外点的惩罚相同,而对内点却根据它们拟合数据的好坏程度加以 区别。这种方法对所有鲁棒估计都大有裨益,并且不会增加额外的计算。实际上,在 M-estimators 方法中我们也使用了类似的方法。 在 MAPSAC 算法过程中,也可以对γ 边缘化,因为下述积分是容易计算的: ( ) () ( )2 22 2 2 2 [0,1] 2211 11 2 dD dD eeexp d expcvcv πσ πσ γγγσσ − − ⊥ ⊥ ⎛⎞⎛⎞⎛⎞ ⎜⎟⎜⎟⎜⎟⎛⎞ ⎛⎞−+−= −+⎜⎟⎜⎟ ⎜⎟⎜⎟⎜⎟ ⎝⎠ ⎝⎠⎜⎟⎜⎟⎜⎟⎜⎟⎝⎠⎝⎠⎝⎠ ∫ (17.4.27) 虽然计算代价和复杂性有所增加,但 Torr 指出,此时α 的精度有所提高。如果实际问题在估计α 同 时也注重γ 的估计(如三维视中的 3D 重构问题,需要识别外点以获得正确的运动和结构),对γ 边 缘化是不可取的。 MAPSAC 算法的计算步骤与 RANSAC 算法是类似的,一般由下述几个步骤构成: 1. 确定求解模型 M,即确定模型参数 (,,)Θ αβγ= 所需要的最小数据点的个数 n。由 n 个数据 点组成的子集称为模型 M的一个样本。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第17章:鲁棒方法 428 2. 从数据点集X 随机地抽取一个样本 J,并由该样本估计Θ 。 3. 最大化后验 ( ) () ( )( )1 Pr , , Pr , ,ii in eΘψβα = ∝ ∏ “ XMI MI ( )Pr , ,γαMI ( )Pr ,α MI 。通常 可使用下述两种方法进行近似计算: A. 通过最小化(17.4.25)(即,最大化后验)得到估计 JΘ ; B. 应用 EM 算法,先对γ 边缘化,再直接最大化后验得到估计(, )Jα β (此时,算法仅关 心α 估计精度)。 4. 经过 K 次随机抽样或达到抽样次数(确定抽样次数的规则与 RANSAC 方法相同),在所有 抽样中选择一个最好的估计 ˆJΘ ,即它最大化后验 ( ) ( )ˆPr , , Pr , , ,JJ JΘΘ≥∀XMI XMI , 或者说它最小化损失 ˆ() (),map map JJCCJΘ Θ≤ ∀ 。 5. 以 ˆJΘ 为初始值,使用非线性优化技术(如梯度下降法或 LM 法),最大化后验 ( )Pr , ,Θ XMI 或最小化 ()mapC Θ 得到Θ 最终估计。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第18章:模型选择 429 18.模型选择 在计算机视觉领域有两大问题,一是寻找数据的正确的表示方法,二是利用表示方法作决策和 形成对现实世界的假设。这两大问题都涉及到模型选择,因此模型选择技术是计算机视觉算法中的 关键技术。本章以运动模型为案例,探讨视觉模型选择问题。主要内容包括似然比、AIC 标准、BIC 标准以及 GRIC 标准在视觉模型选择中的应用。 18.1 似然比检验 18.1.1 基本运动模型 符号和术语 3D 场景中的一个点被投影到第一和第二幅图像上的齐次坐标向量分别为 1x 和 2x 。第i 个点在 第 j 幅图像上的非齐次坐标为 ( ),jj iix y 。两个视点下的第i 个点对应表示为向量 ( )112 2,,,iiiiix yx y=X Τ 。 在本章中,还会涉及簇拟合(fitting generic varieties)的更一般的情况,为了方便,我们需要更一般的 范畴,即 iX 表示一个 D 维的观察数据, ( )1,,D ii ixx= “X Τ ,所有观察到的两个视点之间的点匹配的 集合记作 X DR⊂ 。无噪(真实)数据,记作 X ,估计值为 ˆX ,有躁数据为 X。给定 y 之后 x 的密度 函数为 ()Pr |x y 。M是数据的假设模型,由噪声模型和以 { },,Θ αβγ= 为参数的两视点关系R组成, 其中 { },,Θ αβγ= 的意义与 17.4 节相同。一个代数簇(variety)定义为在 DR 中满足多项式方程组 ()g0,1 qq qQ==“X 的所有点的集合V, R将诱导出 DR 中的一个 d 维代数簇V,其参数是 α, rDd=−称为代数簇V的余维数。如果 qg 的函数形式不是多项式的,则称V是一个流形,这种区别 对本章内容来说是无关紧要的。 基本运动模型 在刚体运动的假设下,本章以两视点中的点运动模型作为模型选择的案例。每个运动模型M, 由噪声模型(可能包含外点模型)和由参数集合Θ 描述的关系R组成,用来定义 Q 个两个视点的图像 坐标的隐函数,即 ( )112 2,,,, 0qiiiigxyxyΘ = ,即 ( ),0ig Θ =X ,1 , 1inqQ= =““,其中 0 是一个零向量。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第18章:模型选择 430 ( ),0ig Θ =X 是关系的最一般情况,它不一定是多项式形式,所以,S 可能是一个流形而不是代数簇。 本章作为模型选择的案例主要是以下四种两视点关系: 1. R1:基本矩阵 F。假设 3D 对象经过刚体运动后,被观察的空间特征点在第一幅图像上的 图像齐次坐标{ }1 ix 转化为第二幅图像上的图像齐次坐标{ }2 ix ,这个点对应集合满足 21=0iiFxxΤ ,F 是一个秩为 2 的 33× 矩阵。基本矩阵刻划了整个的极几何,它包含了从点对 应得到的摄像机运动和摄像机内参数的所有信息。 2. R2:仿射基本矩阵 FA。它是在 Mundy 和 Zisserman 提出的仿射摄像机下的极几何关系, 仿射基本矩阵 FA 是线性的,它也是一个秩为 2 的 33× 矩阵,但它的左上角为一个 22× 的 零子阵。与基本矩阵一样,对于点对应集合满足 21=0iAiFxxΤ 。在一般透视摄像机下,如果 3D 对象距摄像机非常远接近平行投影,则两幅图像点对应也非常近似地满足这种关系。 3. R3:单应矩阵 H。假设摄像机作以光心为中心的旋转运动,或一个空间平面上的 3D 点作 刚体运动,两幅图像的点对应就满足单应关系,即 21H=xx。单应是一个满秩的 33× 矩阵。 4. R4:仿射单应 HA。在仿射摄像机的模型下,空间平面上的 3D 点作刚体运动,则两幅图像 上的点对应就满足仿射单应关系, 21 AH=xx。在一般透视摄像机下,如果所有点都在一 个很远的平面上,或者焦距很长并且摄像机是旋转运动,则两幅图像的点对应也能非常近 似地满足仿射单应关系。 上面四种运动模型关系,可以分两类:第一类是能够恢复摄像机位置和结构的 3D 关系,基本 矩阵和仿射基本矩阵属于 3D 关系;第二类是不能恢复 3D 结构的 2D 关系,单应与仿射单应则属于 2D 关系。 模型复杂度 传统的模型选择方法是定义一个损失函数来惩罚参数较多的模型。那么,每个模 型究竟有多少参数呢?基本矩阵有 7 个自由度,单应有 8 个,因此基本矩阵模型泛化能力更强;同 样,仿射基本矩阵有 4 个自由度,仿射单应有 6 个,所以仿射基本矩阵泛化能力更强。注意:模型 自由度的数目正好是第 16.3.3 节所指出的模型本质参数的数目。上面看上去很含糊的结论可以通过 考虑定义在数据集合上的模型流形的维数得到。 将两幅图像上的对应点 1x 和 2x 的非齐次坐标并起来,得到度量空间 4R 中的一点 iX ,度量空 间 4R 可以理解为连接的图像空间。于是,由一个刚体运动诱导的图像对应便与 4R 空间中的一个代 数簇 S 联系起来。两幅图像间的基本矩阵和仿射基本矩阵分别是维数为 3 的二次簇和维数为 3 的线 性簇,同样,单应和仿射单应分别是维数为 2 的 2次代数簇和维数为 2 的线性簇。可以笼统地说, 基本矩阵描述了 4R 空间中的一个 3 维曲面,而单应描述了此空间中的一个 2 维曲面。基本矩阵(仿 射的或是一般的)曲面上的每一点就是两幅图像的一对匹配点,有 3 个自由度,对应于 3 维场景中的 一点,也就是说可以用 3 维坐标系统来刻划 S。同样,单应(或仿射单应)曲面上的每一点也描述了一 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第18章:模型选择 431 对点对应,它有两个自由度。从观测数据估计模型等价于用该模型对应的流形拟合观测数据,在这 个意义上,模型估计与流形拟合是一回事。因此,在后面我们常常用术语“流形拟合”来代替“模 型估计”。 表 18.1.1 给出了摄像机模型和上述四种运动模型的性质,其中参数数目是指从 n 个测量数据在 没外点的情况下估计模型时所涉及的参数数目(见第 16.3.3 节),在本章中 AIC、BIC 和 GRIC 中所 涉及的模型参数数目都是指这个数目。 表 18.1.1:一些视觉模型的性质。n 是估计模型时所使用的点对应数目。 模型(M) 数据维数 (D) 流形维数 (d) 流形余维数 (r=D-d) 本质参数 数目(k) 参数数目 (p=dn+k) ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = 1000 **** **** AP 5 3 2 8 3n+8 ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = **** **** **** P 5 3 2 11 3n+11 ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = *** *00 *00 AF 4 3 1 4 3n+4 ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = *** *** *** F 4 3 1 7 3n+7 ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = 100 *** *** AH 4 2 2 6 2n+6 ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ = *** *** *** H 4 2 2 8 2n+8 18.1.2 似然比检验 在 2D 情况下,如果我们不知道数据是来自一条曲线、一条直线或是一个点,在两视点匹配情 况下数据是来自单应还是基本矩阵,在估计时应该使用什么模型呢?在没有其它任何息的情况下, www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第18章:模型选择 432 我们只能对每一种可能的模型都进行尝试,跟随的问题是如何根据尝试结果选择正确的模型呢?在 直觉上,应该选择具有最小平均误差平方和(SSE)的模型作为正确的模型,但实际情况与我们的 直觉相冲突,因为最一般模型往往能提供最小的 SSE。因此,选择具有最小 SSE 的模型往往导致选 择最一般模型。表 18.1.1 给出了对 100 个数据集合(每个数据集合包含 100 个人造的匹配)关于平均 误差平方和的实验结果。随机产生的点对应与 F,FA,H 和 HA 限制一致,即一般模型,正交投影, 摄像机旋转或者正交平面运动,其中点对应坐标上的噪声服从零均值标准差为 1σ = 的高斯分布。 在每个数据集上都对任何一个模型进行估计,并记录 SSE 的平均值,如表 18.1.1 所示。可以看到, 选择具有最小 SSE 的模型往往导致选择结果是最一般的模型 F,因此我们需要更复杂的模型选择方 法,即统计推理的方法。 表 18.1.1:100 个点对应 100 次实验的平均误差平方和,每个坐标上的噪声方差为 1, 括号中的数字是正确模型的期望值*) SSE Point Motion General (F) Orthographic (FA ) Rotation (H) Affinity (HA) Fundamental F Affine FA Homography H Affinity HA 93.074 (93) 87.0370 80.6162 78.378 978.350 96.448 (96) 806.389 85.875 4986.881 4834.735 193.964 (192) 189.132 4993.045 4967.894 1023.118 191.643 (194) 统计推理的大部分理论虽然只有 70 年的历史,但却被叫做经典理论。它主要包括两个分支,估 计理论和假设检验。假设检验理论主要来自 Neyman 和 Pearson 的工作。就总体而言,为了通过假设 检验来对模型进行比较,需要通过比较描述数据的零假设模型M1 与备选假设模型M2 来进行检验。 除特殊情况外,模型M1 的参数 1Θ 包含模型M2 的参数 2Θ (两个模型具有嵌套结构)即 12pp> , ip 为模型 i 的参数个数,进行检验的一般方法是应用似然比检验(likelihood ratio test)。在高斯分布情况 下,它导致卡方检验。首先,对两个模型而言,必须获得参数的 MLE 估计 1 ˆΘ 和 1 ˆΘ ,然后由它们获 得检验统计量 () ( ) ()()11 12 22 ˆPr , 2log 2ˆPr , LLR Θ Θ ⎛⎞ ⎜⎟==−⎜⎟ ⎝⎠ XM XLL XM (18.1.1) 其中 ( )( )log Pr ,iiiΘ=LXM。 ( )LLR X 渐进服从自由度为 12pp− 的 2χ 分布。如果 ( )LLR X 小于某 *) 本章中的所有实验数据均来源于文献:P.H.S. Torr, Bayes Model Estimation and Selection for Epipolar Geometry and Generic Manifold Fitting, IJCV 50(1): 35-61,2002 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第18章:模型选择 433 个阈值(由一个显著性水平α 决定)则接受M2,否则拒绝M2,即检验 ( ) ( ) ( )2 122,LLR p pχα=−< −12XLL (18.1.2) 如果M2 成立,则过拟合的机会是所选择的α ;如果M1 成立,则欠拟合的机会是一个未知的 β 。1 β− 的值可用来描述检验的能力。检验能力明显与α 的选择和数据的分布有关。例如,对于给定α 的情 况,所有的匹配视差均很小时的检验能力会明显小于视差大的情况。理想情况下,应选择α 使过拟 合的机会(α )与欠拟合机会( β )都很小,即检验能力很高。 在统计假设检验的 Neynam–Pearson 理论中,只考虑用拒绝正确假设和接受错误假设的概率来 定义一个决策的代价。此方法的缺点是不能应用于多个模型都合适的情况,如对于多决策问题,检 验过程很难(经常是不能处理的)对一定数目的相互依赖的显著性水平进行选择。而且,假设检验过 程只适合嵌套的两个模型(一个模型的参数是另一个模型参数的子集),不适合于视觉运动模型选择 问题。正如上面看到的那样,最大似然比方法总是导致选择最一般的模型,因此,我们需要更一般 的归纳推理方法处理模型选择的复杂性。这导致发展了各种各样的模型选择的扩展推理理论,它们 大致可以以下几类: I. 预测方法。该方法是选择最有可能最小化未来观测数据的模型。一般情况下,它使用 一种信息标准为每个模型计分,每个模型的得分表示其预测能力。例如 AIC 标准(见 下节)通常被用来为模型计分。但是,AIC 不是渐进一致的,有过高估计模型参数数 量的趋势。还有一些与预测方法关相的其他方法,如交叉确认和 bootstrap 方法,它们 渐进地等价于 AIC,但对于小样本问题会产生与 AIC 不同的重要结果。 II. Bayes 方法。如果将 Bayes 规则作为公理,可以精确计算每个模型的后验概率,则 Bayes 方法可能是最一般和最有效的模型选择方法。并且,Bayes 方法包含上面的预测方法, 因为最优 Bayes 估计同样能最小化预测误差。它的主要问题是,在计算 Bayes 后验概率 时需要在模型的高维参数空间上求积分。一般情况下,被积函数在参数空间不解析并 且参数空间维数非常高,因此积分不易计算。于是,人们寻找计算积分的近似方法, 导致不同的模型选择信息标准。事实上,其他所有非似然的模型选择信息标准都可以 看作是对 Bayes 方法的近似,即其他方法的最好结果也只是 Bayes 方法的近似结果,如 BIC 信息标准。 III. 最小描述长度方法(Minimum description length mehtods)。该方法是 Solomonoff 思想的 实现,Solomonoff 认为对于数据压缩和模式选择,用最简单或是最紧凑的理论描述数 据能起到最好的预测效果。数据的复杂性与模型结合在一起考虑可以简化 Kologmorov 复杂性(编码数据和模型的最短Turing machine 的长度),因此能用来导出基于复杂性(非 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第18章:模型选择 434 随机量)的模型的先验概率。然而,Kologmorov 复杂性是不可能精确估计的,只能近似 确定,如 Rissanen 所提出的 MDL 方法,Wallace 和 Boulton 的 MML 方法。一种基于不 可精确计算的理论似乎有点不能令人满意。 IV. 结构风险最小化原则(SRM)。SRM 是选择能最小化经验风险(误差)和信任区间(在参 数集合上)的模型。 在本章中,我们着重介绍 AIC 标准、BIC 标准和 GRIC 标准及其在视觉模型选择中的应用。 18.2 AIC 与模型选择 18.2.1 AIC 标准 Akaike 在 1973 年为模型选择建立了一个信息标准,称为 AIC 标准,并应用于时间序列的自动 回归模型。AIC 标准选择对未来数据具有最小期望预测误差的模型作为最优模型。下面,我们简要 给出 AIC 标准的推导过程。 假定 X 是当前观测数据,它的对数似然的负 2 倍记为 ( ) ( )( ),2logPr,ΘΘ=−LX M X M (18.2.1) 在高斯误差模型中它是残差(residual)平方和,这里我们仍称它为残差。令 ˆΘ 是Θ 最大似然估计,则 它使残差最小化: ( ) ( )ˆ ,min,ΘΘ=LX M LX M (18.2.2) 一个好的模型不但要对当前观测数据的残差达到最小,同时也应该对未来观测的残差尽可能小,即 好模型应该有预测能力。为此,我们考虑 ( ) ( )ˆˆ,2logPr,ffΘΘ=−LX M X M (18.2.3) 其中 fX 是未来观测数据。由于 fX , ˆΘ (当前观测数据的函数)都是随机变量,我们可以为模型 赋予一个确定的值: ( ) ˆ[ [ ( , )]]ffEE Θ= IM LX M (18.2.4) 其中 ,fEE分别为未来观测数据和当前观测数的期望。 ( )I M称为模型的期望残差,它的值越小表 示模型越好。直接计算 ( )I M值是非常困难的,AIC 是它的近似值,观测数据规模越大 AIC 值越接 近于 ( )I M。下面,我们导出 AIC。 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第18章:模型选择 435 假定模型真值为 Pr( | , )ΘX M 。记 ˆˆΘ ΘΘ= +∆ ,并在Θ 邻域内对 ˆlog Pr( | , )f ΘXM进行 TAYLOY 展开,我们有 31ˆˆˆˆˆlog Pr( | , ) log Pr( | , ) ( )2 fffTTflLOΘ ΘΘΘΘΘ=+∆−∆∆+∆XM XM (18.2.5) 其中 2 2 log Pr( | , ) log Pr( | , ), ff fflL Θ ΘΘΘ ΘΘ ΘΘ= = ∂∂==∂∂ XM XM 忽略高阶项,并注意到 ˆΘ∆ 不依赖于 fX ,我们能得到 ˆˆ ˆ( ) 2 [log Pr( | , )] 2 [ ] [ ] [ [ ] ]ff ffTffEElEEELΘ ΘΘ Θ=− − ⋅ ∆ + ∆ ∆IM X M (18.2.6) 因 fX 和 X 有相同的分布,所以 [log Pr( | , )] [log Pr( | , )]ffEEΘΘ=XM XM (18.2.7) 由于 []0,[ ]ff f fEl EL J==(Fisher 信息矩阵) (18.2.8) 将(18.2.7),(18.2.,8)代入(18.2.6),我们有 ˆˆ() 2[logPr(|,)][ ]TEEJΘ ΘΘ=− + ∆ ∆IM X M (18.2.9) 在 ˆΘ 邻域内对 ˆlog Pr( | , )ΘXM进行 TAYLOY 展开,我们有 31ˆˆˆˆˆlog Pr( | , ) log Pr( | , ) ( )2 TTlLOΘ ΘΘΘΘΘ=−∆−∆∆+∆XM XM (18.2.10) 其中 2 2 ˆ ˆ log Pr( | , ) log Pr( | , ),lL ΘΘ Θ Θ ΘΘ ΘΘ= = ∂∂==∂∂ XM XM 令 2 2 log Pr( | , )L Θ Θ Θ Θ = ∂= ∂ XM ,则必有 ˆ()LLOΘ=+ ∆ ,将它代入(18.2.10),忽略高阶项,并注意到 ˆ 0Tl Θ∆=(因 ˆΘ 最大化似然 Pr( | , )ΘXM),我们有 1ˆˆˆlogPr(|, )logPr(|, )2 T LΘ ΘΘΘ= −∆ ∆XM XM (18.2.11) 根据大数定律,当观测数据规模充分越大时, www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第18章:模型选择 436 1ˆˆˆlog Pr( | , ) log Pr( | , ) 2 T JΘ ΘΘΘ≈ −∆ ∆XM XM (18.2.12) 将上式代入(18.2.9),我们有 ˆˆˆ() 2[logPr(|,)]2[ ]TEEJΘ ΘΘ=− + ∆ ∆IM X M (18.2.13) 因 ˆˆT JΘ Θ∆∆服从自由度 p(模型的参数数目)的分布,所以有 ˆˆ[]TEJ pΘΘ∆ ∆=。因此,当观测数据规 模充分越大时, ˆ( ) 2 [log Pr( | , )] 2EpΘ≈− +IM X M (18.2.14) 令 ˆ() 2logPr(|,)2AIC pΘ=− +MXM (18.2.15) 根据中心极限定理,当观测数据规模趋于无穷大时, ()AIC M 趋于 ()IM。(18.2.15)被称为模型的 AIC 信息标准,并简记为: =2 2AIC p− +L (18.2.16) 其中,p 是模型的参数数量, L 是观测数据的最大似然对数。 可以看出,AIC 有两项,第一项对应数据拟合的恶劣程度,在高斯误差模型中它等价于(测量 值与估计值)残差(residual)平方和,第二项为模型复杂度的惩罚。当有多个竞争模型时,模型参数 值由最大似然进行估计,AIC 为每个模型记分,具有最小 AIC 值的模型作为被接受的选择。此过程 叫做最小 AIC 过程,具有最小 AIC 值的模型称为最小 AIC 估计(MAICE),被选择为最佳模型。因此, 最佳模型具有最高的信息容量和最低的复杂度。最小 AIC 方法的优点在于它的简单性,当模型的最 大似然估计已知时 AIC 值很容易计算,不涉及查表。并且,此方法可以指定任意的模型可以接受的 显著性水平,对于进行比较的模型不需要是嵌套的或排序的。 18.2.2 用 AIC 选择模型 AIC 方法假定最好的模型应该最小化未来数据的 SSE。考虑用一个 d 维流形拟合 D 维数据点的 情况,此时余维数为 D–d。Kanatani 指出,在这种情况下 AIC 为 ( )22AIC dn k= −+ +L (18.2.17) 两维情况下 D=2,拟合线模型时 d=1, 点模型时 d=0. 观察方程(18.2.17),第一项为变量残差的平方和,描述的是数据与模型匹配的恶劣程度,后两 项描述模型的简约程度:第二项是对模型维度的惩罚项,模型的维度越高,惩罚越大;最后一项是 对模型本质参数数量进行惩罚,用来惩罚多参数模型。 下面用一个简单的例子加以说明,考虑图 18.2.1 中的两维数据拟合的案例。假设测量点来自点 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第18章:模型选择 437 模型或线模型,其 x,y 坐标有零均值单位标准差的高斯噪声。使用哪一个模型会更好呢?用最小欧 氏距离平方和分别拟合一个点和一条直线,则最优拟合点(为数据点集的重心)必在最优拟合线上(见 直线估计的几何方法,第 16 章)。设点到线模型的距离平方和为 2e⊥∑ ,点到点模型的距离平方和为 2 Pe∑ ,则 222 Peee⊥=+∑∑∑& ,其中 2e∑ & 为到点的平行距离平方和,如图 1 所示。可以看出,除非 数据都精确到重心点上,否则 2e⊥∑ 总小于 2 Pe∑ 。如果被估计的模型是一条直线,因线模型维数为 1, 余维数也为 1 ,参数有两个自由度,所以它的 AIC 为 ( ) 2 24AIC line e n⊥= ++∑ (18.2.18) 即使数据量很大,模型的自由度( 即本质参数数量)不影响 AIC 值,因为它对应的惩罚项是一个常数。 起决定作用的是模型维数两倍与数据规模的乘积,它与数据集的内在自由度相同,是对估计点到真 值偏差(估计误差)平方和的补偿,即对每个数据点的平行误差平方和的补偿。对于点模型,我们 有 ( ) 224AIC point e e⊥= ++∑∑& (18.2.19) 因此,如果 ( ) ( )AIC point AIC line≤ ,即 2 2en≤∑ & ,则点模型更优。因此,此算法等价于沿着直线 进行检验。 图 18.2.1 点模型与线模型的 AIC AIC 的实验结果 表 3 给出了来自 100 个数据点,每个数据点的测量误差服从零均值标准差为 1 的高斯分布,进 行 100 次实验的平均 SSE,其中括号中的数字是正确模型的期望值。F, FA, H 和 HA 的 ()2 nd k+ 值 分别为 数据中心 估计的直线 测量数据点 e& e⊥ Pe www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第18章:模型选择 438 2 2(100 3 7) 614Fp =⋅+=, 2 2(100 3 4) 608AFp = ⋅+ = , 22(10028)416Hp =⋅+=, 2 2(100 2 6) 412AHp = ⋅+ = , 因此从表 18.2.1 可计算出各模型的 AIC 值,结果在表 18.2.2 中。可以看出,虽然 F 与 FA 的区分效 果不如 F 与 H,可是具有最低 AIC 的模型等与正确模型一致。 表 18.2.1:100 个点对应 100 次实验的平均误差平方和,每个坐标上的噪声方差为 1, 括号中的数字是正确模型的期望值 SSE Point Motion General F Orthographic FA Rotation H Affinity HA Fundamental F Affine FA Homography H Affinity HA 93.074 (93) 87.0370 80.6162 78.378 978.350 96.448 (96) 806.389 85.875 4986.881 4834.735 193.964 (192) 189.132 4993.045 4967.894 1023.118 191.643 (194) 表 18.2.2:100 个点对应 100 次实验的平均 AIC ,可以看出 AIC 趋于过拟合 AIC Point Motion General F Orthographic FA Rotation H Affinity HA Fundamental F Affine FA Homography H Affinity HA 707.07 701.04 694.62 692.38 1586.35 704.45 1414.39 683.86 5402.88 5240.74 609.96 605.13 5405.05 5379.89 1435.12 603.64 表 18.2.3:由自由度为 12||p p− 的 2χ 分布的显著水平和临界值 122| |p p− 给出的 AIC 标准的显著水平 12||p p− α 1 2 3 4 5 6 8 0.156 0.135 0.111 0.091 0.074 0.051 0.042 12||p p− α 10 12 14 20 0.029 0.020 0.014 0.005 一般情况下,AIC 过低估计数据的维数而过高估计运动模型的本质参数数量,其原因可在前面 介绍过的似然比检验中找到。用 AIC 对两个模型M1 与M2 进行比较,具有最小 AIC 的模型会被接 受,即如果 AIC2–AIC1<0,或者如果 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第18章:模型选择 439 ( ) ( )1222pp−< −12LL (18.2.20) 则接受模型M2,可以看出它与(18.1.2)是等价的。AIC 标准的显著水平可由自由度为 12||p p− 的 2χ 分布的显著水平和临界值 122| |p p− 给出。当 12||2pp− = 时,H 和 HA 的本质参数数量的不同将导致 α=0.135,或者说以 13.5%的机会产生过拟合;当 12||3pp− = 时,F 与 FA 的参数数量的本质不同导 致α=0.11,或者说以 11%的机会产生过拟合,一些典型值在表 18.2.3 中给出。这可以在实验中证实, 从表 18.2.3 可以找到。例如,第 4 列的单应与仿射单应的 AIC(对应于 12||2pp− = 的情况),此数 据由仿射单应产生的,但是它们的平均 AIC 值却几乎差相同。当随机产生的数据偶然处于退化配置 (generate configuration)时,欠拟合就会发生。考虑将一般运动模型分解为一个平面运动加上一个平 移运动模型,β的大小依赖于平行方向的误差平方和,AIC 的惩罚因子 2 意味着平行方向的误差平方 和的平均值应该小于 2.0σ 个像素,此时的一般运动才是单应关系。 随着 12pp− 数值的增加α变得越来越小(当 12pp− =20 时,α小于 0.005),过拟合的机会减少。 但是,当数据由一个光滑曲面产生时不是这种情况,表 18.2.4 中的平面数据就是这样产生的,对于 一般运动和正交运动,产生的数据位于一个光滑曲面上。一般地,对于光滑曲面,平行方向的误差 会减小,此时 AIC 也会出现欠拟合情况。 表 18.2.4:100 次实验中每个模型被选择的次数,可以看出 AIC 趋于过拟合 Model Selection Point Motion General F Orthographic FA Rotation H Affinity HA Fundamental F Affine FA Homography H Affinity HA 99 12 0 0 1 88 0 0 0 0 98 15 0 0 2 85 上述实验案例表明 AIC 的关键不足之处在于,它对每个参数只是指定惩罚因子 2―――Akaike 称它为幻数 (magic),这是渐进不一致的,着随着观察数据的增加,错误模型将会渐进地被选择。 认识到 AIC 过拟合的趋势,Leontaritis 和 Billings 建议用幻数 4 代替幻数 2,可是对于小样本情况这 会导致欠拟合,因为检验能力只随观察数据数量的增加而增加。在模型选择中用一个常数因子来惩 罚似然可能是合适的,但用一个常数因子对参数数量进行惩罚,而不考虑这些参数的来源与它们的 确定性就显得有些令人费解。实际上,Akaike 本人也明确声明,只有当 Bayes 分析不能进行时 AIC 才有用―――统计数据分析的目的是选择更好的模型,从这个角度看,Bayes 模型总是优于其它非 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第18章:模型选择 440 Bayes 方法。然而,当对问题的深入 Bayes 分析不可行时,对数似然的客观性作为随机模型的一种 评价为我们提供了模型选择的坚实基础。 18.3 BIC 与模型选择 18.3.1 Bayes 证据 本节给出模型比较的 Bayes 方法。Bayes 方法与上节方法有很大的差别,“一个流行的荒诞说法 却是,Bayes 方法与传统方法的不同仅仅是它包含任意的很难确定的主观先验概率”。下面给出如何 应用后验分布来估计每个模型的似然,它涉及到在整个参数空间上的积分。 给定可以描述数据 X 的模型为M1…MK ,则 Bayes 规则为 ()( ) ( ) () Pr , Pr Pr , Pr jj j = XM I M I MXI XI (18.3.1) 其中,I是关于现实世界的先验信息假设。例如,在两视点问题的情况下,使用四个基本运动模型是 合适的,因为模型 F, FA, H 和 HA 能描述大部分情况。当然,运动模型还可能包括其它运动模型,如 纯平移运动。给定的模型Mi 是正确模型的后验概率为 ()( ) ( ) ()()1 Pr , Pr Pr , Pr , Pr ii i jK jjj = = = ∑ XM I M I MXI XM I M I (18.3.2) 不妨假定 ( )1 Pr , 1K jj = =∑ MXI 。数据对Mi 的相对于Mj 的支持程度可由后验比来度量,即 ( ) () ( ) () ( ) () Pr , Pr , Pr Pr ,Pr , Pr iii ij jjj o ==⋅ MXI XMI MI XM IMXI MI (18.3.3) 其中 ( ) () Pr , Pr , i ij j B = XM I XM I 称为 Bayes 因子。可以看出分子与分母都是两项的乘积:一是给定模型Mi 时 数据X 的概率,称为模型Mi 的证据;另一个是模型Mi 的先验概率。Bayes 因子似乎很像带有附加 先验概率的模型比较的似然比方法,它们之间的关键差别在于,这里的每个模型证据实际上是似然 在模型参数空间上的积分: www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第18章:模型选择 441 ()( ) ( )Pr , Pr , , Pr ,j jj j j jdΘ ΘΘ= ∫ XM I XM I M I (18.3.4) 即, Evidence likelihood prior jdΘ=×∫ (18.3.5) 其中 jΘ 是第 j 个模型的参数,Pr( jΘ |Mj, I) 是模型参数的先验分布。由定义, ( )Pr , 1jj jdΘΘ=∫ MI 。 (18.3.3)式的右边第一项是由(18.3.5)式给出的两个积分的比,所以(18.3.3) 式可重写为 posterior odds=Bayes Factor×prior odds (18.3.6) 第二项是先验比,这里设为 1 ,即我们对两个模型没有任何的先验偏好,即 Pr(Mi)=Pr(Mj),也就 是说所有模型有相同的先验概率。方程(18.3.5)是一个关键的方程,它描述了一个给定模型的证据, 因此值得仔细研究。如果你接受 Bayes 规则,则逻辑表明它是计算每个模型后验概率的唯一方法。 Bayes 方法的不足是,模型的选择依赖于先验概率,或者我们早就这么认为,“你也是这么认为, 它越可能存在”。可是,这会往往使我们将后验分布(我们对这个世界的知识陈述)与现实世界相混淆 (Jaynes 关于思想投影谬误)。这里描述的所有方法都作了隐含的先验分布假设,即使最大似然方法 也等价于假设参数有均匀的先验概率分布。如果我问你:图 18.2.1 中的数据是来自一个点还是来自 一条直线的观测,你会通过问我的先验看法而做出精确判断,如问我希望这条直线多长,希望误差 分布是什么样的问题。你会根据我告诉你:“我希望这条线 1.5 个像素长还是 100 个像素长”,而作 出不同的决策。Bayes 公式只是强迫承认我们自己的假设,并且把假设放在判断之前,而不是从数 学上揭示它们。事实上,没有必要在 Bayes 方法中使用比先验概率可能性小的更复杂的模型。而且, 简单性的思想来源于这样的事实,拥有更多参数的模型将会有更广的先验分布,因此应该比简单模 型有更大的似然。 如何利用这些信息来选择合适的模型还需要 Bayes 决策理论这个工具。我们有一个潜在的行动 集合 a1…ak∈A, 每个行动对应于从模型集{M1…Mk}中选择一个模型。为了确定一个行动过程, 在给定现实世界的一个状态 M∈M的情况下,为每个行动 a∈A定义一个表示行动效益的损失函数 u: A×M→ℜ。最优行动是使期望效益最大的行动: ( ) ( )ˆ max , Pr ,aiiiaua= ∑ MMXI。最简单的情况 是 0—1 损失函数,当模型正确是,回报是 1,否则是 0。这种损失函数的模型选择方法将最大化后 验概率,它是本章所采用的损失函数,当然根据实际情况,其他方法可能也很有效。 18.3.2 BIC 标准 最理想的方法是直接确定证据(18.3.5),对于实际问题往往是要计算高维空间上的积分,例如, www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第18章:模型选择 442 在一般运动模型选择问题中,需要在 k+nd 个连续参数和 n 个离散参数构成的参数空间上计算积分: ( ) () ( )( ) ( ) ( ) 1 Pr , Pr , , Pr , , Pr ,jii in eαβγ ψ βα γα α αβγ = =∂∂∂∏∫∫∫ “ DM I MI MI MI (18.3.7) 显然十分困难。所以,通过直接计算证据来选择模型的方法是不可行的。 下面介绍一种计算证据的近似方法,它将导致 BIC 标准。我们想要为每个模型计算证据 ( ) ( ) ( )Pr | , Pr , , Pr , jjjjjjjΘ Θ ΘΘ=∂∫XMI XM I MI (18.3.8) 为此,记对数后验为 () ( )( ) ( )log Pr , , Pr ,φΘ Θ Θ= XM I MI (18.3.9) 令 ˆΘ 为参数Θ 的 MAP 估计,它最大化后验概率。记 ( )φ Θ 的 Hessian 矩阵为 2φ∇ ,则 ˆΘ 的协方差矩 阵可由 Hessian 矩阵的逆Λ=[ 2φ∇ ]-1 计算出来。因此,Bayes 证据为 ( ) ( )( )Pr , exp dφ ΘΘ=−∫XMI (18.3.10) 对 ( )φ Θ 在 ˆΘ 点 Taylor 展开,使用推导 AIC 的类似方法,我们能得到 () ()( ) ()()11ˆˆˆPr , exp exp 2 dφ ΘΘΘΛΘΘΘ−⎛⎞≈− −− −⎜⎟⎝⎠∫XMI T () ( )( )2 12 ˆ2 det exppπ ΛφΘ=− 其中 p 是系统中所有自由参数的数目。上面的最后一步是多变量高斯积分的 Laplace 近似的标准结 果。于是,证据对数为 ()()()() ( )( )1ˆˆlog Pr , log Pr , , log 2 logdet( ) log Pr ,22 pΘπΛΘ≈+++XMI XM I MI (18.3.11) 它包含四项:似然项,参数数目项,确定性项以及先验项。 从(18.3.11)式,可以得到多种计算量小的信息标准,其中最简单的是 Schwarz 所给出的方法, 他将先验分布近似为正态分布。计算机视觉中大多数问题的参数都服从高斯先验分布。设先验分布 为高斯分布,其均值为 priorΘ ,协方差为 priorΛ ,则有 ()() ()()2 12 1 prior prior prior 1ˆˆˆPr | , 2 det exp 2 p priorΘ πΛ ΘΘΛΘΘ− −−⎛⎞=−−−⎜⎟⎝⎠ MI T (18.3.12) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第18章:模型选择 443 于是,我们得到 ()()()()111det()ˆˆlog Pr , log22det()prior prior prior prior ΛΘΘΛΘΘ Λ −≈− − − +XMI L T 其中 prior LΛΛ Λ= , LΛ 是对数似然在 ˆΘ 点的协方差。因此, ()()()()1211ˆˆlog Pr , log det( )22prior prior priorΘΘΛΘΘ−≈− − − + ∇XMI L L T (18.3.13) 如果假设先验分布很扩散(即几乎没有,或者没有先验知识,对于高斯分布而言标准差非常大),先 验先验知识非常不确定, Schwarz 建议忽略涉及先验的第二项。同时,Schwarz 还建议通过 Hessian 矩阵的渐进期望值近似协方差的逆,即 21 log det( ) log22 p N∇≈L 。于是,得到证据对数的近似: ()()()2ˆlog Pr | , log Pr , log log2 pNNpΘ≈−=−XMI X I L (18.3.14) 其中 p=dn+k 为系统中所有参数的数量,N 为所有观察数据的数量。(18.3.14)结果的负二倍: BIC( ) 2 logpN= −+ML (18.3.15) 称为 Bayes 信息标准或 BIC 标准。事实上,BIC 标准不能看作是 Bayes 的,因为它忽略了先验项, 称它为 Schwarz 信息准标可能更贴切。 18.3.3 用 BIC 选择模型 假定第 j 个模型的 BIC 值 ( ) 2 log log Evidence constantjjjBIC p N=− + ≈ +ML (18.3.15) 其中 N 为观察数据的个数。用 BIC 标准选择模型的决策是,具有最小 BIC 的模型是最可能的模型。 假设模型集{Mj}上的先验是均匀分布,则每个模型的后验概率可近似为 ()( ) ()1 () Pr , () j j iK ii exp BIC exp BIC= = − = −∑ M MXI M (18.3.16) 由于 BIC 的形式简单且易于计算,对解决模型选择问题很有吸引力。但对于计算机视觉中的模 型选择问题,BIC 标准偏向选择低维模型,存在一致地欠拟合现象。这可能是 BIC 对 Bayes 证据不 良近似的结果,因为对于视觉问题,在式(18.3.4)中包含大量的潜在参数。下面给出 BIC 的一些测试 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第18章:模型选择 444 结果。 表 18.3.1:100 次实验中每个模型被选择的次数,可以看出 BIC 趋于过欠合 Model Selection Point Motion General F Orthographic FA Rotation H Affinity HA Fundamental F Affine FA Homography H Affinity HA 69 1 0 0 17 73 0 0 14 25 96 2 0 1 4 98 考虑 100 个匹配,观察数据的为 N=400 的情况,此时基本矩阵参数数量为 p=307, 单应为 p=208, 因此 BIC 对基本矩阵的惩罚项为 307ln400,而对单应的惩罚项为 208ln400,两 者 相 差 593.15。所 以 , 在两视点情况下单应会是非常糟糕的拟合,BIC 对它的惩罚往往比对基本矩阵的惩罚要小,这种情 况只在当基线很长和透视效果很明显时才能发生。当考虑具有相同维数代数簇模型选择时,情况会 更糟,见表 18.3.2。表 18.3.1 给出了 BIC 模型选择的结果。可以看出,对于基本矩阵来说,BIC 对 维数存在欠拟合,偏向低维模型,这是因为基本矩阵估计在平行方向的误差很高。单应和仿射单应 都没有表现出这样明显的特性,因为它们的维数相同并且在四个模型中最低。理论上,BIC 没有令 人满意的结果是正常的,因为它省略了先验知识,不是一种真正的 Bayes 方法。 表 18.3.2:100 个点对应 100 次实验的平均 BIC BIC Point Motion General F Orthographic FA Rotation H Affinity HA Fundamental F Affine FA Homography H Affinity HA 1932.45 1926.42 1920.00 1917.76 2799.76 1917.86 2627.80 1907.29 6233.10 6080.96 1440.18 1435.35 6227.29 6202.13 2256.36 1425.88 18.4 GRIC 与模型选择 18.4.1 鲁棒最小二乘模型的 GRIC 标准 对视觉模型选择问题,不论是使用 AIC 还是 BIC 标准都不能得到有效的结果,主要原因可能是 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第18章:模型选择 445 视觉模型有它的特殊性,如它们大多是高斯最小二乘问题,有重多的潜在参数。AIC 或 BIC 是在一 般情况下对期望残差或对 Bayes 证据的近似,没有考虑视觉模型的特点,对参数数 p 惩罚不论是本 质参数还是潜在参数都一视同仁,使用相同的惩罚因子,这看上去显然是不合理的。我们回忆视觉 模型的参数数量,它由两部分组成 p=k+nd,其中 k 是本质参数数量;n 是测量数据点的数量;d 是 模型流形的维数。d 等于每个测量点对应的潜在参数的自由度,因此 nd 正好是与所有测量点对应的 潜在参数的自由度。这样,在视觉模型两部分参数中,一部分对应本质参数,另一部分正好对应潜 在参数。于是,可以构造对参数惩罚的更一般的形式: 122GRIC nd kλ λ= −+ +L (18.4.1) 可能对视觉模型选择更合适,因为我们可通过选择惩罚因子λ1,λ2 用来纠正错误拟合。对λ的不同估 计将导致不同的 GRIC。 Torr 首先针对运动模型选择问题,通过选择λ1=log(4)=1.4,λ2=logN,给出一种特别形式的 GRIC: ( ) ( )2log4logGRIC nd k N=− + +L (18.4.2) 其中 N=4n(n 为对应点的个数。在匹配独立的假设下,每个匹配的最优估计 ˆ iX (自由度为 d 的潜在参 数的估计,d 为模型流形的维数)只受到匹配 X 的 4 个有噪坐标分量的影响,由匹配的分块对角协方 差矩阵刻划。从直觉上,这是一种好方法,随着测量点的增加,nd 将增大,并且对应的潜在参数的 估计精度不会得到提高从而误差平方和也将增大,因此对 nd 惩罚不能随数据规模的增大而增大, 应该是一个常数。对本质参数数目 k 却不是这样,随着测量点的增加,k 不变但对应的本质参数的 估计精度有所提高,所以模型越复杂误差平方将越小,因此需要一个随数据规模变化而变化的惩罚 因子对它进行惩罚。实验也证明这是一种较好的信息标准。 下面是Torr 给出的另一种估计惩罚因子λ1 方法,它将导致另一种 GRIC。在模型流形上,只要 大部分的点没有分布在特别高的曲率附近,根据式(17.4.11)和(17.4.16),对γ取期望值,我们有 () ( ) () () () 2 2 2 1 2 1Pr , exp 1 Pr ,2 dD i j in e cvα πσ αγ γαασ − = ⎛⎞⎛⎞ ⎜⎟⎛⎞⎜⎟=−+−∂⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎝⎠⎜⎟⎜⎟⎝⎠⎝⎠ ∏∫ “ XM I XI (18.4.3) 其中, ( )2 ie α 是用参数α估计的流形的第 i 个误差。这是对视觉估计特殊形式的关键近似,与前面提 到的 Bayes 正据估计有根本的区别。设 ˆα 为 MAP 估计,定义 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第18章:模型选择 446 ( ) () () 2 2 2 1 2 ˆ 1log exp 12 dD i MAP in e cv πσ αγγσ − = ⎛⎞⎛⎞ ⎜⎟⎛⎞⎜⎟=−+−⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎝⎠⎜⎟⎜⎟⎝⎠⎝⎠ ∑ “ L (18.4.3) 因为 1α α∂=∫ , ( )( )log Pr ,j− XM I 的最小值为 MAP−L 。当模型不可辨识(协方差矩阵接近无穷)时, 在所有的α上,后验分布有相同的值。因此,如果模型不可辨识时,可以把它作为 GRIC 的值。下 面,针对后验分布,给出当模型不可辨识情况下的一种新的 GRIC 标准。 在理论上,证据的负对数可能是无界的。通过类似与 BIC 的分析,对于很大的 n,给出证据(后 验分布的容量)的一个粗糙的估计,这次我们只应用到α。和以前的 GRIC 标准相比,这将会产生一 个更一般的公式: MAP2logGRIC k n= −+L (18.4.4) 其中 k 为α中参数的数量。这看上去和 BIC 很相似,所以应该仔细考虑这个统计量。如果不存在外 点,则有 2 122 constanti i eGRIC nd kλλσ=+++∑ (18.4.5) 其中 2 1 2log 2 Sλ πσ ⎛⎞= ⎜⎟ ⎝⎠ ,λ2=log(n) (18.4.6) 式(18.4.6) 中的λ1 请参考式(17.4.21a,17.4.21b)。在式(18.4.5)中包括三项:一个标准误差平方和项, 一个正比于β的规模的流形维数的惩罚项和一个正比于α规模的权重项。与前面的 GRIC 标准不同之 处在于这里的λ1 依赖于图像上视差的期望分布。分布越稀疏λ1 越大,如搜寻区域的规模 S=20, σ=2.0, 则λ1=2.8, 这比 AIC 的两项惩罚因子都大;如果 S=10, σ=2.0, 则λ1=1.38。如此分析预示着在搜寻区 域,内点均匀的分布在视差上,如此近似只是为简化起见。但实际情况并非总是如此,因此在其它 情况下,应该根据βi 的精确分布重新估计λ1。当有外点存在时,式(18.4.4)可以在γ上最大化得到近似 估计 2 122 i map i eGRIC nd k constantρλλσ ⎛⎞=+++⎜⎟ ⎝⎠ ∑ (18.4.6) 其中 22222 2 22 , , map map map map ee Te Te T σσ ρ σ σ ⎧ <⎛⎞⎪= ⎨⎜⎟ ≥⎝⎠⎪⎩ (18.4.7) www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第18章:模型选择 447 其中 mapT 由(17.4.21)式给出。 18.4.2 用 GRIC 选择模型 尽管我们已用了很大的篇幅介绍了模型选择问题,由于它的复杂性读者或许没有明白要点是什 么。下面用运动模型来简要陈述模型选择的要点。运动模型的重要的目标是应用模型来引导两幅图 像的点对应,算法细节比较复杂,但思想却很简单: 1. 用交叉相关(cross correlation)产生一个匹配集合。 2. 鲁棒估计每个模型。 3. 计算每个模型的证据。 4. 应用最佳模型重新引导匹配。 如果使用了错误模型,要么欠拟合发生(结果使匹配减少),或者过拟合发生(结果里增加了好多 伪匹配)发生。 人造数据 三个人造数据库,每个库包含 100 个匹配集合,每个集合有 100 个人造匹配,其中有 10—30% 的外点,它们随机地与 F, FA, H 或 HA 一致。每个模型选择算法都在每个匹配集合上运行一遍,被选 择的模型与现实情况进行比较。结果见表 18.4.1,可以得出结论:外点的存在使得模型选择过程确 定性降级。 表 18.3.1:在具有外点的 100 次实验中,使用 GRIC 每个模型被选择的次数 Model Selection Point Motion General F Orthographic FA Rotation H Affinity HA Fundamental F Affine FA Homography H Affinity HA 97 1 1 0 1 95 0 2 2 2 99 2 0 2 0 96 真实数据 在所用的案例中,角点通过 HARRIS 探测器获得,匹配过程在一个方形搜索窗口中进行。点对 应的误差标准差σ应用 TORR 鲁棒方法给出估计。模型比较检测与一般情况相比要简单得多,这是 因为为了那个模型是真实的,需要知道的真实情况是定性的。也就是说,如果是一般运动切实可辨 识的透视效果,则 F 是真实模型;如果摄像机围绕光心旋转,则 H 是真实模型;如果场景很远接近 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第18章:模型选择 448 正交,则 FA 是真实模型;如果所有点都在一个很远的平面上,则 HA 是真实模型;同样,如果焦距 很长并且摄像机是旋转运动,则 HA 比较合适。图 18.4.2 和 18.4.2 各有 2 对图像,每对图像对应一 种模型,模型选择算法使用 GRIC 标准。实验中给出选择结果同时,也指出最佳模型重新引导匹配 的结果。 真实数据实验的 GRIC 值在表 18.4.2 中,可以看出使用 GRIC 标准,所有的选择都对应于真实 模型。 表 18.3.2: 图像的 GRIC 值,黑体数字对应于最小 GRIC 值的模型 GRIC n Point Motion General F Orthographic FA Rotation H Affinity HA House 80 Buggy 167 Football 565 Cup 142 596 618 852 955 921 890 940 1150 3183 3321 2658 2691 801 836 587 562 图 18.4.2 第一行:房屋,摄像机对准房屋模型旋转和平移,选择的模型是基本矩阵。第二行:童车,童车在 桌面的旋转,正交运动不能产生透视结构,选择的模型是仿基本矩阵 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 第18章:模型选择 449 房屋 图 18.4.2 中的前两幅图像是一个场景,摄像机对准房屋模型旋转和平移。此场景是一般 运动,因为旋转和平移幅度都很大,并且整体透视结构可以恢复。在本案例中应用单应引导匹配, 结果匹配点都在地平面上而没有在房屋上。 童车 第二对图像是两视点下的童车在桌面的旋转,正交运动不能产生透视结构。因此正确的模 型(或者说真实的模型)是 FA。拟合一个单应结果是匹配点只在旋转桌面上,而拟合一个基本矩阵产 生 5 个误匹配。 足球比赛(图 18.4.4) 在此案例中,摄像机镜头旋转,正确的模型是单应,而仿射单应所得到 后验概率也很接近。在这个例子中拟合一个三维模型会产生很多误匹配,原因是图像中涉及部分的 错误点对应。 杯子 (图 18.4.4)本案例中摄像机进行了扭动而且有轻微的缩放。仿射单应比较合适,可单应 也可以。同样,如果三维模型被拟合的话,就会产生误匹配,这虽然与约束一致,可实际上是错误 的。 图 18.4.3 第一行:足球比赛,摄像机镜头旋转,正确的模型是单应,选择的模型也是单应。第二行:杯子, 摄像机进行了扭动而且有轻微的缩放。仿射单应比较合适,单应也可以,选择的模型是仿射单应 www.plcworld.cn 吴福朝:计算机视觉中的数学方法 参考书目与文献 450 参考书目与文献 1. 矩阵论(第二版),程云鹏主编,西北工业大学出版社,西安,1999 2. 矩阵分析与应用,张贤达著,清华大学出版社,北京,2005 3. 数学规划,郑汉鼎,刁在筠编著,山东教育出版社,济南,1997 4. 概率论与数理统计,陈希孺编著,科学出版社,北京,2005 5. 高等数理统计,茆诗松,王静龙,濮晓龙编著,高等教育出版社,北京,2003 6. 梅向明、刘增贤、林向岩,高等几何,高等教育出版社,北京,1983 7. 微分几何,陈省身,陈维桓著,北京大学出版社,北京,1999 8. 积分几何与几何概率,吴大任译,南开大学出版社,天津,1986 9. Algebraic Projective Geometry, J. G. Semple and G. T. Kneebone, Oxford University Press, Oxford , 1979. 10. Multiple View Geometry in Computer Vision, R. Hartley and A. Zisserman, Cambridge University Press, Cambridge ,2000 11. Faugeras and Luong, The Geometry of Multiple Images, MIT Press 2001. 12. Computer Vision: A Modern Approach, D. A. Forsyth and J. Ponce, Pearson Education Inc. 2003 13. Statistical Optimization for Geometric Computation: Theory and Practice, K. Kanatani, ELSEVIER,1996 ――――――――――――――――――――――――――――――――――――――――――― 14. 吴福朝,李华,胡占义,基于主动视觉系统的摄像机自定标方法研究,自动化学报,第 27 卷, 第 6 期,pp.752-762, 2001 15. 吴福朝,胡占义,摄像机自定标的线性理论与算法,计算机学报,第 24 卷,第 11 期,pp. 1121-1135, 2001 16. 吴福朝,胡占义,关于 P5P 问题的研究,软件学报,第 12 卷,第 5 期,pp.768-775,2001. 17. 吴福朝,胡占义,摄像机未标定的 P5P 问题研究,计算机学报, 第 24 卷,第 11 期,pp. 1221-1226, 2001. 18. 吴福朝,阮宗才,胡占义,非线性摄像机自标定,计算机学报,第 25 卷,第 3 期,pp.276-283, 2002. 19. 吴福朝,胡占义,线性确定无穷远平面的单应矩阵和摄像机自标定,自动化学报, 第 28 卷,第 4 期,pp.488-496, 2002 20. 吴福朝,胡占义,多平面多视点单应矩阵间的约束,自动化学报, 第 28 卷,第 5 期,pp.690-699, www.plcworld.cn 吴福朝:计算机视觉中的数学方法 参考书目与文献 451 2002. 21. 吴福朝,胡占义,由二次曲线确定摄像机方位的线性算法,计算机学报,第 25 卷,第 11 期, pp.1157-1164, 2002. 22. 吴福朝,胡占义, PnP 问题的线性求解算法,软件学报, 第 14 卷, 第 3 期, pp.682-688, 2003. 23. 吴福朝, 王光辉, 胡占义, 基于矩形的确定摄像机内参数与位置的线性方法, 软件学报, 第 14 卷, 第 3 期, pp. 703-712, 2003. 24. 吴福朝,胡占义,仿射重构的充要条件,技术报告(未发表). 25. 吴福朝,胡占义,度量重构的充要条件,技术报告(未发表). 26. F. C. Wu and Z. Y. Hu, 5-point and 4-point Algorithm to Determine the Fundamental Matrix, 自动化 学报, 第 29 卷, 第 2 期, pp.175-180, 2003. 27. 雷成,吴福朝,胡占义,Kruppa 方程与摄像机自定标,自动化学报,第 27 卷,第 5 期,pp.621-630, 2001. 28. 孙凤梅,吴福朝,胡占义, 由平行平面的投影确定无穷远平面的单应矩阵,软件学报, 第 14 卷, 第 5 期, pp.936-946, 2003. 29. 祝海江,吴福朝,基于一组对应消失线的度量重构,软件学报, 第 15 卷, 第 5 期, pp.666-677, 2004. 30. 张淮峰,吴福朝, 胡占义, 基于仿射点对应的分层重构, 计算机学报,第 28 卷,第 8 期, pp.1267-1276, 2005 31. 张淮峰,吴福朝,胡占义,三视校正的理论及鲁棒性算法,软件学报, 15(5):676-688, 2004. 32. 胡占义,王光辉,吴福朝, 基于平面与直线的仿射重建,计算机学报, 第 26 卷,第 6 期,pp.722-728, 2003. 33. F. C. Wu, Z. Y. Hu, and F. Q. Duan, 8-Point Algorithm Revisited: Factorized 8-Point Algorithm, International Conference on Computer Vision , ICCV’2005, Vol.I, pp.488-494, 2005. 34. F. C. Wu, Z. Y. Hu, and H. J. Zhu, Camera Calibration with Moving One Dimensional Objects, Pattern Recognition, Vol.38, No.5, pp.355-265, 2005 35. F. C. Wu, F. Q. Duan, and Z. Y. Hu, An Affine Invariant of Parallelograms and Its Application to Camera Calibration and 3D Reconstruction,The 9th European Conference on Computer Vision, LNCS 3952, pp.191-204, 2006 36. F. C. Wu, Z. Y. Hu, The LLE and a linear mapping, Pattern Recognition, Vol.39, No.9, pp.1799-1084, 2006 37. F. C. Wu, L. Wang, Z. Y. Hu, Manuscript Title: FOE Estimation: Can Image Measurement Errors Be Totally “Corrected“ by the Geometric Method? Pattern Recognition, In press, 2006 38. Z. Y. Hu and F. C. Wu, A Note on the Number of Solutions of the Non-Coplanar P4P problem, IEEE www.plcworld.cn 吴福朝:计算机视觉中的数学方法 参考书目与文献 452 Transactions on Pattern Analysis and Machine Intelligence, Vol.24, No.4, pp.550-555, 2002. 39. Y. H. Wu, G. H. Wang, F. C. Wu, and Z. Y. Hu. Euclidean Reconstruction of a Circular Truncated Cone only from its Uncalibrated Contours. Image and Vision Computing, Vol. 24, Iss. 8, pp. 810-818, 2006. 40. Y. H. Wu, X. Li, F. C. Wu, and Z. Y. Hu. Coplanar Circles, Quasi-Affine Invariance and Calibration. Image and Vision Computing, Vol. 24, Iss. 4, pp. 319-326, 2006. 41. Z. Y. Hu, Y. H. Wu, F. C. Wu and S. D. Ma, The Number of Independent Kruppa Constraints from N Images, Journal of Computer Science and Technology, Vol.21, No.2, pp.209-217, 2006. 42. Z. Y. Hu, F. C. Wu, and G. H. Wang, Impossibility of Affine Reconstruction by a Translating Camera from Two Perspective Images, Pattern Recognition Letters, Vol. 24, No. 16, pp. 2909-2911, 2003 43. B. W. Zhang, Y. F. Li and F. C. Wu, Planar Pattern for Automatic Camera Calibration, Optical Engineering, Vol.42. No.6, pp.1542-1549, 2003. 44. G.H. Wang, Z.Y.Hu, F. C. Wu, and H. T. Tsui, Projector-Camera Based System for Fast Object Modeling, In Proc. of IEEE International Workshop on Projector-Camera Systems (in conjunction with ICCV), 2003. 45. G. H. Wang, Z. Y. Hu, F. C. Wu, and H. T. Tsui, Implementation and Experimental Study on Fast Object Modeling Based on Multiple Structured Stripes, Optics and Lasers in Engineering, Vol.42, pp.627-638, 2004. 46. G. H. Wang, H. T. Tsui, and Z. Y. Hu, F. C. Wu, Camera Calibration and 3D Reconstruction from a Single View Based on Scene Constraints, Image and Vision Computing, Vol.23, No.2, pp.311-323, 2005. 47. G. H. Wang, Z. Y. Hu, and F. C. Wu, Single View Based Measurement on Space Planes, Journal of Computer Science and Technology, Vol.19, No.3, pp.374-382, 2004. 48. Y. H. Wu, H. J. Zhu, Z.Y. Hu, and F. C. Wu, Camera Calibration from the Quasi-Affine Invariance of Two Parallel Circles. The 8th European Conference on Computer Vision, pp. 190-202, 2004 49. Fishler M. A, and Bolles R. C, Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography, Communications of the ACM, Vol.24, No.6, pp.381-395, 1981 50. H. C. Longuet-Higgins, A computer algorithm for reconstructing from two projections. Nature, 293:133-135, 1981. 51. P. H. S. Torr. Bayesian model estimation and selection for epipolar geometry and generic manifold fitting. In IJCV, 50(1): 35-61, 2002. www.plcworld.cn
还剩461页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 2 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

1107030775

贡献于2021-01-15

下载需要 2 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf