图像检索与压缩域处理技术的研究

王朝百科·作者佚名 2010-06-07

宽屏版字体: 小|中|大|超大

图像检索与压缩域处理技术的研究作者:沈兰荪张菁李晓光

市场价：¥98.00

·出版社：人民邮电出版社

·页码：496 页

·出版日期：2008年

·ISBN：9787115189943

·条形码：9787115189943

·版本：1版

·装帧：精装

·开本：16

·中文：中文

·丛书名：高新技术专著系列

内容简介《图像检索与压缩域处理技术的研究》是关于图像检索与压缩域处理技术的一本学术专著，反映了相关技术领域近年来的最新研究进展。

《图像检索与压缩域处理技术的研究》共分4篇20章。第一篇为基础知识，介绍数字图像与编码的基础知识、图像编码的基本方法与有关国际标准，基于内容的图像检索技术；第二篇为基于视觉感知的个性化图像检索技术，分析论述视觉注意机制及注意模型、视点跟踪技术、客观化的视觉感知技术、个性图像检索技术以及用户兴趣模型等内容；第三篇为基于压缩域的图像处理技术，阐述压缩域纹理图像分类、基于轮廓特征检索、DCT域处理、小波域处理以及JPEG2000等内容；第四篇为《图像检索与压缩域处理技术的研究》的结束语，主要介绍当前图像检索与压缩域处理方面的一些研究热点。

《图像检索与压缩域处理技术的研究》可供通信与电子系统、信号与信息处理、计算机应用等相关专业的研究人员、工程技术人员、高校教师、研究生和高年级本科生学习参考。

作者简介沈兰荪，北京工业大学教授、博士生导师，北京市信号与信息处理研究室主任，IEEE学会高级会员，国际欧亚科学院院士，北京市有突出贡献专家。历任中国科技大学电子工程系主任、中国科技大学高技术学院副院长、北京工业大学副校长、北京市自然科学基金会副会长等。现任《中国大百科全书（二版）》电子学学科副主编，中国微弱信号检测学会副理事长，国家自然科学基金委信息科学部专家评审组成员，中国科技大学等校兼职教授等。

主要研究领域为图像／视频编码、传输、处理，以及中医舌象采集与分析技术等，著有《数据采集技术》、《图像编码与异步传输》、《小波编码与网络视频传输》、《中医舌象的采集与分析》等著作。

目录第一篇基础知识

第1章数字图像

1.1图像与视频3

1.2数字图像的特点4

1.2.1图像数据的海量性4

1.2.2图像的压缩格式具有普遍性5

1.2.3图像的内容表现具有非结构性6

1.2.4应用环境的多元化6

1.3图像的彩色空间7

1.3.1彩色空间的视觉属性7

1.3.2RGB彩色空间7

1.3.3YCbCr彩色空间8

1.4视频格式9

1.5感兴趣区的人眼视觉系统特性10

1.5.1视觉感兴趣区10

1.5.2视觉掩盖效应11

1.6图像质量的评价15

1.6.1概述15

1.6.2客观质量的评价16

1.6.3主观质量的评价16

1.6.4感兴趣区质量评价17

1.6.5感兴趣区质量评价的实验结果19

1.7讨论21

参考文献21

第2章图像压缩编码技术的发展

2.1概述23

2.2熵编码24

2.3传统的图像/视频编码技术25

2.3.1预测编码25

2.3.2变换编码26

2.3.3矢量量化28

2.4新型图像/视频编码技术28

2.4.1第二代图像编码方法29

2.4.2分形编码29

2.4.3模型编码30

2.4.4小波编码31

2.5图像/视频编码标准32

2.5.1静止图像编码的标准35

2.5.2视频编码标准35

2.6JPEG2000标准40

2.6.1JPEG2000体系结构与关键技术40

2.6.2JPEG2000的主要特点与性能描述45

2.7讨论46

参考文献49

第3章基于内容的图像检索技术

3.1概述52

3.2图像的内容特征54

3.2.1颜色特征55

3.2.2纹理特征57

3.2.3轮廓特征60

3.2.4形状特征60

3.2.5对象特征61

3.2.6空间特征63

3.2.7字符特征64

3.2.8语义特征64

3.2.9图像的语义层次模型66

3.3图像相似度计算67

3.3.1距离度量67

3.3.2相关计算68

3.3.3关联系数计算69

3.3.4多特征相似度计算70

3.3.5具有光照不变性的图像检索70

3.4人机接口及相关反馈71

3.4.1友好的人机交互接口71

3.4.2相关反馈的新进展74

3.5图像的检索76

3.5.1低层视觉特征76

3.5.2局部图像76

3.5.3自定义特征检索77

3.5.4示例图与草图检索77

3.5.5浏览检索77

3.6图像检索系统78

3.7图像检索性能的评价79

3.8讨论80

参考文献82

第二篇基于视觉感知的个性化图像检索

第4章视觉注意机制及注意模型

4.1概述89

4.2人眼视觉系统的生理特性90

4.2.1视觉感官92

4.2.2视觉通路93

4.2.3视觉中枢94

4.2.4视觉感知97

4.3视觉注意机制98

4.3.1What和Where视觉通路98

4.3.2预注意和注意阶段99

4.3.3自底向上和自顶向下的注意模式99

4.3.4选择性注意机制100

4.3.5注意焦点的选择与转移102

4.4视觉注意模型102

4.4.1基于空间的注意模型103

4.4.2基于特征的注意模型111

4.4.3基于空间和特征整合的注意模型112

4.4.4基于对象的注意模型112

4.5讨论113

参考文献114

第5章基于视觉注意模型的感兴趣区检测

5.1概述118

5.2感兴趣区检测的研究进展119

5.3一种基于改进Itti模型与进化规划的感兴趣区检测方法121

5.3.1视觉显著度量122

5.3.2注意焦点的选择与转移124

5.3.3感兴趣区的生成126

5.3.4一种基于改进Itti模型与进化规划的感兴趣区检测方法的实验128

5.4基于相似距离的Top-Down模型的初步研究135

5.4.1基于相似距离的Top-Down模型结构135

5.4.2相似区域的判定方法136

5.4.3基于相似距离的视觉期望137

5.4.4基于相似距离的Top-Down模型的初步实验138

5.5讨论139

参考文献140

第6章视点跟踪技术

6.1概述142

6.2视点跟踪技术的研究进展143

6.2.1人眼的运动特性143

6.2.2视点跟踪设备144

6.2.3人眼检测与定位145

6.2.4视点跟踪技术分类147

6.3改造的视点跟踪设备150

6.3.1视点跟踪设备的选择及参数设置150

6.3.2视点跟踪设备的改造方案154

6.3.3方案选择与对比157

6.4基于Gabor变换的人眼定位方法157

6.4.1归一化处理158

6.4.2Gabor小波变换159

6.4.3投影分析160

6.4.4基于Gabor变换的人眼定位方法的实验161

6.5一种基于双阈值的低复杂度视点跟踪方法163

6.5.1双阈值人眼定位算法163

6.5.2双阈值人眼定位算法的实验166

6.5.3基于几何映射的视点跟踪方法167

6.5.4一种基于双阈值的低复杂度视点跟踪方法的实验168

6.6一种基于Web Camera的自适应模板视点跟踪方法169

6.6.1自适应模板人眼定位算法169

6.6.2自适应模板人眼定位算法的实验171

6.6.3基于神经网络法的视点跟踪方法172

6.6.4一种基于Web Camera的自适应模板视点跟踪方法的实验174

6.7讨论175

参考文献176

第7章客观化的视觉感知技术

7.1概述179

7.2客观化的视觉感知信息180

7.3基于视觉感知的感兴趣区检测181

7.3.1注视点分布图181

7.3.2注视兴趣度183

7.3.3基于视觉感知的感兴趣区184

7.4基于视觉感知的感兴趣区检测实验平台186

7.4.1实验平台186

7.4.2实验结果188

7.5讨论198

参考文献199

第8章个性化图像检索技术

8.1概述200

8.2图像搜索引擎202

8.3用户兴趣模型205

8.3.1Agent推理机205

8.3.2个性化文件209

8.3.3用户兴趣模型的更新213

8.4基于规则的个性化推荐214

8.5基于内容的个性化推荐218

8.5.1概述218

8.5.2潜在变量分析219

8.5.3广义概率主分量分析模型221

8.6协作过滤的个性化推荐224

8.6.1概述224

8.6.2基于记忆的协作过滤225

8.6.3基于模型的协作过滤229

8.6.4基于协作过滤的图像检索230

8.7混合过滤的个性化推荐233

8.8个性化推荐系统的评价235

8.9相关反馈技术235

8.10讨论237

参考文献238

第9章应用于个性化图像检索的用户兴趣模型的构建

9.1概述242

9.2用户兴趣模型描述243

9.2.1用户兴趣的表示方式243

9.2.2用户兴趣模型的分类244

9.2.3用户兴趣模型的构建方法245

9.2.4用户兴趣模型的框图246

9.3用户短期兴趣的获取247

9.3.1短期视觉特征248

9.3.2短期视觉特征实验结果253

9.3.3短期语义特征257

9.3.4短期语义特征实验结果263

9.4用户长期兴趣的获取263

9.4.1推理机的设计与实现264

9.4.2长期视觉特征265

9.4.3长期视觉特征实验结果266

9.4.4长期语义特征270

9.4.5长期语义特征实验结果273

9.5基于用户兴趣模型的个性化图像检索系统273

9.5.1个性化图像检索系统组成273

9.5.2个性化图像检索实验结果与分析274

9.6讨论281

参考文献282

第三篇基于压缩域的图像处理

第10章压缩域图像处理技术综述

10.1概述287

10.2压缩域图像处理系统的构成288

10.2.1基于压缩域的图像检索系统框图289

10.2.2压缩域处理可操作位置289

10.3压缩域图像处理的研究方法290

10.3.1寻求对等操作291

10.3.2寻求特有操作291

10.4压缩域图像检索技术的研究进展292

10.4.1变换压缩域检索技术292

10.4.2空间压缩域检索技术298

10.4.3混合压缩域检索技术299

参考文献300

第11章压缩域纹理图像分类

11.1概述305

11.2基于DCT压缩域区域能量方向性的纹理图像分类306

11.2.1基于DCT编码的基本框图306

11.2.2DCT域区域能量的方向性307

11.2.3基于能量方向性的纹理图像分类算法设计309

11.2.4基于DCT压缩域区域能量方向性的纹理图像分类算法实验310

11.3基于DCT压缩域的具有旋转不变性的纹理图像分类312

11.3.1DCT域的多分辨率特性312

11.3.2具有抗旋转性的纹理图像分类方法314

11.3.3基于DCT压缩域的具有旋转不变性的纹理图像分类算法实验315

11.4基于小波压缩域纹理图像分类317

11.4.1基于小波的纹理分析方法的发展317

11.4.2基于子带间相关性纹理特征提取318

11.4.3基于小波压缩域纹理图像分类算法321

11.4.4基于小波压缩域纹理图像分类算法实验321

11.5讨论323

参考文献324

第12章DCT压缩域基于轮廓特征的图像检索

12.1概述327

12.2基于图像检索的连通直方图方法328

12.2.1图像的连通直方图328

12.2.2基于连通直方图的图像检索330

12.2.3基于连通直方图的图像检索的实验331

12.3DCT压缩域基于轮廓特征的图像检索方法333

12.3.1重组DCT系数334

12.3.2提取图像的轮廓334

12.3.3基于轮廓的连通直方图336

12.3.4DCT压缩域基于轮廓特征的图像检索流程337

12.3.5DCT压缩域基于轮廓特征的图像检索的实验337

12.4讨论340

参考文献340

第13章压缩域字符定位

13.1概述341

13.2DCT压缩域的字符定位方法343

13.2.1DCT压缩域中字符特征的提取343

13.2.2DCT压缩域的字符定位算法344

13.2.3DCT压缩域字符定位算法的实验345

13.3基于加权频率的DCT压缩域的字符定位方法347

13.3.1DCT压缩域字符区新特征——加权频率347

13.3.2基于加权频率的DCT压缩域字符定位算法348

13.3.3基于加权频率的DCT压缩域字符定位算法的实验352

13.4小波压缩域字符定位355

13.4.1字符特征在小波压缩域图像中的表示355

13.4.2基于小波压缩域的字符定位算法357

13.4.3基于小波压缩域字符定位算法的实验362

13.5讨论363

参考文献364

第14章压缩域的肤色分割

14.1概述366

14.2DCT压缩域基于三维椭圆模型的自适应肤色分割367

14.2.1三维椭圆肤色模型367

14.2.2基于DCT直流系数的肤色初分割371

14.2.3自适应修正分割结果372

14.2.4DCT压缩域中基于三维椭圆模型的自适应肤色分割实验373

14.3小波压缩域双适形肤色分割模型375

14.3.1双适形肤色模型375

14.3.2小波压缩域基于双适形模型的肤色分割377

14.3.3平滑滤波与连通域分析378

14.4讨论378

参考文献379

第15章压缩域的人脸检测

15.1概述381

15.2DCT压缩域的人脸检测方法383

15.2.1一种基于多级梯度能量特征的DCT压缩域人脸检测算法框图383

15.2.2多级梯度能量特征385

15.2.3级联分类器387

15.2.4搜索策略388

15.2.5基于多级梯度能量描述的DCT压缩域人脸检测算法的实验389

15.3小波压缩域的人脸检测390

15.3.1一种基于多级梯度能量描述的小波压缩域人脸检测算法框图390

15.3.2多级梯度能量描述391

15.3.3级联检测器394

15.3.4搜索策略396

15.3.5结果仲裁397

15.3.6实验结果397

15.4讨论400

参考文献400

第16章基于JPEG2000压缩码流的检索方法

16.1概述402

16.2JPEG2000码流结构及包头信息403

16.3基于JPEG2000压缩码流的图像检索404

16.3.1提取包头信息404

16.3.2基于包头信息构建特征量405

16.3.3特征量归一化406

16.3.4相似度匹配406

16.4基于JPEG2000压缩码流检索方法的实验407

16.4.1特征量计算及相似度匹配407

16.4.2检索结果的准确性408

16.4.3检索效率与压缩比的讨论410

16.5讨论412

参考文献412

第17章基于反对称双正交小波的压缩域图像检索方法

17.1概述413

17.2基于反对称双正交小波的多尺度边缘提取算法的研究414

17.2.1小波用于图像边缘提取414

17.2.2反对称双正交小波的多尺度边缘提取算法417

17.2.3基于反对称双正交小波多尺度边缘提取算法实验421

17.3方向梯度相角直方图及其特性424

17.3.1方向梯度相角直方图的构造424

17.3.2方向梯度相角直方图的特性426

17.4基于反对称双正交小波的压缩域图像检索算法的研究431

17.4.1基于反对称双正交小波的图像压缩编码算法431

17.4.2基于反对称双正交小波的压缩域图像检索算法432

17.4.3基于反对称双正交小波的压缩域图像检索算法实验432

17.5讨论437

附录：小波滤波器系数438

参考文献439

第18章一种支持检索的分类矢量量化压缩编码方法

18.1概述441

18.2不同量化方法与图像检索442

18.2.1标量量化442

18.2.2矢量量化442

18.2.3分类矢量量化444

18.2.4检索性能分析445

18.3一种支持检索的分类矢量量化压缩编码算法的研究447

18.3.1基于反对称双正交小波的分类矢量量化压缩编码算法框图448

18.3.2矢量码书的设计450

18.3.3基于压缩数据的图像检索454

18.3.4一种支持检索的分类矢量量化压缩编码算法实验456

18.4讨论460

参考文献460

第19章一种支持检索的迭代分形图像压缩方法

19.1概述462

19.2迭代分形编码463

19.2.1迭代分形编码的理论基础463

19.2.2迭代分形编码的基本原理465

19.2.3分形与其他方法的结合466

19.2.4迭代分形用于图像检索的分析467

19.3基于迭代分形的图像压缩编码与检索算法研究467

19.3.1小波变换域内基于迭代分形的图像压缩编码算法468

19.3.2基于迭代分形压缩数据的图像检索的实现471

19.3.3基于迭代分形的图像压缩编码与其检索算法实验472

19.4讨论475

参考文献476

第四篇结束语

第20章结束语

20.1人眼视觉系统特性的讨论481

20.2视频关键帧的压缩域提取482

20.2.1等时间间隔采样方法的关键帧提取482

20.2.2基于帧间内容变化方法的关键帧提取483

20.2.3基于聚类方法的关键帧提取484

20.2.4针对敏感视频识别应用的关键帧的提取方案484

20.3语义鸿沟485

20.3.1基于对象本体论定义高层语义486

20.3.2机器学习方法建立低层视觉特征与高层语义的关系486

20.3.3相关反馈学习用户主观意图488

20.3.4生成语义模板支持高层图像检索488

20.3.5讨论489

20.4压缩域图像特征的提取490

20.4.1压缩域图像中的空间视觉特征490

20.4.2压缩域编码特征491

20.4.3不同压缩域的统一特征492

20.4.4讨论492

参考文献493

……

序言长期以来，人们在自然界感受到的信息主要是视觉信息。与此不同，传统的计算机与通信领域，能够处理和传输的主要是文字和语音信息。近年来，全球信息化和经济全球化已成为时代的发展潮流，研究新的宽带业务，开发网络多媒体应用，提高人类的生活质量，已成为各国科技界与产业界共同关注的问题。由于宽带业务与多媒体信息的主体是图像／视频，因此，研究开发以图像／视频为主体的多媒体业务已成为当今信息科学与技术的重要研究领域。

如何对急速膨胀的海量图像数据进行有效的检索处理，是人们研究开发以图像／视频为主体的多媒体业务首先要面对的一个问题。针对目前广泛使用的基于关键字检索（Keywords-Based Retrieval）的图像检索方法的种种不足，人们提出了基于内容的图像检索（CBIR，Content-Based Image Retrieval）技术。CBIR技术通过提取图像的低层视觉特征（如颜色、纹理和形状等）为图像建立索引；用户通过提供示例图、草图或描述图像特征等进行检索；系统进行相似度匹配，返回与特征相似的结果。CBIR技术的优点是，它在一定程度上体现了图像的内容，具有较强的客观性。

后记本书是北京市信号与信息处理研究室十年来在图像检索与压缩域处理技术方面研究工作的总结，是研究室教师与同学集体工作的结晶。没有大家共同的努力，就没有这本书的问世。在此要特别感谢他们的辛勤工作。

有关人员的分工如下：张菁博士负责第3～9章以及第20.3节初稿的写作；李晓光博士负责第13～15章以及第20.4节初稿的写作；沈兰荪负责第1、2、10～12、16～19章以及第20.1节初稿的写作，并负责全书总体设计，博士生赵士伟负责第20.2节初稿的写作。沈兰荪、张菁、李晓光等共同承担全书统稿及定稿工作。

本书写作直接参考了魏海、黄祥林、李晓华、刘党辉、朱旭娟、宋磊、孔潇、孙慧平、李嵩、贺琳、赵孟凯、高静静、赵士伟等在本研究室学习时完成的学位论文与公开发表的学术文章。贺琳硕士参加了全书文稿的整理工作。王素玉博士帮助审阅了第17章初稿，李云章教授审阅了第17章小波部分的数学内容。在此一并致谢。