多媒体技术
1. 简要说明离散媒体与连续媒体的区别,自然媒体和合成媒体的区别
感觉媒体和表示媒体 (交互形式)
| 类型 | 定义 | 例子 |
|---|---|---|
| 感觉媒体 | 人—人或者人—机交换信息的形式。由于人们通过视觉、听觉器官等感知信息, 因此称为可感知形式 | 文字、数据、声音、图形、图像 |
| 表示媒体 | 计算机内部或者机—机交换信息的形式。由于计算机以二进制编码的形式表示文字、图像、声音等,所以称为数字媒体 形式 | 语言编码、电报码、条形码 |
离散媒体和连续媒体 (是否有时间轴)
| 类型 | 定义 | 例子 |
|---|---|---|
| 离散媒体 | 离散媒体是独立于时间的媒体 | 文本,图形,图像 |
| 连续媒体 | 连续媒体(时基媒体)是依赖于时间的媒体,不仅用一系列值表示,而且要指出相应值出现的时间,信息的表示与时间有关 | 声音,视频 |
自然媒体和合成媒体 (按生成属性分类)
| 类型 | 定义 | 例子 |
|---|---|---|
| 自然媒体 | 指客观世界存在的景物、声音等,经过特定的设备,进行数字化和编码处理之后得到的数字媒体 | Wave sound , Bitmap image , Digital video |
| 合成媒体 | 指以计算机为工具、采用特定符号、语言或算法表示的、由计算机生成(合成)的文本、音乐、语音、图象和动画 | MIDI 音乐,TTS,graphics,computer animation |
2. 西文字符如何编码?ISO646与ISO8859有什么区别?
ASCII
计算机中使用得最广泛的西文编码字符集:美国标准信息交换码(American Standard Code for Information Interchange, 简称ASCII码),后来被批准为ISO-646-US标准
ASCII字符集中
- 32个控制字符 + 96个可打印字符
- 采用7位二进制进行编码
ISO-8859
该编码是在 ASCII 编码的基础上扩展出来的,但它仍然是单字节编码 (单 8 位代码空间),总共只能表示 256 个字符。
既然 ASCII 只能表示 128 个字符,显示是不能完全表示完的,所以 ISO-8859-1 扩展了 ASCII 编码,在 ASCII 编码之上又增加了西欧语言、希腊语、泰语、阿拉伯语、希伯来语对应的文字符号,它是向下兼容 ASCII 编码的。
3. GB2312国标汉字编码包括多少汉字和符号?区位码、交换码与机内码有什么区别和联系?
GB2312字符集由三个部分构成:
- 字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号)
- 一级常用汉字,共3755个,按汉语拼音排列
- 二级常用字,共3008个,因不太常用,所以按偏旁部首排列
其转换关系如下:
- 区位码两个字节分别加上 32 可以得到国标码
- 国标码两个字节分别加上 128 可以得到机内码
4. CJK是什么?GBK是什么?两者有什么关系?GBK与GB2312之间是什么关系?
CJK 和 GBK 的关系: GBK 收录了全部的 CJK 汉字和符号, 并有所补充
GB2312 和 GBK 的关系: GBK 与 GB2312-80 保持向下兼容,后者只包含简体字
CJK(中日韩)统一汉字字符集
- 所谓CJK统一汉字编码, 是指不论国家和地区,不论汉字的字义有无区别,只要字形相同,该汉字就只有一个代码
- CJK字符集以现有各国和地区的标准字符集作为源字符集,将其中的汉字按统一的认同规则进行认同/甄别后,生成涵盖各源字集并按东亚著名的四大字典(康熙字典、大汉和字典、汉语大字典及大字源)的页码/字位综合排序(按部首—笔画数目)排序,构成共27,484个汉字组成的大字符集
- 经过中、日、韩、越、新的力争,国际标准化组织在Unicode编码体系中给汉字划出了9万多个码位,各国将对CJK汉字字符集作进一步的扩充
GBK《汉字内码扩展规范》
GBK全称《汉字内码扩展规范》(1995年)
- 向下与 GB 2312 编码兼容
- 向上准备向ISO 10646.1 国际标准过渡,是一个承上启下的标准
GBK 规范收录了 ISO 10646.1 中的全部 CJK 汉字和符号,并有所补充
- GB 2312中的全部汉字(GBK/2)
- 其他CJK汉字和增补的汉字(GBK/3和GBK/4),共21003个汉字
- 另外还有883个图形符号(GBK/1, GBK/5
特点
- 汉字数目多,共21003个
- 简体和繁体汉字在同一个字符集中
- 包含了中、日、韩认同的全部CJK汉字
- 双字节编码,第1字节的最高位必为“1”,第2字节的最高位不一定是“1”
- 与GB2312-80保持向下兼容
- 与ISO10646中的汉字字汇兼容,代码不兼容
字汇(repertoire):编码字符集中有哪些字符
5. UCS编码是什么?其意义何在?目前进展如何?有哪些具体的实现方案?
ISO/IEC 10646 即“统一编码字符集”(Universal Coded Character Set,简称UCS), 相应的工业标准称为“Unicode”,两者完全兼容。
它的设计目标是实现所有字符在同一字符集中等长编码、同等使用的真正多文种信息处理, 使得各个国家和民族语言文字都能方便地进行计算机通信,特别是允许能同时使用任意多种语言文字
UCS 用 4 个字节编码 1 个字符
UTF-16
UTF-16 是变长编码, 既有 2 字节形式又有 4 字节形式, 能表示 UCS 种所有字符
读取UTF-16比特流时, 2 个字节一读:
- 如果当前两字节大于0xD800, 小于0xDCFF, 那么说明是 4 字节形式,需要再读 2 个字节
- 其他情况则说明是 2 字节形式
UTF-8
首先读取第一个字节:
- 若最高位是 0, 则该字符使用 1 个字节编码
- 若从最高位开始的顺序是 110, 则该字符使用 2 个字节编码
- 若从最高位开始的顺序是 1110, 则该字符使用 3 个字节编码
- 若从最高位开始的顺序是 11110, 则该字符使用 4 个字节编码
6. 什么是GB18030-2000汉字编码标准?它与GBK、GB2312之间是什么关系?与UCS编码是什么关系?
GB18030-2000,全称《信息技术 中文编码字符集》,是中华人民共和国国家标准所规定的变长多字节字符集。其对 GB 2312-1980 完全向后兼容,与 GBK 基本向后兼容,并支持Unicode(GB 13000)的所有码位。GB 18030-2005共收录汉字70,244个。
- 与现有的绝大多数汉字操作系统、中文平台在计算机内码一级兼容,即与国家标准GB 2312信息处理交换码所对应的事实上的内码标准兼容
- 在字汇上支持 UCS/Unicode (GB13000.1-1993)的全部 CJK 统一汉字字符和全部CJK统一汉字扩充A的字符。
- 同时收录了藏文、蒙文、维吾尔文等主要的少数民族文字,为推进少数民族的信息化奠定了坚实的基础。
- 该标准由 信息产业部和国家质量技术监督局在2000年联合发布的,并在2001年开始执行。 最新标准为2005版
与 UCS 编码的关系
- GB 18030-2000,兼容 Unicode 3.0 中日韩统一表意文字(即扩展A区),共收27533个汉字;2000年3月17日发布
- GB 18030-2005,更新至 Unicode 3.1 中日韩统一表意文字(即扩展B区),并增加少数民族包括朝鲜文、蒙古文(包括满文、托忒文、锡伯文、阿礼嘎礼文)、德宏傣文、藏文、维吾尔文/哈萨克文/柯尔克兹文和彝文的文字。共有70244个汉字;2005年11月8日发布、2006年5月1日实施
汉字编码小结
7. 什么是取样?什么是取样定理?
取样通常指周期取样, 也即用相同的时间间隔 (空间间隔) 采样模拟信号, 从而得到离散时间信号。 周期取样的时间间隔称为取样周期, 取样周期的倒数称为取样频率。
- 对于音频而言,每隔多少毫秒取一个样本
- 对于图片而言,在空间轴上将其离散
能够无失真地恢复出原始信号的最低取样频率称为Nyquist取样频率。取样定理表明:Nyquist取样频率为原始信号最高频率的2倍。
8. 简要叙述模拟声音信号数字化的步骤和每个步骤的作用
取样
对连续信号按一定的时间间隔取样。奈奎斯特取样定理认为,只要取样频率大于等于信号中所包含的最高频率的两倍,则可以根据其取样完全恢复出原始信号,这相当于当信号是最高频率时,每一周期至少要采取两个点。但这只是理论上的定理,在实际操作中,人们用混叠波形,从而使取得的信号更接近原始信号。
量化
取样的离散音频要转化为计算机能够表示的数据范围,这个过程称为量化。量化的等级取决于量化精度,也就是用多少位二进制数来表示一个音频数据。一般有8位,12位或16位。量化精度越高,声音的保真度越高。
量化精度既决定了取样值的动态范围,也决定着所引入的噪声大小。
编码
对音频信号取样并量化成二进制,但实际上就是对音频信号进行编码,但用不同的取样频率和不同的量化位数记录声音,在单位时间中,所需存贮空间是不一样的。波形声音的主要参数包括:取样频率、量化位数、声道数、压缩编码方案和数码率等。波形声音的码率一般比较大,所以必需对转换后的数据进行压缩。
9. 数字化波形声音的主要参数有哪些?其中"码率"的含义和计量单位是什么?
数字化波形声音的主要参数有:
- 取样频率 (sampling frequency)
- 量化位数 (quantization bits)
- 声道数目 (number of sound channels)
- 压缩编码方法 (encoding method ( compression method ))
- 码率或比特率 (bit rate),每秒钟的数据量
码率或比特率指的是单位时间内传输送或处理的比特的数量,也就是每秒钟的数据量。
其常见单位为比特/秒(bit/s或bps)、千比特/秒(kbit/s或kbps,k=)或兆比特/秒(Mbps,M=)。
码率计算公式:
码率 = 取样频率 * 量化位数 * 声道数
比如采样率44.1kHz,量化位数(采样大小)为16bit,双声道PCM编码的WAV文件:
码率=44.1hHz*16bit*2=1411.2kbit/s。
那么录制1分钟的音乐的大小为(1411.2 * 1000 * 60) / 8 / 1024 / 1024 = 10.09M。
10. 数字语音压缩编码的三种方法和优缺点
| 类型 | 优点 | 缺点 | 例子 |
|---|---|---|---|
| 波形编码 (Perception model-based compression) | 通用、音频质量较高 | 很难获得较大的压缩比 | PCM, ADPCM, SBC |
| 参数编码,源编码 (Production model-based compression) | 压缩比较大 | 信号源必须已知, 语音质量较差 | LPC |
| 混合编码(Hybrid compression) | 既利用了语音的生成模型,减少了传输码率,又使解码的语音产生接近原始语音的波形,以保留说话人的各种自然特征 | CELP |
11. 人的听觉系统对于声音的响度和音调的感知有什么特点?什么是掩蔽效应?频域掩蔽和时域掩蔽分别是什么含义?它们怎样在压缩声音数据中起作用?
- 对响度的感知
- 人的听觉系统存在一个听觉阈值电平,低于这个电平的声音信号就听不到 (存在听阈和痛阈)
- 听觉阈值的大小随声音频率的改变而变化,大多数人的听觉系统对2 kHz~5 kHz之间的声音最敏感
- 声音是否能听到取决于声音的频率及强度(是否大于该频率对应的听觉阈值)
- 每个人的听觉阈值也不同
- 对音调的感知
- 人们对音调(音高)的主 观感觉, 单位是“美”(Mel)
- 主观感觉的音调与频率之间并不是线性关系:
- 人耳对频率的感知范围在 20 Hz ~ 20000 Hz
掩蔽效应
一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(masking tone, masker),后者称为被掩蔽声音(masked tone, maskee)。
频域掩蔽
- 强纯音会掩蔽频率与其靠近的同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽(simultaneous masking)。
- 弱纯音离强纯音越近就越容易被掩蔽
- 低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显
- 掩蔽效应的作用范围和大小,与声强及频率有关,频率越高、声音越强,掩蔽效应越大
时域掩蔽
在时间上相邻的声音相互之间也有掩蔽现象,称为时域掩蔽。时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。
MPEG-1 音频是如何利用声音的掩蔽效应来进行编码
MPEG-1 声音数据以“帧”为单位进行编码处理。使用的时间-频率变换部件将时间域上的样本转换到 32 个频带的频率域上,通过心理声学模型计算出每个子频带的信掩比,同时根据输出码率决定每一帧样本的比特总数 A 在不超过总数 A 的前提下,使这一帧的总掩蔽与噪声之比( MNR )最小
12. MPEG-1 声音编码有哪些主要性能?
- 编码器输入:
- 取样频率:32kHz、44.1kHz 或 48kHz
- 量化精度:16 位
- 数字声音信号带宽: 20-20kHz
- 编码器输出:
- 码率:32-384 kbps
- 格式:MPEG-1格式
- 提供三个独立的压缩层次:
- 支持4种不同的模式:
- 单通道(Single channel)
- 双通道(Dual channel,二个独立的声音信号编码在一个比特流中)
- 立体声(Stereo, 左右声道的信号分别编码在一个流中)
- 联合立体声(Joint stereo,利用左、右声道信号的相关性,降低输出比特流的码率)
- 编码后的数据流支持循环冗余校验 CRC (cyclic redundancy check)
- 支持在数据流中添加其它附加信息
13. MPEG-1 音频压缩的 3 个不同层次(layer)有什么联系和区别,它们的主要性能和参数如何?
- 层 1: 每帧一个样本组、子带频宽相等、每帧 32×12=384 个样本、仅用到频率掩蔽效应。
- 层 2: 每帧三个样本组、子带频宽相等、每帧 32×12×3=1152 个样本、不仅用到频率掩蔽效应,还用到时域掩蔽效应。
- 层 3: 子带频宽与临界频宽相似, 用到频率掩蔽效应和时域掩蔽效应, 考虑到立体声冗余, 采用 Huffman 编码。
14. MPEG-2 在那些方面对 MPEG-1 Audio 作了扩展?
- 增加了 16 kHz, 22.05 kHz 和 24 kHz 采样频率声音的处理,
- 扩展了编码器的输出速率范围,由 32
384 kbps扩展到 8640 kbps, - 增加了声道数,支持 5.1 声道和 7.1 声道的环绕立体声
15. 什么叫 MIDI?原理是什么?
MIDI 是乐器数字化接口(Musical Instrument Digital Interface)的缩写。所以说 MIDI 并不是一个实在的东西,而是一个国际通用的标准接口。通过它,各种 MIDI 设备都可以准确传送 MIDI 信息
16. 颜色的机理是怎样的?在计算机中如何描述颜色?不同应用场合分别使用什么样的颜色模型?Jpeg 和 Jpeg2000 的颜色空间是什么?
感知颜色三要素
- 光的存在(光源色)
- 物体的表面特性(物体色)
- 人眼的视觉功能
颜色三要素
- 色调:指颜色的外观,用于区别颜色的名称或颜色的种类,决定于光的波长
- 饱和度: 也称为纯度或彩度,指彩色的深浅或鲜艳程度,通常指彩色中白光含量的多少
- 亮度: 表示某种颜色在人眼视觉上引起的明暗程度,与光的强度有关
颜色模型
颜色模型的分类:
- 加色模型: 颜色由光照射生成,只要有光色叠加,颜色就越来越亮,最终称为白色
- 减色模型: 颜色是颜料吸收了光线产生,要表现一种颜色,就要想办法把其他颜色过滤掉,当墨水越来越浓,白色也被遮盖的越来越彻底,当CMY三种颜色遮满纸面时,这时显示出的颜色就是黑色,也就是在彻底失去所有颜色的状态。
HSL和HSV(或称HSB)都是RGB模式下的模型,适用的都是加色原理,也就是所谓的“发光”产生颜色
| 模型 | 含义 | 应用场合 |
|---|---|---|
| RGB 模型 | 红(Red)、绿(Green)、蓝(Blue) | 显示器、投影仪、扫描仪、数码相机 |
| CMY(K) 模型 | 青(Cyan)、品红(Magenta)、黄(Yellow)、( 黑(blacK) ) | 打印机和印刷设备 |
| HSL 模型 | 色相(Hue)、饱和度(Saturation)、亮度(Lightness) | 由于人的视觉对亮度的敏感程度远强于对颜色浓淡的敏感程度,为了便于颜色处理和识别,人的视觉系统经常采用HSI彩色空间,它比RGB彩色空间更符合人的视觉特性。此外,由于HSI空间中亮度和色度具有可分离特性,使得图像处理和机器视觉中大量灰度处理算法都可在HSI彩色空间中方便地使用。 |
| YUV 模型 | Y 是亮度分量, UV 是色度分量 | 常用在数据传输场景,视频处理组件中, 彩色电视信号传输时使用 |
17. GIF图像有哪些适合网络应用的特性?又有哪些不足?它是如何实现累进显示和动画效果的?
GIF(Graphics Interchange Format)格式由CompuServe公司于87年开发,版本号GIF87a,89年扩充后版本号为GIF89a。 GIF图像文件以块(block)为单位存储信息。一个GIF文件由表示图形/图像的数据块、数据子块以及显示图形/图像的控制信息块 组成 ,称为GIF数据流(Data Stream)。数据流中的所有控制信息块和数据块都必须在文件头(Header)和文件结束块(Trailer)之间。
GIF文件格式的特点
- 颜色数较少(不超过256色) ,文件特别小,压缩比可调,适合网络传输
- GIF文件采用了LZW无损压缩算法来存储图像数据
- GIF文件允许设置背景的透明属性
- GIF文件格式可在一个文件中存放多幅彩色图像并且制作出幻灯片或者动画效果
- GIF文件支持图像数据的交叉存储方式,这样一个大的图像可以逐步显示,让用户首先看到图像概貌,然后逐步清晰 (累进显示)
- GIF文件定义的图像中可以加入文本
它的缺陷和不足是颜色数少, 只有 256 种
累进显示的原理
如果局部图像描述符中的隔行位 (interlace) 被设置, 则图像的行以 4 次分别套色顺序显示。在这里,第一个通道显示第 0 和第 8 行, 第二个通道显示第 4 和第 12 行, 依此类推,通过这个隔行扫描的累进(渐进式, progressive)方式让图像概略迅速显示
GIF 支持隔行扫描 — 通过套色 (four-pass) 显示方法处理, 相隔的像素可以连续显示
动画效果
Jpeg和Jpeg2000的颜色空间是什么
为了减少彩色图像各个分量之间的数据相关性,JPEG2000 与 JPEG一样,通常在预处理时将彩色图像从 RGB 颜色空间变换到 YCrCb 颜色空间。
18. 什么是计算机合成图像?与取样图像相比它有哪些特性?
- 使用算法或几何要素(如点、线、面、体的位置、形状和大小)及表面材料的性质,在计算机中对景物和形体(无论是真实的还是假想的)进行描述(造型modeling)
- 需要显示时,计算机根据观察者的位置及光线的设定,生成该景物的图象(绘制rendering)
合成图像 (矢量图形)
与取样图像相比较
一个是合成媒体,一个是自然媒体,他们的表示方式不同;合成图像需要渲染, 他们的展现方式不同;他们的可编辑性不同
优点
- 缩放、旋转、移动时图像不会失真
- 存储和传输时数据量较小
缺点
- 图像显示时花费时间比较长
- 真实世界的彩色图像难以转化为矢量图
19. 计算机合成图像中什么是造型(建模)?什么是绘制?
- 造型(modeling): 使用算法或几何要素(如点、线、面、体的位置、形状和大小)及表面材料的性质,在计算机中对景物和形体(无论是真实的还是假想的)进行描述
- 绘制(rendering): 需要显示时,计算机根据观察者的位置及光线的设定,生成该景物的图象
20. 简述合成图像(graphics)的展现过程,需要处理的问题有哪些?
从景物的模型生成具有高度真实感的该景物的图像,此即所谓的图像绘制(rendering),也称为图像合成 (image synthesis)







