多媒体期末复习总结

多媒体期末复习总结

根据2023年软件20级多媒体期末考试考点进行总结。

多媒体概念、特性

1、媒体、媒体可以分为哪些类型

媒体:指信息传输存储呈现的载体

媒体可以划分为5类:

  1. 感觉媒体:指直接作用于人的感觉器官、从而为人的感知系统所接受的信息形态或媒体形式

  2. 表示媒体:指感觉媒体在电子设备、计算机、网络等内部的存在形式,即编码形态的媒体,是以模拟或数字编码形态出现的感觉媒体

  3. 表现媒体:指将编码形式的媒体显示成感觉媒体的设备或技术

  4. 存储媒体:指用于存放表示媒体(即编码形态的媒体)的设备或技术

  5. 传输媒体:指用于传送表示媒体设备或技术

2、多媒体、多媒体技术的主要特点

多媒体(技术):指融合了两种以上感觉媒体的协同应用系统和技术,以帮助人们获得更丰富的应用体验

多媒体技术的特征:媒体类型和媒体技术的多样性、媒体内容的同步性和媒体应用的交互性

多媒体技术是涉及多种媒体形式的综合应用技术,主要技术特性包括以下几个方面:

  1. 整合性(集成性):多媒体技术可以将不同媒体形式(如文字、图像、音频、视频等)整合在一起,形成更为丰富、生动、直观的信息表达方式。
  2. 交互性:多媒体技术可以通过人机交互方式实现与用户之间的互动。用户可以通过输入设备(如键盘、鼠标、触摸屏等)对信息进行操作,从而实现个性化的信息获取和处理。
  3. 实时性:多媒体技术可以基于实时流式传输技术,使得信息能够以较快的速度传递和处理,并且可以实现实时的沟通和交互。
  4. 多样性:多媒体技术可以支持多种不同的媒体格式和编码方式,从而使得多种不同的应用场景都能够得到良好的支持。
  5. 可扩展性(不是主要特性/特点):多媒体技术可以根据需要灵活地扩展功能和应用范围,从而满足不同用户和应用的需求。

——来源:GPT

3、多媒体技术的体系结构

**体系结构:**指计算机系统的一组硬件软件部件的集合,以及各部件之间联结方式与规则

多媒体技术的体系结构:

image-20230419213518017

硬件平台层 :硬件平台层的音视频数据采集(捕获)

光盘驱动器、音频卡、图形加速卡、视频卡、扫描卡、交互控制接口、网络接口;

操作系统层:多媒体数据的编码与解码、媒体服务、网络传输和多媒体编程接口

  • 编解码器:(codec,coder和decoder合成词语)是系统中完成媒体数据压缩解压缩格式转换(转码)等操作的软件,在多媒体操作系统中居核心地位。

  • 媒体服务器(media server):是一种通过网络或平台向用户提供各种多媒体业务所需的媒体资源功能系统软件,通常表现为操作系统中的媒体服务(media service)组件。

    • 媒体服务器的主要功能是多媒体数据流的传输和交换,但有时候也包括媒体会话的创建交互式应答(IVR)、通知、统一消息、高级语音业务等
  • 多媒体编程接口:应用编程接口是指一组数量可观、结构复杂的子程序、函数、变量、常量、类、数据结构,是应用系统设计与实现的软件资源

    • Windows 操作系统中常见的多媒体编程接口:

      Directx 、 DirectShow、Media Foundation、SilverLight

应用系统层:媒体播放、模拟仿真、多媒体通信

整个多媒体技术架构的最上层是各类多媒体开发工具应用系统

Photoshop、Authorware、Illustrator、PowerPoint、Premier、3D Max等等。

主要讨论硬件平台层的音视频数据采集(捕获),通过特定的应用系统设计,展示该类技术的特点和应用方法。

在操作系统层,重点是多媒体数据的编码与解码、媒体服务、网络传输和多媒体编程接口

在应用层,主要通过应用程序设计,介绍媒体播放、模拟仿真、多媒体通信等系统的实现方法。

4、什么是新媒体?

**新媒体:**基于互联网、PC、移动智能终端、可穿戴设备新型数字技术媒体称为新媒体。如网站、社交软件、博客、播客、微博、微信、手机APP、客户端…

是**艺术现代数字媒体技术结合的新型媒体形态。**

5、多媒体技术有哪些应用?描述一种多媒体应用场景

1、多媒体电子消费领域

2、现代教育技术领域

3、通信领域

4、军事领域

5、管理与决策领域

6、表演与会展领域

7、信息可视化领域

8、物联网工程领域(**多媒体传感器:**摄像机、麦克风、拾音器)

9、游戏软件领域

10、大众传媒领域

多媒体应用场景:

一个典型的多媒体应用场景是在线直播。以一场赛事直播为例,观众可以通过手机、电脑等设备在线观看比赛转播,同时还可以享受到实时评论、互动、回放等多种功能。在这个过程中,多媒体技术被广泛应用,包括视频编解码流媒体传输直播平台等,为用户提供高质量的视听体验。

6、什么是编解码器?在多媒体操作系统中,编解码器起什么作用

编解码器:(codec,coder和decoder合成词语)是系统中完成媒体数据压缩、解压缩、格式转换(转码)等操作的软件,在多媒体操作系统中居核心地位。

作用:(可更详细)

  • 编码器:负责将各种类型的多媒体数据(如音频、视频、图像等)转化为压缩格式,以便节省存储空间带宽,并提高传输速度

  • 解码器:负责将压缩格式的数据解码回原始媒体数据。

7、媒体服务器及其功能

媒体服务器(media server):是一种通过网络或平台向用户提供各种多媒体业务所需的媒体资源功能的系统软件,通常表现为操作系统中的媒体服务(media service)组件。

媒体服务器的主要功能多媒体数据流的传输和交换,但有时候也包括媒体会话的创建交互式应答(IVR)、通知、统一消息、高级语音业务等。

8、 Windows 程序的核心机制

Windows 程序的核心是事件驱动消息循环机制。

回调(Callback):由系统根据应用程序返回的消息码调用对应事件消息处理函数的机制。所对应的事件消息处理函数称为回调函数

  • 窗口过程典型的回调函数。(窗口过程函数:WndProc()函数)

回调是 Windows 程序的一种运行机制,但该机制本质上是一种实现多任务的方法

Windows 程序的关键概念是*事件驱动、消息循环、回调机制和窗口过程*。

image-20230419221156996

API编程、MF

1、 Windows 程序的核心机制。

Windows 程序的核心是事件驱动消息循环机制。

Windows 程序的关键概念是*事件驱动、消息循环、回调机制和窗口过程*。

2、COM组件、组件对象、接口

组件:组件(或软件组件)是指构建软件系统的基础性单元或模块,它封装了特定的设计策略,通过标准化、可重用和开放的接口与其它组件进行组合,以便构建完整的应用系统。

组件形式:COM规范中,一个组件程序被称为一个模块,可以是一个动态连接库,也可以是一个可执行程序

COM (Component Object Model) 是一种面向对象的软件组件技术,它可以用于实现不同应用程序之间的交互和通信。COM 组件是 Windows 操作系统中基础的构建单元之一,提供了一种标准化的方法来创建可重用的软件组件。——来源:GPT

COM是微软开发的组件标准或规范,定义了组件程序之间交互方式还提供了组件程序运行所需的环境(COM库)。

组件对象COM对象,是组件以接口方式向外提供服务的实体。COM组件是建立在组件对象基础之上的程序,其他组件或普通程序(客户程序)只能通过组件对象提供的接口和组件打交道

image-20230419221943057

接口COM 对象通过接口为外界提供服务,接口是 COM 对象与外部世界交互的唯一手段。

  • IUnknown 接口 :它是任何 COM 对象都必须有的接口,不管它们是做什么用的,COM 对象都必须实现 IUnknown 接口。

创建组件的关键是设计并封装 COM 对象,尤其是它的接口,包括继承而来的 IUnKnown 接口。

3、回调函数

回调(Callback):由系统根据应用程序返回的消息码调用对应事件消息处理函数的机制。所对应的事件消息处理函数称为回调函数

4、MF架构、两种编程模型

Media Foundation架构

Media Foundation架构

Media Session用于管理媒体管道(pipeline)中的数据,从而实现音频数据的播放文件输出。(试卷上有)

Media Session并不直接管理媒体数据,而是要借助Topology

  • Media Session是一个Media Foundation对象

Topology也是一个Media Foundation对象,用于表示媒体管道中的数据如何流动

在Topology中,数据流所经过的处理模块称为节点(Node),如媒体源、转换器、输出节点

数据管道模式:

  • 通过Media Session控制其他组件

  • Media Source、MFT、Media Sink

  • MFT通常由MF平台自动处理

  • 应用不能直接处理数据

数据源模式:

  • Source Reader、Sink Writer控制数据

  • 程序处理MFT(Encoder/Decoder)

  • 应用可以直接处理数据

5、Topology

Media Session并不直接管理媒体数据,而是要借助Topology

Topology也是一个Media Foundation对象,用于表示媒体管道中的数据如何流动,应用程序通过Topology描述媒体数据源端一直到输出端所经过的路径

应用程序将Topology传给Media Session, Media Session借助Topology实现对媒体数据的管理

在Topology中,数据流所经过的处理模块称为节点(Node),如媒体源、转换器、输出节点。其中,转换器包括编码器和解码器,一般在播放媒体文件时用到解码器输出媒体文件时用到编码器数据的流动则通过节点之间的连接表示。

基于Media Session的媒体播放应用的基本框架

image-20230424153537514

通过节点连接起来的数据管道结构:

image-20230419223239215

注意:PPT上还有部分老师添加的复习内容\textcolor{red}{注意:PPT上还有部分老师添加的复习内容}

音频基础、程序设计

1、声音的基本物理属性和基本特征。声卡的基本功能。(了解)

声音的基本物理属性:频率与振幅

image-20230419223919662

声音的基本特征

  • 声音的三要素:音高、音色、音强

    • 音高:由基波频率决定的,基波频率越高,声音听起来也就越高。
    • 音色:由谐波成份的分布结构决定的,谐波构成不同,就会有不同的音质?(PPT上只有音质没有提到音色)
    • 音强:指声音的强弱,音强可以用声压大小表示。

声卡的基本功能(了解):完成数字音频信号与模拟音频信号的转换,并将模拟信号通过音箱输出

MIDI音频文件:

MIDI文件并不是录制好的音乐本身,而是描述音乐的一系列指令供声卡通过合成技术产生音频。1分钟的音乐只需5~10KB。

2、采样、量化、编码、量化间隔、量化误差(以及几种常见的采样频率)

采样 Sampling:采样是指以一定的频率(或周期)捕获模拟音频信号,从而得到一系列离散化音频样本的过程。单位时间内捕获的样本个数称为采样频率(Sampling Rate),是采样周期的倒数。

采样:是指以一定的频率(或周期)捕获模拟音频信号,从而得到一系列离散化音频样本的过程。

采样频率:单位时间内捕获的样本个数称为采样频率(Sampling Rate)

采样定理(奈奎斯特定理):**采样频率**大于模拟信号频带F的两倍(即:采样频率大于(>)该信号最高频率分量的两倍,则可以通过采样信号完全恢复原始信号)

  • 频带通常用于描述传输信号的带宽可用频率范围

image-20230307140528727

序号3、4、5的数据存在减半的规律。

人能听到的频率范围:20Hz~20000Hz(20Hz~20kHz)


量化(Quantization )量化是指用若干比特表示一个样本的过程;表示一个样本的二进制的位数,即样本的比特数称为量化深度(bit depth)

量化:是指用若干比特表示一个样本的过程;

量化深度:表示一个样本所使用的比特数称为量化深度(bit depth)。


编码(coding):编码实际上是以某种格式最终生成数字音频数据流的过程,所得到的数字音频数据将会被存储传输或者进行各种处理

编码实际上是以某种格式最终生成数字音频数据流的过程

音频编码:将模拟信号转换为数字信号并以某种格式存储的技术或过程。


量化间隔(量化阶跃):就是指将整个量化空间分割成若干离散的有限状态后,相邻的两个离散状态值之间的差值。(幅值平均划分之后的每一份平均幅值就是量化间隔。)

量化误差:模拟信号上点的实际值与进行量化之后近似的具体值之间的差值就是量化误差。

在数字信号处理中,量化误差是将连续信号转换为离散信号时产生的误差。这个错误通常是由于数字信号采样率或量化级别的限制导致的。随着采样率和量化级别的增加,量化误差会减小。

量化误差可以通过增加数字量化的精度来减小,但这也会增加计算成本和存储空间占用。因此,在实际应用中需要平衡计算资源和误差之间的权衡。

——来源:GPT

编码流程:

实例

经过采样的时间离散之后波上有根据时间点均匀划分的值(点),再经过量化的空间离散之后将整个模拟信号根据振幅进行均匀划分(如量化深度为3,则将振幅划分为8份,也就是8个值),最后根据模拟信号上的点与量化划分线之间的远近进行近似拟合,因此可以近似为3、5、5、2、4、6、7等具体数值,然后转化为二进制形式即可(011、101、101、……)。

3、采样与量化如何影响数字音频质量

模拟信号经过==采样(时间离散)量化(空间离散)==得到离散化的数字信号

  • 数字音频采样和量化过程所用的主要硬件是模数转换器(ADC)。

采样和量化对数字音频质量的影响:

  1. 采样频率:采样频率是指每秒钟对模拟信号进行采样的次数。采样频率越高,能够记录的音频细节就越多,音质也会相应提高。但是,采样频率越高,所需的存储空间和处理能力也就越大。

  2. 量化深度:量化是指将连续的模拟信号转换成离散的数字信号。量化深度越大,数字信号的精度就越高,音质也就越好。同样随着量化深度的增大,所需要的存储空间越大,处理数据也会越多。

    • 补充:通常,CD音质的采样率为44.1kHz,量化位数为16位,而更高档次的音频设备可能会使用更高的采样率和量化位数来提高音质。

4、PCM编码调制系统由哪几部分组成,PCM编码的本质

PCM编码调制系统

PCM编码框图

系统由三个部分构成:

  1. 首先是防失真滤波器,它是一个低通滤波器,用来滤除音频信号以外的信号;

  2. 其次是波形编码器,主要完成采样任务;

  3. 量化器负责对样本进行量化,即对每一个样本赋予一个对应的二进制数据,从而得到PCM样本序列,作为系统的输出。

PCM编码的实质(本质):即通过脉冲编码调制方法生成数字音频数据的技术或格式。(信号质量最好,数据量最大)——实质就是:通过采样、量化和编码的方式将模拟信号转换成数字信号的过程。

5、DM编码技术中的斜率过载与粒度噪声是如何产生的?怎样克服斜率过载与粒度噪声?

增量调制编码(DM):通过增量起伏记录模拟音频信号实际变化过程的数字音频编码。

针对极性进行编码

只需要1位来表示0或者1即可。(针对极性编码)

image-20230307141721643
  1. 红色为预测值

  2. 蓝色为实际值

  • 实际值大于预测值,则为1;否则,为0。
  1. 斜率过载:即模拟信号的斜率太大,超过了量化阶跃允许的变化幅度(模拟的预测值的变化趋势要小于实际值)。

    • 解决:增大量化阶跃(间隔)
  2. 粒状噪声:当输入信号变化比较平缓时,增量调制器的编码输出为交错出现的0和1,即数字信号并不平缓,而是以量化阶跃Δ的大小起伏变化,这就相当于引入了噪声信号

    • 解决:减小量化阶跃(间隔)

6、PCM编码、DM编码、DPCM编码的区别

1、脉冲编码调制(PCM)⭐️

PCM编码:即通过脉冲编码调制方法生成数字音频数据的技术或格式。(信号质量最好数据量最大

PCM是一种数字编码技术,用于将模拟信号转换为数字信号。

针对样本进行编码

PCM编码框图

脉冲编码调制(Pulse Code Modulation,PCM)的两种量化方式:

  1. 均匀量化(线性量化)

  2. 非均匀量化(非线性量化)

    • 13折线(不做要求)
均匀量化 非均匀量化
均匀量化 非均匀量化

2、增量调制编码(DM)⭐️

DM编码:通过增量起伏来记录模拟音频信号实际变化过程的数字音频编码。

增量调制是一种模拟编码技术(预测编码✔️)

针对极性进行编码

只需要1位来表示0或者1即可。(针对极性编码)

image-20230307141721643

3、差分脉冲编码调制(DPCM)⭐️

DPCM编码:利用样本与样本之间存在相关性来进行编码的数据压缩技术

针对实际信号值与预测值之差进行编码

思想:根据过去的样本幅值来估算下一个样本信号的幅度大小,这个值称为预测值,然后计算实际信号值与预测值之差,最后对这个差值进行量化编码

对差值(具体值)进行编码,会有多位(bits)去表示差值,不是对极性进行编码。

image-20230419232919149

区别:

  • PCM编码针对样本进行编码

  • DM编码针对极性进行编码

  • DPCM编码针对实际信号值与预测值之间的差值进行编码

7、设有一个WAV文件(文件结构),存储了双声道的PCM音频数据,采样频率为44.1kHz,位深度等于16,播放时间是1分30秒。试计算该WAV文件中音频数据的字节数。

波形音频文件有4个块组成。

WAVE文件由4个块组成:
  1. RIFF WAVE Chunk

  2. Format Chunk

  3. Fact Chunk(可选)\longrightarrow一般当wav文件由某些软件转化而成时,则需要包含该Chunk

  4. Data Chunk

    • 双声道的采样数要加倍
    • 小端序:低位字节存在地址空间中的低位(比如:Ox0782中的低位字节82存储在地址空间中的低位)
    • 大端序:低位字节存在地址空间中的高位
image-20230307151517811
  1. ID都是4个字节,比如ID='fmt '中fmt之后还有一个空字符(用“四字符码”作块ID,是RIFF文件的重要特点)

码率计算公式:

image-20230307144339993

数据量公式:

数据量(字节/秒)=(采样频率(Hz)×采样位数(bit)×声道数)/8

课堂练习:

小练习

该文件的音频数据的字节数:(码率*播放时间)/8\longrightarrow结果:15876000字节

参考:音频文件存储容量计算_百度知道 (baidu.com)

注意:PPT上还有部分老师添加的复习内容\textcolor{red}{注意:PPT上还有部分老师添加的复习内容}

(增加)转码程序设计:

image-20230424125027418

无损数据压缩算法

这一部分的详细算法思想和算法流程请看第五章PPT和第五章md笔记

PS\textcolor{red}{PS:}

  • image-20230420221409601

相关定义

  • 信源:指构成一类报文的基本符号的集合。

  • 报文:就是信息的载体

  • 码元(基本编码单元):基本符号又称为码元

  • 信息熵:一个信源所有码元平均信息量就称为该信源的信息熵entropy

  • 熵编码:就是指在不丢失任何信息的前提下,基于码元的统计特性,对码元或直接对报文本身进行编码,使得最后存储该报文所需要的平均比特数接近信源的信息熵

1、对某一串报文进行算术编码

算术编码并不对码元进行编码,而是直接对报文进行处理,即编码算法直接作用于输入报文,将其压缩成某种编码形式

算术编码算法是一个对编码区间进行分割的循环过程,当前分割的区间是前一轮循环得到的编码区间,每一次循环都会从原始报文输入一个码元,直到输入最后一个码元,即中止分割循环。

示例:

image-20230420002623370

image-20230420002545624

image-20230420222638224

2、行程编码算法主要适用于什么对象?

主要适用于:相同的数据单元连续排列在一起

​ 行程编码算法是一种常用的数据压缩算法,它主要适用于包含大量重复数据或者连续相同数据的对象。这些对象可能包括文本、图像、视频等各种类型的数据。行程编码算法通过将连续相同或重复的数据压缩为一个标记和一个计数值的形式来减少数据存储空间,从而实现数据压缩的效果。在许多场合下,数据压缩可以提高数据传输速度、降低存储成本以及减少网络流量等优点,因此行程编码算法具有广泛的应用价值。——来源:GPT

image-20230316112837587

在这些图块中,许多行上都具有相同的颜色,或者说在一行上有许多连续的像素都具有相同的颜色值,只需要存储一个像素的颜色值,再加上相同颜色的像素的数目就可以了

3、第一类与第二类词典编码的区别在哪里?

  • 第一类词典编码算法中并没有出现一个显式的(explicit)“词典”;

  • 第二类词典编码技术,它会从输入报文中显式地创建一个短语词典

4、LZSS算法在哪些地方改进了LZ77算法?

LZSS算法在LZ77算法基础上改进而来的,主要区别在于它设置了一个最小匹配长度,并改进了输出数据格式。如果匹配模式的长度大于最小匹配长度,就输出(off,length),否则就直接输出原字符序列(其长度取决于最小匹配长度,例如,如果最小匹配长度为2,那么直接输出的原字符长度等于1)。

  • 设置了一个最小匹配长度,如果小于了最小匹配长度,则输出原字符序列

  • 改进了输出数据格式,不再输出下一个字符(Next Char)

5、 画出词典编码算法LZSS的流程图。并给出用LZSS算法压缩报文ABDABCABDEBDABCE的结果,设最小匹配长度等于2,匹配搜索窗口(即滑动窗口)大小等于20。

image-20230321144512334

6、LZ78算法、LZW算法。

LZ78算法

LZ78算法属于第二类词典编码技术,它会从输入报文中显式地创建一个短语词典。在数据结构上,短语词典实际上是一个二维数组,该数组的每一个成员记录了一个词条,而一个词条就是一个索引与一条短语的组合。有了短语词典,那么在压缩报文的时候,如果当前遇到的模式在短语词典中可以找到完全相同的词条(即模式),那就只要输出该词条的索引即可。

短语应当尽可能长,因为用有限长度的索引去代替较长的短语,会显著提高压缩效率,这正是词典压缩算法的精髓所在。

image-20230321150502859

LZ78示例

image-20230321151940604
LZW算法
改进点:
  1. 第一,它的词典最初不是空的,而是一开始就包含了一些基本的词条,这些词条是字符流中可能出现的单个字符,例如ASCII字符集。

  2. 第二,LZW算法的输出与LZ78不同,它只输出索引,不像LZ78那样输出(index,next char)对。

注意LZ78算法在输出一次之后会有P=NULL;而LZW算法是P=X

image-20230321154017982

LZW示例

image-20230323103109423
解码示例:
image-20230323103218389

图像基础、程序设计

1、数字图像的像素、像素记录了图像的什么信息。

数字图像(digital images)是用二维像素矩阵表示的图像。

像素:把构成数字图像的基本元素称为像素(pixel),是图像平面中特定位置上的一个点,具有一定的颜色属性

位深度:表示像素颜色属性值比特数称为位深度,或称图像深度。

示例:计算图像的数据量\textcolor{red}{示例:计算图像的数据量}——(试卷上有此类题)

一幅彩色JPEG图像(RGB),设其分辨率为512×512,每种颜色用8 bit表示,则该彩色 JPEG图像的数据量为:

512×512×3×8 bit

2、图像的分辨率、为什么说图像的大小不等于图像分辨率?

图像的分辨率:图像在水平和垂直方向上的像素数的乘积。实际上代表图像的像素(样本点)的多少,又称解析度指单位面积或长度上的像素的数量。

为什么说图像的大小不等于图像分辨率?

图像的大小指的是图像文件占据存储设备上的空间大小,通常用字节(Byte)来表示。而图像分辨率则是指图像中单位面积或长度上的像素的数量压缩方式文件格式以及色彩模式等因素都会影响图像文件的大小。

图像的大小指的是图像文件占据存储设备上的空间大小,通常用字节(Byte)或千字节(KB)来表示。而图像分辨率则是指图像中每英寸所包含的像素数,通常用“像素/英寸”(PPI)或“点/英寸”(DPI)来表示。

因此,图像的大小与其分辨率并不一定相等。即使两个图像的分辨率相同,它们的大小也可能不同,这是因为它们所使用的压缩方式文件格式以及色彩模式等因素都会影响图像文件的大小。

另外,需要注意的是,虽然分辨率可以影响图像的清晰度和细节程度,但并不是分辨率越高就代表图像质量越好,还需要考虑其他因素,如拍摄设备、光线条件、拍摄技巧等。

——来源:GPT

3、色彩模型。

色彩模型是对三维色彩空间中的可见光子集的一个描述,即用于表示颜色形成方式取值范围的空间数学模型。(常用的模型有RGB、RGBA、CMYK、HSV和YUV等)

  • RGB模型:

    • 用红、绿、蓝三种基本颜色表示其他颜色的模型。RGB颜色模型通常用一个三维立方体空间来表示
  • RGBA模型:

    • 代表Red(红色) Green(绿色) Blue(蓝色)和 Alpha参数(描述颜色的透明程度)的色彩空间模型。
  • HSV模型: 是RGB模型的一种非线性变换。

    • HSV 模型中,H表示色相(hue)、S为饱和度(saturation)、V为亮度值 (value)。
  • CMYK模型:

    • 是用物质吸收光的数量表示色彩的方式,即通过青色©、品红色(M)、黄色(Y)三原色颜料混合表示颜色,称为CMY颜色空间。增加一个黑(K),得到CMYK模型,应用于实际的印刷工业中。
    • RGB模型中,当红、绿、蓝三原色混合时,产生白色。但CMYK模型中,混合青©、品(M)、黄(Y)三原色时会得到黑色。
  • YUV模型:Y代表亮度,U和V代表色差。

    • 指的是一个颜色空间族,即采用亮度值与颜色值分开编码的彩色空间。

4、真彩图像、伪彩图像、灰度图像、如何将彩色图像转换成灰度图像。

真彩图像:像素值直接表示颜色属性的彩色图像称为真彩图像。位深度为24。

伪彩图像:伪彩图像是指像素值不直接表示颜色值本身而是表示了颜色在调色板中索引的彩色图像。

灰度图像: 灰度图像(gray image)是每个像素只有一个采样颜色的图像。

将彩色图像转换成灰度图像

image-20230420011206647

5、BMP文件的组成(offset),存储格式(两个层面)。

BMP(Bitmap,位图)图像又称位图图像,是Microsoft、IBM等公司制定的图像文件标准。BMP文件中图像数据是以非常自然的位映射方式存储的,并且没有被压缩(绝大多数情况下如此),所以,BMP文件是最基本的图像文件

image-20230328141409884 image-20230328142400896

存储格式:

image-20230420014202750

位图数据(bitmap data):就是图像数据,如图所示全部为图像数据,图像的像素点存储顺序是从左到右,从下倒上进行存储的,所以左下角的像素为第一个存储,右上角的像素为最后一个存储。image-20230330100736012

如左边图所示,一行有三个像素,每个像素占3个字节,共9个字节,不能被4整除,所以要再补充3个值为0的字节,才能被4整除。(不能被4整除时要补0)

图像在内存中是倒立存储。

位图数据的存储方式

  1. Top-down存储模式(从上到下)

  2. Bottom-up存储模式(从下到上)


存储模式实际上包含两个层面的含义。

  • 第一个层面是像素格式,即一种颜色模型下三个颜色分量的内部排列方式

  • 第二个层面是图像的整体存储格式,也就是像素的外部排列方式

6、数字图像的像素格式。

(1)RGB555

image-20230323113836163

采用小端序存储到地址空间中。

(2)RGB565

image-20230323113908526

(3)RGB888

image-20230323113939423

7、JPEG图像压缩过程包括哪些计算步骤?导致图像信息损失的操作步骤是哪些?

包括以下计算步骤:(更为详细可分为7步,详见第6章PPT

image-20230420012816001

  1. DCT变换将空域图像(由像素构成的空间)转换成频域表示的图像,从而把能量集中在低频系数上

    • 经DCT变换之后,F(0,0)被称为直流系数(DC),其他是交流系数(AC)。
      • 直流系数:使用差分脉冲调制编码(DPCM)
      • 交流系数:使用行程编码(RLE)——Z字型编排尽可能形成较多连续的0,从而方便行程编码
      • 然后使用熵编码(霍夫曼编码)进一步压缩
      • 最后组成位数据流
    • ⭐️频域系数的特点:——(试卷上有)
      1. ==大部分能量集中在低频系数上,而高频系数上的能量相对较少。==这是因为图像中的大部分信息都集中在低频区域,而高频系数则主要用于表示图像的细节信息。
      2. 频域系数之间存在一定的相关性,即相邻的系数之间往往具有相似的取值。这种相关性可以被利用来进行数据压缩,因为一些系数可以通过近似表示来减少存储空间。
      3. 频域系数通常会按照从左上角到右下角的顺序排列对称性),并且在每个8x8的块内,第一个系数(也称为直流系数表示该块的平均亮度值因此它的取值通常比其他系数都要大。
    • image-20230420200819559

JPEG算法的具体处理步骤:

  1. 正向离散余弦变换

  2. 量化

    • 量化是对经过FDCT变换后的频域系数进行一种有控制地丢失信息的处理过程。
    • 人眼对低频分量比对高频分量要敏感的多。
    • 借助优化设计的量化表,量化处理使得大量DCT高频系数被转换成了0,因此后续处理中就非常容易通过行程编码算法实现数据压缩。
  3. Z字型编排

    • 充分利用DCT频域系数的对称性,使一行数据中相同的系数尽可能连在一起,从而为实施行程压缩创造最有利的条件。
  4. 直流系数的编码

    • 使用差分脉冲调制编码(DPCM)技术进行编码
  5. 使用RLE算法对交流系数进行压缩编码

  6. 熵编码

    • 采用熵编码对数据进行再次压缩
      • JPEG2000以前,霍夫曼编码器
      • JPEG2000,算术编码替代霍夫曼编码器
  7. 组成位数据流

    • 把各种标记代码和编码后的图像数据组成一帧一帧的数据,这样做的目的是为了便于传输、存储和译码器进行译码

JPEG整个压缩过程基本上遵循以下步骤:

  • 把数据分为“重要部分”和“不重要部分”
  • 滤掉不重要的部分
  • 保存

对原始图像信息进行JPEG编码的过程就分为两大步:

  • 第一步,去除视觉上的多余信息,即空间冗余度;

  • 第二步,去除数据本身的多余信息,即结构冗余度。

JPEG标准包括两种基本压缩算法,一种是以离散余弦变换(Discrete Cosine Transform,DCT)为基础的有损压缩方法,另一种是以预测技术为基础的无损压缩方法。


⭐️导致图像信息损失的操作步骤是:量化\textcolor{red}{导致图像信息损失的操作步骤是:量化}

量化就是来处理人眼视觉系统不敏感的高频数据,从而极大地减少了需要处理的数据量。

  • 量化是对经过FDCT(正向离散余弦变换)变换后的频域系数进行一种有控制地丢失信息的处理过程。

  • 量化表主要作用是损失掉一部分图像的高频部分,而保留低频部分。相当于一个低通滤波器。

JPEG压缩出现损失出现在量化过程。

损失的是人不敏感的高频数据。

8、为什么JPEG技术在执行行程压缩的时候要采取Z字形编排方式?

量化后的DCT系数要重新编排,也就是采取Z字形编排方式。(量化后才进行Z字形编排)

目的是为了增加连续的“0”系数的个数,也就是“0”的行(游)程长度,因为这将显著提高运用行程压缩(RLE)算法有效性

image-20230420013206336

9、理解和掌握位图数据在内存的排列。

位图数据(bitmap data):就是图像数据,如图所示全部为图像数据,图像的像素点存储顺序是从左到右,从下倒上进行存储的,所以左下角的像素为第一个存储,右上角的像素为最后一个存储。image-20230330100736012

图像在内存中是倒立存储。(小端序存储

位图数据的存储方式

  1. Top-down存储模式

  2. Bottom-up存储模式

10、水波纹模拟程序程序的主要步骤、函数。

水波纹模拟程序的实现

​ 1)定义若干常量和全局变量

​ 2)振动状态的初始化与位图加载

​ 3)设置定时器

​ 4)振动能量传递与衰减函数

​ 5)图像渲染函数

​ 6)投石入水函数

​ 7)在主窗口过程中应用上述函数

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
#define IMAGE_WIDTH 640 // 添加代码
#define IMAGE_HIGHT 480 // 添加代码
typedef struct COLOR // 添加代码
{ // 添加代码
BYTE b; // 添加代码
BYTE g; // 添加代码
BYTE r; // 添加代码
}RGBCOLOR; // 添加代码
static int buffer_1[IMAGE_HIGHT][IMAGE_WIDTH], buffer_2[IMAGE_HIGHT][IMAGE_WIDTH];//添加代码,用于计算波能
static int tmp[IMAGE_HIGHT][IMAGE_WIDTH]; // 添加代码,用于交换波能矩阵
static COLOR det_image[IMAGE_HIGHT][IMAGE_WIDTH];// 添加代码,要显示的目标图像
static unsigned char imagebuf[IMAGE_WIDTH * IMAGE_HIGHT * 3 + 100]; //添加代码,内存,用于储源图像文件

// 振动状态的初始化与位图加载

// 设置定时器
SetTimer (hWnd, ID_TIMER, 33, NULL);

// 在主窗口过程中添加应用代码:
disturb();//投石入水
NextFrameWaveEnerge(); //计算波能传递与衰减
RenderRipple();//渲染目标图像
SetDIBitsToDevice ()//显示目标图像

详细代码参考:多媒体实验笔记2.md\textcolor{red}{详细代码参考:多媒体实验笔记2.md}

视频基础

1、扫描、消隐?彩色电视制式有哪些?

扫描:通过信号控制显示屏以得到电视图像的过程

  • 逐行扫描

    • image-20230406101859627
  • 隔行扫描

    • 隔行扫描的总行数是奇数。(因为最前面和最后面存在仅扫描了半行的情况)
    • image-20230406101803107

计算机使用逐行扫描;电视机使用隔行扫描。


消隐:准确地判断哪些部分应该被遮挡或隐藏起来,以保证最终呈现出来的图像真实而逼真

  • 水平消隐:行与行之间的返回过程称为水平消隐。

  • 垂直消隐(场消隐):扫描点扫描完一帧后,要从图像的右下角返回到图像的左上角,开始新一帧的扫描,这一时间间隔,叫做垂直消隐,也称场消隐

    • 一幅完整的图像扫描信号,由水平消隐间隔分开的行信号序列构成,称为一帧。

彩色电视制式

image-20230420121002577

2、试比较复合电视信号、分量电视信号和S-Video信号的优缺点。

复合电视信号:

复合电视信号是指在一路电流(或电压)中融合了亮度和色差信息(图像信号),并与同步信息消隐脉冲一起组成的单一信号。又被称为全电视信号

image-20230406103404914

这个64μs又分为四个阶段:

  • 第一段是行同步时间,为4.7μs;
  • 第二段是行消隐的后肩部分,为5.8μs;
  • 第三段是主体,即图像信号部分(亮度值),占52.2μs;
  • 第四段是消隐信号的前肩部分,为1.3μs。

这样四段就构成一个行周期(64μs)。

同步信息:保持各种频率(行频、场频、帧频)的同步性。

优点

  • 传输方便,只需要一根信号传输线;

  • 普及度高,设备支持度高;

缺点

  • 画质相对较差;

  • 稳定性差,容易受到电磁干扰;


分量电视信号:

分量电视信号由三个独立的基色分量构成,这三个独立基色可以是R、G和B,也可以是Y、I、O,或者Y、U、V。RGB/YUV/YIQ的每一个分量分别被编码成一个信号

优点

  • 信号质量最佳;

  • 稳定性好,受到干扰少;

缺点

  • 传输代价比较高,需要三根线;

    • 比较适合短距离传输,如电视演播室内部的传输
  • 设备支持度相对较低;

S-Video信号:

也称分离电视信号

S-Video信号是对分量电视信号与复合电视信号的折中,S-Video信号的亮度占用一个信号,但是,色差的两个分量(UV或IQ)共用另一个信号。

优点

  • 减少了亮度信号与色差信号的相互干扰稳定性较高

  • 画质比复合电视信号高;

    • 可补充内容:(不需要使用梳状滤波器来分离亮度与色差信号,这样可提高亮度信号的带宽)

缺点

  • 需要两条独立的信号传输线路;

    • 一条用于亮度信号,一条用于色差信号,这两个信号合在一起称为Y/C信号
  • 比分量电视信号的画质差;


——来源:GPT

复合电视信号、分量电视信号和S-Video信号都是视频传输中常用的方法。它们各自有优缺点,以下是它们的详细比较:

  1. 复合电视信号

复合视频信号将亮度、色度和音频信号混合在一起传输。该信号经过编码后压缩,然后通过同一个电缆进行传输。由于信号经过了压缩和混合处理,因此图像质量相对较差,色彩饱和度和清晰度都不高。

优点:

  • 传输简单,只需要一根线

  • 普及程度高,很多设备都支持复合信号输入和输出

缺点:

  • 画质相对较差,颜色和清晰度受到影响

  • 信号容易受到电磁干扰

  1. 分量电视信号

分量视频信号将图像分离成三种颜色(红、绿、蓝)各自为一路信号进行传输。这种信号可以提供更好的色彩和清晰度,因为每个颜色通道都有自己的信号线,可以减少交错和噪声。

优点:

  • 图像质量更好,色彩更饱和、清晰度更高

  • 稳定性更好,信号受到的干扰较少

缺点:

  • 传输线路数量增加,需要三根线

  • 设备支持度相对较低

  1. S-Video信号

S-Video信号是分量视频信号的一种变体,将色度和亮度分离为两个独立的信号进行传输。这种信号比复合视频信号提供了更好的画质,但比分量视频信号不稳定。

优点:

  • 图像质量比复合视频信号更好

  • 信号稳定性较高

缺点:

  • 比分量视频信号差一些,颜色与清晰度略低

  • 需要两根线

综上所述,分量视频信号在图像质量和稳定性方面都是最好的选择,但需要更多的传输线路。复合视频信号则是最常见的选择,但画质相对较差。S-Video信号则是一个介于两者之间的选择。

3、为什么视频信号常常采用YUV彩色模型?

视频信号常常采用YUV彩色模型是因为这种模型可以更好地适应人眼对颜色的感知方式。(人类视觉系统对色差的敏感度低于对亮度的敏感度

在RGB彩色模型中,每个像素包含了红、绿、蓝三种色光的亮度和强度信息。但是,人类视网膜处理颜色的方式与RGB模型不同,它主要感知亮度和色度两个方面的信息。因此采用RGB模型表达视频信号可能会浪费大量的数据传输带宽。

相比之下,YUV彩色模型将每个像素的颜色信息分成了亮度(Y)和色度(U、V)两个部分,其中亮度指明像素的灰度水平,而色度则提供了关于色调和饱和度的信息。因此,使用YUV彩色模型可以减少传输带宽,同时也能够更好地适应人类视觉系统对颜色的感知方式。

除此之外,在视频压缩和编码过程中,YUV模型通常也被用作中间格式,因为它具有易于处理和压缩的优点。

——来源:GPT

4、模拟视频信号转换成数字视频的基本过程。

三个主要步骤:

  • 采样

  • 量化

  • 编码

image-20230420123034389

例如:将输入的模拟全电视信号分离为Y、U、V三个独立模拟信号,然后采用模数转换器分别对它们进行采样和量化。最后进行编码。

5、什么是数字视频的采样格式?4:4:4/4:2:2/4:2:0。

采样格式是指对全电视信号进行数字化时亮度通道色差通道样本数量的比例关系。

4:4:4

image-20230420123839926

4:2:2

image-20230420123851995

4:2:0

image-20230420124001769

6、YUV数据流分为哪两类?都是用于什么场合?

YUV数据流可以分为两大类:

  • 紧凑格式:主要适合实时应用场合

  • 平面格式:主要用于文件存储

视频程序设计

1、视频压缩编码与静态图像压缩编码有何不同?视频压缩编码的基本原理是什么?

视频压缩编码:利用相邻帧之间的相似性(相关性)

  • 时间冗余:视频序列的相邻图像之间存在很大的相关性,也就是相似性,由于这种相关性是在时间上前后帧之间发生的,所以被称为时间冗余(Temporal Redundancy)。

静态图像压缩编码(JPEG):没有利用相邻帧之间的相似性

视频压缩编码和静态图像压缩编码有几个关键差异:

  1. 数据量:视频包含多个帧(每秒中通常有24到60帧),而图像只有一个。因此,视频压缩需要处理大量的数据,并尝试找出可重复使用的数据。
  2. 时间相干性:在视频中,相邻帧之间通常存在时间上的相关性。这意味着,在编码时可以利用前一帧中提取的信息来编码下一帧,从而实现更高的压缩率。这种技术称为运动估计/补偿。
  3. 压缩算法:视频压缩需要使用专门的算法来处理和压缩多个帧。经典的视频压缩算法包括基于H.264和HEVC的压缩标准。
  4. 播放方式:视频是以连续的方式播放的,而图像则是以瞬间的方式呈现的。因此,在解码视频时,需要以与编码器相同的顺序恢复每个瞬间,从而获得完整的视频帧。

——来源:GPT

回答:

  1. 时间相关性:视频压缩编码利用了相邻帧之间的相关性,而图像压缩编码没有用到相邻帧之间的相关性;

  2. 数据量:视频包含多个帧,而图像只有一个。因此视频压缩编码需要处理大量的数据。

  3. 播放方式:视频是以连续的方式播放的,而图像则是以瞬间的方式呈现的。


视频压缩编码的基本原理

对于相关的视频图像,发送端不一定必须把每帧图像上所有的像素都传给接收端,而只要将图像内容(或摄像机)的运动信息告知接收端,接收端就可以根据运动信息前一帧图像的内容来更新当前帧图像,这就比全部传送每帧图像的具体细节所需的数据量要小得多

2、什么是I帧、P帧和B帧?分别对它们采用什么方法进行压缩编码?

  1. 第一种是帧内编码图像,又称I帧(Intra pictures),帧内编码算法就是JPEG;——采用JPEG编码

  2. 第二种图像被称为P帧(Predicted pictures),P帧就是指对其施加预测编码的图像,这里的预测编码是通过首先为待编码图像(也就是P帧)确定一个预测图像(又称参考图像)例如I帧,再计算编码图像与预测图像之间的差值,并进一步压缩差值的一种编码方法。显然,这里的预测编码与我们熟悉的差分PCM技术类似。——采用DPCM编码

  3. 第三种图像被称为B帧(Bidirectional prediction),其中B取自英文Bidirectional一词的首字母,意思是“双向的技术上,B帧就是指对其施加双向预测编码的图像。双向预测编码是通过为待编码图像(也就是B帧)确定两个预测图像(这就是双向之意的来源例如相邻的I帧和P帧,再计算编码图像与这两个预测图像之间的差值,进而计算两个差值的平均值,最后压缩平均差值的一种编码方法。——采用双向预测编码

image-20230420140918311

预测编码的基本过程:

  • 计算编码图像与预测图像之间的差值并不是直接对两幅图像进行相减运算,而是将待编码图像分割成若干块,然后以块为单位逐块进行相减运算完成的。

  • 通常图像被分割成大小为16x16像素的块,我们称这种图像分块为宏块(即包含了四个8x8块的更大的块)。

预测编码处理流程:

  1. 在参考图像中搜索出与编码图像宏块最相似的宏块(又称最佳匹配宏块);

  2. 计算两者的差分值(又称残差);

  3. 对差分值进行正交余弦变换(即DCT运算);

  4. 对结果进行行程压缩;

  5. 最后进行Huffman编码,即输出压缩的块数据(这些压缩数据块还需要按照规定格式进行文件或比特流层面上的编排)。

整个视频压缩算法中,差分运算实际上借用了DPCM的思想,而后续处理则借用了JPEG的相关技术。

3、什么是运动估计?

参考图像搜索出最佳匹配宏块的计算过程称为运动估计(Motion Esitmation,ME)。

运动估计算法有很多种,大体上可以把它们分成四类:块匹配法、递归估计法、贝叶斯估计法和光流法。

参考图像中最佳匹配宏块相对于编码图像宏块基准位置偏移量(水平方向的为Δx,垂直方向上为Δy)称为运动向量(Motion Vector,MV)。

image-20230423204449770

4、什么是运动补偿?

根据运动向量将差分值补充到参考图像匹配宏块中去的过程称为运动补偿(Motion Compensation,MC)。

5、有哪些运动搜索算法?(了解)

匹配准则:即绝对差和(SAD)、均方误差(MSE)和平均绝对差(MAD)。

1)全搜索法:(Full Search Method,FS):也称为穷尽搜索法

是对搜索范围内所有可能的候选位置计算SAD值,从中找出最小的SAD,其对应偏移量即为所求运动向量。

该算法虽计算量大,但最简单最可靠,找到的匹配块必为全局最优值。

SAD:绝对差和

image-20230420141410633

PS:详细流程参考第9PPT\textcolor{red}{PS:详细流程参考第9章PPT}

2)二维对数法(Two-Dimensional Logarithmic, TDL):

二维对数搜索法从原点开始,以“十”字形分布的五个点构成一次搜索的点群。每次搜索需要选取一定的步长,在以十字形分布的五个点处跟踪计算MSE值。

image-20230420141458621

PS:详细流程参考第9PPT\textcolor{red}{PS:详细流程参考第9章PPT}

3)三步搜索法(Three Step Search, TSS):

采用一种由粗到细的搜索模式,从原点开始,按一定步长取周围8个点构成每次搜索的点群,然后进行匹配计算,跟踪最佳匹配块位置。

image-20230420141603154

PS:详细流程参考第9PPT\textcolor{red}{PS:详细流程参考第9章PPT}

6、运动搜索算法涉及的三个方面。

运动搜索算法涉及三方面问题:

  • 第一是搜索起始点的选择,即从参考图像的什么位置开始搜索,起点选择的不同对整个搜索效果存在影响;

  • 第二是匹配准则,即如何判定两个图像块的近似度;

  • 第三就是搜索过程

7、通常情况下,H.26x 标准侧重于视频和音频信息的数据压缩效率,以适合调整该系统在特定的位速率下传输,实时视频通讯的应用;MPEG 系列则倾向于控制质量而不是控制位速率,视频数据的存储应用

由ITU组织制定的标准主要是针对实时视频通讯的应用,如视频会议和可视电话等,它们以H.26x命名,如H.261、H.262、H.263和H.264等

MPEG组织(Moving Picture Expert Group)制定的标准主要针对视频数据的存储应用,也应用于视频传输,如VCD、DVD、广播电视和流媒体等,它们以MEPG-x命名,如MEPG-1、MEPG-2和MEPG-4等。

MEPG-1、MEPG-2:针对DVD、数字电视和高清电视等。

MEPG-4:针对流式媒体服务等领域。

MPEG-7多媒体内容描述标准,支持对多媒体资源组织管理搜索过滤检索。——(试卷上有)

8、什么是视频运动对象检测?什么是视频运动对象跟踪?两者有何区别与联系?

对象检测(object detecting):是指在视频图像中将对象背景分离开来,并提取对象所包含的全部像素。检测算法的主要设计目标是准确性实时性鲁棒性

  • 准确性:即尽可能把属于对象的像素与背景分离开来。

  • 实时性:要求检测算法尽可能快。

  • 鲁棒性:要求检测算法能够适应视频图像的变化,在出现光照、遮挡等变化时,算法仍然能够保持稳定的检测率和准确性。

对象跟踪(object tracking):是指在一段时间内,系统持续、实时地标记运动对象,在帧与帧之间建立运动对象的特征(如速度、位置、形状、方向等)的联系,并计算出运动对象的运动轨迹

  • 跟踪算法的主要需求是连续性和稳定性

区别与联系

对象检测与跟踪是两个紧密相关的过程,检测是跟踪的前提,没有检测就不可能实现跟踪。跟踪是检测的结果,持续的跟踪需要通过持续的检测来实现。

网络多媒体基础

1、组播、IP组播。

组播:\textcolor{red}{组播:}

组播是指将源端的数据传送给一组特定接收者的传输方式。这个特定的一组接收者称为群组(group)。组播可以在网络的各个层次上实现,但主要在物理层、网络层、应用层上实现。

IP组播:\textcolor{red}{IP组播:}

IP组播是网络组播的一种具体实现,它通过IP路由器构造互联网中的组播分发树,并使用IP组地址标识群组,通过IGMP(Internet Group Management Protocol)协议管理**群组关系**,并包含若干IP组播路由协议

IP组播涵盖三个方面的内容

  1. 用户模型,即IP组播作为一种网络服务所呈现给用户的描述;

  2. 群组关系管理协议;

  3. 组播路由协议;

IP组播的用户模型包括7个要点——详见PPT第11章

用户模型包含以下7个要点:

  • 第一,使用IP组地址标识群组;

  • 第二,发送者(源主机)不需要知道接收主机;

  • 第三,群组成员主机可以位于互联网的任何地方;

  • 第四,一个群组所包含的成员主机数量是任意的,即群组规模(group size)是任意的

  • 第五,成员主机可以在任何时候加入或退出群组。该特性使得IP组播成为一个十分动态化的过程,路由器必须有能力适应群组的变化。IGMP协议扮演了关键角色。

  • 第六,任何子网不能出现同一个数据的两个副本。

  • 最后,路由器通过建立组播分发树实现组播传输

2、流媒体应用系统由哪些部分组成?各个部分的作用是什么?

流媒体技术:就是把连续的多媒体数据经过压缩处理后放到网络媒体服务器上,允许用户一边下载一边播放,而不需要等待整个压缩文件下载到本地计算机上之后才可以观看的网络传输技术。(试卷上有)

流媒体应用系统\textcolor{red}{流媒体应用系统}

它通常以互联网为平台,利用媒体服务器(Media Server)、 Web服务器(Web Server)、编码器(Encoder)、终端浏览器(Internet Browser)和媒体播放器(Media Player)来搭建。

  • 媒体服务器(Media Server):

    • 一个媒体服务器可以将内容传送到另一个媒体服务器,由此构成大规模的内容分发网络(Content Distribution Network,CDN)
  • 编码器(Encoder):

    • 用于采集实时音视频数据,并允许用户配置和管理多媒体采集设备、媒体数据格式、传输端口等。
  • 文件服务器:用于存储和管理流媒体文件。

  • Web服务器(Web Server):

    • 发布含有媒体服务器URLs的 Web网页,用户则可以首先访问Web页面,再打开媒体播放器并通过从页面获取的URLs连接到媒体服务器
  • 终端浏览器(Internet Browser):

  • 媒体播放器(Media Player):

    • 作为客户端

流媒体系统的结构

3、什么是视频点播?什么是视频广播?两者的区别在哪里?

视频点播

视频点播系统是指通过媒体服务器发布存储流媒体文件的应用系统,用户可以通过流媒体协议控制服务器的播放过程,实现开始、暂停、停止、快进、快退和任意位置播放等功能。


视频广播

视频广播系统则是指通过媒体服务器发布实时流媒体数据的应用系统,用户只能通过流媒体协议连接服务器,接收并播放实时的数据流,不能进行暂停、快进、快退和任意位置播放等控制。容易理解为什么视频广播系统不允许用户控制播放过程,因为实况是一个独立的连续播放过程,理应由源端完全控制


视频点播和视频广播的主要区别在于

  • 视频点播:为用户提供随时观看已制作好的视频内容(发布存储流媒体文件

  • 视频广播:实时传输视频内容,观众需要在指定时间观看(发布实时流媒体数据)

4、网络源实现的功能有:缓冲管理、代理服务器定位、自动重连接、带宽选择

在Media Foundation平台上,网络源(Network source)是使用流媒体的基本实现手段。

5、视频会议系统一般由哪些组件(设备)构成?

视频会议系统通常由会议终端会议控制器多点控制单元(MCU)以及外部影音设备构成。

会议终端

  • 内部工作原理看,系统主要包含视频编解码器音频编解码器数据通道等模块。⭐️

  • 外部设备来看,视频会议终端需要摄像头、显示设备、麦克风、音响、传输网络接口等,这些设备有机地结合在计算机平台上。

会议控制器执行两个重要的控制功能

  • 第一是地址翻译,将终端的别名翻译为IP地址;

  • 第二是带宽管理,它可以定义同时参加会议的用户数,以便进行限制性管理,一旦用户数到达限制值,会议控制器就可以拒绝任何超过该限值的连接请求。

会议控制器又称为网守(Gatekeeper),是完成会议管理的设备。

6、MCU的主要作用是什么?

多点控制单元(Multipoint Controller Unit,MCU)是==用于协调和控制终端间音视频与信息传输==的设备。

一个完整的MCU通常由两部分组成,分别是多点控制器(Multipoint Controller,MC)及多点处理器(Multipoint Processor,MP)。

(新增)多媒体传输协议

由于RTP协议RTCP协议主要是针对多媒体传输以及传输控制设计的,因此被称为多媒体传输协议

RTP(Real-time Transport Protocol,实时传输协议)协议

  • 主要目标是解决多媒体数据流的同步问题

  • RTP协议不是一种独立应用的协议,它本身并不传输多媒体数据,实际上它还是依赖UDP协议来传输媒体数据(也可以使用TCP协议或者ATM协议),RTP的任务只是提供多媒体数据的同步时间描述信息

  • RTP协议用于封装媒体数据,并提供时序信息

RTCP(Real Time Control Protocol)协议

  • RTCP协议配合RTP协议使用

  • 其主要任务是为通信双方的应用程序提供统计信息,这些信息包括实时数据包的数量、传输过程中丢失的数据包数量、往返延时、延时抖动等。

(新增)典型流媒体协议

  1. RTSP协议是一种被用来建立和控制在客户端和服务器端之间的时间同步的多媒体流的协议。

  2. MMS(Microsoft Media Server,微软媒体服务器)协议是微软公司开发的一种用来访问Windows Media Server上的流媒体文件的流媒体传输协议。

  3. HTTP(Hyper Text Transfer Protocol)是超文本传输协议的缩写,该协议用于传送Web标准格式的数据。

  • Copyright: Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.
  • Copyrights © 2023-2024 Guijie Wang
  • Visitors: | Views:

请我喝杯咖啡吧~

支付宝
微信