国咨软件联系方法 gooods software in english

wav文件的布局

国咨软件


  多媒体技能比年来开展很快,较好品格的声卡可以提供16位的平面声及44KHZ的播放录制才能,它不但可以提供原音传神的取样,其分解的音质也非常抱负,有的声卡还参加了数字信号处置器,可编程控制的DSP具有壮大的运算才能,它可以用来出声音信息的紧缩和一些特别结果的处置。具有此功效的声卡提供的WAV文件提供的语音信息可以满意语音特性辨认的要求。

  1.1 RIFF文件和WAV文件款式

  在Windows情况下,大局部的多媒体文件都依循着一种布局来寄存信息,这种布局称为"资源交换文件款式"(Resources lnterchange File Format),简称RIFF。比方声响的WAV文件、视频的AVI文件等等均是由此布局衍生出来的。RIFF可以看做是一种树状布局,其根本组成单元为chunk,犹如树状布局中的节点,每个chunk由"区分码"、"数据巨细"及"数据"所构成。

  区分码由4个ASCII码所组成,数据巨细则标示出紧跟厥后数据的长度(单元为Byte),而数据巨细自己也用失4个Byte,以是现实上一个chunk的长度为数据巨细加8。一样平常而言,chunk自己并不容许外部再包括chunk,但有两种破例,辨别为以"RIFF"及"LIST"为区分码的chunk。而针对此两种chunk,RIFF又从原先的"数据"中切出4个Byte。 此4个Byte称为"款式区分码",但是RIFF又划定文件中仅能有一个以"RIFF"为区分码的chunk。

  只需依循此一布局的文件,九游会官方线路均称之为RIFF档。此种布局提供了一种体系化的分类。假如和MS一DOS文件体系作比力,"RIFF"chunk就比如是一台硬盘的根目次,其款式区分码即是此硬盘的逻辑代码(C:或D:),而"LIST"chunk即为其下的子目次,其他的chunk则为一样平常的文件。至于在RIFF文件的处置方面,微软提供了相干的函数。视窗下的种种多媒体文件款式就好像在磁盘机下划定仅能放怎样的目次,而在该目次下仅能放何种数据。

  WAV为WAVEFORM(波形)的缩写。在声响文件的布局中,"RIFF"的款式区分码为"WAVE"。整个文件由两个chunk所构成:区分码"fmt "(留意,前面有一个空格)及"data"。

  在"fmt "的chunk下包括了一个PCMWAVEFORMAT数据布局,其界说如下:

  typedef struct pcmwaveformat - tag {
  WAVEFORMAT wf ;
  WORD wBitsPerSample;
  } PCMWAVEFORMAT;
  typedef struct waveformat - tag {
  WORD wFormatTag ;
  WORD nChannels;
  DWORD nSamplesPerSec;
  DWORD nAvgBytesperSec;
  WORD nBlockAlign;
  } WAVEFORMAT;

  其意义辨别为:

  wFormatTag:记载着此声响的款式代号,比方WAVE_FORMAT_PCM,WAVE_F0RAM_ADPCM等等。
  nChannels:记载声响的频道数。
  nSamp1esPerSec:记载每秒取样数。
  nAvgBytesPerSec:记载每秒的数据量。
  nBlockA1ign:记载区块的对齐单元。
  wBitsPerSample:记载每个取样所需的位元数。

  "data"Chunk包括真正的声响数据。Window现在仅提供WAVE_FORMAT_PCM一种数据款式,所代表的意义是脉派编码调变(Pu1se Code Modulation)。针对此款式,Windows界说了在"data"的chunk中数据的寄存情况,图2中列出了四种差别频道数及取样所需的位元数以及位元地位的布置。

  "RIFF" 频道0 频道0 频道0 频道0
  xxxx nChannels=1,wBitsPerSample=8
  "WAVE" 频0(左) 频道1(右) 频道0(左) 频道1 (右)
  "fmt "
  nChannels=2,wBitsPerSample=8
  sizeof(PCMWAVEFORMAT)
  struct of PCMWAVEFORMAT 频道0(低位) 频道0(高位) 频道0(低位)频道0(高位)
  "data" nChannels=1,wBitsPerSample=16
  xxxx 频道0(低位) 频道0(高位) 频道0(低位)频道0(高位)
  (低位) (高位) (低位) (高位)
  wave form data
  nChannels=2,wBitsPerSample=16
  图1 WAV文件布局 图2 PCM文件中位元布置方法

  第一排表现单声道8位元,第二排表现双声道8位元,第三排表现单声道16位元,第四排表现双声道16位元。8位元代表音量巨细由8个位元所表现,16位元则代表音量巨细由16个位元所表现。实际上8位元可以表现0~255,16位元可表现0~65536,不外windows却定16位元其值的范畴从-32168~32167。别的另有一点要留意的是,0并纷歧定代表无声,而是由两头的数值来决议,也便是在8位元时为128,16位元时为0才是无声。以是,若步伐设计时需放入无声的数据,糯分外留意声响款式是16或是8位元,以放入得当的值。

  1.2 WAV文件信息的详细使用

  WAV文件中包罗了对原始声响的高速率采样,而且以WAVE_PCM_FORMAT脉派编码调变款式,九游会官方线路可以在VISUAL C++步伐中完成,在读出WAVEHDR文件头之后,上面便是原始声响的高速率采样信息,九游会官方线路可以对它作多方面的信息处置。

  1.2.1 波形表现。

  九游会官方线路可以以时域-幅度的方法表现出原始声响的波形,这是最复杂同时也是最间接的信息处置方法。在时域范畴内,九游会官方线路可以察看该信号波形能否一连,两头能否有跳变等。

  1.2.2频谱表现

  九游会官方线路可以以频域-幅度的方法表现出原始声响的频谱,在对原始信号颠末FFT变更之后,可以失掉该信号的频谱,进而失掉该信号的能量会合带,散布特性,谱对称系数等等。

  1.2.3 用于语音信号辨认

  发言者的个别辨认是语音信号处置的一个紧张内容,但它的一个条件条件是必需提供语音信号的数字波形,通常的办法是将原始的语音信号举行缩小、抗混叠滤波、A/D采样、数值编码,终极失掉语音信号的数字波形,通常多接纳硬件处置,费时费力的,假如九游会官方线路借助十分成熟的声卡技能,将WAV文件翻开,就十分利便地失掉语音信号的数字波形,为下一步举行语音信号辨认提供精良的前端预处置。











国咨软件国际品牌网站联系方法 | 版权声明 | 版本信息 | 网站舆图 | 材料照片 | 招聘信息 | 软件开辟 |

陕公网>###号


        ### 在线支持QQ###| ©2003-2008 西安国咨软件有限公司