work list
2011-08-10 13:05:58

cloud

1. test data

2. test code

3. run code with SK

ontopath

1. read all relevant paper of prof, hyun

2. read all relevant papers

3. mouth shut and watch

refine audio tag, text tag

1. study about pcm and wave file

2. make module for visualizing the audio file

3. make ui

etc.

1. upload video file of VTMarker

▼ more
드디어 끝났다 ㅠㅠ
2011-08-09 16:48:08

동영상만 업로드 하면 되니 ㅋ

PL인데 멀리 있어서 걱정이었는데

잘 마무리 되어서 훈훈하구만^^

▼ more
창의과제 진짜 마지막
2011-08-08 19:32:38

작업시간초과 익샙션 캐치로잡고 해당 영상 삭제하고

메시지 로그애 남기기

▼ more
wave file
2011-08-04 20:28:38

WAVE FILE의 구조

WAVE 파일은 사운드 파일중에 한 형식으로 윈도우에서 가장 흔하게 쓰이는 파일중에 하나이다. 이번에 이 유령넘이 강좌?랍시고 주절 거리는 내용은 이넘의 WAVE 파일을 한번 재생해 보자..는 것이다. WAVE 파일을재생하는데는, 쉽게는 SoundPlay() 함수였던가? .. 한줄이면 족하다...

물론, 지금 이 강좌는 그렇게 한줄이면 끝나는 정도가 아닌, WAVE 파일의 밑바닥부터 꼭대기까지 샅샅히 훑어 내려가며, 그 내부를 마구 파헤쳐 WAVE 파일을 맘대로 주무를 수 있도록 하는 경지?에까지 도달하도록하는것이 목표다.

일단, WAVE 파일이고 머고 간에, 기본적인 공식?부터 알아보고 넘어가도록 하자.사운드라는 것에 대해 깊이 있는 지식을 가지고 있는 사람은

볼 필요가 없겠지만, 어디까지나 처음 시작하는 사람들이 볼 것 이라고가정하고 설명하도록 한다.

WAVE 파일을 재생하면서 가끔 등록정보를 보신 분들은 알겠지만, 대게WAVE 파일의 등록정보라고 하면, 16 Bit , Stereo , 44.1 kHz... 등등

의 정보가 보일것이다. 이게 뭐가 중요하냐고? 중요하다.. 정말 중요하다. 이것으로 WAVE 파일이 시작되는 것이기 때문이다.예를 들어서 다음

과 같은 WAVE 파일이 하나 있다고 보자.

------------------------------------------------------------------

[어떤 WAVE 파일의 등록정보]

- 곡명 : 유령이라 불러라!

- 16 Bit

- Stereo

- 44.1 khz

------------------------------------------------------------------

이 세가지 정보면 WAVE 파일의 모든 것?을 알 수 있다. 일단 이 3가지기본적인 정보만으로 이 WAVE 파일의 초당전송량(Bit/Second)이나,전체

재생시간등을 계산해 보자. (이거 배워두면 정말 좋다..-_-;;..그냥..)

일단 계산하는 방식은 모두 곱한다. 16 Bit 이므로 16 을 곱하고,스테레오 방식이기 때문에 (스테레오는 채널이 2개 이기때문에, 2를 곱한다

당연히 모노는 1채널이기 때문에 1을 곱하면 된다.... 1은 안곱해도 되는구나 --;) 그리고 44.1 kHz 라는 것은 1초에 44100 번 발광을 한다는

소리니까 44100을 곱하면 된다.

16 * 2 * 44100 = 1411200 Bit 다.. 다시 바이트로 고쳐주려면, 나누기 8을 하면 된다. (왜 나누기 8을 하냐고 묻는다면.. 아시다시피.. 8 Bit

는 1 Byte 이기 때문이다..) 나누기 8을 한 결과 176400 이라는 숫자가나왔다.

즉, 이 WAVE 파일은 초당 176400 Byte 의 용량을 전송한다는 얘기다..숫자가 너무 크다고?.. 다시 KByte로 환산해 보자.. 172.265625가 나오

는데,귀찮으니까 소수점 아랫것들은 잘라버리고 정수부분만 읽어보자면172 KB 라고 나올 것이다. 그렇다. 이 WAVE 파일은 1초에 172 KB 나 차

지한다. (더럽게 크구만..) 전체 재생시간을 구하는 것 역시 간단하다.단순히 나누기만 하면 되기 때문이다. 전체 파일 크기를 알고 있다면,

" 전체 파일 크기 / 초당 용량 = 전체 재생 시간 (초 단위) "

라는 공식이 성립되는 것이다.자,이제 자신의 컴퓨터에 들어있는 WAVE들을 모조리 불러다가 그 넘들의 재생시간을 구해보고 실제로 플레이

해본다음 비슷하게 맞는지 비교해 보라.

------------------------------------------------------------------

여기서, 숙제.. 다음�\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0�� WAVE 파일들의 전체 크기는 얼마나 될까??????

[1] 8 Bit , Mono , 22 kHz

[2] 16 Bit , Mono , 11 kHz

[3] 16 Bit , Stereo , 22 KHz

각각의 WAVE 파일들의 재생시간은 총 1분 30초씩 이다. 그렇다면 각각의 WAVE 파일들의 전체 파일크기는 얼마나 될까?? ( 대한민국 초등교육

과정을 이수한 사람이라면 누구나 풀 수 있는 문제라서 풀이는 생략..)

------------------------------------------------------------------

WAVE 파일은 대게 8 Bit , 16 Bit 가 많이 쓰이는데, 24, 32 Bit 파일은 별도로 치고.. 대표적인 8 / 16 Bit 파일들은 아래의 그림처럼 파일

에 저장되어 있다. 8 Bit 라면 - 1 Byte 이므로 1 Byte 단위 마다 저장되어 있고, 16 Bit 라면 당연히 2 Byte 마다 저장되어 있다. 아래 그림

을 보면 8 Bit 파일은 전부 16개 (16진수 10까지..) 로 되어 있는 반면 16 Bit 는 같은 크기인데도 8 칸 밖에는 안된다. 이론적으로 16 Bit 는

8 Bit 에 비해 2 배의 용량을 차지하기 때문이다. [ D ] 라고 표기되어있는 것은 본인이 편의상 구분하기 쉽게 [ DATA ] 를 줄여 표현한 것이

고.. ( Mono 는 L / R 구분이 없다 ) Stereo에서 [ L ] , [ R ] 이라고

표기 한 것은 양 채널 ( Left Channel, Right Channel ) 을 뜻 한다...

------------------------------------------------------------------

[ 8 Bit Mono ]

1 2 3 4 5 6 7 8 9 A B C D E F 10

+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

: D : D : D : D : D : D : D : D : D : D : D : D : D : D : D : D :

+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

[ 8 Bit Stereo ]

1 2 3 4 5 6 7 8 9 A B C D E F 10

+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

: L : R : L : R : L : R : L : R : L : R : L : R : L : R : L : R :

+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

[ 16Bit Mono ]

1 2 3 4 5 6 7 8

+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

: D : D : D : D : D : D : D : D :

+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

[16Bit Stereo ]

1 2 3 4 5 6 7 8

+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

: L : R : L : R : L : R : L : R :

+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

------------------------------------------------------------------

이건 어디까지나 2 채널(Stereo)방식만을 봤을때 그렇다는 것이고, 채널이 많아지면 또 저장구조는 당연히 달라지게 된다. 요즘 흔히 말하는

5.1채널이니 7.1채널이니 하는 것들은, 저것과는 모양새가 또 다르다..

------------------------------------------------------------------

WAVE 파일에 대해서 간략하게나마 알아봤는데,이제부터는 정말 자세히파헤쳐 볼 시간이다. WAVE 파일들은 크게 청크 부분과 데이타 부분으로

나뉜다. 실제 사운드가 들어있는 데이타 부분 앞에는 헤더 청크 부분이있는데, WAVE 파일의 구조를 살펴보면 아래와 같다.



1. Wave 파일 포맷(I)

1) PCMWAVEFORMAT 구조체의 구조

-. WAVEFORMAT wf;

-. WORD wBitsPerSample;

2) WAVEFORMAT 구조체의 구조

-. WORD wFormatTag;

-. WORD nChannels;

-. DWORD nSamplesPerSec;

-. DWORD nAvgBytesPerSec;

-. WORD nBlockAlign;

3) 예 : 22kHz 샘플링된 8bit 스테레오 Wave 파일의 구조

PCMWAVEFORMAT PcmWaveFormat;

PcmWaveFormat.wf.wFormatTag = 1;

PcmWaveFormat.wf.nChannels = 2;

PcmWaveFormat.wf.nSamplesPerSec = 22050;

PcmWaveFormat.wf.nAvgBytesPerSec = 44100;

PcmWaveFormat.wf.nBlockAlign = 2;

PcmWaveFormat.wBitsPerSample = 8;

2. Wave 파일 포맷(II)

------------------------------------------------------------------

데이터형 Byte 내용 의미

------------------------------------------------------------------

1) RIFF chunk

- Char 4 "RIFF" 파일의 종류가 RIFF 파일을 의미

- DWORD 4 FILE SIZE 현재부터 끝까지의 파일크기

(파일크기-4Byte 또는, 데이터 크기

+40Byte)

- Char 4 "WAVE" Wave 파일을 의미

2) FMT sub-chunk

- Char 4 "fmt " FMT sub-chunk의 시작

- DWORD 4 16 현재 포인터(16 Byte)

- short 2 wFormatTag PCMWAVEFORMAT의 값

( 1:Wave Format이 PCM 방식 )

- short 2 nChannels 채널 수 ( 1:모노, 2:스테레오 )

- DWORD 4 nSamplesPerSec 샘플링 수

( 11kHz:11025,

22kHz:22050,

44kHz:44100 )

- DWORD 4 nAvgBytesperSec 초당 샘플바이트

( nSamplesPerSec*BlockAlign )

- short 2 BlockAlign 샘플당 바이트( nChannels*비트/8 )

- short 2 wBitsPerSample 샘플당 비트수

3) Data sub-chunk

- Char 4 "data" 데이터청크의 시작

- DWORD 4 DATA SIZE 데이터의 크기

DATA 데이터

------------------------------------------------------------------

WAVE 파일들을 EDITOR 로 읽어보면 파일의 내용이 아래와 같이 나온다원래는 HEX 값이 나와야 하는데 메모장으로 읽어들였더니..아래처럼 나

왔다.. -_-; 그래도 상관없다. 중요한건 제일 처음 " RIFF " 라는 단���로 시작한다는 것이다. 그 다음에 WAVE 파일 포맷임을 알리는 " WAVE "

라는 단어가 온다. 보통 파일포맷에 따라 헤더에 해당 파일포맷임을 리는 식별자가 오는데 GIF나 PCX, 또는 EXE 파일들을 한번씩 열어 보면

같은 단어로 시작한다는 것을 알 수 있을 것이다.

[1] RIFF$?WAVEfmt D쵆X data? ...

[2] RIFF?$WAVEfmt D??data? ...

[3] RIFF? WAVEfmt    D ?   PAD ?

------------------------------------------------------------------

3 개의 WAVE 파일들을 열어봤는데, 모두 RIFF .. WAVE .. fmt 로 시작하고 있다.이 파일들이 WAVE 파일임을 알 수 있는 것이다. 사실 WAVE파

일에도 ADPCM 이니 PCM 이니 하는 식으로 다양한?포맷이 존재하는데 이

것은 쉽게 생각하면 압축방식의 차이다. 여기서 RIFF 파일 형식이라는

말이 나오는데, RIFF에 대해서 설명하자면..

------------------------------------------------------------------

[ RIFF 파일(Resource Interchange File Format) ]

------------------------------------------------------------------

음성이나 비디오 같은 유의 데이터들은 용량이 매우 크기 때문에 이를저장할 시에는 비트 단위보다는 블록 단위로 저장을 하게 된다.

이러한블록은 가변적인 크기를 가질 수 있는데 이를 위해서는 데이터 블록 앞에 헤더를 사용해 이를 정의해 주어야 한다. 일례로

10 MByte 의 음성

데이터를 파일에 저장 하려할 때 블록 단위로 하지 않으면 데이터를 불러오는데 10M의 메모리가 필요하게 된다. 이렇게 된다면 불러오기도 힘

들 뿐만 아니라 불러오는데 걸리는 시간이 많이 걸리는 단점이 생긴다.그러나 10M의 음성데이터를 0.5M 씩 블록으로 나누어 저장한다면 20 개

의 블록을 가질 것이다. 즉, 0.5M씩 메모리에 불러온 후 출력하고, 메모리를 해제한 후 다시 다음 블록을 불러오면 그만큼 메모리도 절약 할

수 있어 매우 편리하게 된다. 또한 데이터 저장 블록 앞에 블록의 데이터 크기를 넣어주는데, 이는 예를 들자면 어느 시간동안 모노로 듣다가

후에 스테레오로 들을 수 있는 상황 등에 대처하기 쉽다. 이럴 때 데이터 블록 앞에 데이터에 대한 정보를 만들어 준다. 각각의 부분 하나 하

나는 청크(Chunk)라고 하고 처음에 나오는 상자를 부모 청크,그 하단에위치하는 부분을 자식 청크, 데이터들은 데이터 청크라고 한다.이와 같

은 구성 데이터를 저장하는 방식을 RIFF라 하고 위와 같은 구성으로 저장된 데이터를 RIFF 파일이라 한다. WAVE 파일이나 AVI 파일이 바로

RIFF 파일이다.

기타

다음으로 알아두면 앞으로 강좌를 이해하기에 좋을 압축방식들에 대한정보들을 소개한다.

[ PCM(Pulse Code Modulation) 방식 ]

이 방식은 가장 널리 사용되는 방식으로서 음성을 아날로그에서 디지털로 변환하여 양자화(작은 단위화)한 데이터를 그대로 저장한 후 재생할

때에는 그 데이터를 디지털에서 아날로그로 재변환하여 음성 파형을 만든다. 이 방식은 양자화를 할 때 생기는 오차가 존재하지만 재생 시 상

당히 우수한 품질을 가진다.이 방식의 특징은 제로 크로스의 방법에 비해 생성되는 데이터의 양이 많다는 점이다.예를 들어, 샘플링 주파수를

8Khz로 하고 양자화 시 정밀도를 8bit로 하면 8000 * 8 = 64000/sec = 64Kbit/sec로 초당 64KB가 생성된다. 그러나 최근에는 메모리의 가격이

많이 떨어지고 있어서 뛰어난 음성 품질을 보장할수 있는 PCM�\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0��식을 많이 사용하고 있다.

[ DM(Delta Modulation) 방식 ]

DM 방식은 제로 크로스 방식과 PCM 방식의 중간적인 형태로 볼 수 있다이 방식은 어느 시점n의 파고와 바로 전 시점 (n-1)의 파고를 비교하여

그 차이점을 1,0,-1로 표현한다. DM 방식의 단점은 원파형의 급격한 변화를 따라가지 못한다는 것이다. DM 방식의 하드웨어 구현은 바로 이전

값에 1 또는 -1을 더하기만 하면 되므로 아주 간단하다.

[ DPCM(Differencial PCM) 방식 ]

우리의 음성 파형을 실제로 보면, 서로 인접한 샘플링 시점의 비교에서파형이 크게 변하지 않는다. 이점에 착안하여 만든 방식이 DPCM 방식이

다. DPCM 방식은 개선된 PCM 방식이라 할 수 있다. 즉, PCM 방식은 파고 값을 그대로 저장하지만 DPCM 방식은 이전의 값과의 차이만을 저장

하는 것이다. 음성의 파형이 크게 변하지 않으므로 차이값도 작아져서 bit-rate를 낮출 수 있다.

[ ADPCM(Adaptive Differencial PCM) 방식 ]

ADPCM 방식은 위의 여러 가지 방식의 단점을 보완한 것이다. DM 방식이나 DPCM 방식은 압축된 비트수로 표현 되는 최대의 변화량이 실제 파형

의 변화량보다 작기 때문에 실제로 구현하면 재생 파형이 원 파형의 급격한 변화를 나타내지 못한다. 이를 막기 위하여 양자화할때 시간 간격

을 작게 하면 bit-rate를 증가시키는 결과를 가져오게 된다.ADPCM 방식은 파형의 변화량이 급격히 변할 때는 양자화 할 때의 단위를 크게하여

차분값을 이용하는 것으로 파형의 진폭이 클경우 약간의 잡음이 있어도 사람이 잘 감지하지 못하는 점을 이용한 것이다.

- 출처 : 까먹었네요..하하;;^^ -

조성택, 클라인 [whtjdxor] 8529 읽음 2006-09-15 17:55

(http://cbuilder.borlandforum.com/impboard/impboard.dll?action=read&db=bcb_tutorial&no=112)

▼ more