인하대학교 김병형 교수님의 '디지털 신호처리' 수업을 바탕으로 정리한 글입니다.
1. 음성 (Audio)
1) 소리의 주파수 원리
- 주파수의 3요소 : 진폭 (Amplitude), 주기 (Cycle), 파장의 길이 (Wavelength)
- 진폭 : 진동의 중심부터 최고점까지의 폭으로, 소리의 크기를 나타내는 지표
- 주기 : 일정 시간을 두고 동일한 상태를 반복하는 현상으로, 주파수가 높을수록 주기는 짧아짐.
- 파장의 길이 : 주기의 길이를 말하며, 파장의 길이는 주파수가 높을수록 짧아짐.
- 낮은 음일수록 주파수가 낮다. (더 많이 진동한다.)
- 높은 음일수록 주파수가 높다. (덜 진동한다.)
2) 소리의 3요소
음의 높이 (Pitch)
- 소리의 높낮이, 즉 소리의 진동 횟수 차이. 진동 횟수가 많을 수록 소리의 높이가 높으며, 진동 횟수가 적을 수록 소리의 높이가 낮다.
음색 (Quality)
- 배음 구조의 차이에서 오는 소리의 맵시로, 악기마다 소리가 각각 다르게 들리는 이유이다.
- 배음 (Harmonic Overtone) : 하나의 음을 구성하는 여러 부분음들 중, 기본음보다 높은 정수배의 진동수를 갖는 모든 상음
음의 세기 (Loudness)
- 음파의 진폭에 의해 정해진다. 물리적인 양으로 데시벨이 사용된다.
엔벨로프 (Envelope, 포락선)
- 시간에 따른 소리의 변화
- Attack Time : 음이 최고점까지 도달하는 구간
- Decay Time : 음이 안정되기까지의 구간 / 이 구간은 존재하지 않을 수도 있다.
- Sustain Time : 음이 지속되는 구간
- Release Time : 음이 사라질 때까지의 구간
2. 음성 신호 (Audio Signal)
1) 음성 신호 생성 메커니즘
- glottal signal : 폐의 압력으로 인해서 vocal fold (성대 주름)가 움직이면서 생성한 신호
- 주기적 신호 형태
- harmonics (voiced sound)와 noise (unvoiced sound)로 구성됨
- fundamental frequency (f0)와 fundamental frequency의 harmonic frequency로 구성됨
피아노 건반으로 '라(440Hz)' 음을 연주했을 때의 피아노 소리는 기본 주파수 (440Hz) 뿐만 아니라, 그 정수배인 880Hz, 그 다음의 harmonics까지 포함하고 있는 신호이다.
- vocal tract filtered signal : glottal signal이 조음기관 (입, 코)에 의해서 변형된 신호로, 주파수 성분이 결정되며 다양한 형태로 출력됨
- 해당 조음기관의 형태에 따라 말하고자 하는 음성의 형태를 결정하기 때문에 'filter'의 역할이라고 불림
- output sound : output spectrum으로도 불리는데, 이는 source spectrum (== glotal signal)이 filter function (== vocal tract)를 거쳐서 만들어짐
2) 음성 신호 메커니즘 정리
- 폐에서 압력이 올라온다.
- vocal fold의 열림과 닫힘의 반복을 통해서 Glottal Signal (Noise + Harmonics)을 만든다.
- Glottal Signal이 조음기관 (코와 입 - Vocal Tract, Filter 역할)을 통해서 개인화된 envelope를 만든다.
3. 음성 신호 모델링 (Source-Filtering Model)
1) Source (Glottal WaveForm)
- Vocal Fold로부터 나온 Voiced Sound (harmonics)는 주기적인 신호로, 가장 기본적인 주파수인 fundamental frequency ($f0$)를 가진다.
- $f0$는 소리를 만들어내는 물리적 진동의 가장 낮은 주파수로, 소리의 높낮이와 관련이 있다. 즉, pitch를 결정하는 데 중요한 요소이다.
- fundamental frequency는 사람이 느끼는 음의 높낮이와는 다른데, 이는 낮은 주파수에서 음의 변화를 잘 구분하는 간의 귀에 맞추어서 변환을 수행한다.
- 이를 'Pitch'라고 한다.
- Pitch는 fundamental frequency (f0)를 mel scale 변환을 통해 얻을 수 있다.
Mel Scale
- Pitch의 주관적 인식 (사람들마다 음의 높낮이를 다르게 판단할 수 있음)을 물리적 주파수에 Mapping하는 방식
- 인간의 청각이 모든 주파수 범위에서 동일하게 pitch 변화를 감지하지 않는다는 점을 반영한다.
- 예) 낮은 주파수에서는 주파수 변화에 민감하지만, 높은 주파수에서는 같은 주파수 변화를 덜 민감하게 감지한다.
- Mel Scale은 log 함수 형태이다.
- 낮은 주파수에서는 선형적 (linear) 수준으로 민감하지만, 주파수가 증가함에 따라 그 민감도가 로그 형태로 감소한다는 것을 반영한다.
- 높은 주파수 영역에서는 주파수가 큰 수준으로 증가해야지만 인간의 귀로 pitch의 변화를 인지할 수 있다.
- Voiced Sound를 만들 때의 성대의 모습과 이를 시간에 따른 진폭으로 나타낸 그림이다.
- Pitch Period : 한 주기
- Closed Phase : 성대가 닫혀 있을 때
- Open Phase : 성대가 열려 있을 때
- Pitch Period = Close + Open
수학적 modeling
$$ u[n] = g[n] ∗ p[n] $$
- g[n] : 한 주기의 glottal wave form
- p[n] : impulse train
- 즉, 한 주기의 glottal wave와 impulse train의 컨볼루션 연산을 통해서 glottal waveform을 얻을 수 있다.
2) Filter
vocal fold에서 형성되는 source가 vocal tract를 거치면서 증폭되거나 감소하는 변형이 발생한다.
Formant
- Formants : 소리가 공명되는 특정 주파수 대역
- 소리를 다양하게 만들어주는 '필터' 역할
- harmonic과 만나서 변형되는 음성 신호
- Fundamental Frequency vs. Formant
- 기본 주파수 (Fundamental Frequency)
- 음성 신호에서의 가장 낮은 주파수
- 발성 시 성대가 진동하는 속도
- 주로 '음높이(pitch)'와 관련이 있음. 예를 들어, 어떤 사람의 목소리가 높거나 낮은 것은 기본 주파수의 차이에 의한 것임
- 공명 주파수 (Formant)
- 음성 spectrum에서 강조되는 특정 주파수 대역
- 발성 시 입, 코 등의 공명 공간에 의해서 특정 주파수가 증폭되어 형성됨
- 모음과 같은 음성 소리의 특징을 결정하며, 언어의 이해와 음성의 특징을 파악하는 데 중요함.
- 주로 '음색 (timbre)'나 '음질 (quality)'와 관련이 있음
- 기본 주파수 (Fundamental Frequency)
- Formant 측정 - Transfer function 역할을 하는 튜브로 나타낼 수 있다.
- Source Spectrum과 impulse train의 convolution을 통해서 output spectrum을 얻을 수 있다.
- 이때, impulse train은 filter 역할을 하며 공명 주파수 (Formant Frequencies)를 가지고 있다.
- 결론적으로, vocal tract를 지나면서 formant를 만나서 소리가 증폭되거나 감소한다는 점을 motivate로 삼을 수 있다.
- harmonics 구조를 이해하여 소리의 고유한 특징을 잡아낸다.
- 그 과정을 spectrum 분석을 통해 진행한다.
'[ 디지털 신호처리 ]' 카테고리의 다른 글
[ 디지털 신호처리 ] Audio Signal Processing | cepstrum, MFCC (0) | 2023.11.10 |
---|