[ 디지털 신호처리 ] Audio Signal Processing | glottal signal, vocal tract, formant frequency

인하대학교 김병형 교수님의 '디지털 신호처리' 수업을 바탕으로 정리한 글입니다.

1. 음성 (Audio)

1) 소리의 주파수 원리

주파수의 3요소 : 진폭 (Amplitude), 주기 (Cycle), 파장의 길이 (Wavelength)
- 진폭 : 진동의 중심부터 최고점까지의 폭으로, 소리의 크기를 나타내는 지표
- 주기 : 일정 시간을 두고 동일한 상태를 반복하는 현상으로, 주파수가 높을수록 주기는 짧아짐.
- 파장의 길이 : 주기의 길이를 말하며, 파장의 길이는 주파수가 높을수록 짧아짐.

낮은 음일수록 주파수가 낮다. (더 많이 진동한다.)
높은 음일수록 주파수가 높다. (덜 진동한다.)

2) 소리의 3요소

음의 높이 (Pitch)

소리의 높낮이, 즉 소리의 진동 횟수 차이. 진동 횟수가 많을 수록 소리의 높이가 높으며, 진동 횟수가 적을 수록 소리의 높이가 낮다.

출처 :http://www.edujin.co.kr/news/articleView.html?idxno=37464

음색 (Quality)

배음 구조의 차이에서 오는 소리의 맵시로, 악기마다 소리가 각각 다르게 들리는 이유이다.
- 배음 (Harmonic Overtone) : 하나의 음을 구성하는 여러 부분음들 중, 기본음보다 높은 정수배의 진동수를 갖는 모든 상음

음의 세기 (Loudness)

음파의 진폭에 의해 정해진다. 물리적인 양으로 데시벨이 사용된다.

엔벨로프 (Envelope, 포락선)

시간에 따른 소리의 변화

출처 :http://www.ktword.co.kr/test/view/view.php?m_temp1=3830

Attack Time : 음이 최고점까지 도달하는 구간
Decay Time : 음이 안정되기까지의 구간 / 이 구간은 존재하지 않을 수도 있다.
Sustain Time : 음이 지속되는 구간
Release Time : 음이 사라질 때까지의 구간

출처 :https://blog.naver.com/gnc4620/220949946308

2. 음성 신호 (Audio Signal)

1) 음성 신호 생성 메커니즘

glottal signal : 폐의 압력으로 인해서 vocal fold (성대 주름)가 움직이면서 생성한 신호
- 주기적 신호 형태
- harmonics (voiced sound)와 noise (unvoiced sound)로 구성됨
- fundamental frequency (f0)와 fundamental frequency의 harmonic frequency로 구성됨

피아노 건반으로 '라(440Hz)' 음을 연주했을 때의 피아노 소리는 기본 주파수 (440Hz) 뿐만 아니라, 그 정수배인 880Hz, 그 다음의 harmonics까지 포함하고 있는 신호이다.

vocal tract filtered signal : glottal signal이 조음기관 (입, 코)에 의해서 변형된 신호로, 주파수 성분이 결정되며 다양한 형태로 출력됨
- 해당 조음기관의 형태에 따라 말하고자 하는 음성의 형태를 결정하기 때문에 'filter'의 역할이라고 불림
output sound : output spectrum으로도 불리는데, 이는 source spectrum (== glotal signal)이 filter function (== vocal tract)를 거쳐서 만들어짐

2) 음성 신호 메커니즘 정리

폐에서 압력이 올라온다.
vocal fold의 열림과 닫힘의 반복을 통해서 Glottal Signal (Noise + Harmonics)을 만든다.
Glottal Signal이 조음기관 (코와 입 - Vocal Tract, Filter 역할)을 통해서 개인화된 envelope를 만든다.

3. 음성 신호 모델링 (Source-Filtering Model)

1) Source (Glottal WaveForm)

Vocal Fold로부터 나온 Voiced Sound (harmonics)는 주기적인 신호로, 가장 기본적인 주파수인 fundamental frequency ($f0$)를 가진다.
- $f0$는 소리를 만들어내는 물리적 진동의 가장 낮은 주파수로, 소리의 높낮이와 관련이 있다. 즉, pitch를 결정하는 데 중요한 요소이다.
fundamental frequency는 사람이 느끼는 음의 높낮이와는 다른데, 이는 낮은 주파수에서 음의 변화를 잘 구분하는 간의 귀에 맞추어서 변환을 수행한다.
- 이를 'Pitch'라고 한다.
- Pitch는 fundamental frequency (f0)를 mel scale 변환을 통해 얻을 수 있다.

Mel Scale

Pitch의 주관적 인식 (사람들마다 음의 높낮이를 다르게 판단할 수 있음)을 물리적 주파수에 Mapping하는 방식
인간의 청각이 모든 주파수 범위에서 동일하게 pitch 변화를 감지하지 않는다는 점을 반영한다.
- 예) 낮은 주파수에서는 주파수 변화에 민감하지만, 높은 주파수에서는 같은 주파수 변화를 덜 민감하게 감지한다.

Mel Scale은 log 함수 형태이다.
- 낮은 주파수에서는 선형적 (linear) 수준으로 민감하지만, 주파수가 증가함에 따라 그 민감도가 로그 형태로 감소한다는 것을 반영한다.
- 높은 주파수 영역에서는 주파수가 큰 수준으로 증가해야지만 인간의 귀로 pitch의 변화를 인지할 수 있다.

Voiced Sound를 만들 때의 성대의 모습과 이를 시간에 따른 진폭으로 나타낸 그림이다.
- Pitch Period : 한 주기
- Closed Phase : 성대가 닫혀 있을 때
- Open Phase : 성대가 열려 있을 때
- Pitch Period = Close + Open

수학적 modeling

$$ u[n] = g[n] ∗ p[n] $$

g[n] : 한 주기의 glottal wave form
p[n] : impulse train
즉, 한 주기의 glottal wave와 impulse train의 컨볼루션 연산을 통해서 glottal waveform을 얻을 수 있다.

2) Filter

vocal fold에서 형성되는 source가 vocal tract를 거치면서 증폭되거나 감소하는 변형이 발생한다.

Formant

Formants : 소리가 공명되는 특정 주파수 대역
- 소리를 다양하게 만들어주는 '필터' 역할
- harmonic과 만나서 변형되는 음성 신호
Fundamental Frequency vs. Formant
- 기본 주파수 (Fundamental Frequency)
  - 음성 신호에서의 가장 낮은 주파수
  - 발성 시 성대가 진동하는 속도
  - 주로 '음높이(pitch)'와 관련이 있음. 예를 들어, 어떤 사람의 목소리가 높거나 낮은 것은 기본 주파수의 차이에 의한 것임
- 공명 주파수 (Formant)
  - 음성 spectrum에서 강조되는 특정 주파수 대역
  - 발성 시 입, 코 등의 공명 공간에 의해서 특정 주파수가 증폭되어 형성됨
  - 모음과 같은 음성 소리의 특징을 결정하며, 언어의 이해와 음성의 특징을 파악하는 데 중요함.
  - 주로 '음색 (timbre)'나 '음질 (quality)'와 관련이 있음
Formant 측정 - Transfer function 역할을 하는 튜브로 나타낼 수 있다.

출처 : Analysis of the adaptational techniques of dramatic sopranos when singing the operatic repertoire of G. Verdi and R. Wagner

Source Spectrum과 impulse train의 convolution을 통해서 output spectrum을 얻을 수 있다.
- 이때, impulse train은 filter 역할을 하며 공명 주파수 (Formant Frequencies)를 가지고 있다.

결론적으로, vocal tract를 지나면서 formant를 만나서 소리가 증폭되거나 감소한다는 점을 motivate로 삼을 수 있다.
- harmonics 구조를 이해하여 소리의 고유한 특징을 잡아낸다.
- 그 과정을 spectrum 분석을 통해 진행한다.

'[ 디지털 신호처리 ]' 카테고리의 다른 글

[ 디지털 신호처리 ] Audio Signal Processing \| cepstrum, MFCC (0)	2023.11.10

불주먹고양이의 펀치 일기

[ 디지털 신호처리 ] Audio Signal Processing | glottal signal, vocal tract, formant frequency

1. 음성 (Audio)

1) 소리의 주파수 원리

2) 소리의 3요소

음의 높이 (Pitch)

음색 (Quality)

음의 세기 (Loudness)

엔벨로프 (Envelope, 포락선)

2. 음성 신호 (Audio Signal)

1) 음성 신호 생성 메커니즘

2) 음성 신호 메커니즘 정리

3. 음성 신호 모델링 (Source-Filtering Model)

1) Source (Glottal WaveForm)

Mel Scale

수학적 modeling

2) Filter

Formant

'[ 디지털 신호처리 ]' 카테고리의 다른 글

티스토리툴바

[ 디지털 신호처리 ] Audio Signal Processing | glottal signal, vocal tract, formant frequency

1. 음성 (Audio)

1) 소리의 주파수 원리

2) 소리의 3요소

음의 높이 (Pitch)

음색 (Quality)

음의 세기 (Loudness)

엔벨로프 (Envelope, 포락선)

2. 음성 신호 (Audio Signal)

1) 음성 신호 생성 메커니즘

2) 음성 신호 메커니즘 정리

3. 음성 신호 모델링 (Source-Filtering Model)

1) Source (Glottal WaveForm)

Mel Scale

수학적 modeling

2) Filter

Formant

'[ 디지털 신호처리 ]' 카테고리의 다른 글

관련글

티스토리툴바