본문 바로가기
[ 디지털 신호처리 ]

[ 디지털 신호처리 ] Audio Signal Processing | glottal signal, vocal tract, formant frequency

by 불주먹고양이 2023. 11. 10.

인하대학교 김병형 교수님의 '디지털 신호처리' 수업을 바탕으로 정리한 글입니다.

 

1. 음성 (Audio)

1) 소리의 주파수 원리

출처 :https://gnoej671.tistory.com/11

  • 주파수의 3요소 : 진폭 (Amplitude), 주기 (Cycle), 파장의 길이 (Wavelength)
    • 진폭 : 진동의 중심부터 최고점까지의 폭으로, 소리의 크기를 나타내는 지표
    • 주기 : 일정 시간을 두고 동일한 상태를 반복하는 현상으로, 주파수가 높을수록 주기는 짧아짐.
    • 파장의 길이 : 주기의 길이를 말하며, 파장의 길이는 주파수가 높을수록 짧아짐.
  • 낮은 음일수록 주파수가 낮다. (더 많이 진동한다.)
  • 높은 음일수록 주파수가 높다. (덜 진동한다.)

 

2) 소리의 3요소

음의 높이 (Pitch)

  • 소리의 높낮이, 즉 소리의 진동 횟수 차이. 진동 횟수가 많을 수록 소리의 높이가 높으며, 진동 횟수가 적을 수록 소리의 높이가 낮다.

출처 :http://www.edujin.co.kr/news/articleView.html?idxno=37464

음색 (Quality)

  • 배음 구조의 차이에서 오는 소리의 맵시로, 악기마다 소리가 각각 다르게 들리는 이유이다.
    • 배음 (Harmonic Overtone) : 하나의 음을 구성하는 여러 부분음들 중, 기본음보다 높은 정수배의 진동수를 갖는 모든 상음

음의 세기 (Loudness)

  • 음파의 진폭에 의해 정해진다. 물리적인 양으로 데시벨이 사용된다.

엔벨로프 (Envelope, 포락선)

  • 시간에 따른 소리의 변화

출처 :http://www.ktword.co.kr/test/view/view.php?m_temp1=3830

  • Attack Time : 음이 최고점까지 도달하는 구간
  • Decay Time : 음이 안정되기까지의 구간 / 이 구간은 존재하지 않을 수도 있다.
  • Sustain Time : 음이 지속되는 구간
  • Release Time : 음이 사라질 때까지의 구간

출처 :https://blog.naver.com/gnc4620/220949946308

 

 

 

2. 음성 신호 (Audio Signal)

1) 음성 신호 생성 메커니즘

    • glottal signal : 폐의 압력으로 인해서 vocal fold (성대 주름)가 움직이면서 생성한 신호
      • 주기적 신호 형태
      • harmonics (voiced sound)와 noise (unvoiced sound)로 구성됨
      • fundamental frequency (f0)와 fundamental frequency의 harmonic frequency로 구성됨

출처 : https://brightwon.tistory.com/11

피아노 건반으로 '라(440Hz)' 음을 연주했을 때의 피아노 소리는 기본 주파수 (440Hz) 뿐만 아니라, 그 정수배인 880Hz, 그 다음의 harmonics까지 포함하고 있는 신호이다.

 

  • vocal tract filtered signal : glottal signal이 조음기관 (입, 코)에 의해서 변형된 신호로, 주파수 성분이 결정되며 다양한 형태로 출력됨
    • 해당 조음기관의 형태에 따라 말하고자 하는 음성의 형태를 결정하기 때문에 'filter'의 역할이라고 불림
  • output sound : output spectrum으로도 불리는데, 이는 source spectrum (== glotal signal)이 filter function (== vocal tract)를 거쳐서 만들어짐

 

 

2) 음성 신호 메커니즘 정리

  1. 폐에서 압력이 올라온다.
  2. vocal fold의 열림과 닫힘의 반복을 통해서 Glottal Signal (Noise + Harmonics)을 만든다.
  3. Glottal Signal이 조음기관 (코와 입 - Vocal Tract, Filter 역할)을 통해서 개인화된 envelope를 만든다.

 

 

 

3. 음성 신호 모델링 (Source-Filtering Model)

1) Source (Glottal WaveForm)

  • Vocal Fold로부터 나온 Voiced Sound (harmonics)는 주기적인 신호로, 가장 기본적인 주파수인 fundamental frequency ($f0$)를 가진다.
    • $f0$는 소리를 만들어내는 물리적 진동의 가장 낮은 주파수로, 소리의 높낮이와 관련이 있다. 즉, pitch를 결정하는 데 중요한 요소이다.
  • fundamental frequency는 사람이 느끼는 음의 높낮이와는 다른데, 이는 낮은 주파수에서 음의 변화를 잘 구분하는 간의 귀에 맞추어서 변환을 수행한다.
    • 이를 'Pitch'라고 한다.
    • Pitch는 fundamental frequency (f0)를 mel scale 변환을 통해 얻을 수 있다.

 

Mel Scale

  • Pitch의 주관적 인식 (사람들마다 음의 높낮이를 다르게 판단할 수 있음)을 물리적 주파수에 Mapping하는 방식
  • 인간의 청각이 모든 주파수 범위에서 동일하게 pitch 변화를 감지하지 않는다는 점을 반영한다.
    • 예) 낮은 주파수에서는 주파수 변화에 민감하지만, 높은 주파수에서는 같은 주파수 변화를 덜 민감하게 감지한다.
  • Mel Scale은 log 함수 형태이다.
    • 낮은 주파수에서는 선형적 (linear) 수준으로 민감하지만, 주파수가 증가함에 따라 그 민감도가 로그 형태로 감소한다는 것을 반영한다.
    • 높은 주파수 영역에서는 주파수가 큰 수준으로 증가해야지만 인간의 귀로 pitch의 변화를 인지할 수 있다. 

 

 

  • Voiced Sound를 만들 때의 성대의 모습과 이를 시간에 따른 진폭으로 나타낸 그림이다.
    • Pitch Period : 한 주기
    • Closed Phase : 성대가 닫혀 있을 때
    • Open Phase : 성대가 열려 있을 때
    • Pitch Period = Close + Open

 

 

수학적 modeling

$$ u[n] = g[n] ∗ p[n] $$

  • g[n] : 한 주기의 glottal wave form
  • p[n] : impulse train
  • 즉, 한 주기의 glottal wave와 impulse train의 컨볼루션 연산을 통해서 glottal waveform을 얻을 수 있다.

 

2) Filter

vocal fold에서 형성되는 source가 vocal tract를 거치면서 증폭되거나 감소하는 변형이 발생한다.

Formant

  • Formants : 소리가 공명되는 특정 주파수 대역
    • 소리를 다양하게 만들어주는 '필터' 역할
    • harmonic과 만나서 변형되는 음성 신호
  • Fundamental Frequency vs. Formant
    • 기본 주파수 (Fundamental Frequency)
      • 음성 신호에서의 가장 낮은 주파수
      • 발성 시 성대가 진동하는 속도
      • 주로 '음높이(pitch)'와 관련이 있음. 예를 들어, 어떤 사람의 목소리가 높거나 낮은 것은 기본 주파수의 차이에 의한 것임 
    • 공명 주파수 (Formant)
      • 음성 spectrum에서 강조되는 특정 주파수 대역
      • 발성 시 입, 코 등의 공명 공간에 의해서 특정 주파수가 증폭되어 형성됨
      • 모음과 같은 음성 소리의 특징을 결정하며, 언어의 이해와 음성의 특징을 파악하는 데 중요함. 
      • 주로 '음색 (timbre)'나 '음질 (quality)'와 관련이 있음
  • Formant 측정 - Transfer function 역할을 하는 튜브로 나타낼 수 있다.

출처 : Analysis of the adaptational techniques of dramatic sopranos when singing the operatic repertoire of G. Verdi and R. Wagner

 

  • Source Spectrum과 impulse train의 convolution을 통해서 output spectrum을 얻을 수 있다.
    • 이때, impulse train은 filter 역할을 하며 공명 주파수 (Formant Frequencies)를 가지고 있다.

 

  • 결론적으로, vocal tract를 지나면서 formant를 만나서 소리가 증폭되거나 감소한다는 점을 motivate로 삼을 수 있다.
    • harmonics 구조를 이해하여 소리의 고유한 특징을 잡아낸다.
    • 그 과정을 spectrum 분석을 통해 진행한다.