読者です 読者をやめる 読者になる 読者になる

超基礎事項から

音情報処理論

それすら分かっていない状況。。。

周波数は、波動や振動の周期の逆数であり、単位は「ヘルツ」(Hz)が使われる。

波長とは、波形を描いて空間を伝わる電磁波や音波などにおいて、波形のある地点からすぐ隣の同じ位相までの距離を表すものである。

振幅(しんぷく)とは、波動の振動の大きさを表す非負のスカラー量である。波の1周期間での媒質内における最大変位量の絶対値で表される。

アナログ信号をデジタル信号に変えるには、以下の3つが必要。

  • 標本化
    • 時間的に連続な波形を離散的な時点での系列で表現すること
  • 量子化
    • 波形の値を有限個の値の中の一つで近似的に表現すること
  • 符号化
    • 具体的な表現法で、普通は2進符号化が行なわれる
  • AD変換
    • 標本化: 離散時間化
    • 量子化: 離散振幅化


シャノン-染谷の標本化定理

標本化により、アナログ信号波形x(t)は、離散的な時点t_i = i Tでの値の系列(標本値系列)\{x_i\} = x(i T)に変換される。T(s)を標本化周期、この逆数S = 1/ T[Hz]を標本化周波数という。もとのアナログ信号の周波数帯域と標本化周期の間には、シャノン-染谷の標本化定理がある。すなわち、x(t)が0からW(Hz)の間に制限されているとき、x(t)T \leq 1 / (2W)[s]ごとに標本化すれば、標本値系列から次式のように、元の波形が完全に再現できる。
x(t) = \sum_{i = - \infty}^{\infty} x(i T) \frac{sin(\pi / T (t - iT))}{\pi / T (t - iT)}

この定理を使うと、どれくらいの時間ごとにサンプリングすれば元の関数を復元できるかが分かる、という仕組み。通常の音声では1/16000[s]くらいで、電話音声だと1/8000[s]くらいでサンプリングすればよいとのこと。

音声スペクトル

音声の性質を調べるとき、波形を直接は扱わないで周波数スペクトルに関連した性質を扱うことが多いらしい(スペクトルとはなんぞや)。なぜなら、音声波形は振幅と位相がゆるやかに変化する正弦波の和で構成されていると近似可能だから。

スペクトル(spectrum)とは、複雑な情報や信号をその成分に分解し、成分ごとの大小に従って配列したもののことである。2次元以上で図示されることが多く、その図自体のことをスペクトルと呼ぶこともある。

音声のスペクトル構造

スペクトルをさらに2つの要素の積に分解して考えるらしい。

  • 発声器官の共振、反共振特性(周波数とともにゆるやかに変化する成分)
    • スペクトル包絡
    • 人間の喉や口の形を表わす特徴量
    • 音声の基本周期を与える
  • 音源の周期性(細かく周期的(有声音: 母音などの場合)または非周期的(無声音の場合)に変化する成分)
    • スペクトル微細構造
    • 声帯の基本周期や声の高低を表す特徴量
    • 音声の音色を与える

DFTに基づく音声スペクトル分析

  • フーリエ変換で時間から周波数領域へ
  • フーリエ逆変換で周波数から時間領域へ戻す
  • 振幅スペクトル特性と位相スペクトル特性
    • 意味が分からないからあとで調べる


ケプストラム

参考にしている本

音響・音声工学 (電子・情報工学入門シリーズ)

音響・音声工学 (電子・情報工学入門シリーズ)