音声に含まれる情報

音声による個人識別行うためには、音声に発声者の特有がなければなりません。

例えば、携帯電話で「もしもし、○○ちゃん、タナカです」
この部分を聞いただけで、架電者はタナカさんと分かります。また、知人にタナカさんが複数いる場合でも声だけで分かる場合も多いと思います。

これは、発声者の音声に個人性があるからで、この個人性は、様々な因子組み合わせから成りたっています。

言葉の情報

ヒトの音声には、話者の身体状態や心理状態に関する情報も含んだものを伝達しています。

話者の意図的情報には「言語的情報」「バラ言語的情報」の2つが含まれています。

また、話者の感情・身体性情報には「非言語的情報」が含まれています。

上記の3つの大別は、東京大学名誉教授の藤崎博也先生が論文発表したものです。
それ以前には、国語的で文学的な区分けが存在するだけで、数学的な数値に置き換えられる音声理論は、存在しませんでした。
（～似た理論は沢山ありましたよ～）

藤崎先生がこの音声理論を纏めて発表されたおかげで、音声認識や音声照合など、最先端技術である情報系学問の分野が飛躍的に進歩する事になったのです。

ヒトの音声音は、振動数が比較的定まっている『母音』と振動音数が広い『子音』により、成り立っています。

『母音』は、肺からの呼吸によって生じた音が、付属管腔によって共鳴することで、特定の振動数範囲が強調されます。この振動数範囲のことをフォルマントと呼ばれています。

主要フォルマントは、3つあるとされていて、音声の高低は声帯の振動数で決定されます。
しかし、その振動数が変わっても、フォルマントの位置は変化しません。

ですから、各個人に固有のものとなり、発声者の特有なものとなります。

この『母音』は、日本語の場合、5つしかありません。
A＝ア　I＝イ　U＝ウ　E＝エ　O＝オ
発声運動を見てみると、『母音』の発生時には、付属管腔が常に一定の動きをします。

『子音』は、呼吸による空気の動きが、口腔、歯、唇などの狭い空間を通る時に発する音や、舌、唇などによって、狭められたり、急激に広げられるなどして通路を通る時の音などと、5つの母音と組み合わされる事によって、様々な音声を作り出します。

ヒトの音声は、『子音』から『母音』へ、また『母音』から『子音』へと移行するときに見られる。口などの形の変化は、それぞれ『母音』のフォルマントに変化を与える事になるります。
そのため『子音』の識別は、重要な役割を果たすことになるのです。

イントネーションとは、発話に伴う声の高さ、つまりピッチの時間変化パターンです。
ピッチの時間変化パターンによる音声現象ですので、アクセントと共通する部分もあります。

下の図は「コンニチワ」と話したときの音声波形とピッチです。

普段意識していなくとも、ピッチはこれだけ上下します。

イントネーションは、発話のレベルでの言語情報の伝達に関係し変化します。
さまざまなバラ言語的情報の伝達に有力な道具であり、地域性や年代性などの特徴も観察される場合もあります。

ヒトの声紋から口唇までの声道は、成人男性で約15-17cm。また、その断面を円形近似したときの半径は2cm以下です。

これに比べて、4kHzの音波の波長は、空気中の音の速さが340m/sですから、1/4波長は2.1cmとなります。

従って、4-5kHz以下の周波数では、音波はおもに声道の長さに沿って伝わり、伝搬方向と直交する横断面では一様な音圧分布をもっています。

ですから、声道内の音波は平面波であり、声道は不均一な断面を持つ音響管であり、この音響管の共振特性によって、音声の重要な情報である『母音』の音響的特性を説明する事が出来るのです。