grape [グレイプ] lifestyle

友人からスマホに着信あり 出てみると「なんか声が違う…」 違和感の正体をドコモに聞いたら?

By - デジタル・コンテンツ・パブリッシング  公開:  更新:

Share Post LINE はてな コメント

※写真はイメージ

みなさんは、「スマホから聞こえてくる相手の声は本物ではない」という話を聞いたことはありませんか。

実は本物の声ではなく『生成した音声』なのだといわれています。

これは本当なのでしょうか。その真偽を確かめてみました。

スマホから聞こえている声は本物?

スマホから聞こえる声について、株式会社NTTドコモ(以下、NTTドコモ)に聞いたところ、「携帯電話の通話音声は、非常に短い間隔で緻密に解析した情報を使って音声を生成する処理を行っている」とのこと。

本物の声をそのまま届けているわけではないということなので、うわさは本当だったのです。

では、携帯電話の通話音声にはどんな処理が行われているのでしょうか。NTTドコモに聞いてみると…。

まず送信側で音声を分析し、その分析結果の情報を送信。受信側で、その分析結果の情報を用いて音声を生成しています。

この『送信側での音声の分析』と『受信側での音声の生成』は、20ミリ秒間隔という非常に短い間隔で行われています。

とても短い間隔ながらも、元の音声波形との誤差が最小になるように分析して受信側で生成するため、送信側の話者の音声に非常に近く聞こえるそうです。

※写真はイメージ

なぜそのまま声を届けないのかというと、「音声を音声波形の情報のまま送ろうとすると、情報量が非常に大きくなってしまうから」とのこと。

元の声をそのまま届けるとなると、情報量が大きくなりすぎてしまい、1つのエリア内で通話をできるユーザの数が少なくなってしまいます。

上記のような処理を行うことで、音声の情報量を小さく圧縮でき、1つのエリアで通話できるユーザ数を十分に確保できるとのことです。

膨大な情報から似た音声を生成

生成された音声とはいえ、注意して聞いてみても相手の声そのままのように感じますよね。

では、どうやって似た音声にしているのでしょうか。また、音声はどのくらいのパターンがあるのでしょうか。

NTTドコモに聞いたところ、下記のような回答がありました。

何パターンという具体的な数字でいうのは難しいです。4Gの音声通話では、20ミリ秒ごとに253ビット、理論的には2の253乗個のパターンの情報を表すことができます。

『2の253』乗は0が76個付くぐらいの数字。ちなみに1兆は0が12個です。

これだけの膨大な情報を20ミリ秒ごとに送信し、音声を生成しているので、どんな人の音声でも非常に近い音声として聞くことができます。

加えて、「人間の聴覚特性を考慮して計算し、元の音声波形との誤差が最小になるように情報を選択することで、より近い音声になります」とのこと。

※写真はイメージ

固定電話から聞こえる声はどうなのか?

結論からいうと、固定電話は上記のような処理は行われていません。固定電話の場合、高周波数という音声の高い音の成分やビット数を減らして、送信側から受信側へ送る音声の情報量を小さくしています。

音声を音声波形のままで送っているので、聞こえてくる声は相手の声そのままといえるでしょう。

ただし、音声波形の情報のままなので、固定電話で送られる音声の情報量は携帯電話の約5倍もあります。

また、情報を軽くするために、高い音の成分をカットしているので、固定電話の音声はこもった音のように聞こえるのも特徴なのだそうです。

「スマホから聞こえてくる相手の声は本物の相手の声ではない」という話の真偽を確かめたところ、結果は真実でした。

とはいえ、膨大なデータをもとに生成されている声なので、本物に非常に近いものになっています。生成された声と分かって聞いても、その違いに気付かない人は多いかもしれませんね!


[文/デジタル・コンテンツ・パブリッシング・構成/grape編集部]

Share Post LINE はてな コメント

page
top