スマホ通話の声は『生成音声』だった NTTドコモに聞いて分かった仕組み

By - デジタル・コンテンツ・パブリッシング  公開:  更新:

Share Post LINE はてな コメント

※写真はイメージ

デジタル・コンテンツ・パブリッシング

株式会社デジタル・コンテンツ・パブリッシング(dcp)は、幅広いコンテンツ制作を一貫して手がける編集プロダクション。 『マイナビウーマン』『くるまのニュース』など大手専門メディアでの執筆・編集協力実績を多数持っている。 ウェブメディア『grape』では、ライフハックやフードの疑問について、企業や専門家など「その道のプロ」に取材。トレンドを多角的に分析し、読者の「知りたい」に応えるコンテンツ制作を信条としている。 …続きを読む

みなさんは、「スマホから聞こえてくる相手の声は本物ではない」という話を聞いたことはありませんか。

実は本物の声ではなく『生成した音声』なのだといわれています。

これは本当なのでしょうか。その真偽を確かめてみました。

スマホから聞こえている声は本物?

スマホから聞こえる声について、株式会社NTTドコモ(以下、NTTドコモ)に聞いたところ、「携帯電話の通話音声は、非常に短い間隔で緻密に解析した情報を使って音声を生成する処理を行っている」とのこと。

本物の声をそのまま届けているわけではないということなので、うわさは本当だったのです。

では、携帯電話の通話音声にはどんな処理が行われているのでしょうか。NTTドコモに聞いてみると…。

まず送信側で音声を分析し、その分析結果の情報を送信。受信側で、その分析結果の情報を用いて音声を生成しています。

この『送信側での音声の分析』と『受信側での音声の生成』は、20ミリ秒間隔という非常に短い間隔で行われています。

とても短い間隔ながらも、元の音声波形との誤差が最小になるように分析して受信側で生成するため、送信側の話者の音声に非常に近く聞こえるそうです。

普段の通話でほとんど違和感を覚えないのは、この精密な処理のおかげといえます。

※写真はイメージ

なぜそのまま声を届けないのか

なぜそのまま声を届けないのかというと、「音声を音声波形の情報のまま送ろうとすると、情報量が非常に大きくなってしまうから」とのこと。

元の声をそのまま届けるとなると、情報量が大きくなりすぎてしまい、1つのエリア内で通話をできるユーザの数が少なくなってしまいます。

上記のような処理を行うことで、音声の情報量を小さく圧縮でき、1つのエリアで通話できるユーザ数を十分に確保できるとのことです。

多くの人が同時に快適に通話できる環境を維持するために、この仕組みが採用されているわけです。

膨大な情報から似た音声を生成

生成された音声とはいえ、注意して聞いてみても相手の声そのままのように感じますよね。

では、どうやって似た音声にしているのでしょうか。また、音声はどのくらいのパターンがあるのでしょうか。

NTTドコモに聞いたところ、下記のような回答がありました。

何パターンという具体的な数字でいうのは難しいです。4Gの音声通話では、20ミリ秒ごとに253ビット、理論的には2の253乗個のパターンの情報を表すことができます。

『2の253』乗は0が76個付くぐらいの数字。ちなみに1兆は0が12個です。

これだけの膨大な情報を20ミリ秒ごとに送信し、音声を生成しているので、どんな人の音声でも非常に近い音声として聞くことができます。

1兆でも0が12個なのに、0が76個という数字はもはや想像しにくい規模です。それだけのパターンを20ミリ秒ごとに処理しているとは、改めて驚かされます。

加えて、「人間の聴覚特性を考慮して計算し、元の音声波形との誤差が最小になるように情報を選択することで、より近い音声になります」とのこと。

人間の耳が感じ取りやすい音域を優先して再現しているため、聞いた感覚としてはほぼ本物と区別がつかないわけです。

※写真はイメージ

固定電話から聞こえる声はどうなのか?

結論からいうと、固定電話は上記のような処理は行われていません。固定電話の場合、高周波数という音声の高い音の成分やビット数を減らして、送信側から受信側へ送る音声の情報量を小さくしています。

音声を音声波形のままで送っているので、聞こえてくる声は相手の声そのままといえるでしょう。

ただし、音声波形の情報のままなので、固定電話で送られる音声の情報量は携帯電話の約5倍もあります。

また、情報を軽くするために、高い音の成分をカットしているので、固定電話の音声はこもった音のように聞こえるのも特徴なのだそうです。

固定電話の声が「本物」であっても高音域がカットされているため、スマホの生成音声の方が聞き取りやすく感じるケースもあるようです。

「スマホから聞こえてくる相手の声は本物の相手の声ではない」という話の真偽を確かめたところ、結果は真実でした。

とはいえ、膨大なデータをもとに生成されている声なので、本物に非常に近いものになっています。生成された声と分かって聞いても、その違いに気付かない人は多いかもしれませんね!


[文/デジタル・コンテンツ・パブリッシング・構成/grape編集部]

Googleで優先するメディアとして追加 grapeにチェックを入れて、おすすめ記事を読む!
指紋がついたスマートフォンの画面

スマホの画面掃除でこれヤメテ! やりがちな行為に「認識が甘かった…」スマートフォンの画面をティッシュペーパーや服の袖などで拭き取っていませんか。これらはやってはいけない掃除方法です。大切なスマートフォンをきれいに保つ方法を紹介します。

iPhoneのライフハック紹介の写真

『iPhone』の撮影テクを紹介! 影が出ちゃう対処法に「知らなかった」イラストレーター兼フォトグラファーの、のあ(@creator__noa)さんは、『iPhone』のズーム機能を使ったライフハックを紹介すると、多くの反響がありました。

Share Post LINE はてな コメント

page
top