英語と日本語の情報伝達効率比較
街中はクリスマスムードでいっぱい。今日も「赤鼻のトナカイ」がどこかで流れていて、ふと、その英語と日本語の歌詞の情報量の差に呆然。
日本語で
♪真っ赤なお鼻の♪
と歌う間に英語はこれだけ入ってます:
♪Rudolf, the red-nosed reindeer♪
つまり、「真っ赤なお鼻のトナカイさんのルドルフが」。日本語に比べて、「トナカイ」と「ルドルフ」という2アイテム多い情報伝達がなされるわけ。
(略)
この間日本で、日本のシティバンクのカスタマーサポートに電話したら、録音メッセージがナビゲートするタイプだった。しかし、アメリカで日頃使っているものに比べて、あまりに一つ一つの選択肢を言われている時間が長いので、イライラして途中でギブアップ。例えば、
「日本語をご希望の方は、1、を押してください」
というのに多分4秒強かかると思われ。同じことが英語の録音音声だと
「If you would like to proceed in English, please press one」
という感じ。長そうだが、多分3秒弱くらい。30%違うのね。これに耐えられず。(ま、そもそも、録音メッセージナビゲート自体が、言語に関わらずいらだつのですが。)
もちろん、同じものをさしていても、英語より日本語の方が短い時間で言える単語もある。あるのではあるが、一般的には、ある程度の長さの情報を口頭で伝えようと思ったら、少なくとも日本語の方が3割方長めにかかる気がする。(これ、きっとどこかにきちんとした調査・分析をされてる方がいると思うんですが、ご存知の方がいたら教えてください。)
日本語は全ての音が「子音+母音」で成立しているが、英語では、子音が母音と独立して存在、一つの母音に、様々なバリエーションの複数の子音をくっつけられる。一方で、一つの母音を発音している時間は日本語と英語でそれほど変わらないので、単位時間あたりの情報量に差が出ると、そういうことだと推測してるんですがどうでしょうね。2進法と3進法、みたいな差でしょうか。
「赤鼻のトナカイに見る日本語と英語の単位時間あたり情報量」(@On Off and Beyond12/6付)
さて、この観察が実際に正しいのかどうか調べてみました。前提として、情報量ということでエントロピーがどうなっているかを見ると、英語は1.34 bits/letter、日本語は2.71 bits/letterとのことですので、これを時間当たりに変換すれば大まかな傾向はつかめるでしょう。
まず1分あたりどの程度話すかを調べてみると、英語は150 words per minuteがaverage、日本語は250〜300字/分が聞きやすい・話しやすい目安とのこと。しかし両者は単位が異なるので、このままでは比較できません。これらの単位をあわせるためには、英語についてはword当たりの文字数を調べ、日本語については漢字が含まれている分を調整する必要があります。
英語の文字数については、中学1年生用の検定教科書で3.86字、中学3年生用の検定教科書で4.11字とのことなので、一般的には中学3年生の水準からさらに中学生で学ぶ分だけ上昇すると仮定すれば、4.11+(4.11−3.86)=4.36ということとなります。したがって、1分当たりに話される英語の情報量は、
- 1.34×150×4.36=876.36 bits
ということになります。
他方、日本語の漢字については、ぐぐっていろいろなページを見る限り、概して3〜4割程度含むものが推奨されているようですので、1/3の漢字を含み、それが平均して1.5字のかなに相当するとすれば、同じく1分当たりの情報量は
- 2.71×250〜300×(6/7)=580.7〜696.9 bits
ということになり、確かに英語の方が情報量が多いと推測されます。580.7 bits per minuteだとすると英語の66.3%、696 bits per minuteだとすると英語の79.5%ですから、「日本語の方が3割方長めにかかる気がする」というのはなかなか当を得たご指摘であるととりあえずは考えることが可能でしょう。
#上記の1分当たりの計数のリンク先によると、英語のfast talkersは180 words per minute、日本語は最大で400字/分とのことなので、きわめて早口の場合は英語の1,051.632 bitsに対して日本語の929.1 bitsと、多少は差は縮まるようです。
他方で、どのような言語であっても、情報伝達効率には差がないことが自然であるようにwebmasterには思われます。というのも、英語・日本語に限らず、いわゆる圧縮の余地は多分にあり、ある程度の冗長性があってこそエラーやノイズへの強度や脳の言語処理能力とのバランスといった関係で最適だという水準に落ち着いていると考えられるからです。言い換えれば、こうした強度やバランス上適切な水準を超えて冗長性があるならば、さまざまな圧縮が慣用として行われ、結果としてより伝達効率の高い言語体系に生まれ変わってしまうはずです。
このwebmasterの見立てが正しいのであれば、上記のような聴覚を介した情報伝達において言語間に差があるのなら、その他の手段による情報伝達では逆の関係が成立し、言語による情報伝達効率は、各手段の使用頻度に応じた加重平均値ではほぼ同じものとなるとの推測が成立します。分かりやすい例としては、聴覚を介した伝達において日本語が劣るのであれば、視覚を介した情報伝達では日本語が勝るはずでしょう。これは、表意文字である漢字を用いることからも、一見正しそうな仮説といえるのではないでしょうか。
では、実際に試算してみましょう。黙読については、英語では250〜300 words per minuteが平均的なスピードのようですが、日本語では500〜700字といったところのようです。上記の式を漢字補正を除いて当てはめてみますと、
- 英語
-
1.34×250〜300×4.36=1,460.6〜1,752.72 bits
- 日本語
-
2.71×500〜700=1,355〜1,897 bits
となり、甲乙つけがたいように推測されます。となれば、前述の加重平均値では、日本語は英語よりも情報伝達効率が低いものとなるでしょう。webmasterは既述のように言語間で大差はないものと考えていますので、webmasterの仮説が誤りであるか、それとも上記の各推計に誤りがあるのか、いずれかということとなります。
ここからは完全なあてずっぽうですが、疑うべきは日本語のエントロピー2.71ではないでしょうか。もちろん、数値自体を疑うものではありません。ただ、原論文を見ていないので勝手な憶測ではあるものの、おそらくは書き言葉のエントロピーであり、話し言葉のそれではない可能性はあります。仮に英語の書き言葉・話し言葉の差よりも日本語のそれの方が大きく、書き言葉・話し言葉の双方に同じエントロピー値を当てはめて推計することが不適当であるならば、話し言葉においても英語と日本語の単位時間当たり情報伝達量は等しい、ということもあり得ます。
#エントロピーの絶対値が問題というより、書き言葉と話し言葉のそれぞれのエントロピーの比の問題、というのが正確な表現でしょう。英語のその比が1:1である場合は同じことですが。
直感的には、たとえば言文一致が試みられた歴史など、日本語の方が英語よりも書き言葉と話し言葉との乖離が大きく、書き言葉のエントロピーをそのまま当てはめた推計では他言語よりも相対的に低い推計値が出てしまうような気がします‐渡辺千賀さんが冒頭の引用で触れられた事例は、赤鼻のトナカイは翻訳(それも歌詞という、音節や韻等の制約が厳しい対象のそれ)に伴う問題であり、電話メッセージは書き言葉を読むことと話し言葉を話すことの違いに起因する問題と整理するのが、この直感とは整合的です。さて、どのように確認すればよいのかといえば、どなたか専門家の方にお願いしたいなぁ、ということになってしまうのですが。
