英語と日本語の情報伝達効率比較
街中はクリスマスムードでいっぱい。今日も「赤鼻のトナカイ」がどこかで流れていて、ふと、その英語と日本語の歌詞の情報量の差に呆然。
日本語で
♪真っ赤なお鼻の♪
と歌う間に英語はこれだけ入ってます:
♪Rudolf, the red-nosed reindeer♪
つまり、「真っ赤なお鼻のトナカイさんのルドルフが」。日本語に比べて、「トナカイ」と「ルドルフ」という2アイテム多い情報伝達がなされるわけ。
(略)
この間日本で、日本のシティバンクのカスタマーサポートに電話したら、録音メッセージがナビゲートするタイプだった。しかし、アメリカで日頃使っているものに比べて、あまりに一つ一つの選択肢を言われている時間が長いので、イライラして途中でギブアップ。例えば、
「日本語をご希望の方は、1、を押してください」
というのに多分4秒強かかると思われ。同じことが英語の録音音声だと
「If you would like to proceed in English, please press one」
という感じ。長そうだが、多分3秒弱くらい。30%違うのね。これに耐えられず。(ま、そもそも、録音メッセージナビゲート自体が、言語に関わらずいらだつのですが。)
もちろん、同じものをさしていても、英語より日本語の方が短い時間で言える単語もある。あるのではあるが、一般的には、ある程度の長さの情報を口頭で伝えようと思ったら、少なくとも日本語の方が3割方長めにかかる気がする。(これ、きっとどこかにきちんとした調査・分析をされてる方がいると思うんですが、ご存知の方がいたら教えてください。)
日本語は全ての音が「子音+母音」で成立しているが、英語では、子音が母音と独立して存在、一つの母音に、様々なバリエーションの複数の子音をくっつけられる。一方で、一つの母音を発音している時間は日本語と英語でそれほど変わらないので、単位時間あたりの情報量に差が出ると、そういうことだと推測してるんですがどうでしょうね。2進法と3進法、みたいな差でしょうか。
「赤鼻のトナカイに見る日本語と英語の単位時間あたり情報量」(@On Off and Beyond12/6付)
さて、この観察が実際に正しいのかどうか調べてみました。前提として、情報量ということでエントロピーがどうなっているかを見ると、英語は1.34 bits/letter、日本語は2.71 bits/letterとのことですので、これを時間当たりに変換すれば大まかな傾向はつかめるでしょう。
まず1分あたりどの程度話すかを調べてみると、英語は150 words per minuteがaverage、日本語は250〜300字/分が聞きやすい・話しやすい目安とのこと。しかし両者は単位が異なるので、このままでは比較できません。これらの単位をあわせるためには、英語についてはword当たりの文字数を調べ、日本語については漢字が含まれている分を調整する必要があります。
英語の文字数については、中学1年生用の検定教科書で3.86字、中学3年生用の検定教科書で4.11字とのことなので、一般的には中学3年生の水準からさらに中学生で学ぶ分だけ上昇すると仮定すれば、4.11+(4.11−3.86)=4.36ということとなります。したがって、1分当たりに話される英語の情報量は、
- 1.34×150×4.36=876.36 bits
ということになります。
他方、日本語の漢字については、ぐぐっていろいろなページを見る限り、概して3〜4割程度含むものが推奨されているようですので、1/3の漢字を含み、それが平均して1.5字のかなに相当するとすれば、同じく1分当たりの情報量は
- 2.71×250〜300×(6/7)=580.7〜696.9 bits
ということになり、確かに英語の方が情報量が多いと推測されます。580.7 bits per minuteだとすると英語の66.3%、696 bits per minuteだとすると英語の79.5%ですから、「日本語の方が3割方長めにかかる気がする」というのはなかなか当を得たご指摘であるととりあえずは考えることが可能でしょう。
#上記の1分当たりの計数のリンク先によると、英語のfast talkersは180 words per minute、日本語は最大で400字/分とのことなので、きわめて早口の場合は英語の1,051.632 bitsに対して日本語の929.1 bitsと、多少は差は縮まるようです。
他方で、どのような言語であっても、情報伝達効率には差がないことが自然であるようにwebmasterには思われます。というのも、英語・日本語に限らず、いわゆる圧縮の余地は多分にあり、ある程度の冗長性があってこそエラーやノイズへの強度や脳の言語処理能力とのバランスといった関係で最適だという水準に落ち着いていると考えられるからです。言い換えれば、こうした強度やバランス上適切な水準を超えて冗長性があるならば、さまざまな圧縮が慣用として行われ、結果としてより伝達効率の高い言語体系に生まれ変わってしまうはずです。
このwebmasterの見立てが正しいのであれば、上記のような聴覚を介した情報伝達において言語間に差があるのなら、その他の手段による情報伝達では逆の関係が成立し、言語による情報伝達効率は、各手段の使用頻度に応じた加重平均値ではほぼ同じものとなるとの推測が成立します。分かりやすい例としては、聴覚を介した伝達において日本語が劣るのであれば、視覚を介した情報伝達では日本語が勝るはずでしょう。これは、表意文字である漢字を用いることからも、一見正しそうな仮説といえるのではないでしょうか。
では、実際に試算してみましょう。黙読については、英語では250〜300 words per minuteが平均的なスピードのようですが、日本語では500〜700字といったところのようです。上記の式を漢字補正を除いて当てはめてみますと、
- 英語
-
1.34×250〜300×4.36=1,460.6〜1,752.72 bits
- 日本語
-
2.71×500〜700=1,355〜1,897 bits
となり、甲乙つけがたいように推測されます。となれば、前述の加重平均値では、日本語は英語よりも情報伝達効率が低いものとなるでしょう。webmasterは既述のように言語間で大差はないものと考えていますので、webmasterの仮説が誤りであるか、それとも上記の各推計に誤りがあるのか、いずれかということとなります。
ここからは完全なあてずっぽうですが、疑うべきは日本語のエントロピー2.71ではないでしょうか。もちろん、数値自体を疑うものではありません。ただ、原論文を見ていないので勝手な憶測ではあるものの、おそらくは書き言葉のエントロピーであり、話し言葉のそれではない可能性はあります。仮に英語の書き言葉・話し言葉の差よりも日本語のそれの方が大きく、書き言葉・話し言葉の双方に同じエントロピー値を当てはめて推計することが不適当であるならば、話し言葉においても英語と日本語の単位時間当たり情報伝達量は等しい、ということもあり得ます。
#エントロピーの絶対値が問題というより、書き言葉と話し言葉のそれぞれのエントロピーの比の問題、というのが正確な表現でしょう。英語のその比が1:1である場合は同じことですが。
直感的には、たとえば言文一致が試みられた歴史など、日本語の方が英語よりも書き言葉と話し言葉との乖離が大きく、書き言葉のエントロピーをそのまま当てはめた推計では他言語よりも相対的に低い推計値が出てしまうような気がします‐渡辺千賀さんが冒頭の引用で触れられた事例は、赤鼻のトナカイは翻訳(それも歌詞という、音節や韻等の制約が厳しい対象のそれ)に伴う問題であり、電話メッセージは書き言葉を読むことと話し言葉を話すことの違いに起因する問題と整理するのが、この直感とは整合的です。さて、どのように確認すればよいのかといえば、どなたか専門家の方にお願いしたいなぁ、ということになってしまうのですが。





1月 5th, 2008 at 0:35:12
文章の面積あたりの意味密度は日本語の方が高そうですよね。特に四文字熟語が大量に含まれている場合は、その4文字の裏側にそれぞれ1000文字分くらいの内容が隠れていたりしますし。
文章に書かれたものを言葉にすると途端に冗長になるというのはわかる気がします。もしかしたら日本語の会話で主語がほとんど省略されたり末尾のデスマスがいい加減だったりするのは、それが冗長性を高めていて頭の速度から発話が遅れることを防止するためかも知れませんね。
あと、高校生と老人では明らかに頭の回転速度が違うので、女子高生はやたらと単語を省略したがるのかも知れない。確かに昔は一々全部をまじめにしゃべるのが億劫で、色々省略してしゃべっていたような気が。今は・・・orz
1月 6th, 2008 at 7:55:46
和文4枚の学会発表を英文にすると大概6枚とかになります。
でもって、一番難しいのが図面。
「実験」の二文字が”experiments”何文字になってんだよ、とか。フローチャートの箱に文章どうやっていれんだよとか。
音声の面は考えたことなかったですが、文章面では日本語の方が密度は高いですね。
学術書も訳本より原本の方が2倍くらい厚かったりしますし。(本のサイズや文字の大きさのせいもありますが)
1月 6th, 2008 at 8:04:01
>鍋象さん
文字としての効率性としては、読む側は面積との着目はなるほどと思う一方で、書く側は画数でカウントしないといけないのかな、という気がします。四文字熟語は、書く側にとっては逆に大いに効率性が下がるのかな、と。その意味では、日本語などの漢字使用言語は、IMEなどの発達で大いに効率性が向上している、ということとなるわけですが(読む側は変わらない一方で、書く側の効率が上がっているはずなので)。
>一国民さん
学術書の場合、邦訳の方が分量が多い事例の方が多いのではないでしょうか? たとえばブリーリー&マイヤーズ「コーポレートファイナンス」は、原書は一冊本ですが邦訳は二分冊になってます。ご指摘のとおり、フォントサイズや行間の違いも大きくはありますが。
1月 6th, 2008 at 12:05:13
表意文字と表音文字とハイブリッドの違いがあるので、文章の効率性は中国語>日本語>英語、音読の効率性はbewaadさん説に則って、省略表現などを含めるとほとんど変わらないが文字を素で音読した時は日本語は冗長という事になるのでしょうね。
IMEで効率性アップは凄くわかります。しゃべるスピードより若干遅れるくらいで文字が書けるなんて昔は考えられなかったですから。大量にワープロで文章書いていると、しばらくすると会話中に頭の中でローマ字入力して変換していたりしますしw
あと、英文和訳と和文英訳は、どちらもオリジナル言語に最適化された熟語・諺などの簡略化表現を非オリジナルに変換する行為ですので、注釈や意味の書き下しなどが必要になる分だけ分量が増えてしまうのではないでしょうか。
1月 7th, 2008 at 4:40:20
>鍋象さん
俳句の英訳を見ると、日→英だって膨らまざるを得ないのはよくわかりますよね。