「真贋の科学」「文章を科学する」

「科学書乱読術」*1で気になった本シリーズ。

  • 「真贋の科学 計量文献学入門」(村上征勝、ISBN:4254126468)
  • 「1000万人のコンピュータ科学3 文学編 文章を科学する」(前川守、ISBN:4000079530)

文章の真贋を判定するのにどんな方法があるのか。

この本を読んで意外だったのは、非常に単純な方法しか使っていないということ。文の長さ、句の長さ、単語の長さなど。本を読む前は、真贋判定にはなんかこう、もっと複雑な、定性データをどうやって定量データに落とし込むか、という感じのを想像してた。でも非常に簡単な方法で十分判定できるようだ。確かに単純な判定基準であったとしても、複数の方法を組み合わせれば十分高い精度が得られるのだろう。例えば、ひとつの方法では50%の確率でしか判定できなくても、10個の方法を組み合わせれば99.9%で判定できる(こんなに単純じゃないだろうけど)。複雑な方法を考え出すまでもないってことかな。

本の内容については、「文章を科学する」のほうが面白かった。「真贋の科学」は、ほとんど多成分解析(主成分分析とか)の解説書で、解析対象にたまたま文章の真贋判定を選んでいる、という印象を受けた。解析方法は数学の専門書に任せて、文章解析ならではのパラメータ選択方法なんかの解説があればよかったのに。
「文章を科学する」のほうは、文の長さ程度でも意外に役立つという点から始まっており、ずっと基礎的でわかりやすい。門外漢にはちょうどいい。真贋判定のほかにも、文章作成アルゴリズムや暗号解読方法などの話題があり、飽きさせないところもいい。