2009年10月27日火曜日

データと情報

厳密に区別する必要はないけれど、データと情報そして知識とは、それぞれ使う場合や場面によって違っていると思う。

体温計で測ったら37℃あった。
これは、データである。だれが計っても同じ客観的な数値が得られる。

これに対して、「お母さん、今日はちょっと熱があるみたい」という子供の訴えは、いつもとは違う、しかもいつもより高いという主観的な評価を伴っている。
これは、情報である。

さらに、お母さんは別の情報と照らし合わせて、体温が37℃以上ある場合には、インフルエンザの可能性があるから受診させた方が良いと、他のデータや情報との関係で意思決定する。
これは、知識によるものである。

このように客観的で、対象そのもののある性質について抽象化した数値をデータと呼ぶのが相応しいと思う。だから、白という色名は情報である、それに対して16進数のFFFFFFは、データである。さらに「白い色は明るいが汚れやすい」と判断するのは主体の知識である。

それにしても、色に関する和名は豊かだ。白っぽい色の表現をちょっと拾っただけでも、こんなにある。

白しろ、胡粉色ごふんいろ、青白橡あおしろつるばみ、白磁はくじ、白茶しらちゃ、赤白橡あかしろつるばみ、乳白色にゅうはくしょく、白練しろねり、などなどきりがない。

2009年10月7日水曜日

平均的にものを見るということ

数字はとても分かりやすいから、たくさんのものや人が集まった現象の性質を知るときに、平均値を算出することは、ある集団の性質を代表するものとして有効ではある。


でも、それによって集団の構成要素である個々のエレメントの特質は消えてしまう。そこで集団をいくつかのグループに分け,そのグループの平均値の間に有為な差があるかどうか見ると,もう少し要素の「個性」が反映できる。


それが、平均値の差の検定という統計手法である。ただ、それもグループを構成している個々のデータが「大数の法則」、つまり平均値付近に多くのデータが集まって、いわゆる正規分布をしている場合に適用できる手法であるから,グループとしての個性はある程度反映されるものの、個々の特性は依然として抽出できない。


それでも、グループの構成を変えたり、特異データを見つける(標準偏差から外れたデータの発見)ことにより、ある程度、集団の性質や含まれる個々の特性が明らかになってくる。


このように技術としての統計手法だけに頼ることなく、ある数値をきっかけに対象としている集団や現象の特性を探る手がかりを得ることができる。パッケージ化された計算手法の結果を鵜呑みにすることなく、個々のデータが語ろうとしていることを,どれだけ引き出してあげるかは、分析する人の腕にかかっている。