目盛りってなんだろう

2018/07/03

バイオサイエンス部　バイオサイエンス室

気温の目盛り方

ジメジメとした梅雨らしい天気が続きますが、今を遡ること半年前、出勤前に朝のニュースを眺めていた時のことです。よくある”生活の知恵”的コーナーで、若手アナウンサーが朝とは思えぬパワフルさでリポートしていました。

「真冬に停電してしまった時、新聞紙をAの状態にして窓に貼ると室温の低下は3℃、Bの状態にして貼ると9℃、3倍も違いました！」

一般的な住宅における熱の出入りの主犯格は窓（ガラスおよびサッシ）であることはよく知られていますが、身近にある新聞紙を貼り付けるだけでもかなりの断熱効果がある、ということのようです。
なるほど、それはそれでありがたい”生活の知恵”です。が、しかし...

温度の差が「3倍」？

一瞬引っかかりました。温度はあくまで大小関係だけに意味があるのであって、温度の差を2倍、3倍...と評価してもよいものかと。

例えば温度ではなく時間で考えてみましょう。

A. 紀元前45年1月4日－紀元前45年1月1日＝ 3日間
B. 西暦1582年10月16日－西暦1582年10月15日＝ 1日間

「AはBの3倍の時間である」この言明は特に問題なさそうです。（ちなみに紀元前45年1月1日はユリウス暦の施行日、西暦1582年10月15日はユリウス暦の改良であるグレゴリオ暦の施行日だそうです）
時間とは時代を超えて一様な流れなので、その間隔は物の量と同じように扱える→比が意味を持つからです。
もっとも時間の流れ方は直接観測不能なため、その一様性は「時間は誰にとっても一様に流れているはずだ」という私たちの合意によって辛うじて根拠づけられているとも言えるわけですが...

気温（の差）の目盛り　＝　エネルギーの目盛り　＝　物の目盛り

話を戻して気温についてはどうでしょうか？

結論から言うと、「温度の差」は気体の分子運動としての熱エネルギーに比例していることが熱・統計力学の教えるところで、温度の差の比を取るということはとりもなおさずエネルギーの比を議論することになり、実は問題ありません。
エネルギーは時間と同様、物の量のように取り扱うことが可能で、例えば家の中に30のエネルギーが流入してきたとしたら、それは10のエネルギー流入が3回繰り返し起きたことと同じ

＝10エネルギー×3回

と比として評価できることになります。
結果的に、朝のけたたましいアナウンサー氏の表現は妥当だったわけです。

目盛りのカテゴリ

一般的に、気温や日付のようなデータは、その性質から以下のように分類されます。

・名義尺度 ... 電話番号等　　→　演算は意味をなさない
・順序尺度 ... 競技の順位等　→　演算は意味をなさないが、大小関係は評価できる
・間隔尺度 ... 温度、日付等　→　差は取れる（算術平均も取れる）
・比率尺度 ... 収入等　　　　→　比が取れる

温度や日付自体は間隔尺度ですが、その差を取れば比率尺度として機能するようなデータなのでした。

一般にデータ分析とは何らかの形でデータの間に横たわる関係性を明らかにする行為ですから、名義尺度よりは順序尺度、順序尺度よりは間隔尺度、間隔尺度よりは比率尺度の方が分析の幅がぐっと広がります。では名義尺度では手も足も出ないのでしょうか？いえいえ、たとえ名義尺度だったとしても、その「違いの程度」を測るような構造をデータに持たせることで分析をすることがあります。

DNA配列の近さを見る目盛り

例えばバイオサイエンス分野では、DNAが4つの記号 {A, T, G, C} の配列で情報を表現していることはよく知られた事実です。その配列を前述の尺度分類に当てはめると名義尺度に相当し、配列の間の関係性を議論することはできません。
しかし、元々同じ配列だったものが

・DNAの配列を計測する際のエラーで違いが生じた
・個体が年齢を重ねるに従って、放射線等の影響でその個体のDNA配列が変化してしまった
・種が分かれていくに従って、種間でDNA配列が徐々に変わってしまった

といった原因により異なる配列として見えることがあり、遺伝子解析等のアプリケーションではそれらの配列を同一のものとして認識したい！というニーズが存在します。
そこで登場するのがDNA配列間に人為的な距離を導入して、距離が近い配列は同一とみなす方法です。
２つの配列を並べた時に記号の一致度が高いほど高得点、ただし記号の挿入や欠失といった生物学的に起こりがちな現象もペナルティを課しつつ考慮するのが一般的な距離の測り方になります。
たとえば "ACCGTTAGAA" という10コの記号からなる配列Xがあって、同じく10コの記号からなる配列Yとの距離を測りたいとしましょう。以下のようなイメージで距離が計算されます（スコアが高いほど距離が近い）。

・完全一致パターン
　X: ACCGTTAGAA
　Y: ACCGTTAGAA
　スコア： 10

・一文字置換パターン
　X: ACCGTTAGAA
　Y: ACCGTAAGAA
　スコア： 9

・一文字挿入パターン
　X: ACCGTTAGAA
　Y: ACCGTTATGA
　スコア： 8

分布も目盛りに

統計学を学習すると正規分布やポワソン分布といった、いかつい数式がこれでもかと多数現れて閉口した経験をお持ちの方も多いのではないでしょうか。分布はDNA配列同様数値ではないので直接比較はできませんが、やはり分布の近さを評価する距離が存在します。

最近流行の人工知能や機械学習の本質は、与えられたデータから神様しか知りえない真の分布を推定することにありますが、推定した分布が真の分布にどの程度近いかを評価するときにKulback-Leibler距離と呼ばれる目盛りが用いられます。また深層学習によって○○っぽい画像（例えばゴッホ風の絵のような）を生成させるようなタスクをよく目にしますが、生成した画像の分布をWasserstein距離と呼ばれる目盛りに基づいて徐々に現実の画像に似せていくような技術も提案されています。

おわりに

いかがでしたでしょうか。一口にデータを目盛るといっても奥が深く、目盛りを適切に使ったり造ったりすること自体がデータ分析最大のポイントなのではないかと思うことすらあります。

当社のバイオサイエンス事業では、がん遺伝子解析サービス「OncoPrime」をはじめ、生体から得られる情報をデータ解析することでお客様に価値を提供しています。今後ますますデータの種類・量が増え、またより一層深い解析も同時に求められることが予想されますが、基礎的なデータ分析力に裏打ちされた圧倒的な付加価値を目指していきたいと思います。

執筆者

中島　隆夫
バイオサイエンス部バイオサイエンス室
現在、脂質同定システムLipid Searchおよび遺伝子解析サービスの開発に従事

コラム本文内に記載されている社名・商品名は、各社の商標または登録商標です。
当社の公式な発表・見解の発信は、当社ウェブサイト、プレスリリースなどで行っており、当社又は当社社員が本コラムで発信する情報は必ずしも当社の公式発表及び見解を表すものではありません。
また、本コラムのすべての内容は作成日時点でのものであり、予告なく変更される場合があります。