Kohei LK Note

医学とデータサイエンスの間でもがく駆け出し医師・医学研究者の勉強ノート.

みどり本攻略 Day2

この記事は後でリライトすることを前提として得た知識をとりあえず書きなぐっています.わかりづらいことはご容赦ください.

----

さて,今日は一般化線形モデル generalized linear modelについて.みどり本の3章を読んでいきたいと思います. 前回の記事では,どの個体でも平均種子数が変化しないという前提でモデリングを行いました.今回,みどり本では植物の大きさと肥料を使ったか使わなかったかという二つの説明変数が加わった状態でモデリングを行います.

今回は,あまりRのコードには触れず,自分なりのここまでのまとめをメモしていきたいと思います.

まず統計モデリングを使う意義:私たちは自然現象を観測して,そこから法則を見出そうとしている.私の過去の研究から言えば,ある遺伝子の発現量が患者の予後に関わっている.ということを明らかにしようとすることもその一つだ.実際に観測したデータ(ex.遺伝子発現量と予後のデータ)について,その裏側に隠された自然界の法則(統計モデル)に似たような統計モデルを作る,ということを行う.

ある遺伝子の発現量がどれくらいであれば,予想される予後はどれくらいかという統計モデルを作ることになる.

さて説明変数によってパラメータが変化するとき,この統計モデルを観測データに当てはめることを,今回はポアソン分布に従うと仮定しているので,ポアソン回帰 Poisson Regressionと呼ぶ.そしてこのような統計モデルを一般化線形モデル generalized linear model,GLMと呼ぶ.

前回学んだように離散的な数値を取り最小がゼロであることはわかっているものの,最大はわからない場合にポアソン分布をとりあえず使う.

GLMでは重要な概念として線形予測子 linear predictorとリンク関数 linc functionがあり,これは(リンク関数)=(線形予測子)という関係性である.

ポアソン回帰の場合は,対数リンク関数を使用する(ことが都合が良い). ポアソン分布では0より小さい値を取り得ないため,対数であることは都合が良い.

λi = exp(β1+β2*xi)

log λi = β1+β2*xi