今年読んだ一番好きな論文2016 - 驚異のアニヲタ社会復帰の予備

この記事は今年読んだ一番好きな論文2016 の25日目の記事です。
　
今年読んだ論文ではこれがよかったです。
Computational flow cytometry: helping to make sense of high-dimensional immunology data.
Nature Reviews Immunology 16, 449–462 (2016)
レビューなのでアレですけど、お勉強して知識が増えたという点でこれを推します。
本当ならばSPADE (Nature Biotechnology 29, 886–891 (2011)) ですけど今年読んだわけでもないしいろいろ解説ブログもあるので、レビューですけどこれをば。
　
Nature Review Immunology という免疫学でNature 系のよく読まれる論文ですが、免疫学の話は出てこず（出ないとは言っていない）、Computational flow cytometry という、多次元データを統計的に解析する話の総説になっており、免疫学者や実験系研究者よりも、統計学やBioinformatician 向けの内容になっています（免疫の話が出ないとは言っていない）。flow cytometry (FCM) が何かわからん、という非免疫学/非生物学系だけど運悪くこの記事にたどり着いてしまった情報系の人のために少しだけ解説すると、細胞には自分の状態（T細胞だったりB細胞だったりというラベル）に応じて、CDx という分子を細胞表面に出しており、それを免疫抗原反応でGFP（という光るタンパク質）で標識し、それを機械で読み取ることでこ「この細胞はCDx を持っている/いない」が識別されます。これをスピッツに入ってるすべての細胞について、なおかつ、CDx だけでなくCDy とかいろいろなものを標識すれば、細胞数xパラメータ数の行列データ（要素はすべて0以上の連続値）が得られます。これを実験ID や時系列でやれば、多次元アレイデータになります。
免疫学では、CD4 があればTリンパ球、CD8 があればヘルパーT、CD20 だとB細胞、etc、というように、何があれば何細胞、というのが古典的な研究の積み重ねとして、暗黙知として存在しています。免疫学が必要な要素はこれだけです。
　
FCM が出たのは50年近くまえらしいです。現在では機械とコンピュータの進歩により、1万から10万くらいの細胞を最大で50パラメータで識別できるようです。ではこのデータをどうやって解析しているかというと、手作業です。手作業です。
50パラメータのうち、細胞を大きく分けられるパラメータを選んで2次元プロットして、gating とよばれる、「これ以上だったらCD分子あり、以下だったらなし」というような閾値を手で選んで、その領域内の細胞数をカウントして、例えば実験条件が「ある刺激あり/なし」で、存在比が変われば有意!!これを分類できるマーカーはこれだ!!やったぜ!!となります。
これは、手作業過ぎてバイアスがはいり、「職人芸」といえば聞こえがいいですが汎用性、再現性がないです。また、細胞数xパラメータ数の増加で、人の目で認識できる次元を遥かに超えています。この状況を打破すべく発展してきているのがcomputational flowcytomtry です。私の専門はこれではないですが、上のSPADE(2011年)を筆頭に(たぶん)この数年で一気にいろいろな手法が出てきたこと、行列(アレイ)データであれば免疫学FCM にかかわらず様々な分野のデータに応用できる汎用性の高さから、勝手に注目しています(専門にやっているとは言っていない)。
　
computational flow cytometry における解析の目的別に手法と大事な統計的要素を紹介していこう。
・可視化
多次元パラメータをうまいこと2次元もしくは3次元に可視化するのによく使われるのが、次元削減かクラスタリングである。次元削減では、複数のパラメータをうまいこと統合する。代表的なのはPCA であるが、FCM の分野で熱いのがt-SNE である。t-SNE によりごそっと大量のパラメータを2/3次元に落としていい感じにプロットしてくれるのがviSNE (Nat Biotechnol. 2013 Jun;31(6):545-52.) である。PCA は線形性のあるデータに対してはいい結果が出やすいが、生物のデータは大半が非線形なので、非線形でもそこそこ使えるt-SNE ベースの次元削減がよく使われる。
次元削減法としては、グラフベースのPhenoGraph (Cell. 2015 Jul 2;162(1):184-97.) がある。
クラスタリングベースの可視化としては、上に挙げたSPADE が有名だろう。scaffold map を使ったものがある(Science. 2015 Jul 10;349(6244):1259425.)がこれは積んでる。
これらの手法の問題点として、細胞数が多すぎると計算量が増えること、そのような場合にサンプリングして減らすこと、確率的なプロセスを含んでいることが挙げられる。そもそも、パラメータを削減したり、クラスタリングしたりすることが果たして真の細胞集団を表現できるのか疑惑は常につきまとう。
　
・細胞集団の自動認識
パラメータのパターンで、この細胞はこういう細胞、というのが決まっていて、その細胞が集まると、この集団は何、というのがわかる。それは古典的には、マーカー1でまず場合分けして、そのあとマーカー2と3のパターンで、…という場合分けを手作業でしていた。これを自動化(automated gating)したいのが別の目的。
これも相当手法があるので割愛するが、例えばACCENSE (PNAS. 2014 Jan 7;111(1):202-7.) では、viSNE を使って密度雲を書いたあと、カーネル密度推定で等高線を書いて、山頂をクラスター中心として検出している。
automated gating の課題として、生物学的な変動や不均一性があっても一貫したラベリングができるようになること、ネガコンの情報を取り入れた手法を作ること、極稀や少数のクラスターをノイズではなくきちんと検出できるようになること、が挙げられている。
　
・バイオマーカーの同定
バイオマーカーとは、このパラメータの値がどうならこうなる、というような判定基準となるパラメータのことである。これがわかると、病気の診断、予後予測、層別化などが可能になる。
やり方としては、クラスター認識でやった手法に、パラメータの値の多寡を統計学的仮説検定を行ってパラメータの有用さをみる方法や、クラスタリングをしまくったり正則化でパラメータ選択を行う方法である。
Citrus (PNAS. 2014 Jul 1;111(26):E2770-7.) では各subset での特徴量をパラメータに、正則化により良い感じに病気のラベルを分けるようなsubsetを抽出するし、COMPASS (Nature Biotechnology 33, 610–616 (2015)) ではsubset に存在する細胞数が多項分布から得られると仮定し、その存在割合が変化するかどうかを検定する。
　
・細胞分化のモデリング
細胞というのものは、未熟なときにはCDx があって、成長するとCDy、さらにはCDz、死ぬ直前にはCDw、別の機能をもつとCDa、みたいに、成長（生物学では分化という）の間にパラメータのパターンが変わる。おそらく、分化の瞬間はその直前と直後の細胞がパラメータを持っているので、細胞全集団でみればこの分化の瞬間は滑らかにパラメータが変化しているだろうと思っている。これをモデル化し、trajectory (道筋)を作るのが目的である。
Wanderlust (Cell. 2014 Apr 24;157(3):714-25.) は行列データが作るであろうN 次元空間が滑らかに変化しているだろうとして、kNN で一本木を作る。これを端から端まで行くことで、相対的な分化度が定量化される。ただし、一本木であり分岐を許さず、ユーザーが開始点を設定しないといけない。これを改良したのがWishbone (Nat Biotechnol. 2016 Jun;34(6):637-45.) である。
滑らかにパラメータが変化するだろうという仮定もいいが、SCUBA (PNAS. 2014 Dec 30;111(52):E5643-50.) は各時系列でのクラスター分離具合をkmeans とgap statistics というもので定量化し、分岐するかどうかを推定する。
　
という感じで、computational flowcytmetry で多くの手法が提案され、免疫学や血液学的な解析ですごい結果が出て、CellやScience、Nature Biotech 系のビッグジャーナルに掲載されている。R やMatlab で実装してくれているので追試もできる。
けれども、やはりその解析したデータセット特異的な解析感が否めないときがあるし、実装されていてもOS や依存ライブラリのバージョン問題で動かなかったりするので、もっと統計力とプログラミング力を高めて自由自在にこれらを扱ったり、自分で新しいアルゴリズムを作ったりしたかった2016年だった。
論文内で挙げられた手法のうち、読んだものについては軽く説明とリンクを張っているが、本文中で紹介されている論文はこれの5倍くらいあるので、興味のある読者はがんばって読んでほしい。
　
可視化とか言ってて図が1枚もなくてすみません。
　
2016年12月26日追記
これを書いたあとにも論文巡回してたらあって、
CellSort (Bioinformatics. 2016 Dec 20. pii: btw710.) はSVM を使って、ポジコンを1、ネガコン(蛍光標識していない)を-1 のラベルづけしてgating する。
CymeR (Bioinformatics. 2016 Dec 20. pii: btw707.) はLinux、Mac、Windows のマルチOS でFCM 解析ができるように、いろいろなアルゴリズムと可視化ツールが入ってる様子。論文ではt-SNE の図が出ていたけど、他に何ができるかはいじっていない。データ容量をものすごい食いそう。
https://bmuchmore.github.io/CymeR/