

中嶋悟
名前:中嶋 悟(なかじま さとる) ニックネーム:サトルン 年齢:28歳 性別:男性 職業:会社員(IT系メーカー・マーケティング部門) 通勤場所:東京都千代田区・本社オフィス 通勤時間:片道約45分(電車+徒歩) 居住地:東京都杉並区・阿佐ヶ谷の1LDKマンション 出身地:神奈川県横浜市 身長:175cm 血液型:A型 誕生日:1997年5月12日 趣味:比較記事を書くこと、カメラ散歩、ガジェット収集、カフェ巡り、映画鑑賞(特に洋画)、料理(最近はスパイスカレー作りにハマり中) 性格:分析好き・好奇心旺盛・マイペース・几帳面だけど時々おおざっぱ・物事をとことん調べたくなるタイプ 1日(平日)のタイムスケジュール 6:30 起床。まずはコーヒーを淹れながらニュースとSNSチェック 7:00 朝食(自作のオートミールorトースト)、ブログの下書きや記事ネタ整理 8:00 出勤準備 8:30 電車で通勤(この間にポッドキャストやオーディオブックでインプット) 9:15 出社。午前は資料作成やメール返信 12:00 ランチはオフィス近くの定食屋かカフェ 13:00 午後は会議やマーケティング企画立案、データ分析 18:00 退社 19:00 帰宅途中にスーパー寄って買い物 19:30 夕食&YouTubeやNetflixでリラックスタイム 21:00 ブログ執筆や写真編集、次の記事の構成作成 23:00 読書(比較記事のネタ探しも兼ねる) 23:45 就寝準備 24:00 就寝
はじめに:fpkmとtpmとは何か
fpkmはFragments Per Kilobase of transcript per Million mapped readsの略で、RNA-seqデータを解釈する際に出てくる代表的な正規化指標のひとつです。Cを特定遺伝子にマップしたリード数、Nをサンプル全体のマッピングリード数、Lを遺伝子長(キロベース数)として用います。実際の式としてはFPKM = (C × 10^9) / (N × L) と書かれ、遺伝子長とシーケンス深さの影響を同時に補正します。これにより同じサンプル内の長さの異なる遺伝子間での比較は可能になりますが、サンプル間の比較となると話は別です。サンプルごとにNが異なるため、深さの揺らぎが結果を左右しやすくなるからです。TPMは別のアプローチとして登場します。TPMはTranscripts Per Millionの略で、まず各遺伝子のRPK(reads per kilobase)を算出し、それを全遺伝子のRPKの総和で割って100万倍します。この結果、1つのサンプル内の全遺伝子のTPMの総和は常に100万になるように一定化します。こうした手順の違いが、後に跨サンプル比較を行う際の解釈に大きく影響します。ここで学ぶべき大事な点は、「fpkmは長さと深さの影響を同時に扱うが、サンプル間には必ずしも自然な比較が成立しない」ことと「tpmは跨サンプル比較を意識して設計され、総和が一定になることで比較がしやすくなる」という点です。
このような背景を知っておくと、論文やデータセットを読んだときに“この値はどう使うべきか”という判断がスムーズになります。
違いを理解する三つのポイント
まず第一に、fpkmとtpmは「正規化の観点が異なる」という点です。fpkmは遺伝子長とサンプル全体の深さを同時に調整しますが、TPMはサンプル内での分布を基準化してから比較可能にします。次に、第二のポイントとして「跨サンプル比較の観点」が挙げられます。fpkmのままではサンプル間の深さ差が結果に影響を与えやすく、同じ遺伝子の表現量を別の条件で比較するのに適さないことがあります。一方、TPMは各サンプルの総和を一定化するため、サンプル間での比較がより直感的になります。第三のポイントは「使われる文脈の違い」です。古いデータベースや論文ではfpkmがよく使われていましたが、新しいデータ解析やパイプラインではTPMが推奨されるケースが増えています。ここでの理解のポイントは、指標自体の数値が「正しい/誤り」ではなく「何を比較したいのか、どの条件で比較を行うのか」を先に決めることです。
これら三つの点を押さえると、fpkmとtpmの違いが頭の中で整理され、データの読み解きがずっと楽になります。
実務での使い分けと注意点
実務では、まず全体像を把握する段階でTPMを用いた跨サンプル比較を基礎に据えるのが現代的なアプローチです。TPMのメリットは・総和が一定になるため比較が直感的・各遺伝子の割合が見えやすい・長さの影響を受けつつも全体の分布が安定することです。次に、特定の条件下で深掘りをしたい場合や論文でFPKMが使われているケースでは、FPKMを取り出して補足的に検討します。
このとき重要なのは「データの質と実験デザインを理解すること」です。サンプル間でライブラリサイズが大きく異なる場合、TPMでも完全な比較は難しく、リード数をそろえる前処理が必要になることがあります。最後に、表を参考に、どの指標を選ぶべきかを判断するのが現実的です。以下の表は、指標ごとの特徴と適した用途を簡潔にまとめたものです。
この表を手元に置いて、データセットごとに使い分ければ、誤解を防ぎつつ正確な解釈ができるようになります。
最後に、データ解釈のコツとしては、必ず「何を比較したいのか」「どのサンプル間での差を評価したいのか」を最初に決めることです。そうすることで、どの指標を使い、どの前処理を行うべきかが明らかになります。
友達とカフェで、fpkmとtpmの違いについて深掘りした。研究室ではfpkmから読み始める人も多いが、跨サンプル比較をするときにはTPMの方が安定する、という話をしていた。僕は"TPMは各遺伝子のRPKを総RPKで割ってから100万倍する手順"という説明を先生に聞いたとき、なるほどと納得した。TPMの利点は、同じサンプル内だけでなく、別のサンプル間でも「総量」が揃う感覚が生まれる点だ。反対にFPKMはサンプル間の深さ差が結果に影響しやすく、比較の難易度が上がる場面がある。だから実務では、初めにTPMで全体像を把握し、特定の条件下でFPKMを使って詳細を見る…そんな使い分けが自然と身についていく。