

中嶋悟
名前:中嶋 悟(なかじま さとる) ニックネーム:サトルン 年齢:28歳 性別:男性 職業:会社員(IT系メーカー・マーケティング部門) 通勤場所:東京都千代田区・本社オフィス 通勤時間:片道約45分(電車+徒歩) 居住地:東京都杉並区・阿佐ヶ谷の1LDKマンション 出身地:神奈川県横浜市 身長:175cm 血液型:A型 誕生日:1997年5月12日 趣味:比較記事を書くこと、カメラ散歩、ガジェット収集、カフェ巡り、映画鑑賞(特に洋画)、料理(最近はスパイスカレー作りにハマり中) 性格:分析好き・好奇心旺盛・マイペース・几帳面だけど時々おおざっぱ・物事をとことん調べたくなるタイプ 1日(平日)のタイムスケジュール 6:30 起床。まずはコーヒーを淹れながらニュースとSNSチェック 7:00 朝食(自作のオートミールorトースト)、ブログの下書きや記事ネタ整理 8:00 出勤準備 8:30 電車で通勤(この間にポッドキャストやオーディオブックでインプット) 9:15 出社。午前は資料作成やメール返信 12:00 ランチはオフィス近くの定食屋かカフェ 13:00 午後は会議やマーケティング企画立案、データ分析 18:00 退社 19:00 帰宅途中にスーパー寄って買い物 19:30 夕食&YouTubeやNetflixでリラックスタイム 21:00 ブログ執筆や写真編集、次の記事の構成作成 23:00 読書(比較記事のネタ探しも兼ねる) 23:45 就寝準備 24:00 就寝
RPKMとTPMの違いを理解するための基本ガイド
この解説では、RNA-seqデータの正規化指標であるRPKMとTPMの違いを、初めて聞く中学生にも伝わるように、やさしい言葉で説明します。
まずは前提を整理します。
RPKMは「1キロベースあたりの読み取り数を、全体の読み取り数で割って補正した値」です。
TPMは「各遺伝子の長さで割った読み取り数を、全遺伝子の長さ補正後の総和で割って、さらに1,000,000を掛ける」という順序で算出します。
この違いが、後での比較に大きな影響を与えます。
中学生でもわかるように言い換えると、RPKMは“1つの遺伝子の長さと全体のデータ量で調整した値”で、TPMは“全体のデータ量を合わせて、全遺伝子の相対量をそろえた値”に近いです。
大切なポイントは、RPKMは“サンプル内の比較には適している”けれど“サンプル間の直接比較には注意が必要”だということです。
一方、TPMは“サンプル間での比較がしやすい”性質を持つことが多いです。
この2つの指標は、研究の目的やデータの性質を考えて使い分けることが大切です。
以下の節では、定義と計算の流れ、そして実務での使い分けの目安を、できるだけ分かりやすく整理します。
RPKMとTPMの定義
RPKM(Reads Per Kilobase of transcript per Million mapped reads)とTPM(Transcripts Per Million)は、RNA-seqのデータを比較可能な数値に変換するための指標です。
RPKMは、遺伝子の長さ(kb)と全体のリード数(百万リード)で読み取り数を補正します。公式の形はC / (N × L) × 10^9 などとされ、Cは特定遺伝子にマッピングされた読み取り数、Nは全リード数、Lは遺伝子の長さ(bp)です。
一方、TPMはまず各遺伝子の長さ補正を行い、全遺伝子の補正後の合計に対して比例配分します。全遺伝子のTPMを足すとちょうど1,000,000になります。TPMの計算の流れは「RPKを求める → 全体のRPKの和で割って正規化する → 1,000,000を掛ける」です。
この順序の違いが、サンプル間比較の扱い方に影響を与えます。結論として、RPKMは同一サンプル内の遺伝子間比較には適していることが多いですが、サンプル間の比較をしたい場合にはTPMの方が安定しているケースが多いと理解しておくと良いでしょう。
使い分けと実務上の影響
実務では、遺伝子発現量を比較する目的に応じて指標を選ぶ必要があります。
もし複数の条件やサンプルを比べる研究設計なら、TPMを使ってサンプル間の比較を行うのが現場での推奨となることが多いです。
ただし、データの出どころや分析パイプラインによってはRPKMが便利な場合もあり、特に論文の過去データを再解析する場合はRPKM表記の方が互換性が高いことがあります。
また、表を示すときには、遺伝子の長さの情報(bpまたはkb)を併記しておくと、読者が計算式を思い出しやすくなります。
以下の表は、RPKMとTPMの特徴を短く整理したものです。
このように、研究の目的とデータの特性をよく考え、場合によっては別の正規化指標と組み合わせて使うことが重要です。
友だちと教室でRNA-seqの話。TPMって“全体を1,000,000分割したときの各遺伝子の割合”みたいな感覚だよね、という話になった。長さで補正したRPKを全遺伝子の合計で割ってから1e6を掛ける…という手順を思い出すたびに、クラスの出席番号のように“順番と比率”が重要だと感じるんだ。想像してみて。もしクラス全員が自分の演奏時間を同じ土俵で比較できたら、誰がどれだけ長く演奏したかではなく、全体の中での“どれだけの割合を占めたか”が一目で分かる。TPMはそんなイメージに近い。データの準備が整えば、異なるグループ間の比較もラクになる。学校の発表でも、長さのばらつきをそろえる工夫が成果をより明確にするのと同じように、TPMはサンプル間の比較を安定させる力を持っています。単なる数字あそびではなく、データの裏にある比較の仕組みを理解することが、正しい結論へとつながるのです。