外れ値と欠損値の違いを一発で理解する！データ分析初心者にも分かる徹底ガイド

この記事を書いた人

中嶋悟

名前：中嶋悟（なかじまさとる）ニックネーム：サトルン年齢：28歳性別：男性職業：会社員（IT系メーカー・マーケティング部門）通勤場所：東京都千代田区・本社オフィス通勤時間：片道約45分（電車＋徒歩）居住地：東京都杉並区・阿佐ヶ谷の1LDKマンション出身地：神奈川県横浜市身長：175cm 血液型：A型誕生日：1997年5月12日趣味：比較記事を書くこと、カメラ散歩、ガジェット収集、カフェ巡り、映画鑑賞（特に洋画）、料理（最近はスパイスカレー作りにハマり中）性格：分析好き・好奇心旺盛・マイペース・几帳面だけど時々おおざっぱ・物事をとことん調べたくなるタイプ 1日（平日）のタイムスケジュール 6:30　起床。まずはコーヒーを淹れながらニュースとSNSチェック 7:00　朝食（自作のオートミールorトースト）、ブログの下書きや記事ネタ整理 8:00　出勤準備 8:30　電車で通勤（この間にポッドキャストやオーディオブックでインプット） 9:15　出社。午前は資料作成やメール返信 12:00　ランチはオフィス近くの定食屋かカフェ 13:00　午後は会議やマーケティング企画立案、データ分析 18:00　退社 19:00　帰宅途中にスーパー寄って買い物 19:30　夕食＆YouTubeやNetflixでリラックスタイム 21:00　ブログ執筆や写真編集、次の記事の構成作成 23:00　読書（比較記事のネタ探しも兼ねる） 23:45　就寝準備 24:00　就寝

外れ値と欠損値、違いって何？データ分析の基本を把握しよう

データ分析の現場では外れ値と欠損値の違いを理解しておくことがとても大切です。外れ値とはデータの分布の範囲から大きく外れた値のことで、見落とすと平均値がやけに高くなったり分散が不自然に大きくなったりします。一方欠損値はデータそのものが欠けている状態であり、入力ミスやセンサーの不具合、通信の問題などさまざまな原因が混在します。欠損値はデータの量を減らし分析の信頼性を落とします。これらは原因も影響範囲も異なるため、対処法も別々に考える必要があります。ここでは具体的な例を使いながらその違いと基本的な対処法を順を追って見ていきます。

定義を比較してみよう

外れ値は他のデータと比べて極端に大きい、または小さい値のことを指します。例えばあるテストの点数がほとんど60点から95点の範囲に集まっているのに、1人だけ0点や100点を取っているとします。このような値は分布のパターンを崩し、回帰分析の係数を不安定にする可能性があります。欠損値はデータが空欄のまま残っている状態であり、入力が抜けているわけです。欠損値が多くなると分析で使えるデータが減り、機械学習の学習がうまく回らなくなります。混同しやすい点は、どちらも分析結果に影響を与える点ですが、原因と対処は異なるという点です。

実務での影響と対処のコツ

外れ値の検出には箱ひげ図やIQR法、標準偏差を使ったzスコアなどの方法があります。目的に合わせて判断することが大事で、学習データに含まれた外れ値を単純に削除してしまうとモデルの性能が落ちることがあるため慎重さが要求されます。欠損値には削除する場合と補完する場合があります。補完には平均値や中央値、最頻値で埋める方法、あるいは回帰や機械学習を使って推定する方法もあります。データの機構を考え、 MAR, MCAR, MNAR などの欠損の原因を理解することが支えになります。なお実務では特定の前提を明確にするために欠損値の扱いを文書化することが求められます。

able>対処法の分類外れ値には検出後の削除または調整を検討欠損値の処理削除・補完・推定のいずれかを選択

ピックアップ解説

欠損値とデータの会話雑談

ねえ欠損値ってさデータの穴みたいだよね。どこかで入力を忘れたのかセンサーが拾えなかったのか、理由はさまざまだ。欠損値があると統計も機械学習も難しくなるけど、だからこそ対処の仕方を知ることが大切。削除してしまうのか、それとも推定して埋めるのか、三つの道がある。私たちは欠損値の前提を考えながら、データの機構 MAR か MCAR か MNAR かを想像して選択する。結局は分析の目的とデータの性質に合わせた判断が一番大事なんだ。

前の記事： « 製品アイテムと製品ラインの違いを徹底解説｜初心者にも伝わる基礎ガイド

次の記事：メーカーと仕入先の違いを徹底解説！現場で役立つ見極め方と実務のコツ »