外れ値と欠損値の違いを一発で理解する!データ分析初心者にも分かる徹底ガイド

  • このエントリーをはてなブックマークに追加
外れ値と欠損値の違いを一発で理解する!データ分析初心者にも分かる徹底ガイド
この記事を書いた人

中嶋悟

名前:中嶋 悟(なかじま さとる) ニックネーム:サトルン 年齢:28歳 性別:男性 職業:会社員(IT系メーカー・マーケティング部門) 通勤場所:東京都千代田区・本社オフィス 通勤時間:片道約45分(電車+徒歩) 居住地:東京都杉並区・阿佐ヶ谷の1LDKマンション 出身地:神奈川県横浜市 身長:175cm 血液型:A型 誕生日:1997年5月12日 趣味:比較記事を書くこと、カメラ散歩、ガジェット収集、カフェ巡り、映画鑑賞(特に洋画)、料理(最近はスパイスカレー作りにハマり中) 性格:分析好き・好奇心旺盛・マイペース・几帳面だけど時々おおざっぱ・物事をとことん調べたくなるタイプ 1日(平日)のタイムスケジュール 6:30 起床。まずはコーヒーを淹れながらニュースとSNSチェック 7:00 朝食(自作のオートミールorトースト)、ブログの下書きや記事ネタ整理 8:00 出勤準備 8:30 電車で通勤(この間にポッドキャストやオーディオブックでインプット) 9:15 出社。午前は資料作成やメール返信 12:00 ランチはオフィス近くの定食屋かカフェ 13:00 午後は会議やマーケティング企画立案、データ分析 18:00 退社 19:00 帰宅途中にスーパー寄って買い物 19:30 夕食&YouTubeやNetflixでリラックスタイム 21:00 ブログ執筆や写真編集、次の記事の構成作成 23:00 読書(比較記事のネタ探しも兼ねる) 23:45 就寝準備 24:00 就寝


外れ値と欠損値、違いって何?データ分析の基本を把握しよう

データ分析の現場では外れ値と欠損値の違いを理解しておくことがとても大切です。外れ値とはデータの分布の範囲から大きく外れた値のことで、見落とすと平均値がやけに高くなったり分散が不自然に大きくなったりします。一方欠損値はデータそのものが欠けている状態であり、入力ミスやセンサーの不具合、通信の問題などさまざまな原因が混在します。欠損値はデータの量を減らし分析の信頼性を落とします。これらは原因も影響範囲も異なるため、対処法も別々に考える必要があります。ここでは具体的な例を使いながらその違いと基本的な対処法を順を追って見ていきます。

定義を比較してみよう

外れ値は他のデータと比べて極端に大きい、または小さい値のことを指します。例えばあるテストの点数がほとんど60点から95点の範囲に集まっているのに、1人だけ0点や100点を取っているとします。このような値は分布のパターンを崩し、回帰分析の係数を不安定にする可能性があります。欠損値はデータが空欄のまま残っている状態であり、入力が抜けているわけです。欠損値が多くなると分析で使えるデータが減り、機械学習の学習がうまく回らなくなります。混同しやすい点は、どちらも分析結果に影響を与える点ですが、原因と対処は異なるという点です。

実務での影響と対処のコツ

外れ値の検出には箱ひげ図やIQR法、標準偏差を使ったzスコアなどの方法があります。目的に合わせて判断することが大事で、学習データに含まれた外れ値を単純に削除してしまうとモデルの性能が落ちることがあるため慎重さが要求されます。欠損値には削除する場合と補完する場合があります。補完には平均値や中央値、最頻値で埋める方法、あるいは回帰や機械学習を使って推定する方法もあります。データの機構を考え、 MAR, MCAR, MNAR などの欠損の原因を理解することが支えになります。なお実務では特定の前提を明確にするために欠損値の扱いを文書化することが求められます。

対処法の分類外れ値には検出後の削除または調整を検討
欠損値の処理削除・補完・推定のいずれかを選択
ピックアップ解説

欠損値とデータの会話雑談

\n

ねえ欠損値ってさデータの穴みたいだよね。どこかで入力を忘れたのかセンサーが拾えなかったのか、理由はさまざまだ。欠損値があると統計も機械学習も難しくなるけど、だからこそ対処の仕方を知ることが大切。削除してしまうのか、それとも推定して埋めるのか、三つの道がある。私たちは欠損値の前提を考えながら、データの機構 MAR か MCAR か MNAR かを想像して選択する。結局は分析の目的とデータの性質に合わせた判断が一番大事なんだ。


ITの人気記事

ズームとズームワークプレイスの違いとは?初心者でもわかる徹底解説!
2423viws
初心者でもわかる!しきい値と閾値の違いを徹底解説
2143viws
5GとXi(クロッシィ)ってどう違うの?初心者にもわかりやすく解説!
1901viws
「画素(ピクセル)とは何?解説と画像の違いをやさしく理解しよう」
1857viws
採番と附番の違いを徹底解説!意味・使い分け・実務のコツを中学生にもわかるように解説
1637viws
スター結線とデルタ結線の違いを徹底解説!初心者でも分かる電気の基本
1631viws
青写真と青焼きの違いとは?簡単解説でわかりやすく理解しよう!
1553viws
インターフォンとインターホンの違いって何?わかりやすく解説!
1528viws
CADデータとDXFデータの違いを徹底解説!初心者でもわかる使い分けのポイント
1506viws
RGBとsRGBの違いって何?初心者でもわかる色の基本知識
1474viws
MOCとPOCの違いを徹底解説!初心者にもわかる実務での使い分け
1299viws
API仕様書とIF仕様書の違いを徹底解説!初心者でもわかるポイントとは?
1285viws
シースと絶縁体の違いを徹底解説!電線の基本をわかりやすく学ぼう
1235viws
ベアリングとリテーナーの違いとは?初心者でもわかる基本の解説
1204viws
RGBとVGAの違いを徹底解説!初心者にもわかりやすい映像信号の基礎知識
1160viws
USBフラッシュメモリとUSBメモリの違いとは?初心者でもわかる解説!
1142viws
SSDとUSBメモリの違いを徹底解説!初心者でもわかる保存デバイスの選び方
1111viws
URLとリンク先の違いを徹底解説:初心者でも分かる使い分けガイド
1057viws
IPアドレスとデフォルトゲートウェイの違いをわかりやすく解説!ネットワークの基本を理解しよう
1020viws
パッケージエアコンとマルチエアコンの違いを徹底解説!選び方のポイントも紹介
935viws

新着記事

ITの関連記事