外れ値と欠損値の違いを一発で理解する!データ分析初心者にも分かる徹底ガイド

  • このエントリーをはてなブックマークに追加
外れ値と欠損値の違いを一発で理解する!データ分析初心者にも分かる徹底ガイド
この記事を書いた人

中嶋悟

名前:中嶋 悟(なかじま さとる) ニックネーム:サトルン 年齢:28歳 性別:男性 職業:会社員(IT系メーカー・マーケティング部門) 通勤場所:東京都千代田区・本社オフィス 通勤時間:片道約45分(電車+徒歩) 居住地:東京都杉並区・阿佐ヶ谷の1LDKマンション 出身地:神奈川県横浜市 身長:175cm 血液型:A型 誕生日:1997年5月12日 趣味:比較記事を書くこと、カメラ散歩、ガジェット収集、カフェ巡り、映画鑑賞(特に洋画)、料理(最近はスパイスカレー作りにハマり中) 性格:分析好き・好奇心旺盛・マイペース・几帳面だけど時々おおざっぱ・物事をとことん調べたくなるタイプ 1日(平日)のタイムスケジュール 6:30 起床。まずはコーヒーを淹れながらニュースとSNSチェック 7:00 朝食(自作のオートミールorトースト)、ブログの下書きや記事ネタ整理 8:00 出勤準備 8:30 電車で通勤(この間にポッドキャストやオーディオブックでインプット) 9:15 出社。午前は資料作成やメール返信 12:00 ランチはオフィス近くの定食屋かカフェ 13:00 午後は会議やマーケティング企画立案、データ分析 18:00 退社 19:00 帰宅途中にスーパー寄って買い物 19:30 夕食&YouTubeやNetflixでリラックスタイム 21:00 ブログ執筆や写真編集、次の記事の構成作成 23:00 読書(比較記事のネタ探しも兼ねる) 23:45 就寝準備 24:00 就寝


外れ値と欠損値、違いって何?データ分析の基本を把握しよう

データ分析の現場では外れ値と欠損値の違いを理解しておくことがとても大切です。外れ値とはデータの分布の範囲から大きく外れた値のことで、見落とすと平均値がやけに高くなったり分散が不自然に大きくなったりします。一方欠損値はデータそのものが欠けている状態であり、入力ミスやセンサーの不具合、通信の問題などさまざまな原因が混在します。欠損値はデータの量を減らし分析の信頼性を落とします。これらは原因も影響範囲も異なるため、対処法も別々に考える必要があります。ここでは具体的な例を使いながらその違いと基本的な対処法を順を追って見ていきます。

定義を比較してみよう

外れ値は他のデータと比べて極端に大きい、または小さい値のことを指します。例えばあるテストの点数がほとんど60点から95点の範囲に集まっているのに、1人だけ0点や100点を取っているとします。このような値は分布のパターンを崩し、回帰分析の係数を不安定にする可能性があります。欠損値はデータが空欄のまま残っている状態であり、入力が抜けているわけです。欠損値が多くなると分析で使えるデータが減り、機械学習の学習がうまく回らなくなります。混同しやすい点は、どちらも分析結果に影響を与える点ですが、原因と対処は異なるという点です。

実務での影響と対処のコツ

外れ値の検出には箱ひげ図やIQR法、標準偏差を使ったzスコアなどの方法があります。目的に合わせて判断することが大事で、学習データに含まれた外れ値を単純に削除してしまうとモデルの性能が落ちることがあるため慎重さが要求されます。欠損値には削除する場合と補完する場合があります。補完には平均値や中央値、最頻値で埋める方法、あるいは回帰や機械学習を使って推定する方法もあります。データの機構を考え、 MAR, MCAR, MNAR などの欠損の原因を理解することが支えになります。なお実務では特定の前提を明確にするために欠損値の扱いを文書化することが求められます。

able>対処法の分類外れ値には検出後の削除または調整を検討欠損値の処理削除・補完・推定のいずれかを選択
ピックアップ解説

欠損値とデータの会話雑談

\n

ねえ欠損値ってさデータの穴みたいだよね。どこかで入力を忘れたのかセンサーが拾えなかったのか、理由はさまざまだ。欠損値があると統計も機械学習も難しくなるけど、だからこそ対処の仕方を知ることが大切。削除してしまうのか、それとも推定して埋めるのか、三つの道がある。私たちは欠損値の前提を考えながら、データの機構 MAR か MCAR か MNAR かを想像して選択する。結局は分析の目的とデータの性質に合わせた判断が一番大事なんだ。


ITの人気記事

ズームとズームワークプレイスの違いとは?初心者でもわかる徹底解説!
885viws
青写真と青焼きの違いとは?簡単解説でわかりやすく理解しよう!
785viws
「画素(ピクセル)とは何?解説と画像の違いをやさしく理解しよう」
670viws
CADデータとDXFデータの違いを徹底解説!初心者でもわかる使い分けのポイント
458viws
HTTPとHTTPSの違いをわかりやすく解説!安全なネット利用のために知っておきたいポイント
422viws
スター結線とデルタ結線の違いを徹底解説!初心者でも分かる電気の基本
419viws
モバイルデータ通信番号と電話番号の違いを徹底解説!初心者でもわかるスマホの基礎知識
357viws
IPアドレスとデフォルトゲートウェイの違いをわかりやすく解説!ネットワークの基本を理解しよう
352viws
API仕様書とIF仕様書の違いを徹底解説!初心者でもわかるポイントとは?
337viws
SSDとUSBメモリの違いを徹底解説!初心者でもわかる保存デバイスの選び方
310viws
RGBとsRGBの違いって何?初心者でもわかる色の基本知識
306viws
RGBとVGAの違いを徹底解説!初心者にもわかりやすい映像信号の基礎知識
295viws
USB充電器とアダプターの違いとは?初心者にもわかりやすく解説!
293viws
グロメットとコンジットの違いとは?わかりやすく解説!
278viws
インターフォンとインターホンの違いって何?わかりやすく解説!
272viws
UPSと非常用電源の違いとは?初心者でもわかる電源設備の基礎知識
262viws
通信線と電力線の違いとは?意外と知らない基本ポイントを徹底解説!
254viws
5GとXi(クロッシィ)ってどう違うの?初心者にもわかりやすく解説!
253viws
【保存版】webサイト名とページタイトルの違いとは?初心者でも簡単にわかる解説
249viws
DFDとER図の違いをわかりやすく解説!初心者でも理解できる基本ポイント
248viws

新着記事

ITの関連記事