

中嶋悟
名前:中嶋 悟(なかじま さとる) ニックネーム:サトルン 年齢:28歳 性別:男性 職業:会社員(IT系メーカー・マーケティング部門) 通勤場所:東京都千代田区・本社オフィス 通勤時間:片道約45分(電車+徒歩) 居住地:東京都杉並区・阿佐ヶ谷の1LDKマンション 出身地:神奈川県横浜市 身長:175cm 血液型:A型 誕生日:1997年5月12日 趣味:比較記事を書くこと、カメラ散歩、ガジェット収集、カフェ巡り、映画鑑賞(特に洋画)、料理(最近はスパイスカレー作りにハマり中) 性格:分析好き・好奇心旺盛・マイペース・几帳面だけど時々おおざっぱ・物事をとことん調べたくなるタイプ 1日(平日)のタイムスケジュール 6:30 起床。まずはコーヒーを淹れながらニュースとSNSチェック 7:00 朝食(自作のオートミールorトースト)、ブログの下書きや記事ネタ整理 8:00 出勤準備 8:30 電車で通勤(この間にポッドキャストやオーディオブックでインプット) 9:15 出社。午前は資料作成やメール返信 12:00 ランチはオフィス近くの定食屋かカフェ 13:00 午後は会議やマーケティング企画立案、データ分析 18:00 退社 19:00 帰宅途中にスーパー寄って買い物 19:30 夕食&YouTubeやNetflixでリラックスタイム 21:00 ブログ執筆や写真編集、次の記事の構成作成 23:00 読書(比較記事のネタ探しも兼ねる) 23:45 就寝準備 24:00 就寝
欠損値と異常値の違いを正しく理解するための基礎
欠損値とはデータが欠如している状態です。値が存在しないために分析の対象として扱えません。例えばアンケートの年齢フィールドが空欄のままだと集計に含めることができません。欠損値はデータの量を減らすだけでなく分析の結果を歪める原因にもなります。
一方、異常値とはデータの分布から大きく逸脱した値のことを指します。測定機器の故障や入力ミス、極端な現象などが原因で起こることがあります。
欠損値と異常値は似ているようで違いがあります。欠損値は「値がない」という事実を指すのに対して、異常値は「値があるが分布から外れている」という事実を指します。
この違いを理解しておくとデータの前処理が格段に楽になります。
欠損値と異常値を正しく扱うことは分析の信頼性を高める第一歩です。
重要なポイント ここで覚えてほしいのは欠損値は補完や除外を検討する対象であり異常値は検出して修正や除外を検討する対象であるという点です。
分析の目的に応じて処理を選ぶことが求められます。
この理解を土台に次の章へ進みましょう。
- 欠損値の例 アンケートの未回答や計測機器の故障によりデータが欠けるケースがある
- 異常値の例 身長が極端に大きい値や年齢が999といった誤り
- 扱い方の基本 欠損値は補完や削除を検討し、異常値は検出して修正や除外を検討するのが基本
欠損値についての深掘りの小ネタ: 友だちと放課後に雑談する感じで話すと面白いですよ。欠損値はデータの穴のようなものだから、穴を埋める補完は新しい情報をデータに追加することになる。けれど穴を埋めすぎると本来の分布が崩れてしまうこともある。だから補完の選択は慎重に。例えば身長データが欠損しているとき中央値で埋めるのと機械学習で推定して埋めるのでは結果が少し変わる。欠損値をどう扱うかは分析の目的とデータの特性次第だ。
次の記事: 問・設問・違いの謎を解く!中学生にも伝わる使い分け完全ガイド »