SVMと決定木の違いを徹底解説！初心者でもわかる機械学習アルゴリズムの基本

この記事を書いた人

中嶋悟

名前：中嶋悟（なかじまさとる）ニックネーム：サトルン年齢：28歳性別：男性職業：会社員（IT系メーカー・マーケティング部門）通勤場所：東京都千代田区・本社オフィス通勤時間：片道約45分（電車＋徒歩）居住地：東京都杉並区・阿佐ヶ谷の1LDKマンション出身地：神奈川県横浜市身長：175cm 血液型：A型誕生日：1997年5月12日趣味：比較記事を書くこと、カメラ散歩、ガジェット収集、カフェ巡り、映画鑑賞（特に洋画）、料理（最近はスパイスカレー作りにハマり中）性格：分析好き・好奇心旺盛・マイペース・几帳面だけど時々おおざっぱ・物事をとことん調べたくなるタイプ 1日（平日）のタイムスケジュール 6:30　起床。まずはコーヒーを淹れながらニュースとSNSチェック 7:00　朝食（自作のオートミールorトースト）、ブログの下書きや記事ネタ整理 8:00　出勤準備 8:30　電車で通勤（この間にポッドキャストやオーディオブックでインプット） 9:15　出社。午前は資料作成やメール返信 12:00　ランチはオフィス近くの定食屋かカフェ 13:00　午後は会議やマーケティング企画立案、データ分析 18:00　退社 19:00　帰宅途中にスーパー寄って買い物 19:30　夕食＆YouTubeやNetflixでリラックスタイム 21:00　ブログ執筆や写真編集、次の記事の構成作成 23:00　読書（比較記事のネタ探しも兼ねる） 23:45　就寝準備 24:00　就寝

SVM（サポートベクターマシン）とは何か？

SVMは、機械学習でよく使われる分類アルゴリズムの一つで、正式にはサポートベクターマシンと言います。
これはデータを二つのグループに分けるときに、両グループの境界線をできるだけ広く取ることで、新しいデータがどちらのグループに属するかを判断します。
例えば、赤いリンゴと青いリンゴを分けるときに、リンゴを一番上手に分ける線を探すイメージです。この境界線のことを決定境界（デシジョンボーダー）と呼びます。
SVMは特に複雑なデータでも対応できる特徴があり、線形の境界線だけでなく、曲線や高次元の空間にデータを写すことによって、見た目は直線でも実際には非線形の複雑なパターンも扱えます。
こうした特別な処理を「カーネルトリック」と呼びます。

つまり、SVMはデータを分けるときに、一番大きな余裕（マージン）がある境界線を探すアルゴリズムというのがポイントです。

決定木とは何か？

決定木は、データを木の形に分けながら分類や予測をする方法です。
データの中で一番重要な特徴（例えばリンゴの色や大きさなど）を見つけて、それに基づいてデータをどんどん分けていきます。
木の根っこから、枝を通じてどんどん分けて行くので「決定木」と呼ばれます。
最後に残った枝の先端を「葉（リーフ）」と呼び、そこには分けられたグループの情報が入ります。
例えば、リンゴが赤いなら左の枝、大きいなら右の枝というルールを並べていくイメージです。
分け方は単純な質問（例：「色は赤い？」）に答えていくことが多いので、誰が見ても分かりやすいのが特徴です。

つまり、決定木は質問を繰り返しながらデータをグループに分けていくアルゴリズムです。

SVMと決定木の違いを一覧表で比較！

ding="5" cellspacing="0">

ポイント	SVM	決定木
分類の仕方	境界線（または境界面）を見つけて分類	データを複数の質問で分けていく
わかりやすさ	仕組みは少し難しい	ルールが見えるので理解しやすい
扱いやすいデータ	数値データや複雑なデータにも対応	数値・カテゴリ両方可能で、直感的
計算コスト	大きなデータや特徴量が多いと重くなる	比較的軽いが木が深くなると重い
過学習のしやすさ	マージン最大化で過学習を抑えやすい	深い木は過学習しやすい
用途の例	画像認識や文字認識など	顧客分類や診断ツリーなど

SVMと決定木の使い分け方

機械学習を始めると、どちらのアルゴリズムを使えばいいか迷うことがあります。
選び方のポイントとしては、目的やデータの種類、計算資源の状況などをよく考えることが大切です。
もしデータが複雑で高次元であればSVMが強いかもしれません。
一方、結果やルールを人に説明しやすい形で欲しいなら、決定木が役立ちます。

また決定木をいくつも組み合わせた「ランダムフォレスト」や「勾配ブースティング」といった強化版も人気です。
それぞれのアルゴリズムには長所と短所があるので、実際に試してみることもおすすめします。

まとめると、SVMは境界線をきれいに引くタイプ、決定木はルールに基づいて質問を繰り返すタイプ、と覚えるとわかりやすいです。

ピックアップ解説

SVMの特徴の一つである「カーネルトリック」は、とてもおもしろい考え方です。実はSVMは、もともとデータを直線で分ける方法ですが、カーネルトリックを使うと、データを高い次元空間に映し変えてから分類します。つまり、直線で分けられない複雑なデータでも、実は見えないところで直線的に分類できるのです。これは、まるで魔法のようなテクニックで、数学の力を使ってデータの形を変えることで、問題を簡単にしているのです。中学生でもイメージしやすいのは、折り紙の紙を折ると平面上で折れなかった線が折った後には直線になったような感じです。SVMのかしこい仕組みの一つとして知っておくと面白いですね！

前の記事： « スクレイピングとテキストマイニングの違いをわかりやすく解説！データ活用の基本を理解しよう

次の記事： Excelで「探す」と「検索」の違いとは？使い分けポイントをわかりやすく解説！ »