教師なし学習(Unsupervised Learning)

概要

この記事では,教師なし学習(Unsupervised Learning)について説明します.

スポンサーリンク

教師なし学習(Unsupervised Learning)

教師なし学習の定義

教師なし学習とは,学習モデルに投入する訓練データに教師データがない学習のことです.

教師なし学習のイメージ

教師なし学習はいうなれば,学生が1人で勉強していくイメージです.データ(問題)は与えられていますが,そのデータがどんなデータなのか?ということは誰も教えてくれません.

 

教師なし学習を使う例

クラスタリング(Clustering)

クラスタリングとは,入力されたデータに応じて,出力としてそのデータのグルーピング結果を返す手法です.

外れ値検出(Outlier Detection)

外れ値検出とは,入力されたデータの中から,出力として他のデータと異なる特徴を持つものを見つける手法です.

多様体学習(Manifold Learning)

多様体学習とは,入力されたデータの本質的な座標を取り直す次元削減の手法です.

画像認識以外で教師なし学習を使う例

ニュース記事のクラスタリング

ニュース記事が入力されたときに,そのニュースがどんな話題のニュースなのかをグループ分けするタスクがあるとします.

まず,訓練データとして大量のニュース記事を学習器に投入します.教師なし学習なので,訓練データのニュース記事には,それがどんな話題の記事なのかというラベル(「スポーツ」,「天気」,「経済」等)は与えられていません.

与えられた大量のニュース記事の文章の特徴を学習し,その特徴からそれがどの話題の記事なのかをグルーピング(分けてまとめる)します.文章の特徴は例えば以下のようなものがあります.

  • 特定の単語の有無(スポーツ:チーム名,天気:雨,傘,経済:日経平均株価等)
  • 数字の出現(スポーツ:〇対〇,天気〇度,経済〇円等)

この例では,それがどんな話題の記事なのかは実際には出力されず,似た特徴を持つ記事がまとめられるという出力が得られます.

※クラスタリングと分類の違い

分類(Classification) クラスタリング(Clustering)
学習方法 教師あり学習 教師なし学習
目的変数 あり なし(クラスタ数)
利点 どのデータが何であるか明確に分けられる 学習データが必要ない

ラベル付けが必要ない

 

コメント