日本企業のloT導入の第一歩を支援する情報サイト

Rapid Minerでデータ分析入門(データ理解・準備編)

Rapid Miner Studio

RapidMinerはノンプログラミングでデータ加工、統計分析、可視化、機械学習分析が行えるツールです。
データ量やデータソースの制限付きではありますが、無料版もあります。

今回はRapid Miner付属のサンプルを使って基本的な操作方法を見ていきます。

全体のシナリオ

以下のシナリオを全3回に分けてやっていきたいと思います。

機器の故障予測を行います。機器が故障をしていた際のセンサーの値及び、正常に稼働していた際のセンサーの値を機械学習モデルに学習させ、新しいデータ(センサーデータ)に対して故障しそうな機器の予測を行います。

データ準備

まずは、サンプルデータを読み込みます。

  1. 起動時の画面の[NewProcess]から[Blank]を選択します。左上にある[リポジトリ]欄から[Samples]⇒[Templates]⇒[Predictive Maintenance]の順にフォルダを開いていき、[Reference Data]を [プロセス]欄にドラック&ドロップします

  2. ボックスの出力ポートをクリックし、その後に結果ポートをクリックして2つのポートを線でつなぎます

     

  3. メニューバーの下に青い三角形のボタンがあります。これをクリックしてプロセスを実行してください。プロセスが完了したら結果画面が表示されます

結果画面

結果画面はプロセスを実行した際に表示されます。また上部にある[結果]アイコンをクリックして移動することもできます。

Data

画面左側のDataタブでは結果ポートに接続したデータを確認することができま す。

緑色背景の項目が、予測したい項目(ラベル)、水色背景の項目は、予測する際に無視される項目(ID)となります。

Statistics

画面左のStatisticsタブをクリックすると、データの概要が表示されます。

Charts

出力されたデータをビジュアライズできます。

 

相関関係の確認

次に、予測したい項目とセンサーデータの相関を確認していきます。相関とは一方が変化すれば、他方も変化するような関係の事を言います。

オペレータの配置

  1. 画面上部の[デザイン]アイコンをクリックし、再びデザイン画面に戻ります
  2. [オペレータ]欄の検索ボックスにて「corr」と入力し、検索結果から「Weight by Correlations」を選択します
  3. [プロセス]欄にすでに配置しているボックスの右側にドラック&ドロップします
  4. [Retrieve Reference Data]ボックスの出力ポートと結果ポートを接続している線の上にカーソルを載せます
  5. 表示されたバツ印をクリックし、接続を解除します
  6. [Retrieve Reference Data]の出力ポートと[Weight by Correlation]左側[exa]ポートを接続します
  7. [Weight by Correlations]右側[wei]ポートと結果ポートを接続し、プロセスの実行を行います

相関による重みの確認

結果画面の確認を行います。[Weight by Correlations]オペレータは、デフォルトの設定では予想したい結果(ラベル項目といいます)とその他各項目の相関係数の絶対値を重み(重要度)として昇順に並べます。

 

今回はRapid Miner Studioでのデータの読み込み、可視化、重要度の確認を見ていきました。

次回は機械学習アルゴリズムのK-means, 決定木を使った故障予測を行います。