連続変数の離散化

連続変数を離散化するデータ集合とこのチュートリアルの目的

データと結果のMS Excelスプレッドシートは、こちらをクリックしてダウンロードできます。このチュートリアルで使用するデータは、患者のリストで、彼らの身長、体重、 BMIに関する情報が含まれます。

この事例では、BMIによって患者を異なるグループに分割することにします。

連続変数の離散化をセットアップ

XLSTAT-Proを起動すると、 XLSTAT / データ準備 / 離散化を選択するか、"データ準備" ツールバー(下図)の対応するボタンをクリックしてください。

barDiscretization.png

適切なボタンをクリックすると、ダイアログ・ボックスが現れます。

Excelシート上のBMI (列 D)に対応するデータを選択します。
e選択中に変数名 "BMI"を含むので、列ラベル・オプションをチェックします。

行ラベルオプションをチェックし、患者の名前 (列A)を選択してください。

標本をグループ化する際に、複数のオプションがあります:

  • 一定幅: 同じ幅のクラスを作成するには、この手法を選んでください。そして、幅の値を入力してください。必要であれば、最初の区間の下限に対応する "最小" をオプション的に指定できます。
  • 区間: 同じ幅を持つ任意の数の区間を作成するには、このオプションを使用してください。
  • 等頻度: すべてのクラスができるだけ同じ数のオブザベーションを含むようにするには、この手法を選んでください。
  • 自動 (フィッシャー): フィッシャーのアルゴリズムを用いてクラスを作成するには、この手法を使用してください。
  • 自動 (k-means): k-means アルゴリズムを用いてクラス(または区間)を作成するには、この手法を選んでください。
  • 区間 (ユーザー定義): 最初の区間の下限を含む列を選択し、すべての区間の上限を昇順に選択するには、このオプションを選んでください。
  • 80-20: 昇順に並んだデータで、系列の最初の80%を含む最初のクラスと、残りの20%を含む2番目のクラスの2つのクラスを作成するには、この手法を使用してください。
  • 20-80: 昇順に並んだデータで、系列の最初の20%を含む最初のクラスと、残り80の%を含む2番目のクラスの2つのクラスを作成するには、この手法を使用してください。
  • 80-15-5 (ABC): 昇順に並んでデータで、系列の最初の80%を含む最初のクラス、次の15%を含む2番目のクラス、そして残りの5%を含む3番目のクラスを作成するには、この手法を使用してください。この手法は、しばしば"ABC 分類"と呼ばれます。
  • 5-15-80:昇順に並んでデータで、系列の最初の5%を含む最初のクラス、次の15%を含む2番目のクラス、そして残りの80%を含む3番目のクラスを作成するには、この手法を使用してください。

我々は、区間(ユーザー定義)オプションを選択して、Microsoft Excel シートで XLSTATのために定義された境界を使用します。

pls software

計算する「結果を選択するために、出力タブに行ってください。
重心(セントロイド)、クラスごとの結果オブジェクトごとの結果を選択してください。

pls software

チャートタブに行って、度数バーのヒストグラムを選択してください。

pls software

準備ができたらOK ボタンをクリックしてください。

連続変数の離散化の結果

結果が "Discretization"という名前の新しいシートに表示されています。

最初の結果は、ヒストグラムです。バーの大きさがクラスのサイズに対応することに注意してください。

次は、区間の記述統計量の表です。 Most of the patients患者のほとんど (10) が、正常な体重に対応する3番目のクラスにいます。

pca software

そして、各クラスの中心に等しくはないかもしれないクラス・セントロイドがあります。

最後に、BMIクラスへの患者の分類があります。

statistical software

以下のビデオは、このチュートリアルの進め方を説明します。

他のチュートリアルはこちら です.