クラスター分析の方法。 階層的な方法。 クラスター分析は、類似した特性に従ってグループに分けられたデータを調査するためのアルゴリズムです。

ご挨拶!

論文では、データ クラスタリング アルゴリズムのレビューと比較分析を行いました。 すでに集められてできあがった素材が誰かの興味を引いたり、役に立ったりするのではないかと考えました。
クラスタリングとは何かについて、彼は記事で語っています。 アレクサンダーの言葉を部分的に繰り返し、部分的に補足します。 また、この記事の最後にある参考文献のリンクで資料を読むことができます。

また、ドライな「ディプロマ」スタイルのプレゼンテーションを、よりジャーナリスティックなものにしようとしました。

クラスタリングの概念

クラスタリング (またはクラスター分析) は、一連のオブジェクトをクラスターと呼ばれるグループに分割するタスクです。 各グループ内には「類似した」オブジェクトが存在する必要があり、異なるグループのオブジェクトは可能な限り異なる必要があります。 クラスタリングと分類の主な違いは、グループのリストが明確に定義されておらず、アルゴリズムの過程で決定されることです。

クラスター分析の応用 一般的な見解次の手順に要約されます。

  1. クラスタリングのためのオブジェクトのサンプルの選択。
  2. サンプル内のオブジェクトが評価される一連の変数の定義。 必要に応じて、変数の値を正規化します。
  3. オブジェクト間の類似度測定値の計算。
  4. 類似オブジェクトのグループ (クラスター) を作成するためのクラスター分析手法の適用。
  5. 分析結果のプレゼンテーション。
結果を受け取って分析した後、最適な結果が得られるまで、選択したメトリックとクラスタリング方法を調整できます。

距離測定

では、オブジェクトの「類似性」を判断するにはどうすればよいでしょうか。 まず、各オブジェクトの特性のベクトルを作成する必要があります。原則として、これは数値のセットです。たとえば、人の身長と体重です。 ただし、定性的 (いわゆるカテゴリ) 特性を処理するアルゴリズムもあります。

特徴ベクトルを決定したら、それを正規化して、「距離」を計算するときにすべてのコンポーネントが同じように寄与するようにします。 正規化プロセス中に、すべての値が [-1, -1] または .

最後に、オブジェクトの各ペアについて、それらの間の「距離」、つまり類似度が測定されます。 多くの指標がありますが、ここでは主要なもののみを示します。

クラスタリングの結果は、異なる尺度を使用すると大きく異なる可能性があるため、メトリクスの選択は完全に研究者次第です。

アルゴリズムの分類

私自身、クラスタリング アルゴリズムの 2 つの主な分類を特定しました。
  1. 階層的でフラット。
    階層アルゴリズム (分類アルゴリズムとも呼ばれます) は、サンプルの 1 つのパーティションをバラバラのクラスターに構築するのではなく、ネストされたパーティションのシステムを構築します。 それか。 出力では、ルートがサンプル全体であり、葉が最小のクラスターであるクラスター ツリーを取得します。
    フラット アルゴリズムは、オブジェクトの 1 つのパーティションをクラスターに構築します。
  2. クリアでファジー。
    明確な (または重複しない) アルゴリズムは、各サンプル オブジェクトにクラスター番号を割り当てます。 各オブジェクトは 1 つのクラスターのみに属します。 ファジー(または交差)アルゴリズムは、各オブジェクトに、オブジェクトとクラスターの関係の程度を示す一連の実数値を割り当てます。 それらの。 各オブジェクトは、ある程度の確率で各クラスターに属します。

クラスターのマージ

階層アルゴリズムを使用する場合、クラスタを互いに結合する方法、クラスタ間の「距離」を計算する方法が問題になります。 いくつかの指標があります。
  1. 単一リンク (最近隣距離)
    この方法では、2 つのクラスター間の距離は、異なるクラスター内の 2 つの最も近いオブジェクト (最近傍) 間の距離によって決定されます。 結果のクラスターは連鎖する傾向があります。
  2. 完全なリンク (最も遠い隣人の距離)
    この方法では、クラスター間の距離は、異なるクラスター内の任意の 2 つのオブジェクト (つまり、最も離れた隣人) 間の最大距離によって決定されます。 この方法は通常、オブジェクトが別々のグループに属している場合に非常にうまく機能します。 クラスターが細長い場合、またはクラスターの本来のタイプが「チェーン」である場合、この方法は適していません。
  3. 重み付けされていないペアワイズ平均
    この方法では、2 つの異なるクラスター間の距離は、それらのオブジェクトのすべてのペア間の平均距離として計算されます。 この方法は、オブジェクトが形成されたときに有効です さまざまなグループただし、拡張 (「チェーン」タイプ) クラスターの場合でも同様に機能します。
  4. 加重ペアワイズ平均
    この方法は、それぞれのクラスターのサイズ (つまり、クラスターに含まれるオブジェクトの数) が計算の加重係数として使用されることを除いて、重み付けされていないペアワイズ平均法と同じです。 したがって、この方法は、クラスタ サイズが等しくないことが予想される場合に使用する必要があります。
  5. 重み付けされていない重心法
    この方法では、2 つのクラスター間の距離は、それらの重心間の距離として定義されます。
  6. 加重重心法(中央値)
    この方法は、計算で重みを使用してクラスター サイズ間の違いを説明することを除いて、前の方法と同じです。 したがって、クラスター サイズに大きな違いがある場合、またはその疑いがある場合は、前の方法よりもこの方法をお勧めします。

アルゴリズムの概要

階層的クラスタリング アルゴリズム
階層型クラスタリング アルゴリズムには、主に昇順アルゴリズムと降順アルゴリズムの 2 種類があります。 トップダウン アルゴリズムはトップダウン ベースで機能します。最初は、すべてのオブジェクトが 1 つのクラスターに配置され、その後、さらに小さなクラスターに分割されます。 より一般的なのは、最初に各フィーチャを個別のクラスターに配置し、サンプリングされたすべてのフィーチャが同じクラスターに含まれるまでクラスターをさらに大きなクラスターにマージするボトムアップ アルゴリズムです。 このようにして、ネストされたパーティションのシステムが構築されます。 このようなアルゴリズムの結果は通常、樹形図 (樹形図) の形で表示されます。 そのような木の典型的な例は、動植物の分類です。

クラスター間の距離を計算するために、ほとんどの場合、単一の接続または完全な接続の 2 つの距離を使用します (クラスター間の距離測定の概要を参照してください)。

階層型アルゴリズムの欠点は、完全なパーティションのシステムであり、問​​題が解決される状況では冗長になる可能性があります。

二次誤差アルゴリズム
クラスタリングの問題は、オブジェクトをグループに最適に分割することと考えることができます。 この場合、最適性は二乗平均平方根の分割誤差を最小化するための要件として定義できます。

どこ cj- クラスターの「重心」 j(特定のクラスターの特性の平均値を持つポイント)。

二次誤差アルゴリズムは、フラット アルゴリズムの一種です。 このカテゴリで最も一般的なアルゴリズムは k-means 法です。 このアルゴリズムは、可能な限り離れた場所に指定された数のクラスターを構築します。 アルゴリズムの作業はいくつかの段階に分けられます。

  1. ランダムに選択 kクラスタの最初の「重心」であるポイント。
  2. 各オブジェクトを、最も近い「重心」を持つクラスターに割り当てます。
  3. 現在の構成に従って、クラスターの「重心」を再計算します。
  4. アルゴリズムを停止する基準が満たされない場合は、手順 2 に戻ります。
アルゴリズムの動作を停止する基準として、平均二乗誤差の最小変化が通常選択されます。 ステップ 2 でクラスターからクラスターに移動したオブジェクトがなかった場合、アルゴリズムを停止することもできます。

このアルゴリズムの欠点には、分割するクラスターの数を指定する必要があることが含まれます。

ファジーアルゴリズム
最も一般的なファジー クラスタリング アルゴリズムは、c-means アルゴリズムです。 k-means 法の修正版です。 アルゴリズムの手順:

このアルゴリズムは、クラスターの数が事前にわかっていない場合、または各オブジェクトを 1 つのクラスターに一意に関連付ける必要がある場合には適していない可能性があります。
グラフ理論に基づくアルゴリズム
このようなアルゴリズムの本質は、オブジェクトの選択がグラフとして表現されることです G=(V, E)頂点がオブジェクトに対応し、エッジの重みがオブジェクト間の「距離」に等しい。 グラフ クラスタリング アルゴリズムの利点は、可視性、実装の比較的容易さ、および幾何学的な考慮事項に基づいてさまざまな改善を行う可能性です。 主なアルゴリズムは、連結成分を抽出するためのアルゴリズム、最小スパニング (スパニング) ツリーを構築するためのアルゴリズム、および階層化クラスタリングのためのアルゴリズムです。
連結成分抽出アルゴリズム
連結成分を抽出するアルゴリズムでは、入力パラメーターが設定されます Rグラフでは、「距離」がより大きいすべてのエッジ R. 最も近いオブジェクトのペアのみが接続されたままになります。 アルゴリズムの目的は、そのような値を見つけることです R、すべての「距離」の範囲にあり、グラフがいくつかの接続されたコンポーネントに「バラバラ」になります。 結果のコンポーネントはクラスターです。

パラメータを選択するには R通常、ペアごとの距離の分布のヒストグラムが作成されます。 クラスター データ構造が明確に定義されたタスクでは、ヒストグラムに 2 つのピークがあります。1 つはクラスター内距離に対応し、2 つ目はクラスター間距離に対応します。 パラメータ Rこれらのピーク間の最小のゾーンから選択されます。 同時に、距離しきい値を使用してクラスターの数を制御することは非常に困難です。

最小スパニング ツリー アルゴリズム
最小スパニング ツリー アルゴリズムは、最初にグラフ上に最小スパニング ツリーを構築し、次に最大の重みを持つエッジを順番に削除します。 この図は、9 つ​​の特徴に対して得られた最小スパニング ツリーを示しています。

長さ 6 単位の CD とラベル付けされたリンク (最大距離のエッジ) を削除すると、(A、B、C) と (D、E、F、G、H、I) の 2 つのクラスターが得られます。 2 番目のクラスターは、長さが 4.5 単位のエッジ EF を削除することにより、さらに 2 つのクラスターに分割できます。

層状クラスタリング
レイヤーごとのクラスタリング アルゴリズムは、オブジェクト (頂点) 間の特定レベルの距離にある接続されたグラフ コンポーネントの選択に基づいています。 距離レベルは、距離しきい値によって設定されます c. たとえば、オブジェクト間の距離が 、 それか 。

層状クラスタリング アルゴリズムは、一連のグラフ サブグラフを生成します。 G、クラスター間の階層関係を反映します。

,

どこ G t = (V, E t)- レベルグラフ ,
,
– t 番目の距離のしきい値、
m は階層レベルの数です。
G 0 = (V, o)、o は、によって取得されたグラフ エッジの空のセットです。 t0 = 1,
G m = G、つまり、距離 (グラフのエッジの長さ) に制限のないオブジェクトのグラフです。 tm = 1.

距離のしきい値を変更することにより ( 0 で、…、m で)、ここで 0 = 0から < 1から < …< 私と一緒に= 1 の場合、結果のクラスターの階層の深さを制御できます。 したがって、レイヤーごとのクラスタリング アルゴリズムは、フラットなデータ パーティションと階層的なデータ パーティションの両方を作成できます。

アルゴリズム比較

アルゴリズムの計算量

アルゴリズム比較表
クラスタリング アルゴリズム クラスターの形態 入力データ 結果
階層的 無料 階層を切り捨てるためのクラスター数または距離しきい値 クラスターの二分木
k平均法 超球 クラスタ数 クラスターセンター
c-平均 超球 クラスタ数、あいまい度 クラスター センター、メンバーシップ マトリックス
接続されたコンポーネントの選択 無料 距離閾値 R
最小スパニング ツリー 無料 エッジを削除するクラスターの数または距離のしきい値 クラスターの木構造
層状クラスタリング 無料 距離しきい値のシーケンス さまざまなレベルの階層を持つクラスターのツリー構造

アプリケーションについて少し

私の仕事では、階層構造 (ツリー) から別の領域を選択する必要がありました。 それらの。 本質的に、元の木をいくつかの小さな木に切断する必要がありました。 有向木はグラフの特殊なケースであるため、当然、グラフ理論に基づくアルゴリズムが適しています。

全結合グラフとは異なり、有向木のすべての頂点がエッジで接続されているわけではなく、エッジの総数は n–1 (n は頂点の数) です。 それらの。 ツリーのノードに関しては、任意の数のエッジを削除するとツリーが接続コンポーネント (個別のツリー) に「分割」されるため、接続コンポーネントを抽出するアルゴリズムの作業が簡素化されます。 この場合の最小スパニング ツリー アルゴリズムは、接続されたコンポーネントを抽出するためのアルゴリズムと一致します。最長のエッジを削除することにより、元のツリーはいくつかのツリーに分割されます。 この場合、最小のスパニング ツリーを構築するフェーズがスキップされることは明らかです。

他のアルゴリズムを使用する場合、オブジェクト間の関係の存在を個別に考慮する必要があり、アルゴリズムが複雑になります。

これとは別に、最良の結果を得るには、距離測定の選択を試し、時にはアルゴリズムを変更することさえ必要であると言いたいです。 単一の解決策はありません。

クラスター分析

ほとんどの研究者は、「クラスター分析」(eng. 集まる- バンチ、クロット、バンチ) は、数学者 R. Trion によって提案されました。 その後、「クラスター分析」という用語と同義であると考えられる多くの用語が生まれました。自動分類。 瓶学。

クラスター分析は、オブジェクトのサンプルに関する情報を含むデータを収集し、オブジェクトを比較的均一なグループ (クラスター) に配置する多次元統計手順です (Q クラスタリングまたは Q 手法、クラスター分析自体)。 クラスター - 共通の特性によって特徴付けられる要素のグループ。クラスター分析の主な目的は、サンプル内の類似したオブジェクトのグループを見つけることです。 クラスター分析の適用範囲は非常に広く、考古学、医学、心理学、化学、生物学、行政、文献学、人類学、マーケティング、社会学、その他の分野で使用されています。 ただし、アプリケーションの普遍性により、クラスター分析を明確に使用して一貫して解釈することを困難にする、互換性のない用語、方法、およびアプローチが多数出現しています。 Orlov A. I. は、次のように区別することを提案しています。

タスクと条件

クラスター分析では、次のことが実行されます。 主な目標:

  • 類型学または分類の開発。
  • オブジェクトをグループ化するための便利な概念スキームの調査。
  • データ探索に基づく仮説の生成。
  • 何らかの方法で識別されたタイプ (グループ) が実際に利用可能なデータに存在するかどうかを判断するための仮説検定または研究。

研究の主題に関係なく、クラスター分析の使用には以下が含まれます。 次のステップ:

  • クラスタリングのためのサンプリング。 量的データのみをクラスター化することが理にかなっていることが理解されます。
  • サンプル内のオブジェクトが評価される変数のセット、つまり特徴空間の定義。
  • オブジェクト間の類似性(または相違点)の1つまたは別の尺度の値の計算。
  • 類似オブジェクトのグループを作成するためのクラスター分析手法の適用。
  • クラスター ソリューションの結果の検証。

クラスタ分析は次のことを示します データ要件:

  1. 指標は互いに相関してはなりません。
  2. 指標は測定理論と矛盾してはなりません。
  3. 指標の分布は正常に近いはずです。
  4. 指標は「安定性」の要件を満たす必要があります。これは、ランダムな要因による値への影響がないことを意味します。
  5. サンプルは均質で、「外れ値」を含まない必要があります。

データの 2 つの基本的な要件である均一性と完全性の説明を見つけることができます。

同質性では、テーブルで表されるすべてのエンティティが同じ性質である必要があります。 完全性の要件は、セット J検討中の現象の症状の完全な説明を提示しました。 テーブルを考えると はコレクションであり、 J- この母集団を説明する変数のセット。それは、調査対象の母集団からの代表的なサンプルであり、特性のシステムである必要があります。 J個人の十分なベクトル表現を与える必要があります 研究者の立場から。

クラスター分析の前に因子分析が行われる場合、サンプルを「修復」する必要はありません。指定された要件は、因子モデリング手順自体によって自動的に実行されます (別の利点があります。サンプルに悪影響を及ぼさない z 標準化です。クラスター分析のために直接実行されると、グループの分離の明確さが低下する可能性があります)。 それ以外の場合は、サンプルを調整する必要があります。

クラスタリング問題の類型

入力タイプ

現代科学入力データを処理するためのいくつかのアルゴリズムが使用されます。 特徴に基づいてオブジェクトを比較することによる分析 (生物科学で最も一般的) は呼ばれます Q- 分析のタイプ、および機能比較の場合はオブジェクトに基づく - R- 分析の種類。 ハイブリッド型の分析を使用する試みがあります (たとえば、 RQ分析)、しかし、この方法論はまだ適切に開発されていません。

クラスタリングの目的

  • クラスター構造を特定してデータを理解する。 サンプルを類似オブジェクトのグループに分割すると、各クラスターに独自の分析方法を適用することで、さらなるデータ処理と意思決定を簡素化できます (「分割統治」戦略)。
  • データ圧縮。 初期サンプルが大きすぎる場合は、各クラスターから最も典型的な代表の 1 つを残して、サンプルを減らすことができます。
  • ノベルティ検出。 ノベルティ検出)。 どのクラスタにもアタッチできない特殊なオブジェクトが選択されます。

最初のケースでは、クラスターの数を少なくしようとします。 2 番目のケースでは、確実にすることがより重要です。 高度な各クラスター内のオブジェクトの類似性、および任意の数のクラスターが存在する可能性があります。 3 番目のケースでは、どのクラスターにも当てはまらない個々のオブジェクトが最も重要です。

これらすべてのケースで、大きなクラスターが小さなクラスターに分割され、さらに小さなクラスターに分割される場合などに、階層的クラスタリングを適用できます。このようなタスクは分類タスクと呼ばれます。 分類の結果は、ツリーのような階層構造になります。 さらに、各オブジェクトは、通常、大きいものから小さいものまで、それが属するすべてのクラスターの列挙によって特徴付けられます。

クラスタリング方法

一般に受け入れられているクラスタリング手法の分類はありませんが、V. S. Berikov と G. S. Lbov による堅実な試みは注目に値します。 クラスタリング方法のさまざまな分類を一般化すると、いくつかのグループを区別できます (いくつかの方法は一度に複数のグループに属する可能性があるため、この類型化をクラスタリング方法の実際の分類の近似と見なすことが提案されています)。

  1. 確率的アプローチ. 検討中の各オブジェクトは、k 個のクラスの 1 つに属していると想定されます。 一部の著者 (たとえば A. I. Orlov) は、次のように信じています。 このグループクラスタリングについてはまったく言及しておらず、「差別」という名前で反対しています。つまり、オブジェクトを次のいずれかに帰属させるという選択です。 有名なバンド(トレーニング サンプル)。
  2. 人工知能システムに基づくアプローチ. 多くの AI メソッドがあり、系統的に非常に異なるため、非常に条件付きのグループです。
  3. 論理的アプローチ. デンドログラムの構築は、決定木を使用して実行されます。
  4. グラフ理論的アプローチ.
    • グラフ クラスタリング アルゴリズム
  5. 階層的アプローチ. ネストされたグループ (異なる順序のクラスター) の存在が想定されます。 次に、アルゴリズムは凝集型 (統合) と分割型 (分離) に分けられます。 特徴の数に応じて、分類の単論的方法と多論的方法が区別されることがあります。
    • 階層的部門クラスタリングまたは分類法。 クラスタリングの問題は、量的分類法で考慮されます。
  6. その他の方法. 前のグループには含まれていません。
    • 統計的クラスタリング アルゴリズム
    • クラスタラーのアンサンブル
    • KRABファミリーのアルゴリズム
    • ふるい分け法によるアルゴリズム
    • DBSCANなど

アプローチ 4 と 5 は、より形式化された近接概念を持つ構造的アプローチまたは幾何学的アプローチの名前で組み合わされることがあります。 リストされた方法には大きな違いがありますが、それらはすべて元の「 コンパクト仮説»: オブジェクト空間では、すべての近くのオブジェクトは同じクラスターに属している必要があり、すべての異なるオブジェクトはそれぞれ異なるクラスターに属している必要があります。

クラスタリング問題の公式声明

をオブジェクトのセット、クラスターの番号 (名前、ラベル) のセットとします。 オブジェクト間の距離関数が与えられます。 オブジェクトの有限のトレーニング セットがあります。 サンプルを重複しないサブセットに分割する必要があります。 クラスターであるため、各クラスターはメトリック に近いオブジェクトで構成され、異なるクラスターのオブジェクトは大きく異なります。 この場合、各オブジェクトにはクラスター番号が割り当てられます。

クラスタリング アルゴリズム任意のオブジェクトをクラスター番号に関連付ける関数です。 場合によってはセットが事前にわかっていますが、より多くの場合、タスクは、いずれかの観点から最適なクラスター数を決定することです。 品質基準クラスタリング。

クラスタリング (教師なし学習) は、元のオブジェクトのラベルが最初に設定されておらず、セット自体が不明な場合があるという点で、分類 (教師あり学習) とは異なります。

クラスタリングの問題の解決策は根本的にあいまいであり、これにはいくつかの理由があります (多くの著者によると)。

  • 明確に存在しない 最良の基準クラスタリング品質。 多くのヒューリスティックな基準が知られていますが、明確に定義された基準を持たないが、「構造によって」かなり合理的なクラスタリングを実行するアルゴリズムも数多くあります。 それらのすべてが与えることができます 異なる結果. したがって、クラスタリングの品質を判断するには、クラスタの選択の意味を評価できる、対象分野の専門家が必要です。
  • 通常、クラスターの数は事前に不明であり、何らかの主観的な基準に従って設定されます。 クラスタリング方法では、近接測定に基づく形式化されたアプローチを使用してクラスターが選択されるため、これは識別方法にのみ当てはまります。
  • クラスタリングの結果はメトリックに大きく依存します。メトリックの選択は、原則として主観的であり、専門家によって決定されます。 ただし、さまざまなタスクの近接測定を選択するための推奨事項が多数あることは注目に値します。

応用

生物学では

生物学では、クラスタリングはさまざまな分野で多くの用途があります。 たとえば、バイオインフォマティクスでは、相互作用する遺伝子の複雑なネットワークを分析するために使用され、時には数百または数千の要素で構成されています。 クラスター分析により、調査中のシステムのサブネット、ボトルネック、ハブ、およびその他の隠れた特性を特定できます。これにより、最終的に、調査中の現象の形成に対する各遺伝子の寄与を見つけることができます。

生態学の分野では、生物や群集などの空間的に均一なグループを識別するために広く使用されています。あまり一般的ではありませんが、クラスター分析法は、時間をかけて群集を研究するために使用されます。 コミュニティの構造の不均一性は、クラスター分析の自明ではない方法の出現につながります(たとえば、チェカノフスキー法)。

一般に、歴史的に、類似性尺度は、差異 (距離) 尺度ではなく、生物学における近接尺度としてより頻繁に使用されることに注意してください。

社会学では

結果を分析するとき 社会学研究階層的凝集族の方法、つまりクラスタ内で最小分散が最適化されるウォード法を使用して分析を実行することをお勧めします。その結果、ほぼ同じサイズのクラスタが作成されます。 ウォードの方法は、社会学的データの分析に最も成功しています。 違いの尺度として、クラスターのコントラストの増加に寄与する 2 次ユークリッド距離の方が優れています。 階層クラスター分析の主な結果は、デンドログラムまたは「つらら図」です。 それを解釈するとき、研究者は因子分析の結果の解釈と同じ種類の問題、つまりクラスターを識別するための明確な基準の欠如に直面します。 主な方法として、樹状図の視覚的分析と、異なる方法で実行されたクラスタリングの結果の比較の 2 つの方法を使用することをお勧めします。

デンドログラムの視覚的分析には、サンプル要素の類似性の最適なレベルでツリーを「切断」することが含まれます。 「つる枝」(Oldenderfer M.S. および Blashfield R.K. の用語) は、再スケーリングされた距離クラスター結合スケールで約 5 で「切り取る」必要があり、80% の類似性レベルを達成します。 このラベルによるクラスターの選択が難しい場合 (いくつかの小さなクラスターが 1 つの大きなクラスターに結合する場合)、別のラベルを選択できます。 この手法は、Oldenderfer と Blashfield によって提案されています。

ここで、採用されたクラスター ソリューションの安定性の問題が生じます。 実際、クラスタリングの安定性を確認することは、その信頼性を確認することになります。 ここには経験則があります。クラスタリング方法が変更されても、安定した類型が保持されます。 階層クラスター分析の結果は、反復 k-means クラスター分析によって検証できます。 比較された回答者グループの分類の一致率が 70% を超える (一致率の 2/3 を超える) 場合、クラスター決定が行われます。

別のタイプの分析に頼らずに、ソリューションの妥当性をチェックすることは不可能です。 少なくとも理論的には、この問題は解決されていません。 Oldenderfer と Blashfield の古典的なクラスター分析では、次の 5 つの追加の堅牢性テスト方法について詳しく説明し、最終的には拒否しています。

コンピュータサイエンスでは

  • 検索結果のクラスタリング - ファイル、Web サイト、その他のオブジェクトを検索する際に、結果を「インテリジェント」にグループ化するために使用されます。これにより、ユーザーはすばやくナビゲートし、明らかにより関連性の高いサブセットを選択し、既知の関連性の低いサブセットを除外できます。これにより、ユーザビリティが向上します。関連性リストで単純にソートされた形式での出力と比較したインターフェイスの。
    • Clusty - Vivisimo のクラスタリング検索エンジン
    • Nigma - 自動結果クラスタリングを備えたロシアの検索エンジン
    • Quintura - キーワードのクラウドの形でのビジュアル クラスタリング
  • 画像セグメンテーション 画像セグメンテーション) - クラスタリングを使用して、エッジ検出の目的でデジタル画像を個別の領域に分割できます。 エッジ検出) またはオブジェクト認識。
  • データマイニング データマイニング)- データ マイニングのクラスタリングは、データ分析の段階の 1 つとして機能し、完全な分析ソリューションを構築するときに価値があります。 多くの場合、アナリストは、すべてのデータに対して 1 つの一般的なモデルを作成するよりも、類似したオブジェクトのグループを識別し、それらの機能を調査して、グループごとに個別のモデルを作成する方が簡単です。 この手法は常にマーケティングで使用され、顧客、バイヤー、商品のグループを強調し、それぞれに個別の戦略を立てています。

こちらもご覧ください

ノート

リンク

ロシア語で
  • www.MachineLearning.ru - 機械学習とデータ マイニングに特化した専門的な wiki リソース
英語で
  • COMPACT - クラスタリング評価の比較パッケージ. 無料の Matlab パッケージ、2006 年。
  • P.バーキン、 クラスタリングデータマイニング技術の調査、Accrue Software、2002年。
  • ジェイン、マーティ、フリン: データ クラスタリング: レビュー、ACMコンプ。 サバイバル、1999年。
  • 階層、k-means、およびファジー c-means の別のプレゼンテーションについては、このクラスタリングの紹介を参照してください。 ガウスの混合についての説明もあります。
  • デビッド・ダウ 混合モデリングページ- その他のクラスタリングおよび混合モデルのリンク。
  • クラスタリングのチュートリアル
  • オンライン教科書: 情報理論、推論、および学習アルゴリズム、David J.C. MacKay には、k-means クラスタリング、ソフト k-means クラスタリング、および E-M アルゴリズムを含む派生物に関する章が含まれています。 そしてその E-M アルゴリズムの変分ビュー。
  • 「The Self-Organized Gene」、競合学習と自己組織化マップによるクラスタリングを説明するチュートリアル。
  • kernlab - カーネルベースの機械学習用の R パッケージ (スペクトルクラスタリングの実装を含む)
  • チュートリアル - クラスタリング アルゴリズム (k-means、fuzzy-c-means、階層、ガウス混合) の紹介を含むチュートリアル + インタラクティブなデモ (Java アプレット)
  • データ マイニング ソフトウェア - データ マイニング ソフトウェアは、クラスタリング手法を頻繁に利用します。
  • Java Competitve Learning Application クラスタリング用の教師なしニューラル ネットワークのスイート。 Java で書かれています。 すべてのソースコードを完備。
  • 機械学習ソフトウェア - 多くのクラスタリング ソフトウェアも含まれています。

多くの場合、活動の最も多様な分野では、行動を起こす必要のある膨大な数の項目に対処する必要があります。

そして、私たちはそれを理解するどころか、このボリュームのすべてを理解することさえできません。

抜け道は何ですか? もちろん、「すべてを棚に置いてください」。 この場合、民間の知恵は明確に定義された科学的定式化を獲得します。

クラスター分析は、類似した特徴を持つ均質なグループにオブジェクトを結合することによるオブジェクトの研究です。 彼の方法は、医学から外国為替取引、自動車保険から考古学まで、文字通りあらゆる分野に適用できます。 そして、マーケティング担当者や人事担当者にとって、それはかけがえのないものです。

詳細については、記事を参照してください。

クラスタとは

クラスター分析は、一連のオブジェクトを同種のグループ (クラスターまたはクラス) に分割するように設計されています。 これは、多変量データ分類のタスクです。


約 100 の異なるクラスタリング アルゴリズムがありますが、最も一般的に使用されるのは次のとおりです。

  1. 階層クラスター分析、
  2. k-means クラスタリング。

クラスター分析が適用される場所:

  • マーケティングでは、これは競合他社と消費者のセグメンテーションです。
  • 管理では:
    1. 従業員をモチベーションの異なるグループに分け、
    2. サプライヤー分類、
    3. 結婚が起こる類似の生産状況の特定。
  • 医学では、症状、患者、薬の分類。
  • 社会学において、回答者を均質なグループに分割すること。

実際、クラスター分析は、人間の生活のあらゆる分野でうまく機能していることが証明されています。 この方法の優れた点は、データが少なく、正規分布の要件が満たされていない場合でも機能することです。 ランダム変数および統計分析の古典的な方法のその他の要件。

厳密な用語に頼ることなく、クラスター分析の本質を説明しましょう。

従業員の調査を実施し、スタッフを最も効果的に管理する方法を決定したいとします。 つまり、従業員をグループに分け、それぞれに最も効果的なコントロール レバーを選択します。 同時に、グループ間の違いは明らかであるべきであり、グループ内では、回答者は可能な限り類似していなければなりません。

この問題を解決するために、階層クラスター分析を使用することが提案されています。 その結果、ツリーを取得し、スタッフを分割するクラス (クラスター) の数を決定する必要があります。 スタッフを 3 つのグループに分け、各クラスターに分類された回答者を調査するために、次の内容のタブレットを取得するとします。


上記の表がどのように形成されるかを説明しましょう。 最初の列には、クラスターの番号 (データが行に反映されるグループ) が含まれます。 たとえば、最初のクラスターは 80% が男性です。 最初のクラスターの 90% が 30 歳から 50 歳までの年齢層に分類され、回答者の 12% がメリットが非常に重要であると考えています。 等々。

各クラスターの回答者のポートレートを作成してみましょう。

  1. 最初のグループは、主に成熟した年齢の男性で、指導的地位を占めています。 ソーシャル パッケージ (MED、LGOTI、TIME-free time) には興味がありません。 彼らは、雇用主からの援助よりも、良い給料を受け取ることを好みます。
  2. 対照的に、グループ 2 はソーシャル パッケージを好みます。 それは主に、低い地位にある「年配の」人々で構成されています。 彼らにとって給料は確かに重要ですが、他にも優先事項があります。
  3. 3 番目のグループは最も「若い」グループです。 前の 2 つとは異なり、学習と専門的な成長の機会に明らかに関心があります。 このカテゴリーの従業員は、すぐに最初のグループを補充するチャンスがあります。

したがって、効果的な人事管理方法を導入するためのキャンペーンを計画するとき、私たちの状況では、たとえば賃金を損なうために、2番目のグループの社会的パッケージを増やすことが可能であることは明らかです. どのスペシャリストをトレーニングに派遣する必要があるかについて話す場合、3番目のグループに注意を払うことをお勧めします。

ソース: "nickart.spb.ru"

クラスター分析が市場理解の鍵

クラスターとは、取引が行われた一定期間内の資産の価格です。 売買の結果のボリュームは、クラスター内の数値で示されます。 TF のバーには、原則として、いくつかのクラスターが含まれています。 これにより、価格レベルごとに、個々のバーの購入量、販売量、およびそれらの残高を詳細に確認できます。


クラスタ グラフの作成

ある資産の価格の変化は、必然的に他の商品の価格変動の連鎖を伴います。 ほとんどの場合、トレンドの動きの理解は、それが急速に発展している瞬間にすでに行われており、トレンドに沿って市場に参入すると、修正の波に陥ることになります。

取引を成功させるためには、現在の状況を理解し、将来の値動きを予測できることが必要です。 これは、クラスター グラフを分析することで学習できます。 クラスター分析の助けを借りて、最小の価格帯でも市場参加者の活動を見ることができます。

これは、資産価格レベルごとの取引量のポイント分布を示すため、最も正確で詳細な分析です。 市場は常に売り手と買い手の利益に直面しています。 そして、すべての最小の値動き (ティック) は、妥協点 (価格レベル) への動きです。 この瞬間両方の当事者に適しています。

しかし、市場は動的であり、売り手と買い手の数は常に変化しています。 ある時点で市場が売り手によって支配されていた場合、次の瞬間にはおそらく買い手が現れるでしょう。 隣接する価格レベルで完了したトランザクションの数も同じではありません。

それでも、最初に、市場の状況は取引の総量に反映され、次に価格に反映されます。 支配的な市場参加者(売り手または買い手)の行動を見れば、価格の動きそのものを予測できます。

クラスター分析をうまく適用するには、まずクラスターとデルタが何であるかを理解する必要があります。

  • クラスターは価格の動きであり、取引が既知のボリュームで行われたレベルに分割されます。
  • デルタは、各クラスターで発生した売買の差を示します。


クラスタ グラフ

各クラスター、またはデルタのグループにより、特定の時点で買い手または売り手が市場を支配しているかどうかを把握できます。 売上と購入を合計して総デルタを計算するだけで十分です。 デルタがマイナスの場合、市場は売られ過ぎであり、冗長な売りトランザクションがあります。 デルタが正の場合、市場は明らかに買い手によって支配されています。

デルタ自体は、通常の値または重要な値をとることができます。 クラスタ内の通常の値を超えるデルタ ボリュームの値は、赤で強調表示されます。 デルタが中程度の場合、これは市場がフラットな状態であることを示しています。 で 正常値市場のデルタ、トレンドの動きがありますが、臨界値は常に価格反転の前兆です.

CAとの外国為替取引

最大の利益を得るには、適度なレベルから通常のレベルへのデルタの遷移を判断できる必要があります。 実際、この場合、フラットからトレンドへの移行の始まりに気づき、最大の利益を得ることができます。

クラスター チャートはより視覚的であり、ボリュームの蓄積と分布の重要なレベルを確認し、サポートとレジスタンスのレベルを構築できます。

これにより、トレーダーは取引への正確なエントリーを見つけることができます。 デルタを使用すると、市場での販売または購入の優位性を判断できます。 クラスター分析により、トランザクションを観察し、任意の TF のバー内でその量を追跡できます。 これは、重要なサポートまたはレジスタンス レベルに近づいている場合に特に重要です。 クラスターの判断は、市場を理解するための鍵です。

ソース: "orderflowtrading.ru"

クラスター分析の適用分野と特徴

クラスター分析という用語 (1939 年に Tryon によって最初に導入された) には、実際にはさまざまな分類アルゴリズムのセットが含まれています。 一般的な質問、多くの分野の研究者から尋ねられたのは、観察されたデータを視覚的な構造に整理する方法です。 分類を展開します。

たとえば、生物学者は動物を 異なる種類それらの違いを有意義に説明します。 生物学で受け入れられている現代のシステムによると、人間は霊長類、哺乳類、羊膜動物、脊椎動物、動物に属しています。

この分類では、集約レベルが高いほど、対応するクラスのメンバー間の類似性が低くなることに注意してください。 人間は、哺乳類の家族 (つまり犬) の「遠い」メンバーよりも、他の霊長類 (つまり類人猿) との類似点が多いなどです。

前の説明はクラスタリング アルゴリズムに言及していますが、統計的有意性のテストについては何も言及していないことに注意してください。 実際、クラスター分析は、「オブジェクトをクラスターに分散する」ためのさまざまなアルゴリズムの「セット」としての通常の統計手法ではありません。

他の多くの統計手順とは異なり、クラスター分析方法は、ほとんどの場合、クラスに関するアプリオリな仮説がなく、研究の記述段階にある場合に使用されるという観点があります。 クラスター分析が「最も有意義な決定」を決定することを理解する必要があります。

したがって、統計的有意性の検定は、p レベルがわかっている場合でも (たとえば、K 平均法など)、ここでは実際には適用できません。

クラスタリング手法は、さまざまな分野で使用されています。 Hartigan (1975) は、クラスター分析法によって得られた結果を含む多くの公開された研究の優れた概要を提供しています。 たとえば、医学の分野では、病気のクラスタリング、病気の治療、または病気の症状は、広く使用されている分類法につながります。

精神医学の分野では 正しい診断パラノイア、統合失調症などの一連の症状は、治療の成功に不可欠です。 考古学では、クラスター分析を使用して、研究者は石器、葬儀用品などの分類法を確立しようとしています。

知られている 幅広い用途でのクラスター分析 マーケティングリサーチ. 一般に、情報の「山」をさらに処理するのに適したグループに分類する必要がある場合はいつでも、クラスター分析が非常に有用で効果的であることがわかります。

ツリー クラスタリング

アソシエーション アルゴリズム (ツリー クラスタリング) の目的は、オブジェクト間の類似性または距離の尺度を使用して、オブジェクト (動物など) を十分に大きなクラスターに結合することです。 このようなクラスタリングの典型的な結果は、階層ツリーです。

水平樹形図を考えてみましょう。 ダイアグラムは、クラス内の各オブジェクトから始まります (ダイアグラムの左側)。 ここで、どのオブジェクトが一意で何が一意でないかの基準を徐々に (非常に小さなステップで) 「弱める」と想像してください。 つまり、2 つ以上のオブジェクトを 1 つのクラスターに結合するという決定に関連するしきい値を下げます。


その結果、ますます多くのオブジェクトをリンクし、ますます異なる要素のクラスターをますます集約 (結合) します。 最後に、最後のステップで、すべてのオブジェクトが一緒にマージされます。

これらのグラフでは、横軸はプーリング距離を表します (縦のデンドログラムでは、縦軸はプーリング距離を表します)。 したがって、グラフの各ノード (新しいクラスターが形成される場所) について、対応する要素が新しい単一のクラスターにリンクされる距離の量を確認できます。

データが互いに類似したオブジェクトのクラスターに関して明確な「構造」を持っている場合、この構造は、さまざまな分岐によって階層ツリーに反映される可能性があります。 ジョイン法による解析に成功した結果、クラスター(枝)の検出と解釈が可能になります。

距離の尺度

オブジェクト間の非類似度または距離のクラスタの形成には、ユニオンまたはツリー クラスタリング メソッドが使用されます。 これらの距離は、1 次元または多次元空間で定義できます。 たとえば、カフェで食べ物の種類を分類する必要がある場合、それに含まれるカロリー数、価格、味の主観的評価などを考慮することができます。

多次元空間内のオブジェクト間の距離を計算する最も直接的な方法は、ユークリッド距離を計算することです。 2 次元または 3 次元の空間がある場合、この測定値は、空間内のオブジェクト間の実際の幾何学的距離です (オブジェクト間の距離が巻尺で測定された場合と同様)。

ただし、プーリングアルゴリズムは、そのために「提供された」距離が実際のものであるか、研究者にとってより意味のある他の派生距離測定値であるかを「気に」しません。 そして研究者の仕事は見つけることです 正しい方法ために 特定のアプリケーション.

  1. ユークリッド距離。
  2. これが一番多いようです 一般型距離。 これは単に多次元空間での幾何学的距離であり、次のように計算されます。

    ユークリッド距離 (およびその 2 乗) は、標準化されたデータではなく、元のデータから計算されることに注意してください。 これは通常の計算方法であり、特定の利点があります (たとえば、分析に新しいオブジェクトが導入されても、2 つのオブジェクト間の距離は変化せず、外れ値になる可能性があります)。

    ただし、距離は、距離を計算する軸間の違いによって大きく影響を受ける可能性があります。

    たとえば、軸の 1 つがセンチメートルで測定され、(値に 10 を掛けて) ミリメートルに変換された場合、座標から計算された最終的なユークリッド距離 (またはユークリッド距離の 2 乗) は、劇的に変化し、その結果、クラスター分析の結果が以前のものと大きく異なる可能性があります。

  3. ユークリッド距離の 2 乗。
  4. 遠くのオブジェクトにより多くの重みを与えるために、標準のユークリッド距離を 2 乗したい場合があります。 この距離は次のように計算されます。

  5. 街区距離 (マンハッタン距離)。
  6. この距離は、単に座標上の差の平均です。 ほとんどの場合、この距離の尺度は、通常のユークリッド距離と同じ結果になります。

    ただし、この測定では、個々の大きな差 (外れ値) の影響が減少することに注意してください (2 乗されていないため)。 マンハッタン距離は、次の式を使用して計算されます。

  7. チェビシェフ距離。
  8. この距離は、2 つのオブジェクトがいずれか 1 つの座標 (いずれか 1 つの次元) で異なる場合に「異なる」と定義したい場合に役立ちます。 チェビシェフ距離は、次の式で計算されます。

  9. パワー距離。

    対応するオブジェクトが大きく異なるディメンションに関連する重みを徐々に増減したい場合があります。 これは、べき乗距離を使用して実現できます。 電力距離は次の式で計算されます。

    ここで、r と p はユーザー定義パラメーターです。

    計算のいくつかの例は、この測定がどのように「機能する」かを示しています。

    • p パラメータは、個々の座標の差を段階的に重み付けする役割を果たします。
    • r パラメータは、オブジェクト間の大きな距離のプログレッシブ ウェイト付けを担当します。
    • r と p の両方のパラメーターが 2 に等しい場合、この距離はユークリッド距離と一致します。
  10. 不一致のパーセンテージ。
  11. このメジャーは、データがカテゴリカルである場合に使用されます。 この距離は次の式で計算されます。

アソシエーションまたはアソシエーション ルール

最初のステップで、各オブジェクトが個別のクラスターである場合、これらのオブジェクト間の距離は、選択した測定値によって決定されます。 しかし、いくつかのオブジェクトが一緒にリンクされている場合、クラスター間の距離をどのように決定すべきかという問題が生じます。

つまり、2 つのクラスターの結合ルールまたはリンク ルールが必要です。 ここにはさまざまな可能性があります。たとえば、2 つのクラスター内の任意の 2 つのオブジェクトが存在する場合、2 つのクラスターをリンクできます。 親しい友人対応する通信距離を超えないようにします。

つまり、「最近傍規則」を使用してクラスター間の距離を決定します。 この方式をシングルリンク方式と呼びます。 このルールは、「繊維状」クラスターを構築します。 クラスターは、たまたま他の要素よりも互いに接近している個々の要素によってのみ「一緒にリンク」されています。

または、他のすべてのフィーチャ ペアの中で互いに最も離れているクラスター内のネイバーを使用できます。 この方式をフルリンク方式と呼びます。 これまで説明してきた方法と同様に、クラスターに参加する方法は他にもたくさんあります。

  • 単一接続 (最近傍法)。
  • 前述のように、この方法では、2 つのクラスター間の距離は、異なるクラスター内の 2 つの最も近いオブジェクト (最近傍) 間の距離によって決定されます。

    このルールは、ある意味でオブジェクトをつなぎ合わせてクラスタを形成する必要があり、結果として得られるクラスタは長い「文字列」で表される傾向があります。

  • 完全接続 (最も離れた隣人の方法)。
  • この方法では、クラスター間の距離は、異なるクラスター内の任意の 2 つのオブジェクト間の最大距離 (つまり、「最も遠い隣人」) として定義されます。

    この方法は通常、オブジェクトが実際にはまったく異なる「木立」に由来する場合に非常にうまく機能します。

    クラスターが何らかの形で細長い場合、またはクラスターの本来のタイプが「チェーン」である場合、この方法は適していません。

  • 重み付けされていないペアごとの平均。
  • この方法では、2 つの異なるクラスター間の距離は、それらのオブジェクトのすべてのペア間の平均距離として計算されます。 この方法は、オブジェクトが実際に異なる「木立」を形成している場合に効果的ですが、拡張された (「チェーン」タイプ) クラスターの場合にも同様に機能します。

    Sneath と Sokal (1973) の著書では、略語 UPGMA を導入して、この方法を算術平均を使用した重み付けされていないペアグループ法と呼んでいることに注意してください。

  • 加重ペアワイズ平均。
  • この方法は、それぞれのクラスターのサイズ (つまり、クラスターに含まれるオブジェクトの数) が計算の加重係数として使用されることを除いて、重み付けされていないペアワイズ平均法と同じです。 したがって、提案された方法は、不均等なクラスタ サイズが想定される場合に使用する必要があります。

    Sneath と Sokal (1973) は、この方法を算術平均を使用する加重ペアグループ法と呼ぶために、略語 WPGMA を導入しました。

  • 重み付けされていない重心法。
  • この方法では、2 つのクラスター間の距離は、それらの重心間の距離として定義されます。

    Sneath と Sokal (1973) は頭字語 UPGMC を使用して、この方法を重心平均を使用する重み付けされていないペアグループ法と呼んでいます。

  • 加重重心法 (中央値)。
  • この方法は前の方法と同じですが、計算で重みを使用してクラスター サイズの違い (つまり、クラスター内のオブジェクトの数) を考慮に入れる点が異なります。

    したがって、クラスター サイズに大きな違いがある (または疑われる) 場合は、前の方法よりもこの方法をお勧めします。

    Sneath と Sokal (1973) は、略語 WPGMC を使用して、重心平均を使用した加重ペアグループ法と呼んでいました。

  • ワード方式。
  • この方法は、ANOVA 方法を使用してクラスター間の距離を推定するため、他のすべての方法とは異なります。 この方法では、各ステップで形成できる任意の 2 つの (仮想) クラスターの平方和 (SS) を最小化します。

    詳細については、Ward (1963) を参照してください。 一般に、この方法は非常に効率的であるように見えますが、小さなクラスターが作成される傾向があります。

双方向ユニオン

この方法については、クラスタ化する必要がある「オブジェクト」に関して以前に説明しました。 他のすべてのタイプの分析では、研究者が関心を持っている問題は通常、観測または変数の観点から表現されます。 観測と変数の両方によるクラスタリングは、非常に興味深い結果につながることがわかりました。

たとえば、医学研究者が心臓病患者の状態 (観察) のさまざまな特徴 (変数) に関するデータを収集しているとします。 研究者は、同様の症状を持つ患者のクラスターを特定するために、(患者の) 観察結果をクラスター化することを希望する場合があります。

同時に、研究者は変数をクラスター化して、同様の物理的状態に関連する変数のクラスターを特定したいと考えるかもしれません。 観測値または変数のどちらをクラスター化するかについてのこの議論の後、なぜ両方の方向でクラスター化しないのかと疑問に思うかもしれません。

クラスター分析モジュールには、まさにそれを行うための効率的な双方向結合手順が含まれています。 ただし、観測と変数の両方が意味のあるクラスターの発見に同時に寄与すると予想される状況では、双方向プーリングが (比較的まれに) 使用されます。

したがって、前の例に戻ると、医学研究者は、特定の体調特性のクラスターに関して類似している患者のクラスターを特定する必要があると想定できます。

得られた結果の解釈が難しいのは、異なるクラスター間の類似性が、変数のサブセットの違いに起因する (またはその原因である) 可能性があるという事実から生じます。 したがって、結果のクラスターは本質的に異種です。

おそらく、最初は少しぼんやりしているように見えます。 実際、説明されている他のクラスター分析方法と比較して、双方向プーリングはおそらく最も一般的に使用されていない方法です。 ただし、一部の研究者は、探索的データ分析のための強力なツールを提供すると信じています (詳細については、この方法に関する Hartigan の説明 (Hartigan、1975) を参照してください)。

Kはメソッドを意味します

このクラスタリング方法は、ユニオン (ツリー クラスタリング) や双方向ユニオンなどの凝集方法とは大きく異なります。 クラスターの数に関する仮説が既にあるとします (観測または変数による)。

可能な限り異なるように、正確に 3 つのクラスターを形成するようにシステムに指示できます。 これは、まさに K-Means アルゴリズムが解決するタイプの問題です。 一般に、K 平均法は、可能な限り離れた間隔で正確に K 個の異なるクラスターを構築します。

身体状態の例では、医療研究者は、臨床経験から、患者が一般的に 3 つの異なるカテゴリに分類されるという「予感」を持っている場合があります。 次に、彼は自分の直感が数値的に検証できるかどうか、つまり、K 平均のクラスター分析が実際に期待どおりに患者の 3 つのクラスターを生成するかどうかを知りたいと思うかもしれません。

もしそうなら、各クラスターの物理的パラメーターの様々な測定値の平均は、研究者の仮説を表す定量的な方法を提供します (例えば、クラスター 1 の患者は 1 の高いパラメーターを持ち、2 の低いパラメーターを持つなど)。

計算上の観点からは、この方法は「逆の」分散分析と考えることができます。

プログラムは、ランダムに選択された K 個のクラスターから開始し、オブジェクトの所属を次のように変更します。

  1. クラスター内の変動を最小限に抑えます。
  2. クラスター間の変動性を最大化します。

この方法は、分散分析 (ANOVA) の有意性検定が、グループ平均が互いに異なるという仮説をテストする際にグループ間とグループ内の変動性を比較するという点で、逆分散分析 (ANOVA) に似ています。

K-means クラスタリングでは、分散分析 (ANOVA) を実行するときに最も有意な結果を得るために、プログラムはオブジェクト (つまり、観測値) をあるグループ (クラスター) から別のグループ (クラスター) に移動します。 通常、K-means クラスター分析の結果が得られたら、各次元の各クラスターの平均を計算して、クラスターが互いにどのように異なるかを評価できます。

理想的には、分析で使用される測定値のすべてではないにしても、ほとんどについて非常に異なる平均値を取得する必要があります。 各次元で取得された F 統計値は、対応する次元がクラスター間でどの程度識別されているかを示すもう 1 つの指標です。

出典:「biometrica.tomsk.ru」

特性によるオブジェクトの分類

クラスター分析 (クラスター分析) - 特性に従ってオブジェクトを分類し、オブジェクトのセットを定義基準に関して近い均質なグループに分割し、特定のグループのオブジェクトを選択するための多次元統計手法のセット。

クラスターとは、オブジェクト間の類似性または相違点の所定の尺度に基づくクラスター分析の結果として識別されるオブジェクトのグループです。 オブジェクトは、分類する必要がある特定の研究テーマです。 分類のオブジェクトは、原則として観察です。 たとえば、製品、国または地域、製品などの消費者。

変数によるクラスター分析を実行することは可能ですが。 多変量クラスター分析におけるオブジェクトの分類は、いくつかの基準に従って同時に行われます.これらは、クラスター分析の方法に応じて、量的変数とカテゴリ変数の両方になる可能性があります. したがって、クラスター分析の主な目的は、サンプル内の類似オブジェクトのグループを見つけることです。

クラスター分析の多次元統計手法のセットは、階層的手法 (凝集型および除算型) と非階層型 (k-means 法、2 段階クラスター分析) に分けることができます。

ただし、一般的に受け入れられている方法の分類はなく、クラスター分析方法には決定木を構築する方法が含まれることもあります。 ニューラル ネットワーク、判別分析、ロジスティック回帰。

クラスター分析の範囲は、その汎用性により非常に広範囲です。 クラスター分析は、経済学、マーケティング、考古学、医学、心理学、化学、生物学、行政学、文献学、人類学、社会学などの分野で使用されています。

クラスター分析を適用する例を次に示します。

  • 医学 - 疾患の分類、その症状、治療方法、患者グループの分類;
  • マーケティング - 会社の製品ラインを最適化し、商品または消費者のグループごとに市場を分割し、潜在的な消費者を特定するタスク。
  • 社会学 - 回答者を均質なグループに分割する。
  • 精神医学 - 治療の成功には、症状群の正確な診断が不可欠です。
  • 生物学 - グループによる生物の分類;
  • 経済 - 投資の魅力によるロシア連邦の主題の分類。

出典:「statmethods.ru」

クラスター分析に関する一般情報

クラスター分析には、さまざまな分類アルゴリズムのセットが含まれています。 多くの分野の研究者から寄せられる一般的な質問は、観察されたデータを視覚的な構造に整理する方法です。

たとえば、生物学者は動物を異なる種に分解して、それらの違いを意味のある形で説明することを目指しています。

クラスター分析のタスクは、オブジェクトの初期セットを類似した近接オブジェクトのグループに分割することです。 これらのグループはクラスターと呼ばれます。

つまり、クラスター分析は、オブジェクトをその特徴に従って分類する方法の 1 つです。 分類結果には意味のある解釈があることが望ましい。

クラスター分析法によって得られた結果は、さまざまな分野で使用されます。

  1. マーケティングでは、競合他社と消費者のセグメンテーションです。
  2. 精神医学では、パラノイア、統合失調症などの症状を正しく診断することが治療の成功に不可欠です。
  3. 管理では、サプライヤーの分類が重要であり、結婚が発生する同様の生産状況を特定します。
  4. 社会学において、回答者を均質なグループに分割すること。
  5. ポートフォリオ投資では、株式市場について得られた情報に基づいて、一定のリスクに対して投資収益率を最大化できる最適な投資ポートフォリオを作成するために、収益率の傾向の類似性に従って証券をグループ化することが重要です。 .

実際、クラスター分析は、人間の生活のあらゆる分野でうまく機能していることが証明されています。 一般に、この種の大量の情報を分類し、さらに処理するのに適した形式で提示する必要がある場合はいつでも、クラスター分析が非常に有用で効果的であることがわかります。

クラスター分析により、かなり大量の情報を考慮し、社会経済情報の大量の配列を大幅に圧縮して、それらをコンパクトで視覚的にすることができます。

クラスター分析は、時系列の特徴付けのセットに関連して非常に重要です 経済発展(例えば、一般的な経済と商品の組み合わせ)。

ここでは、対応する指標の値が非常に近い期間を選び出し、ダイナミクスが最も類似している時系列のグループを決定することができます。 社会経済予測の問題では、クラスター分析を他の定量的手法 (回帰分析など) と組み合わせることが非常に有望です。

長所と短所

クラスター分析により、多くの特徴によって特徴付けられるオブジェクトの客観的な分類が可能になります。 これにより、次のような多くの利点が得られます。

  • 結果として得られるクラスターは、解釈することができます。つまり、実際に存在するグループの種類を説明することができます。
  • 個々のクラスターを選別できます。 これは、データセットで特定のエラーが発生した場合に役立ちます。その結果、個々のオブジェクトのインジケーターの値が急激に逸脱します。 クラスター分析を適用すると、そのようなオブジェクトは別のクラスターに分類されます。
  • さらに分析するために、対象の特性を持つクラスターのみを選択できます。

他の方法と同様に、クラスター分析には特定の欠点と制限があります。 特に:

  1. クラスターの構成と数は、選択した分割基準によって異なります。
  2. 元のデータ配列をよりコンパクトな形式に縮小すると、特定の歪みが発生する場合があります。
  3. 個々のオブジェクトの個々の機能は、クラスターパラメーターの一般化された値の特性によって置き換えられるため、失われる可能性があります。

メソッド

現在、100 を超える異なるクラスタリング アルゴリズムが知られています。 それらの多様性は、さまざまな計算方法だけでなく、クラスタリングの基礎となるさまざまな概念によっても説明されます。 1 つまたは別のクラスタリング方法を選択するための推奨事項を提供できるのは、 一般的に言えば、そして主な選択基準は結果の実際的な有用性です。

Statistica パッケージは、次のクラスタリング方法を実装しています。

  • 階層アルゴリズム - ツリー クラスタリング。 階層アルゴリズムは、シーケンシャル クラスタリングの考え方に基づいています。 最初のステップでは、各オブジェクトは個別のクラスターと見なされます。 次のステップでは、互いに最も近いクラスターのいくつかが別のクラスターに結合されます。
  • K 平均法。 この方法は、最も一般的に使用されます。 これは、クラスター分析のいわゆる参照方法のグループに属します。 クラスタ数 K はユーザーが設定します。
  • 双方向の関連付け。 この方法を使用すると、クラスタリングは変数 (列) と観測結果 (行) の両方によって同時に実行されます。

双方向の結合手順は、変数と観測値の同時クラスタリングで意味のある結果が得られると予想される場合に実行されます。

手続きの結果は、 記述統計データ値が色分けされた 2 次元カラー チャートと同様に、変数とケースによって。 色の分布によって、均質なグループのアイデアを得ることができます。

変数の正規化

オブジェクトの初期セットのクラスターへの分割は、オブジェクト間の距離の計算とオブジェクトの選択に関連付けられています。オブジェクト間の距離は可能な限り最小です。 最も一般的に使用されるのは、私たち全員になじみのあるユークリッド (幾何学的) 距離です。 このメトリックは、空間内のオブジェクトの近接性に関する直感的なアイデアに対応しています (オブジェクト間の距離を巻尺で測定したかのように)。

ただし、特定のメトリックの場合、オブジェクト間の距離は、スケール (測定単位) の変更によって大きく影響を受ける可能性があります。 たとえば、フィーチャの 1 つがミリメートル単位で測定され、その値がセンチメートルに変換された場合、オブジェクト間のユークリッド距離は劇的に変化します。 これにより、クラスター分析の結果が以前のものと大きく異なる可能性があるという事実につながります。

変数が異なる測定単位で測定される場合、それらの予備的な正規化、つまり初期データの変換が必要です。これにより、変数は無次元量に変換されます。

正規化により、元の空間のジオメトリが大きく歪められ、クラスタリングの結果が変わる可能性があります。 Statistica パッケージでは、変数 x は次の式に従って正規化されます。

これを行うには、変数名を右クリックし、開いたメニューから一連のコマンドを選択します: Fill/Standardize Block/Standardize Columns. 正規化された変数の値はゼロになり、分散は 1 になります。

Statistica の K 平均法

K-means メソッドは、オブジェクトのセットを、互いに可能な限り最大の距離にある指定された数 K の異なるクラスターに分割します。 通常、K-means クラスター分析の結果が得られると、各次元の各クラスターの平均を計算して、クラスターが互いにどのように異なるかを評価できます。

理想的には、分析で使用されるほとんどの測定値について、非常に異なる平均値を取得する必要があります。 各次元で取得された F 統計値は、対応する次元がクラスター間でどの程度識別されているかを示すもう 1 つの指標です。

例として、ある企業の 17 人の従業員を対象に、キャリアの質の指標に対する満足度を調査した結果を考えてみましょう。 この表には、アンケートの質問に対する回答が 10 段階 (1 ~ 最小スコア、10 - 最大)。

変数名は、次の質問に対する回答に対応しています。

  1. SLT - 個人の目標と組織の目標の組み合わせ。
  2. OSO - 賃金の公平感;
  3. TBD - 家への領土の近さ。
  4. PEW - 経済的な幸福感;
  5. CR - キャリアの成長;
  6. ZhSR - 転職したいという願望;
  7. OSB は、社会的幸福感です。


このデータを使用して、従業員をグループに分け、それぞれに最も効果的なコントロール レバーを選択する必要があります。 同時に、グループ間の違いは明らかであるべきであり、グループ内では、回答者は可能な限り類似していなければなりません。

今日まで、ほとんどの社会学的調査は投票の割合のみを示しています。肯定的な回答の主な数、または不満を持っている人の割合が考慮されていますが、この問題は体系的に考慮されていません。 ほとんどの場合、調査では状況の傾向が示されません。

クラスター分析手順を使用して、調査データに基づいて、実際に存在するフィーチャの関係を特定し、これに基づいてそれらの類型を生成できます。 クラスター分析手順の操作中に社会学者の先験的な仮説が存在することはありません。 必要条件.

Statistica プログラムでは、クラスター分析は次のように実行されます。

  1. データ ファイルを作成します。
  2. Statistics/Multivariable Exploratory Techniques/Cluster Analysis モジュールを選択します。 [OK] をクリックすると、ダイアログ ボックスが表示されます。

  3. 表示されるウィンドウで、K-means クラスタリング方法を選択し、[OK] をクリックします。
  4. 表示されるダイアログボックスで、 以下の設定:


    • 変数ボタンで変数を選択します。
    • クラスタリング オブジェクトを選択します。これらは、変数 - 列 (変数列)、または観測値 - 行 (ケース (行)) にすることができます。 まず、行ごとにクラスター化しましょう (Cases(rows))。
    • クラスターの数を選択します。
      この選択は、類似オブジェクトのグループ数に関する独自の仮定に基づいて、ユーザーが行います。

      クラスターの数を選択するときは、次のことを参考にしてください。

      1. 可能であれば、クラスターの数はあまり多くしないでください。
      2. 特定のクラスターのオブジェクトが結合された距離は、可能であれば、他の何かがこのクラスターに結合する距離よりもはるかに短くする必要があります。
      クラスターの数を選択するとき、ほとんどの場合、同時にいくつかの正しい解が存在します。 たとえば、アンケートの質問に対する回答が、一般の従業員や企業の経営陣とどのように関連しているかに関心があります。 したがって、K=2 を選択します。 さらにセグメンテーションするために、クラスターの数を増やすことができます。
    • 次に、オブジェクトのクラスターへの最初の分割 (初期クラスター センター) を選択する必要があります。 Statistica パッケージは以下を提供します。
      1. クラスターの中心間の距離が最大の観測を選択します。
      2. 一定の間隔で距離をソートし、観測を選択します (デフォルト設定)。
      3. 最初の観測センターを取り、残りのオブジェクトをそれらに取り付けます。

      私たちの目的には、最初のオプションが適しています。

多くのクラスタリング アルゴリズムは、多くの場合、データに固有ではない構造を「押し付け」、研究者を混乱させます。 したがって、いくつかのクラスター分析アルゴリズムを適用し、アルゴリズムの結果の一般的な評価に基づいて結論を導き出すことが非常に必要です。

分析の結果は、表示されるダイアログ ボックスで確認できます。

平均のグラフ タブを選択すると、クラスター中心の座標のグラフがプロットされます。


このグラフの各破線は、クラスターの 1 つに対応しています。

  • グラフの横軸の各区分は、分析に含まれる変数の 1 つに対応します。
  • 縦軸は、各クラスターに含まれるオブジェクトの変数の平均値に対応します。

ほとんどすべての問題について、2 つのグループの人々のサービスキャリアに対する態度に大きな違いがあることに注意してください。 社会的幸福(OSB)の意味で、またはむしろそれの欠如(10点満点中2.5点)という意味で、完全な全会一致があるのは1つの問題だけです。

次のように仮定できます。

  1. クラスター 1 はワーカーを表示し、
  2. クラスター 2 - リーダーシップ:
    • マネージャーは、個人の目標と組織の目標 (SOL) の組み合わせであるキャリア開発 (CR) に満足しています。
    • 彼らは、より高い経済的幸福感 (SEW) と賃金平等感 (SWA) を持っています。
    • おそらく交通機関の問題が少ないため、彼らは労働者よりも自宅への近さについてあまり心配していません。
    • また、管理職の転職意欲も低い(JSR)。

労働者は 2 つのカテゴリーに分けられますが、ほとんどの質問に対して比較的同じ答えを返します。 言い換えれば、何かが従業員の一般的なグループに適していない場合、同じことが上級管理職には適していません。逆もまた同様です。

グラフの調和により、あるグループの幸福が別のグループの幸福に反映されていると結論付けることができます。

クラスタ 1 は、家屋への領土の近接性に満足していません。 このグループは、主に市内のさまざまな場所から企業に来る労働者の主要な部分です。 したがって、企業の従業員のための住宅の建設に利益の一部を割り当てるためにトップマネジメントを提供することが可能です。

サービスキャリアに対する2つのグループの人々の態度には、大きな違いがあります。

  1. キャリアアップに満足し、個人の目標と組織の目標の一致度が高い従業員は、転職意欲がなく、仕事の成果に満足しています。
  2. 逆に、転職希望者で仕事の成果に不満を持っている社員は、上記の指標に満足していません。

上級管理職は、現在の状況に特に注意を払う必要があります。

[分散分析] ボタンをクリックすると、各属性の分散分析の結果が表示されます。

出力:

  • クラスター中心からのオブジェクト偏差の二乗和 (SS 内)、
  • クラスター中心間の二乗偏差の合計 (SS 間)、
  • F統計値、
  • 有意水準 p.
この例では、2 つの変数の有意水準が非常に大きく、これは観測数が少ないことで説明されます。 論文に記載されている研究の完全版では、クラスター中心の平均が等しいという仮説は、0.01 未満の有意水準で棄却されています。

[分類と距離を保存] ボタンには、各クラスターに含まれるオブジェクトの数と、各クラスターの中心までのオブジェクトの距離が表示されます。

各クラスターの構成と中心からのオブジェクトの距離

この表は、クラスターを構成するケース番号 (CASE_NO) を CLUSTER 番号と、各クラスターの中心からの距離 (DISTANCE) で示しています。

クラスターに属するオブジェクトに関する情報をファイルに書き込んで、さらなる分析に使用できます。 この例では、アンケートで得られた結果を比較すると、クラスター 1 は主に一般の従業員で構成され、クラスター 2 は管理職で構成されていることがわかりました。

このように、調査の結果を処理するとき、クラスタ分析は、平均のヒストグラムを作成したり、さまざまな指標に満足している人の割合を計算したりしても到達できない結論を導き出すことができる強力な方法であることが判明したことに注意してください。働く生活の質。

ツリー クラスタリングは、階層型アルゴリズムの一例です。このアルゴリズムの原則は、最初に最も近い要素を順番にクラスタ化し、次に、互いに離れた要素をクラスタにクラスタ化することです。 これらのアルゴリズムのほとんどは類似度 (距離) のマトリックスから始まり、個々の要素は最初は個別のクラスターと見なされます。

クラスター分析モジュールをロードし、結合 (ツリー クラスター化) を選択した後、クラスター化パラメーター入力ウィンドウで次のパラメーターを変更できます。

  1. 初期データ (入力)。 それらは、調査されたデータ (生データ) の行列の形式と、距離の行列 (距離行列) の形式である可能性があります。
  2. オブジェクトの状態を説明するクラスタリング (クラスター) 観測 (ケース (生)) または変数 (変数 (列))。
  3. 距離測定。 ここでは、次の手段から選択できます。
    • ユークリッド距離、
    • 二乗ユークリッド距離、
    • 都市ブロックの距離 (マンハッタン距離、都市ブロック (マンハッタン) 距離)、チェビシェフ距離メトリック、
    • パワー距離 (パワー…;),
    • パーセントの不一致。
  4. クラスタリングの方法(融合(連鎖)ルール)。
    ここでは、次のオプションを使用できます。
    • シングルリンク(最近傍法)(Single Linkage)、
    • 完全リンク(最遠隣人法)(Complete Linkage)、
    • 重み付けされていないペアグループの平均、
    • 加重ペアグループ平均、
    • unweighted centroid method (Unweighted pair-group centroid),
    • 加重重心法(中央値)(加重ペアグループ重心(中央値))、
    • ウォードの方法。

クラスタリングの結果、水平または垂直のデンドログラムが作成されます。これは、オブジェクトとクラスターを順次組み合わせたときにオブジェクトとクラスター間の距離が決定されるグラフです。

グラフのツリー構造により、選択したしきい値 (クラスター間の特定の距離) に応じてクラスターを定義できます。

さらに、元のオブジェクト間の距離のマトリックス (距離マトリックス) が表示されます。 各ソース オブジェクトの平均偏差と標準偏差 (分布統計)。 考慮される例として、デフォルト設定で変数のクラスター分析を実行します。 結果のデンドログラムを図に示します。


デンドログラムの縦軸は、オブジェクト間およびオブジェクトとクラスター間の距離をプロットします。 したがって、変数 SEB と OSD の間の距離は 5 です。 これらの変数は、最初のステップで 1 つのクラスターに結合されます。

デンドログラムの水平セグメントは、特定のクラスタリング ステップで選択されたしきい値距離に対応するレベルで描画されます。

グラフから、「転職希望」(JSR)という質問が別のクラスターを形成していることが分かります。 一般に、どこにでも捨てたいという欲求は、誰にでも平等に訪れます。 さらに、別のクラスターは、家への領土の近接性(LHB)の問題です。

重要性の点では、K-means 法を使用した調査の結果に基づいて作成された住宅建設の必要性についての結論を確認するのは 2 位です。

経済的幸福感 (PEW) と賃金衡平感 (PWF) が組み合わされています。これは経済問題のブロックです。 キャリア(CR)と個人の目標と組織の目標の組み合わせ(SOL)も組み合わされます。

他の種類の距離の選択と同様に、他のクラスタリング方法では、デンドログラムに大きな変化はありません。

結果

  1. クラスター分析は、探索的データ分析とあらゆる分野の統計調査のための強力なツールです。
  2. Statistica プログラムは、クラスター分析の階層的方法と構造的方法の両方を実装しています。 この統計パッケージの利点は、そのグラフィカルな機能によるものです。 オブジェクトをグループ化するための階層的な手順の結果と同様に、調査された変数の空間で得られたクラスターの 2 次元および 3 次元のグラフィック表示が提供されます。
  3. いくつかのクラスター分析アルゴリズムを適用し、アルゴリズムの結果の一般的な評価に基づいて結論を導き出す必要があります。
  4. クラスター分析は、実行された場合に成功したと見なすことができます 違う方法、結果が比較され、一般的なパターンが検出されるだけでなく、クラスタリング方法に関係なく安定したクラスターが検出されます。
  5. クラスター分析により、 問題のある状況そしてそれらを解決する方法を概説します。 したがって、このノンパラメトリック統計の方法は、次のように考えることができます。 構成部分システム分析。

入力タイプ

  • オブジェクトの示唆的な説明。 各オブジェクトは、と呼ばれる一連の特性によって記述されます。 標識. 機能は、数値または非数値にすることができます。
  • オブジェクト間の距離行列。 各オブジェクトは、トレーニング サンプル内の他のすべてのオブジェクトまでの距離によって記述されます。

距離行列オブジェクトの特徴記述の行列から計算できます 無限の数機能記述間の距離関数 (メトリック) の導入方法によって異なります。 ユークリッド メトリックがよく使用されますが、ほとんどの場合、この選択はヒューリスティックであり、利便性のみを考慮したものです。

逆の問題 - オブジェクト間のペアワイズ距離の行列による特徴記述の復元 - は、一般に解がなく、近似解は一意ではなく、重大なエラーが発生する可能性があります。 この問題は、多次元スケーリング法によって解決されます。

したがって、クラスタリングの問題の定式化による 距離行列より一般的です。 一方、機能の説明がある場合は、多くの場合、より多くの機能を構築できます。 効果的な方法クラスタリング。

クラスタリングの目的

  • クラスター構造を特定してデータを理解する。 サンプルを類似オブジェクトのグループに分割すると、各クラスターに独自の分析方法を適用することで、さらなるデータ処理と意思決定を簡素化できます (「分割統治」戦略)。
  • データ圧縮。 初期サンプルが大きすぎる場合は、各クラスターから最も典型的な代表の 1 つを残して、サンプルを減らすことができます。
  • ノベルティの検出。 どのクラスタにもアタッチできない特殊なオブジェクトが選択されます。

最初のケースでは、クラスターの数を少なくしようとします。 2 番目のケースでは、各クラスター内のオブジェクトの高い (または一定の) 類似度を確保することがより重要であり、任意の数のクラスターが存在する可能性があります。 3 番目のケースでは、どのクラスターにも当てはまらない個々のオブジェクトが最も重要です。

これらすべてのケースで、大きなクラスターが小さなクラスターに分割され、さらに小さなクラスターに分割される場合などに、階層的クラスタリングを適用できます。このようなタスクは分類タスクと呼ばれます。

分類の結果は、ツリーのような階層構造になります。 さらに、各オブジェクトは、通常、大きいものから小さいものまで、それが属するすべてのクラスターの列挙によって特徴付けられます。 視覚的には、分類法は樹状図と呼ばれるグラフとして表されます。

類似性に基づく分類法の典型的な例は、 生物の二項命名法 18世紀半ばにカール・リンネが提唱。 同様の体系化は、情報を合理化するために多くの知識分野で構築されています。 大量にオブジェクト。

距離関数

クラスタリング方法

  • 統計的クラスタリング アルゴリズム
  • 階層的クラスタリングまたは分類法

クラスタリング問題の公式声明

をオブジェクトのセット、クラスターの番号 (名前、ラベル) のセットとします。 オブジェクト間の距離関数が与えられます。 オブジェクトの有限のトレーニング セットがあります。 サンプルを重複しないサブセットに分割する必要があります。 クラスターであるため、各クラスターはメトリック に近いオブジェクトで構成され、異なるクラスターのオブジェクトは大きく異なります。 この場合、各オブジェクトにはクラスター番号が割り当てられます。

クラスタリング アルゴリズム任意のオブジェクトをクラスター番号に関連付ける関数です。 場合によってはセットが事前にわかっていますが、より多くの場合、タスクは、いずれかの観点から最適なクラスター数を決定することです。 品質基準クラスタリング。

クラスタリング (教師なし学習) は、元のオブジェクトのラベルが最初に設定されておらず、セット自体が不明な場合があるという点で、分類 (教師あり学習) とは異なります。

クラスタリングの問題の解決策は根本的にあいまいであり、これにはいくつかの理由があります。

  • クラスタリングの品質について、一意に最適な基準はありません。 多くのヒューリスティックな基準が知られていますが、明確に定義された基準を持たないが、「構造によって」かなり合理的なクラスタリングを実行するアルゴリズムも数多くあります。 それらのすべてが異なる結果をもたらす可能性があります。
  • 通常、クラスターの数は事前に不明であり、何らかの主観的な基準に従って設定されます。
  • クラスタリングの結果はメトリックに大きく依存します。メトリックの選択は、原則として主観的であり、専門家によって決定されます。

リンク

  • ボロンツォフ K.V. 先例による数学教育法。 モスクワ物理工科大学 (2004)、VMiK MSU (2007)。
  • セルゲイ・ニコレンコ。 講義スライド「クラスタリングアルゴリズム1」と「クラスタリングアルゴリズム2」。 コース「自己学習システム」。

文学

  1. Aivazyan S. A.、Buchstaber V. M.、Enyukov I. S.、Meshalkin L. D.応用統計: 分類と次元削減。 - M.: 金融と統計、1989 年。
  2. Zhuravlev Yu. I.、Ryazanov V. V.、Senko O. V."認識"。 数学的方法. ソフトウェアシステム。 実用的なアプリケーション。 - M.: Fazis, 2006. .
  3. ザゴルイコ N. G.データおよび知識分析の応用方法。 - ノボシビルスク: IM SO RAN、1999 年。
  4. マンデル I.D.クラスター分析。 - M.: 金融と統計、1988 年。
  5. Shlesinger M.、Glavach V.統計的および構造的認識に関する 10 回の講義。 - キエフ: Naukova Dumka、2004 年。
  6. Hastie T.、Tibshirani R.、Friedman J.統計学習の要素。 - スプリンガー、2001. .

入力タイプ

  • オブジェクトの示唆的な説明。 各オブジェクトは、と呼ばれる一連の特性によって記述されます。 標識. 機能は、数値または非数値にすることができます。
  • オブジェクト間の距離行列。 各オブジェクトは、トレーニング サンプル内の他のすべてのオブジェクトまでの距離によって記述されます。

クラスタリングの目的

  • クラスター構造を特定してデータを理解する。 サンプルを類似オブジェクトのグループに分割すると、各クラスターに独自の分析方法を適用することで、さらなるデータ処理と意思決定を簡素化できます (「分割統治」戦略)。
  • データ圧縮。 初期サンプルが大きすぎる場合は、各クラスターから最も典型的な代表の 1 つを残して、サンプルを減らすことができます。
  • ノベルティ検出。 ノベルティ検出)。 どのクラスタにもアタッチできない特殊なオブジェクトが選択されます。

最初のケースでは、クラスターの数を少なくしようとします。 2 番目のケースでは、各クラスター内のオブジェクトの高度な類似性を確保することがより重要であり、任意の数のクラスターが存在する可能性があります。 3 番目のケースでは、どのクラスターにも当てはまらない個々のオブジェクトが最も重要です。

これらすべてのケースで、大きなクラスターが小さなクラスターに分割され、さらに小さなクラスターに分割される場合などに、階層的クラスタリングを適用できます。このようなタスクは分類タスクと呼ばれます。

分類の結果は、ツリーのような階層構造になります。 さらに、各オブジェクトは、通常、大きいものから小さいものまで、それが属するすべてのクラスターの列挙によって特徴付けられます。

類似性に基づく分類法の古典的な例は、18 世紀半ばにカール リンネによって提案された生物の二項命名法です。 多数のオブジェクトに関する情報を整理するために、同様の体系化が多くの知識分野で構築されています。

クラスタリング方法

クラスタリング問題の公式声明

をオブジェクトのセット、クラスターの番号 (名前、ラベル) のセットとします。 オブジェクト間の距離関数が与えられます。 オブジェクトの有限のトレーニング セットがあります。 サンプルを重複しないサブセットに分割する必要があります。 クラスターであるため、各クラスターはメトリック に近いオブジェクトで構成され、異なるクラスターのオブジェクトは大きく異なります。 この場合、各オブジェクトにはクラスター番号が割り当てられます。

クラスタリング アルゴリズム任意のオブジェクトをクラスター番号に関連付ける関数です。 場合によってはセットが事前にわかっていますが、より多くの場合、タスクは、いずれかの観点から最適なクラスター数を決定することです。 品質基準クラスタリング。

文学

  1. Aivazyan S. A.、Buchstaber V. M.、Enyukov I. S.、Meshalkin L. D.応用統計: 分類と次元削減。 - M.: 金融と統計、1989 年。
  2. Zhuravlev Yu. I.、Ryazanov V. V.、Senko O. V."認識"。 数学的方法。 ソフトウェアシステム。 実用的なアプリケーション。 - M.: Fazis、2006 年。ISBN 5-7036-0108-8。
  3. ザゴルイコ N. G.データおよび知識分析の応用方法。 - ノボシビルスク: IM SO RAN、1999 年。ISBN 5-86134-060-9。
  4. マンデル I.D.クラスター分析。 - M.: 金融と統計、1988 年。ISBN 5-279-00050-7。
  5. Shlesinger M.、Glavach V.統計的および構造的認識に関する 10 回の講義。 - キエフ: Naukova Dumka、2004 年。ISBN 966-00-0341-2。
  6. Hastie T.、Tibshirani R.、Friedman J.統計学習の要素。 - スプリンガー、2001 年。ISBN 0-387-95284-5。
  7. ジェイン・マーティー・フリンデータ クラスタリング: レビュー . // ACM コンピューティング。 生存。 31 (3) , 1999

外部リンク

ロシア語で

  • www.MachineLearning.ru - 機械学習とデータ マイニングに特化した専門的な wiki リソース
  • S.ニコレンコ。 クラスタリング アルゴリズムに関する講義スライド

英語で

  • COMPACT - クラスタリング評価の比較パッケージ. 無料の Matlab パッケージ、2006 年。
  • P.バーキン、 クラスタリングデータマイニング技術の調査、Accrue Software、2002年。
  • ジェイン、マーティ、フリン: データ クラスタリング: レビュー、ACMコンプ。 サバイバル、1999年。
  • 階層、k-means、およびファジー c-means の別のプレゼンテーションについては、このクラスタリングの紹介を参照してください。 ガウスの混合についての説明もあります。
  • デビッド・ダウ 混合モデリングページ- その他のクラスタリングおよび混合モデルのリンク。
  • クラスタリングのチュートリアル
  • オンライン教科書: 情報理論、推論、および学習アルゴリズム、David J.C. MacKay には、k-means クラスタリング、ソフト k-means クラスタリング、および E-M アルゴリズムと E-M アルゴリズムの変分ビューを含む派生物に関する章が含まれています。
  • 「The Self-Organized Gene」、競合学習と自己組織化マップによるクラスタリングを説明するチュートリアル。
  • kernlab - カーネルベースの機械学習用の R パッケージ (スペクトルクラスタリングの実装を含む)
  • チュートリアル - クラスタリング アルゴリズム (k-means、fuzzy-c-means、階層、ガウス混合) の紹介を含むチュートリアル + インタラクティブなデモ (Java アプレット)
  • データ マイニング ソフトウェア - データ マイニング ソフトウェアは、クラスタリング手法を頻繁に利用します。
  • Java Competitve Learning Application クラスタリング用の教師なしニューラル ネットワークのスイート。 Java で書かれています。 すべてのソースコードを完備。