Fuzzy-C-Means-Algorithmus – Wikipedia
コンピューターサイエンスではそれがあります Fuzzy-C-Means-Algorithmus 、 また Cぼやけの平均値のアルゴリズム 、K-meansクラスタリングアルゴリズムの拡張である克服できないクラスタリングアルゴリズム。 Bezdek(1981)によって一般化された形式で提示されました。 [初め]
C-Meansクラスタリングでは、クラスターの数
最初に決定されました(クラスターの数をクラスタリングするK-meansでは含まれています
ではなく
専用)。最初のステップでは、クラスターセンターはランダムになります
(グラフィックの下の円)。 2番目のステップでは、各オブジェクト(グラフィックの下の長方形)が次のクラスターセンターに割り当てられます。その後、各オブジェクトとその割り当てられたクラスター中心の間の(四角)距離が計算され、すべての観測(
)。目標は次のとおりです
できるだけ小さくするために、i。 H.クラスターセンターの位置を見つけて、すべてのオブジェクトとそれに関連するクラスターセンターの間の距離が小さいようになります。 3番目のステップでは、クラスターに属するオブジェクトからのクラスターセンターが再計算されます。 4番目のステップでは、各オブジェクトに次のクラスターセンターが再び割り当てられます。この手順は、安定した溶液が見つかるまで繰り返されます。次のグラフィックが示すように、オブジェクトは反復プロセスの過程で異なるクラスターに割り当てることができます。グラフィックをステップ2とステップ4と比較します。
-
ステップ1:クラスターセンターのランダム選択
-
ステップ2:クラスターセンターへのオブジェクトの割り当て
-
ステップ3:クラスターセンターの再計算
-
ステップ4:クラスターセンターへのオブジェクトの再計算
k-meansクラスタリングの欠点は、すべてのステップの各オブジェクトが 明らかに クラスターセンターに割り当てられます。その結果、最終的なソリューションは、最初のクラスターセンターの位置の選択に大きく依存できます。もちろん、最初のクラスターセンターの位置とは無関係に、可能な限り明確なソリューションに興味があります。
したがって、Fuzzy-C-Meansアルゴリズムでは、各オブジェクトはクラスターセンターに明確に割り当てられていませんが、各オブジェクトは文の重みです。
特定のクラスターへの属性がどれほど強いかを示す割り当て。たとえば、ウェイトはステップ2の赤いオブジェクトのものである可能性があります
- 青いクラスター用
- 緑色のクラスター用
- 赤いクラスター用になります。
これらのウェイトは、加重距離も取得するためにも使用されます アレン クラスターセンターを計算します。最終的に、特定のクラスターセンターに近いオブジェクトは、このクラスターに大きな重みを持ちます。ステップ4の青色クラスター中心近くの青いオブジェクトは、例えばB.重み
、
と
もつ。緑のクラスターの境界近くの2つの青いオブジェクトは、zをzすることができます。 B.重み
、
と
もつ。
ウェイト
いわゆるファジー番号は各オブジェクトを表します。重みは、各オブジェクトに1つに追加する必要はありません(このセクションでよりよく理解するために作られたように)。名前はまた、K-Meansクラスタリングの派生からのものです ファジー-c-means。
用語 ファジー オブジェクトを1つ以上のクラスターに割り当てることを可能にするクラスター分析の方法について説明します。これは、ある程度の帰属( メンバーシップの学位 ))
オブジェクト
すべてのクラスターに対して
使用されている。毎日
間隔[0、1]にあります。大きな方
、より強いほど
に
。
Fuzzy-C-Meansアルゴリズムのターゲット関数は次のとおりです。
与えます
正方形(真正性)ポイント間の距離
クラスターセンター(プロトタイプ)
マトリックスVから。パーティションマトリックスuには、メンバーシップの学位が与えられます
また。 Cはクラスターの数であり、nデータレコードのサイズです。 「Fuzzi」m(> 1)は、オブジェクトがクラスターにどの程度鋭く割り当てられるかを決定します。 mを無限に走らせると、彼らは近づきます
値
と。 H.ポイントの所属は、すべてのクラスターで同じです。 1に近い場合、クラスタリングはシャープです。 H.所属は0または1でより近いです。実際には、1〜2.5の値が適切であることが判明しました(Stutz(1999)を参照)。その価値
と
ターゲット関数を最小化することで決定されます。したがって、オブジェクトは、四角距離の合計と同じようにクラスターに割り当てられます
最小限になります。最適化は、追加の条件下で行われます。
- 各ポイントについて、すべてのクラスターの所属の合計は1、iです。 H.すべてのために 適用可能です 、
- クラスターは空ではありません。 H.すべてのために 適用可能です
u、v、および
派生。解決策の結果:
と
アルゴリズムは次の手順で構成されています。
- 開始パーティションマトリックスを初期化します
- プロトタイプを計算します 反復ステップr
- パーティションマトリックスを計算します 反復ステップr
- 滝 その後、停止します。それ以外の場合は、ステップ2に戻ります
与えます
小さなしきい値。
スイスの紙幣のデータセットは、100個の実際の100個の偽のスイス1000のフランコニア紙幣で構成されています。 [2] 各紙幣で6つの変数が上げられました。
- 紙幣の幅(幅)、
- 左側の紙幣の高さ(左)、
- 右側の紙幣の高さ(右)、
- 紙幣の上端(上)までの色の圧力の距離、
- 紙幣の下端(下)までの色の圧力の距離と
- 紙幣の色の圧力(対角線)の対角線(右下の左下)。
以下の2つのグラフィックは、スイスの紙幣の最初の2つの主要コンポーネントのK-Meansクラスター分析(左)とFuzzy-C-Meansクラスター分析(右)の結果を示しています。 2つのクラスターセンターは、両方のグラフィックでマークされ、クロスが円にあります。右側のコンパクトクラスターには実際の紙幣が含まれており、残りは偽の紙幣です。
- k-means-Clustering
- K-Meansクラスタリングでは、実際の紙幣と偽の紙幣はほぼ適切に分類されています。青いクラスターに割り当てられた間違った紙幣は1つだけです。クラスタリングに注意する必要があります 6つの変数すべて グラフィックには2つの次元しか表示されていませんが。
- Fuzzy-C-Meansクラスタリング
- さらに多くの観察結果(下の中央)が、実際の紙幣を使用してクラスターに割り当てられています。一見すると、ファジー-CミーンズのクラスタリングはK-meansクラスタリングよりも悪いようです。ただし、グラフィック内のデータポイントのサイズは、メンバーシップ関数の値を示します。クラスターに割り当てられるデータポイントが大きくなるほど、データポイントが小さくなるほど、アルゴリズムはクラスターへの割り当てを介してより不安定になります。中央の下のデータポイントを見ると、データポイントが赤と青の両方のクラスターで非常に小さいことがわかります。 H.メンバーのメンバーの値は、約の両方のクラスターについてここにあります。 。したがって、Fuzzy-C-Meansアルゴリズムは、実際には、これらのデータポイントを割り当てることができるクラスターについて非常に安全ではありません。
- 実際、実際の紙幣はテンプレート(印刷プレート)で印刷されましたが、異なるソースからの偽の紙幣はおそらくさまざまな偽の印刷プレートからのものでもあります。
K-Meansクラスター分析(左)およびSwiss紙幣データのFuzzy-C-Meansクラスター分析(右)の結果。 - クリスチャン・シュトッツ: アプリケーション固有のファジークラスターメソッド (人工知能の論文、Tu Munich)。 Infix、Sankt Augustin 1999。
- ↑ J.C. Bezdek: ファジー対物機能アルゴリズムによるパターン認識 。プレナムプレス、ニューヨーク1981。
- ↑ Bernhard Flury、Hans Riedwyl: 多変量統計:実用的なアプローチ 。第1版。チャップマン&ホール、ロンドン1988、ISBN 978-0-412-30030-1。
Recent Comments