Küme analizi yöntemleri. hiyerarşik yöntemler. Kümeleme analizi, benzer özelliklere göre gruplara ayrılmış verileri incelemek için kullanılan bir algoritmadır.

Selamlar!

Tezimde veri kümeleme algoritmalarının bir incelemesini ve karşılaştırmalı analizini yaptım. Halihazırda toplanmış ve üzerinde çalışılmış materyallerin birileri için ilginç ve faydalı olabileceğini düşündüm.
Makalede kümelemenin ne olduğunu anlattı. Kısmen ek, kısmen İskender'in sözlerini tekrarlayacağım. Ayrıca bu makalenin sonunda, ilgilenenler kaynakçadaki linklerdeki materyalleri okuyabilir.

Ayrıca kuru "diploma" sunum tarzını daha gazeteci bir sunum haline getirmeye çalıştım.

kümeleme kavramı

Kümeleme (veya küme analizi), bir dizi nesneyi küme adı verilen gruplara ayırma görevidir. Her grup içinde "benzer" nesneler olmalı ve farklı grupların nesneleri mümkün olduğunca farklı olmalıdır. Kümeleme ve sınıflandırma arasındaki temel fark, grup listesinin net bir şekilde tanımlanmaması ve algoritma sırasında belirlenmesidir.

Küme analizinin uygulanması Genel görünüm aşağıdaki adımlara kadar kaynar:

Kümeleme için bir nesne örneğinin seçimi.
Örnekteki nesnelerin değerlendirileceği bir dizi değişkenin tanımı. Gerekirse, değişkenlerin değerlerini normalleştirin.
Nesneler arasındaki benzerlik ölçü değerlerinin hesaplanması.
Benzer nesne grupları (kümeler) oluşturmak için küme analizi yönteminin uygulanması.
Analiz sonuçlarının sunumu.

Sonuçları alıp analiz ettikten sonra, seçilen metrik ve kümeleme yöntemini optimal bir sonuç elde edilene kadar ayarlamak mümkündür.

Mesafe ölçüleri

Peki nesnelerin "benzerliği" nasıl belirlenir? İlk önce, her nesne için bir özellik vektörü yapmanız gerekir - kural olarak, bu, örneğin bir kişinin boy-ağırlığı gibi bir dizi sayısal değerdir. Bununla birlikte, nitel (sözde kategorik) özelliklerle çalışan algoritmalar da vardır.

Özellik vektörünü belirledikten sonra, "mesafe" hesaplanırken tüm bileşenlerin aynı katkıyı sağlaması için onu normalleştirebiliriz. Normalleştirme işlemi sırasında, tüm değerler, örneğin [-1, -1] veya .

Son olarak, her bir nesne çifti için aralarındaki "mesafe" ölçülür - benzerlik derecesi. Birçok metrik var, işte sadece ana olanlar:

Farklı ölçüler kullanıldığında kümeleme sonuçları önemli ölçüde farklılık gösterebileceğinden, metrik seçimi tamamen araştırmacıya bağlıdır.

Algoritmaların sınıflandırılması

Kendim için, kümeleme algoritmalarının iki ana sınıflandırmasını belirledim.

Hiyerarşik ve düz.
Hiyerarşik algoritmalar (taksonomi algoritmaları olarak da adlandırılır), ayrık kümeler halinde örneğin tek bir bölümünü oluşturmaz, iç içe bölümler sistemi oluşturur. O. çıktıda, kökü tüm örnek olan ve yapraklar en küçük kümeler olan bir küme ağacı elde ederiz.
Düz algoritmalar, nesnelerin bir bölümünü kümeler halinde oluşturur.
Açık ve bulanık.
Açık (veya örtüşmeyen) algoritmalar, her örnek nesneye bir küme numarası atar; her nesne yalnızca bir kümeye aittir. Bulanık (veya kesişen) algoritmalar, her nesneye, nesnenin kümelerle ilişkisinin derecesini gösteren bir dizi gerçek değer atar. Şunlar. her nesne belirli bir olasılıkla her kümeye aittir.

Kümeleri Birleştirme

Hiyerarşik algoritmaların kullanılması durumunda, kümelerin birbirleriyle nasıl birleştirileceği, aralarındaki “mesafelerin” nasıl hesaplanacağı sorusu ortaya çıkar. Birkaç metrik vardır:

Tek Bağlantı (En Yakın Komşu Mesafeler)
Bu yöntemde, iki küme arasındaki mesafe, farklı kümelerdeki en yakın iki nesne (en yakın komşular) arasındaki mesafe ile belirlenir. Ortaya çıkan kümeler birlikte zincirleme eğilimindedir.
Tam bağlantı (en uzak komşuların mesafesi)
Bu yöntemde, kümeler arasındaki mesafeler, farklı kümelerdeki herhangi iki nesne arasındaki en büyük mesafeye göre belirlenir (yani en uzak komşular). Bu yöntem, nesneler ayrı gruplardan geldiğinde genellikle çok iyi çalışır. Kümeler uzunsa veya doğal türleri "zincir" ise, bu yöntem uygun değildir.
Ağırlıksız ikili ortalama
Bu yöntemde, iki farklı küme arasındaki mesafe, içindeki tüm nesne çiftleri arasındaki ortalama mesafe olarak hesaplanır. Yöntem, nesneler farklı gruplar oluşturduğunda etkilidir, ancak genişletilmiş ("zincir" tipi) kümeler durumunda eşit derecede iyi çalışır.
Ağırlıklı ikili ortalama
Yöntem, ilgili kümelerin boyutunun (yani içerdikleri nesne sayısı) hesaplamalarda bir ağırlık faktörü olarak kullanılması dışında, ağırlıksız ikili ortalama yöntemiyle aynıdır. Bu nedenle, eşit olmayan küme boyutları beklendiğinde bu yöntem kullanılmalıdır.
Ağırlıksız centroid yöntemi
Bu yöntemde, iki küme arasındaki mesafe, ağırlık merkezleri arasındaki mesafe olarak tanımlanır.
Ağırlıklı centroid yöntemi (medyan)
Bu yöntem, hesaplamaların küme boyutları arasındaki farkları hesaba katmak için ağırlıkları kullanması dışında öncekiyle aynıdır. Bu nedenle, küme boyutlarında önemli farklılıklar varsa veya bundan şüpheleniliyorsa, bu yöntem öncekine tercih edilir.

Algoritmalara Genel Bakış

Hiyerarşik kümeleme algoritmaları

İki ana hiyerarşik kümeleme algoritması türü vardır: artan ve azalan algoritmalar. Yukarıdan aşağıya algoritmalar yukarıdan aşağıya bir temelde çalışır: başlangıçta, tüm nesneler bir kümeye yerleştirilir ve daha sonra daha küçük ve daha küçük kümelere bölünür. Daha yaygın olanı, başlangıçta her özelliği ayrı bir kümeye yerleştiren ve ardından kümeleri, örneklenen tüm özellikler aynı kümede bulunana kadar daha büyük ve daha büyük kümeler halinde birleştiren aşağıdan yukarıya algoritmalardır. Böylece iç içe bölmelerden oluşan bir sistem oluşturulur. Bu tür algoritmaların sonuçları genellikle bir ağaç - bir dendrogram şeklinde sunulur. Böyle bir ağacın klasik bir örneği, hayvanların ve bitkilerin sınıflandırılmasıdır.

Kümeler arasındaki mesafeleri hesaplamak için herkes genellikle iki mesafe kullanır: tek bir bağlantı veya tam bir bağlantı (kümeler arasındaki mesafe ölçümlerine genel bakışa bakın).

Hiyerarşik algoritmaların dezavantajı, çözülmekte olan problem bağlamında gereksiz olabilecek tam bölümler sistemidir.

İkinci Dereceden Hata Algoritmaları

Kümeleme problemi, nesnelerin gruplara optimal bir şekilde bölünmesi olarak düşünülebilir. Bu durumda, optimallik, kök-ortalama-kare bölümleme hatasını en aza indirme gereksinimi olarak tanımlanabilir:

Neresi cj- kümenin "kütle merkezi" j(belirli bir küme için ortalama özellik değerlerine sahip nokta).

Kuadratik hata algoritmaları, düz algoritmalar türündedir. Bu kategorideki en yaygın algoritma k-ortalama yöntemidir. Bu algoritma, mümkün olduğunca uzakta bulunan belirli sayıda küme oluşturur. Algoritmanın çalışması birkaç aşamaya ayrılmıştır:

rastgele seç k kümelerin ilk "kütle merkezleri" olan noktalar.
Her nesneyi en yakın "kütle merkezi" olan kümeye atayın.
Kümelerin "kütle merkezlerini" mevcut bileşimlerine göre yeniden hesaplayın.
Algoritmayı durdurma kriteri karşılanmazsa 2. adıma dönün.

Algoritmanın çalışmasını durdurmak için bir kriter olarak, genellikle ortalama kare hatasındaki minimum değişiklik seçilir. 2. adımda kümeden kümeye taşınan hiçbir nesne yoksa algoritmayı durdurmak da mümkündür.

Bu algoritmanın dezavantajları, bölme için küme sayısını belirleme ihtiyacını içerir.

Bulanık Algoritmalar

En popüler bulanık kümeleme algoritması, c-ortalamalar algoritmasıdır. k-ortalama yönteminin bir modifikasyonudur. Algoritma adımları:

Bu algoritma, küme sayısı önceden bilinmiyorsa veya her nesneyi tek bir kümeye benzersiz olarak atfetmek gerekiyorsa uygun olmayabilir.

Grafik teorisine dayalı algoritmalar

Bu tür algoritmaların özü, nesnelerin seçiminin bir grafik olarak gösterilmesidir. G=(V, E) köşeleri nesnelere karşılık gelen ve kenarları nesneler arasındaki "mesafeye" eşit bir ağırlığa sahip olan . Grafik kümeleme algoritmalarının avantajı, görünürlük, göreceli uygulama kolaylığı ve geometrik hususlara dayalı çeşitli iyileştirmeler yapma olasılığıdır. Ana algoritmalar, bağlı bileşenleri ayıklamak için algoritma, minimum yayılan (yayılan) bir ağaç oluşturmak için algoritma ve katmanlı kümeleme için algoritmadır.

Bağlı bileşenleri ayıklamak için algoritma

Bağlı bileşenlerin çıkarılması için algoritmada giriş parametresi ayarlanır R ve grafikte "mesafelerin" daha büyük olduğu tüm kenarlar R. Yalnızca en yakın nesne çiftleri bağlı kalır. Algoritmanın amacı böyle bir değer bulmaktır. R, grafiğin birkaç bağlı bileşene "parçalandığı" tüm "mesafeler" aralığında yer alır. Ortaya çıkan bileşenler kümelerdir.

Bir parametre seçmek için R genellikle ikili mesafelerin dağılımlarının bir histogramı oluşturulur. İyi tanımlanmış bir küme veri yapısına sahip görevlerde, histogramın iki tepe noktası olacaktır - biri küme içi mesafelere, ikincisi kümeler arası mesafelere karşılık gelir. Parametre R bu pikler arasındaki minimum bölgeden seçilir. Aynı zamanda, mesafe eşiğini kullanarak küme sayısını kontrol etmek oldukça zordur.

Minimum Yayılan Ağaç Algoritması

Minimum yayılan ağaç algoritması önce grafik üzerinde minimum yayılan bir ağaç oluşturur ve ardından sırayla en yüksek ağırlığa sahip kenarları kaldırır. Şekil, dokuz özellik için elde edilen minimum yayılma ağacını göstermektedir.

6 birim uzunluğundaki (maksimum mesafeli kenar) CD etiketli bağlantıyı kaldırarak iki küme elde ederiz: (A, B, C) ve (D, E, F, G, H, I). İkinci küme, 4,5 birim uzunluğundaki kenar EF kaldırılarak iki kümeye daha bölünebilir.

Katmanlı Kümeleme

Katman katman kümeleme algoritması, nesneler (köşeler) arasındaki belirli bir mesafe düzeyinde bağlı grafik bileşenlerinin seçimine dayanır. Mesafe seviyesi, mesafe eşiği tarafından belirlenir c. Örneğin, nesneler arasındaki mesafe

, sonra .

Katmanlı kümeleme algoritması, bir dizi grafik alt grafiği oluşturur G kümeler arasındaki hiyerarşik ilişkileri yansıtan:

Neresi G t = (V, E t)- seviye grafiği t ile,
,
t ile– t-inci mesafe eşiği,
m hiyerarşi seviyelerinin sayısıdır,
G 0 = (V, o), o ile elde edilen boş grafik kenarları kümesidir. t0 = 1,
Gm = G, yani, mesafe kısıtlaması olmayan nesnelerin bir grafiği (grafiğin kenarlarının uzunluğu), çünkü tm = 1.

Mesafe eşiklerini değiştirerek ( 0 , …, m ile), burada 0 = 0'dan < 1'den < …< m ile= 1, elde edilen kümelerin hiyerarşisinin derinliğini kontrol etmek mümkündür. Böylece, katman katman kümeleme algoritması hem düz bir veri bölümü hem de hiyerarşik bir bölüm oluşturabilir.

Algoritma Karşılaştırması

Algoritmaların hesaplama karmaşıklığı

Karşılaştırmalı algoritma tablosu

kümeleme algoritması	Kümelerin şekli	Giriş verileri	Sonuçlar
Hiyerarşik	Özgür	Bir hiyerarşiyi kesmek için küme sayısı veya mesafe eşiği	Kümelerin ikili ağacı
k-araç	hiper küre	Küme sayısı	Küme merkezleri
c-anlamına gelir	hiper küre	Küme sayısı, bulanıklık derecesi	Küme merkezleri, üyelik matrisi
Bağlı Bileşenleri Seçme	Özgür	Mesafe eşiği R
Az yer kaplayan ağaç	Özgür	Kenarları kaldırmak için küme sayısı veya mesafe eşiği	Kümelerin ağaç yapısı
Katmanlı Kümeleme	Özgür	Mesafe eşiklerinin sırası	Farklı hiyerarşi seviyelerine sahip kümelerin ağaç yapısı

Uygulama hakkında biraz

Çalışmamda hiyerarşik yapılardan (ağaçlardan) ayrı alanlar seçmem gerekiyordu. Şunlar. özünde, orijinal ağacı birkaç küçük ağaca kesmek gerekliydi. Yönlendirilmiş ağaç, grafiğin özel bir durumu olduğundan, grafik teorisine dayalı algoritmalar doğal olarak uygundur.

Tam bağlantılı bir grafiğin aksine, yönlendirilmiş bir ağaçtaki tüm köşeler kenarlarla bağlanmaz ve toplam kenar sayısı n–1'dir; burada n, köşe sayısıdır. Şunlar. Ağacın düğümleri ile ilgili olarak, herhangi bir sayıda kenarın kaldırılması ağacı bağlı bileşenlere (ayrı ağaçlar) "böleceğinden", bağlı bileşenlerin çıkarılması için algoritmanın çalışması basitleştirilecektir. Bu durumda minimum yayılan ağaç algoritması, bağlı bileşenlerin çıkarılması için algoritma ile çakışacaktır - en uzun kenarları kaldırarak orijinal ağaç birkaç ağaca bölünür. Bu durumda en minimal yayılan ağacı oluşturma aşamasının atlandığı açıktır.

Diğer algoritmaların kullanılması durumunda, algoritmayı karmaşıklaştıran nesneler arasındaki ilişkilerin varlığını ayrı ayrı dikkate almaları gerekir.

Ayrı olarak, en iyi sonucu elde etmek için mesafe ölçüleri seçimi ile denemeler yapmak ve hatta bazen algoritmayı değiştirmek gerektiğini söylemek istiyorum. Tek bir çözüm yok.

küme analizi

Çoğu araştırmacı, ilk kez "küme analizi" teriminin (İng. küme- demet, pıhtı, demet) matematikçi R. Trion tarafından önerildi. Daha sonra, artık "küme analizi" terimiyle eşanlamlı olarak kabul edilen bir dizi terim ortaya çıktı: otomatik sınıflandırma; botryoloji.

Küme analizi, bir nesne örneği hakkında bilgi içeren verileri toplayan ve daha sonra nesneleri nispeten homojen gruplara (kümeler) göre düzenleyen çok boyutlu bir istatistiksel prosedürdür (Q-kümeleme veya Q-tekniği, uygun küme analizi). Küme - ortak bir özellik ile karakterize edilen bir grup eleman, küme analizinin temel amacı, örnekteki benzer nesne gruplarını bulmaktır. Küme analizinin uygulama alanları çok geniştir: arkeoloji, tıp, psikoloji, kimya, biyoloji, kamu yönetimi, filoloji, antropoloji, pazarlama, sosyoloji ve diğer disiplinlerde kullanılmaktadır. Bununla birlikte, uygulamanın evrenselliği, kümeleme analizini açık bir şekilde kullanmayı ve tutarlı bir şekilde yorumlamayı zorlaştıran çok sayıda uyumsuz terim, yöntem ve yaklaşımın ortaya çıkmasına neden olmuştur. Orlov A. I., aşağıdaki gibi ayırt etmeyi önerir:

Görevler ve koşullar

Küme analizi aşağıdakileri gerçekleştirir ana hedefler:

Bir tipoloji veya sınıflandırmanın geliştirilmesi.
Nesneleri gruplamak için faydalı kavramsal şemaları keşfetmek.
Veri keşfine dayalı hipotezlerin üretilmesi.
Bir şekilde tanımlanan tiplerin (grupların) mevcut verilerde gerçekten mevcut olup olmadığını belirlemek için hipotez testi veya araştırması.

Çalışmanın konusu ne olursa olsun, küme analizinin kullanımı şunları içerir: sonraki adımlar:

Kümeleme için örnekleme. Yalnızca nicel verileri kümelemenin mantıklı olduğu anlaşılmaktadır.
Örnekteki nesnelerin değerlendirileceği bir dizi değişkenin, yani bir özellik uzayının tanımı.
Nesneler arasındaki bir veya başka bir benzerlik (veya fark) ölçüsünün değerlerinin hesaplanması.
Benzer nesne grupları oluşturmak için küme analizi yönteminin uygulanması.
Küme çözümünün sonuçlarının doğrulanması.

Küme analizi aşağıdakileri sunar Veri gereksinimleri:

göstergeler birbiriyle ilişkili olmamalıdır;
göstergeler ölçüm teorisiyle çelişmemelidir;
göstergelerin dağılımı normale yakın olmalıdır;
göstergeler, değerleri üzerinde rastgele faktörlerin etkisinin olmaması anlamına gelen "istikrar" gereksinimini karşılamalıdır;
örnek homojen olmalı, "aykırı değerler" içermemelidir.

Veriler için iki temel gereksinimin tanımını bulabilirsiniz - tekdüzelik ve eksiksizlik:

Homojenlik, bir tabloda temsil edilen tüm varlıkların aynı nitelikte olmasını gerektirir. Tamlık şartı, setlerin ben ve J incelenen fenomenin tezahürlerinin tam bir tanımını sundu. olduğu bir tabloyu düşünürsek ben bir koleksiyondur ve J- bu popülasyonu tanımlayan değişkenler seti, daha sonra incelenen popülasyondan temsili bir örnek ve özellikler sistemi olmalıdır. J bireylerin tatmin edici bir vektör temsilini vermelidir i bir araştırmacının bakış açısından.

Küme analizinden önce faktör analizi yapılıyorsa, numunenin “onarılmasına” gerek yoktur - belirtilen gereksinimler faktör modelleme prosedürünün kendisi tarafından otomatik olarak gerçekleştirilir (başka bir avantaj daha vardır - numune için olumsuz sonuçlar olmadan z-standartlaştırma; doğrudan küme analizi için gerçekleştirilir, grupların ayrılmasının netliğinde bir azalmaya neden olabilir). Aksi takdirde, numune ayarlanmalıdır.

Kümeleme problemlerinin tipolojisi

Giriş Tipleri

AT modern bilim Giriş verilerini işlemek için çeşitli algoritmalar kullanılır. Nesneleri özelliklere göre karşılaştırarak yapılan analize (biyolojik bilimlerde en yaygın olanı) denir. Q- analiz türü ve nesne bazında özellik karşılaştırması durumunda - R- analiz türü. Hibrit analiz türlerini kullanma girişimleri vardır (örneğin, RQ analizi), ancak bu metodoloji henüz uygun şekilde geliştirilmemiştir.

Kümelemenin hedefleri

Küme yapısını tanımlayarak verileri anlama. Örneği benzer nesne gruplarına bölmek, her kümeye kendi analiz yöntemini uygulayarak ("böl ve yönet" stratejisi) daha fazla veri işlemeyi ve karar vermeyi basitleştirmeyi mümkün kılar.
Veri sıkıştırma. İlk örnek aşırı büyükse, her kümeden en tipik temsilcilerden birini bırakarak azaltılabilir.
yenilik tespiti. yenilik algılama). Herhangi bir kümeye eklenemeyen atipik nesneler seçilir.

İlk durumda, küme sayısını küçültmeye çalışırlar. İkinci durumda, sağlamak daha önemlidir. yüksek derece her küme içindeki nesnelerin benzerlikleri ve herhangi bir sayıda küme olabilir. Üçüncü durumda, kümelerden herhangi birine uymayan bireysel nesneler en çok ilgi çekenlerdir.

Tüm bu durumlarda, hiyerarşik kümeleme, büyük kümeler daha küçük kümelere bölündüğünde, bunlar da daha küçüklere bölündüğünde vb. uygulanabilir. Bu tür görevlere taksonomi görevleri denir. Taksonominin sonucu, ağaç benzeri bir hiyerarşik yapıdır. Ek olarak, her nesne, ait olduğu tüm kümelerin, genellikle büyükten küçüğe bir numaralandırılmasıyla karakterize edilir.

Kümeleme yöntemleri

Kümeleme yöntemlerinin genel kabul görmüş bir sınıflandırması yoktur, ancak V. S. Berikov ve G. S. Lbov'un sağlam bir girişimi not edilebilir. Kümeleme yöntemlerinin çeşitli sınıflandırmalarını genelleştirirsek, birkaç grubu ayırt edebiliriz (bazı yöntemler aynı anda birkaç gruba atfedilebilir ve bu nedenle bu tipleştirmenin kümeleme yöntemlerinin gerçek sınıflandırmasına bir tür yaklaşım olarak düşünülmesi önerilir):

olasılıksal yaklaşım. İncelenen her nesnenin k sınıfından birine ait olduğu varsayılır. Bazı yazarlar (örneğin, A. I. Orlov) buna inanıyor: bu grup kümelemeye hiç atıfta bulunmaz ve buna "ayrımcılık" adı altında, yani nesneleri bilinen gruplardan birine atama seçimi (eğitim örnekleri) altında karşı çıkar.
Yapay zeka sistemlerine dayalı yaklaşımlar. Çok koşullu bir grup, çünkü birçok AI yöntemi var ve metodik olarak çok farklılar.
mantıksal yaklaşım. Bir dendrogramın oluşturulması, bir karar ağacı kullanılarak gerçekleştirilir.
Grafik-teorik yaklaşım.
- Grafik kümeleme algoritmaları
hiyerarşik yaklaşım. İç içe grupların (farklı sıralardaki kümeler) varlığı varsayılır. Algoritmalar, sırayla, aglomeratif (birleştirici) ve bölücü (ayıran) olarak ayrılır. Özellik sayısına göre, monotetik ve politetik sınıflandırma yöntemleri bazen ayırt edilir.
- Hiyerarşik bölünmüş kümeleme veya sınıflandırma. Kümeleme problemleri nicel taksonomide ele alınmaktadır.
Öbür metodlar. Önceki gruplara dahil değildir.
- İstatistiksel kümeleme algoritmaları
- Kümeleyiciler topluluğu
- KRAB ailesinin algoritmaları
- Eleme yöntemine dayalı algoritma
- DBSCAN vb.

Yaklaşımlar 4 ve 5 bazen daha resmi bir yakınlık kavramına sahip olan yapısal veya geometrik yaklaşım adı altında birleştirilir. Listelenen yöntemler arasındaki önemli farklılıklara rağmen, hepsi orijinaline güveniyor " kompaktlık hipotezi»: nesne uzayında, tüm yakın nesneler aynı kümeye ait olmalı ve sırasıyla tüm farklı nesneler farklı kümelerde olmalıdır.

Kümelenme Sorununun Resmi Açıklaması

Bir nesneler kümesi olsun, kümelerin bir dizi numarası (adlar, etiketler) olsun. Nesneler arasındaki mesafe fonksiyonu verilmiştir. Sonlu bir eğitim nesneleri kümesi vardır. Örneği örtüşmeyen alt kümelere bölmek gerekir. kümeler, böylece her küme metrik olarak yakın nesnelerden oluşur ve farklı kümelerdeki nesneler önemli ölçüde farklılık gösterir. Bu durumda, her nesneye bir küme numarası atanır.

kümeleme algoritması herhangi bir nesneyi bir küme numarasıyla ilişkilendiren bir işlevdir. Bazı durumlarda küme önceden bilinir, ancak daha sık olarak görev, bir veya başka bir bakış açısından en uygun küme sayısını belirlemektir. Kalite kriterleri kümeleme.

Kümeleme (denetimsiz öğrenme), orijinal nesnelerin etiketlerinin başlangıçta ayarlanmaması ve hatta kümenin kendisinin bilinmemesi nedeniyle sınıflandırmadan (denetimli öğrenme) farklıdır.

Kümeleme sorununun çözümü temelde belirsizdir ve bunun birkaç nedeni vardır (birkaç yazara göre):

kesin olarak yok en iyi kriter kümeleme kalitesi. Açıkça tanımlanmış bir kriteri olmayan, ancak oldukça makul bir kümelemeyi “yapıya göre” gerçekleştiren bir dizi algoritmanın yanı sıra bir dizi buluşsal kriter bilinmektedir. Hepsi farklı sonuçlar verebilir. Bu nedenle, kümelemenin kalitesini belirlemek için küme seçiminin anlamlılığını değerlendirebilecek, konu alanında bir uzmana ihtiyaç vardır.
kümelerin sayısı genellikle önceden bilinmez ve bazı öznel kriterlere göre belirlenir. Bu yalnızca ayrım yöntemleri için geçerlidir, çünkü kümeleme yöntemlerinde kümeler, yakınlık ölçütlerine dayalı resmileştirilmiş bir yaklaşım kullanılarak seçilir.
kümeleme sonucu, seçimi kural olarak öznel olan ve bir uzman tarafından belirlenen metriğe önemli ölçüde bağlıdır. Ancak, çeşitli görevler için yakınlık ölçütlerini seçmek için bir takım tavsiyeler olduğunu belirtmekte fayda var.

Başvuru

biyolojide

Biyolojide, kümelemenin çok çeşitli alanlarda birçok uygulaması vardır. Örneğin, biyoinformatikte, bazen yüzlerce hatta binlerce elementten oluşan, etkileşimli genlerin karmaşık ağlarını analiz etmek için kullanılır. Küme analizi, incelenen sistemin alt ağlarını, darboğazlarını, hub'larını ve diğer gizli özelliklerini belirlemenize olanak tanır; bu, sonuçta her bir genin incelenen olgunun oluşumuna katkısını bulmanızı sağlar.

Ekoloji alanında, mekansal olarak homojen organizma gruplarını, toplulukları vb. tanımlamak için yaygın olarak kullanılır. Daha az yaygın olarak, toplulukları zaman içinde incelemek için küme analizi yöntemleri kullanılır. Toplulukların yapısının heterojenliği, önemsiz olmayan küme analizi yöntemlerinin ortaya çıkmasına yol açar (örneğin, Czekanowski yöntemi).

Genel olarak, tarihsel olarak benzerlik ölçütlerinin, farklılık (mesafe) ölçülerinden ziyade biyolojide yakınlık ölçütleri olarak daha sık kullanıldığını belirtmekte fayda var.

sosyolojide

Sosyolojik araştırma sonuçlarını analiz ederken, analizin hiyerarşik bir aglomeratif ailenin yöntemlerini, yani kümeler içinde minimum dağılımın optimize edildiği Ward yöntemini, sonuç olarak yaklaşık olarak eşit büyüklükteki kümeleri kullanarak yapılması önerilir. yaratıldı. Ward'ın yöntemi sosyolojik verilerin analizi için en başarılı yöntemdir. Farkın bir ölçüsü olarak, ikinci dereceden Öklid mesafesi daha iyidir, bu da kümelerin kontrastında bir artışa katkıda bulunur. Hiyerarşik küme analizinin ana sonucu bir dendrogram veya "buz saçağı diyagramıdır". Bunu yorumlarken, araştırmacılar faktör analizi sonuçlarının yorumlanmasıyla aynı türden bir problemle karşı karşıya kalırlar - kümeleri tanımlamak için açık kriterlerin eksikliği. Ana yöntemler olarak iki yöntemin kullanılması önerilir - dendrogramın görsel analizi ve farklı yöntemlerle gerçekleştirilen kümeleme sonuçlarının karşılaştırılması.

Dendrogramın görsel analizi, numune elemanlarının optimal benzerlik seviyesinde ağacın "kesilmesini" içerir. "Asma dalı" (Oldenderfer M.S. ve Blashfield R.K. terminolojisi), Rescaled Distance Cluster Combine ölçeğinde yaklaşık 5'te "kesilmeli" ve böylece %80 benzerlik düzeyi elde edilmelidir. Bu etikete göre küme seçimi zorsa (birkaç küçük küme, üzerinde bir büyük kümede birleşir), o zaman başka bir etiket seçebilirsiniz. Bu teknik Oldenderfer ve Blashfield tarafından önerilmiştir.

Şimdi, benimsenen küme çözümünün kararlılığı sorunu ortaya çıkıyor. Aslında, kümelemenin kararlılığını kontrol etmek, güvenilirliğini kontrol etmeye gelir. Burada temel bir kural vardır - kümeleme yöntemleri değiştiğinde sabit bir tipoloji korunur. Hiyerarşik küme analizinin sonuçları, yinelemeli k-ortalamalar küme analizi ile doğrulanabilir. Cevaplayıcı gruplarının karşılaştırılan sınıflandırmaları, %70'den fazla (tesadüflerin 2/3'ünden fazla) tesadüf payına sahipse, bir küme kararı verilir.

Başka bir analiz türüne başvurmadan çözümün yeterliliğini kontrol etmek imkansızdır. En azından teorik olarak, bu sorun çözülmedi. Oldenderfer ve Blashfield'ın klasik Küme Analizi, beş ek sağlamlık test yöntemini detaylandırır ve nihayetinde reddeder:

bilgisayar biliminde

Kümeleme arama sonuçları - dosyaları, web sitelerini, diğer nesneleri ararken sonuçların "akıllı" gruplandırılması için kullanılır, kullanıcının hızlı bir şekilde gezinmesine olanak tanır, açıkça daha alakalı olan ve daha az alakalı olduğu bilinen bir alt kümeyi hariç tutar - bu da kullanılabilirliği artırabilir arayüzün çıktısı ile karşılaştırıldığında basit bir şekilde alaka düzeyi listesine göre sıralanır.
- Clusty - Vivísimo'nun kümeleme arama motoru
- Nigma - Otomatik sonuç kümelemeli Rus arama motoru
- Quintura - bir anahtar kelime bulutu şeklinde görsel kümeleme
Resim parçalama Resim parçalama) - Kümeleme, dijital bir görüntüyü kenar algılama amacıyla farklı bölgelere bölmek için kullanılabilir. Kenar algılama) veya nesne tanıma.
Veri madenciliği veri madenciliği)- Veri Madenciliğinde Kümeleme, veri analizi aşamalarından biri olarak hareket ettiğinde ve eksiksiz bir analitik çözüm oluşturduğunda değerli hale gelir. Bir analistin benzer nesne gruplarını belirlemesi, özelliklerini incelemesi ve her grup için ayrı bir model oluşturması, tüm veriler için tek bir genel model oluşturmaktan genellikle daha kolaydır. Bu teknik, pazarlamada, müşteri gruplarını, alıcıları, malları vurgulayarak ve her biri için ayrı bir strateji geliştirerek sürekli olarak kullanılır.

Ayrıca bakınız

Notlar

Bağlantılar

Rusça

www.MachineLearning.ru - makine öğrenimi ve veri madenciliğine adanmış profesyonel wiki kaynağı

İngilizcede

KOMPAKT - Kümeleme Değerlendirmesi için Karşılaştırmalı Paket. Ücretsiz bir Matlab paketi, 2006.
P. Berkin, Kümeleme Veri Madenciliği Teknikleri Araştırması, Tahakkuk Yazılımı, 2002.
Jain, Murty ve Flynn: Veri Kümeleme: Bir İnceleme, ACM Komp. Surv., 1999.
hiyerarşik, k-ortalamalar ve bulanık c-ortalamaların başka bir sunumu için bu kümeleme girişine bakın. Ayrıca Gauss'ların karışımı hakkında bir açıklaması var.
davut dowe, Karışım Modelleme sayfası- diğer kümeleme ve karışım modeli bağlantıları.
kümeleme hakkında bir eğitim
Çevrimiçi ders kitabı: Bilgi Teorisi, Çıkarım ve Öğrenme Algoritmaları, David J.C. MacKay, k-araç kümeleme, yumuşak k-araç kümeleme ve E-M algoritması dahil türevler hakkında bölümler içerir. ve E-M algoritmasının varyasyonel görünümü.
"Kendi Kendini Organize Eden Gen", rekabetçi öğrenme ve kendi kendini organize eden haritalar yoluyla kümelemeyi açıklayan öğretici.
kernlab - Çekirdek tabanlı makine öğrenimi için R paketi (spektral kümeleme uygulamasını içerir)
Öğretici - Kümeleme Algoritmalarının tanıtıldığı öğretici (k-ortalamalar, bulanık-c-ortalamalar, hiyerarşik, gaussianların karışımı) + bazı etkileşimli demolar (java uygulamaları)
Veri Madenciliği Yazılımı - Veri madenciliği yazılımı sıklıkla kümeleme tekniklerini kullanır.
Java Rekabetçi Öğrenme Uygulaması Kümeleme için Denetimsiz Sinir Ağları paketi. Java'da yazılmıştır. Tüm kaynak koduyla tamamlayın.
Makine Öğrenimi Yazılımı - Ayrıca çok sayıda kümeleme yazılımı içerir.

Çoğu zaman, en çeşitli faaliyet alanlarında, harekete geçmemiz gereken çok sayıda öğeyle uğraşmak zorundayız.

Ve tüm bu hacmi anlamak şöyle dursun, farkına bile varamıyoruz.

Çıkış yolu nedir? Tabii ki, "her şeyi raflara koy." Bu durumda, halk bilgeliği iyi tanımlanmış bir bilimsel formülasyon kazanır.

Kümeleme analizi, nesnelerin benzer özelliklere sahip homojen gruplar halinde birleştirilmesiyle incelenmesidir. Onun yöntemleri tıptan Forex ticaretine, araba sigortasından arkeolojiye kadar her alanda tam anlamıyla uygulanabilir. Ve pazarlamacılar ve İK uzmanları için yeri doldurulamaz.

Makalede bunun hakkında daha fazla bilgi.

küme nedir

Küme analizi, bir dizi nesneyi homojen gruplara (kümeler veya sınıflar) bölmek için tasarlanmıştır. Bu, çok değişkenli veri sınıflandırmasının bir görevidir.

Yaklaşık 100 farklı kümeleme algoritması vardır, ancak en yaygın olarak kullanılanlar:

hiyerarşik küme analizi,
k-kümeleme anlamına gelir.

Küme analizinin uygulandığı yerler:

Pazarlamada bu, rakiplerin ve tüketicilerin segmentasyonudur.
Yönetimde:
1. personelin farklı motivasyon seviyelerine sahip gruplara ayrılması,
2. tedarikçi sınıflandırması,
3. evliliğin meydana geldiği benzer üretim durumlarının belirlenmesi.
Tıpta semptomların sınıflandırılması, hastalar, ilaçlar.
Sosyolojide, yanıtlayanların homojen gruplara bölünmesi.

Aslında küme analizi insan yaşamının her alanında kendini kanıtlamıştır. Bu yöntemin güzelliği, çok az veri olduğunda ve normal dağılım gereksinimleri karşılanmadığında bile çalışmasıdır. rastgele değişkenler ve klasik istatistiksel analiz yöntemlerinin diğer gereksinimleri.

Katı terminolojiye başvurmadan küme analizinin özünü açıklayalım.

Diyelim ki bir çalışan anketi yaptınız ve personelinizi en etkili şekilde nasıl yönetebileceğinizi belirlemek istiyorsunuz. Yani çalışanları gruplara ayırmak ve her biri için en etkili kontrol kollarını seçmek istiyorsunuz. Aynı zamanda, gruplar arasındaki farklılıklar bariz olmalı ve grup içinde katılımcılar mümkün olduğunca benzer olmalıdır.

Problemi çözmek için hiyerarşik küme analizi kullanılması önerilmektedir. Sonuç olarak, personeli kaç sınıfa (kümelere) bölmek istediğimize karar vermemiz gereken bir ağaç elde edeceğiz. Personeli üç gruba ayırmaya karar verdiğimizi ve ardından her kümeye giren katılımcıları incelemek için aşağıdaki içeriğe sahip bir tablet aldığımızı varsayalım:

Yukarıdaki tablonun nasıl oluştuğunu açıklayalım. İlk sütun kümenin numarasını içerir - verileri satırda yansıtılan grup. Örneğin, ilk küme %80 erkektir. İlk kümenin %90'ı 30 ila 50 yaş aralığındadır ve katılımcıların %12'si faydaların çok önemli olduğuna inanmaktadır. Ve benzeri.

Her kümenin yanıtlayanlarının portrelerini yapmaya çalışalım:

İlk grup, esas olarak liderlik pozisyonlarını işgal eden olgun yaştaki erkeklerdir. Sosyal paket (MED, LGOTI, TIME-free time) onları ilgilendirmiyor. İşverenden yardım almak yerine iyi bir maaş almayı tercih ederler.
İkinci grup ise tam tersine sosyal paketi tercih ediyor. Esas olarak düşük pozisyonları işgal eden "yaşlı" insanlardan oluşur. Maaş onlar için kesinlikle önemlidir, ancak başka öncelikler de vardır.
Üçüncü grup en "genç". Önceki ikisinden farklı olarak, öğrenme ve profesyonel büyüme fırsatlarına açık bir ilgi var. Bu çalışan kategorisi, ilk grubu yakında yenilemek için iyi bir şansa sahiptir.

Bu nedenle, etkili personel yönetimi yöntemlerini tanıtmak için bir kampanya planlarken, durumumuzda ikinci grup için sosyal paketi, örneğin ücretler aleyhine artırmanın mümkün olduğu açıktır. Hangi uzmanların eğitime gönderilmesi gerektiği hakkında konuşursak, kesinlikle üçüncü gruba dikkat etmenizi tavsiye edebiliriz.

Kaynak: "nickart.spb.ru"

Küme analizi, pazarı anlamanın anahtarıdır

Küme, işlemlerin yapıldığı belirli bir zaman diliminde bir varlığın fiyatıdır. Ortaya çıkan alım ve satım hacmi, küme içindeki bir sayı ile gösterilir. Herhangi bir TF'nin çubuğu, kural olarak, birkaç küme içerir. Bu, her bir fiyat seviyesi için her bir çubuktaki satın alma, satış hacimlerini ve bakiyelerini ayrıntılı olarak görmenizi sağlar.

Küme grafiği oluşturma

Bir varlığın fiyatındaki bir değişiklik, kaçınılmaz olarak diğer enstrümanlarda da bir fiyat hareketleri zincirini gerektirir. Çoğu durumda, trend hareketinin anlaşılması, hızla geliştiği anda gerçekleşir ve trend boyunca piyasaya girmek, düzeltici bir dalgaya düşmekle doludur.

Başarılı işlemler için mevcut durumu anlamak ve gelecekteki fiyat hareketlerini tahmin edebilmek gerekir. Bu, küme grafiği analiz edilerek öğrenilebilir. Küme analizi yardımıyla, en küçük fiyat çubuğunda bile piyasa katılımcılarının faaliyetlerini görebilirsiniz.

Bu, her bir varlık fiyat düzeyi için işlem hacimlerinin nokta dağılımını gösterdiği için en doğru ve ayrıntılı analizdir. Piyasa sürekli olarak satıcıların ve alıcıların çıkarlarıyla karşı karşıyadır. Ve her en küçük fiyat hareketi (kene), bir uzlaşmaya -fiyat düzeyine- harekettir. şu an her iki taraf için de uygundur.

Ancak pazar dinamiktir, satıcı ve alıcı sayısı sürekli değişmektedir. Bir noktada piyasaya satıcılar hakim olduysa, bir sonraki an büyük olasılıkla alıcılar olacaktır. Komşu fiyat seviyelerinde tamamlanan işlem sayısı da aynı değildir.

Ve yine de, önce piyasa durumu toplam işlem hacmine ve ancak o zaman fiyata yansır. Hakim piyasa katılımcılarının (satıcılar veya alıcılar) eylemlerini görürseniz, fiyat hareketinin kendisini tahmin edebilirsiniz.

Küme analizini başarılı bir şekilde uygulamak için öncelikle küme ve deltanın ne olduğunu anlamanız gerekir:

Küme, bilinen hacimlerle işlemlerin yapıldığı seviyelere ayrılan bir fiyat hareketidir.
Delta, her kümede gerçekleşen alım ve satım arasındaki farkı gösterir.

küme grafiği

Her küme veya delta grubu, belirli bir zamanda piyasaya alıcıların mı yoksa satıcıların mı hakim olduğunu anlamanıza olanak tanır. Sadece satışları ve alışları toplayarak toplam deltayı hesaplamak yeterlidir. Delta negatif ise, piyasa aşırı satılmıştır, fazla satış işlemleri vardır. Delta pozitif olduğunda, piyasaya açıkça alıcılar hakimdir.

Deltanın kendisi normal veya kritik bir değer alabilir. Kümedeki normal değeri aşan delta hacminin değeri kırmızı ile vurgulanır. Delta ılımlı ise, bu piyasada düz bir durumu karakterize eder. saat normal değer Piyasada delta, bir trend hareketi var, ancak kritik değer her zaman bir fiyat değişikliğinin habercisidir.

CA ile forex ticareti

Maksimum karı elde etmek için deltanın orta seviyeden normal seviyeye geçişini belirleyebilmeniz gerekir. Gerçekten de, bu durumda, bir daireden trend hareketine geçişin en başlangıcını fark edebilir ve en fazla karı elde edebilirsiniz.

Küme grafiği daha görseldir, önemli düzeyde birikim ve hacim dağılımı görmenize, destek ve direnç seviyeleri oluşturmanıza olanak tanır.

Bu, tüccarın ticarete tam girişi bulmasını sağlar. Deltayı kullanarak, piyasadaki satışların veya satın almaların baskınlığını yargılayabilir. Küme analizi, herhangi bir TF'nin bir çubuğu içinde işlemleri gözlemlemenize ve hacimlerini takip etmenize olanak tanır. Bu, özellikle önemli destek veya direnç seviyelerine yaklaşırken önemlidir. Küme kararları, piyasayı anlamanın anahtarıdır.

Kaynak: "orderflowtrading.ru"

Kümeleme analizinin uygulama alanları ve özellikleri

Küme analizi terimi (ilk olarak Tryon, 1939 tarafından tanıtıldı) aslında bir dizi farklı sınıflandırma algoritması içerir. Genel Soru Birçok alanda araştırmacılar tarafından sorulan soru, gözlemlenen verilerin görsel yapılarda nasıl organize edileceğidir. taksonomileri genişletin.

Örneğin, biyologlar hayvanları parçalara ayırmayı amaçlar. Farklı çeşit Aralarındaki farkları anlamlı bir şekilde tanımlamak için. Biyolojide kabul edilen modern sisteme göre insan, primatlara, memelilere, amniyotlara, omurgalılara ve hayvanlara aittir.

Bu sınıflandırmada, toplama düzeyi ne kadar yüksek olursa, ilgili sınıftaki üyeler arasındaki benzerliğin o kadar az olduğuna dikkat edin. İnsanın diğer primatlarla (yani maymunlar) memeli ailesinin "uzak" üyelerinden (yani köpekler) ve benzerlerinden daha fazla benzerliği vardır.

Önceki tartışmanın kümeleme algoritmalarına atıfta bulunduğunu, ancak istatistiksel anlamlılık testi hakkında hiçbir şeyden bahsetmediğini unutmayın. Aslında, küme analizi, "nesneleri kümelere dağıtmak" için çeşitli algoritmaların bir "kümesi" olarak sıradan bir istatistiksel yöntem değildir.

Diğer birçok istatistiksel prosedürün aksine, küme analizi yöntemlerinin çoğu durumda, sınıflar hakkında herhangi bir apriori hipoteziniz olmadığında, ancak henüz araştırma aşamasındayken kullanıldığına dair bir bakış açısı vardır. Kümeleme analizinin "en olası anlamlı kararı" belirlediği anlaşılmalıdır.

Bu nedenle, istatistiksel anlamlılık testi, p-düzeylerinin bilindiği durumlarda bile (örneğin, K-ortalamalar yönteminde olduğu gibi) burada gerçekten uygulanabilir değildir.

Kümeleme tekniği çok çeşitli alanlarda kullanılmaktadır. Hartigan (1975), küme analizi yöntemleriyle elde edilen sonuçları içeren yayınlanmış birçok çalışmaya mükemmel bir genel bakış sağlamıştır. Örneğin, tıp alanında, hastalıkların kümelenmesi, hastalıkların tedavisi veya hastalıkların semptomları, yaygın olarak kullanılan taksonomilere yol açmaktadır.

Psikiyatri alanında doğru teşhis paranoya, şizofreni vb. gibi semptom kümeleri başarılı bir tedavi için kritik öneme sahiptir. Arkeolojide, araştırmacılar küme analizini kullanarak taş aletlerin, cenaze nesnelerinin vb. taksonomilerini oluşturmaya çalışıyorlar.

Kümeleme analizinin yaygın uygulamaları bilinmektedir. Pazarlama araştırması. Genel olarak, bilgi "dağlarını" daha sonraki işlemler için uygun gruplar halinde sınıflandırmak gerektiğinde, küme analizinin çok yararlı ve etkili olduğu ortaya çıkar.

Ağaç Kümeleme

İlişkilendirme algoritmasının (ağaç kümeleme) amacı, nesneler arasındaki benzerlik veya mesafenin bir ölçüsünü kullanarak nesneleri (örneğin, hayvanlar) yeterince büyük kümeler halinde birleştirmektir. Böyle bir kümelemenin tipik bir sonucu hiyerarşik bir ağaçtır.

Yatay bir ağaç diyagramı düşünün. Diyagram, sınıftaki her nesneyle başlar (şemanın sol tarafında). Şimdi, yavaş yavaş (çok küçük adımlarla) hangi nesnelerin benzersiz olup neyin olmadığına ilişkin ölçütünüzü "zayıfladığınızı" hayal edin. Başka bir deyişle, iki veya daha fazla nesneyi tek bir kümede birleştirme kararıyla ilgili eşiği düşürürsünüz.

Sonuç olarak, giderek daha fazla nesneyi birbirine bağlar ve giderek daha fazla farklı öğe kümesini birleştirirsiniz (birleştirirsiniz). Son adımda, tüm nesneler birleştirilir.

Bu çizelgelerde yatay eksenler havuzlama mesafesini temsil eder (dikey dendrogramlarda dikey eksenler havuzlama mesafesini temsil eder). Böylece, grafikteki her düğüm için (yeni bir kümenin oluşturulduğu yer), karşılık gelen öğelerin yeni bir tek kümeye bağlandığı mesafe miktarını görebilirsiniz.

Veri, birbirine benzeyen nesne kümeleri açısından net bir "yapıya" sahip olduğunda, bu yapının çeşitli dallar tarafından hiyerarşik ağaçta yansıtılması muhtemeldir. Join yöntemi ile başarılı bir analiz sonucunda kümeleri (dalları) tespit etmek ve yorumlamak mümkün hale gelir.

mesafe ölçüleri

Birlik veya ağaç kümeleme yöntemi, nesneler arasındaki farklılık veya uzaklık kümelerinin oluşumunda kullanılır. Bu mesafeler tek boyutlu veya çok boyutlu uzayda tanımlanabilir. Örneğin, bir kafedeki yiyecek türlerini gruplamanız gerekiyorsa, içerdiği kalori sayısını, fiyatı, lezzetin öznel değerlendirmesini vb. hesaba katabilirsiniz.

Çok boyutlu bir uzayda nesneler arasındaki mesafeleri hesaplamanın en doğrudan yolu, Öklid mesafelerini hesaplamaktır. İki veya üç boyutlu bir alanınız varsa, o zaman bu ölçü, uzaydaki nesneler arasındaki gerçek geometrik mesafedir (sanki nesneler arasındaki mesafeler bir mezura ile ölçülmüştür).

Bununla birlikte, havuzlama algoritması, bunun için "sağlanan" mesafelerin gerçek mi yoksa başka türetilmiş mesafe ölçüleri mi olduğuyla ilgilenmez, bu da araştırmacı için daha anlamlıdır; ve araştırmacıların görevi bulmaktır. doğru yöntemözel uygulamalar için.

Öklid uzaklığı.

en çok bu görünüyor genel tip mesafeler. Çok boyutlu uzayda basit bir geometrik uzaklıktır ve şu şekilde hesaplanır:

Öklid mesafesinin (ve karesinin) standart verilerden değil, orijinal verilerden hesaplandığını unutmayın. Bu, belirli avantajlara sahip olan olağan hesaplama yöntemidir (örneğin, analize yeni bir nesne dahil edildiğinde, iki nesne arasındaki mesafe değişmez, bu bir aykırı değer olarak ortaya çıkabilir).

Ancak, mesafelerin hesaplandığı eksenler arasındaki farklar mesafeleri büyük ölçüde etkileyebilir.

Örneğin, eksenlerden biri santimetre cinsinden ölçülür ve ardından onu milimetreye dönüştürürseniz (değerleri 10 ile çarparak), koordinatlardan hesaplanan son Öklid mesafesi (veya Öklid mesafesinin karesi) olacaktır. çarpıcı biçimde değişir ve sonuç olarak kümeleme analizinin sonuçları öncekilerden çok farklı olabilir.

Öklid uzaklığının karesi.

Bazen daha uzaktaki nesnelere daha fazla ağırlık vermek için standart Öklid mesafesinin karesini almak isteyebilirsiniz. Bu mesafe şu şekilde hesaplanır:

Şehir bloğu mesafesi (Manhattan mesafesi).

Bu mesafe, sadece koordinatlar üzerindeki farkların ortalamasıdır. Çoğu durumda, bu mesafe ölçüsü, olağan Öklid mesafesi ile aynı sonuçlara yol açar.

Ancak, bu ölçü için bireysel büyük farklılıkların (aykırı değerlerin) etkisinin azaldığına (kare alınmadıkları için) dikkat edin. Manhattan mesafesi aşağıdaki formül kullanılarak hesaplanır:

Chebyshev mesafesi.

Bu mesafe, herhangi bir koordinatta (herhangi bir boyutta) farklılık gösteriyorsa, iki nesneyi "farklı" olarak tanımlamak istendiğinde yararlı olabilir. Chebyshev mesafesi aşağıdaki formülle hesaplanır:

Güç mesafesi.
Bazen, karşılık gelen nesnelerin çok farklı olduğu bir boyuta ilişkin ağırlığın aşamalı olarak arttırılması veya azaltılması istenir. Bu, bir güç yasası mesafesi kullanılarak elde edilebilir. Güç mesafesi aşağıdaki formülle hesaplanır:

burada r ve p kullanıcı tanımlı parametrelerdir.

Birkaç hesaplama örneği, bu önlemin nasıl "işe yaradığını" gösterebilir:
- p parametresi, bireysel koordinatlar üzerindeki farklılıkların kademeli olarak ağırlıklandırılmasından sorumludur.
- r parametresi, nesneler arasındaki büyük mesafelerin aşamalı olarak ağırlıklandırılmasından sorumludur.
- Her iki parametre de - r ve p, ikiye eşitse, bu mesafe Öklid mesafesiyle çakışır.
Anlaşmazlık yüzdesi.

Bu ölçü, veriler kategorik olduğunda kullanılır. Bu mesafe aşağıdaki formülle hesaplanır:

Dernek veya birliktelik kuralları

İlk adımda, her nesne ayrı bir küme olduğunda, bu nesneler arasındaki mesafeler seçilen ölçü ile belirlenir. Ancak, birkaç nesne birbirine bağlandığında, şu soru ortaya çıkar: kümeler arasındaki mesafeler nasıl belirlenmelidir?

Başka bir deyişle, iki küme için bir birleştirme veya bağlantı kuralına ihtiyacınız var. Burada çeşitli olasılıklar vardır: örneğin, herhangi iki nesne iki kümede olduğunda iki kümeyi birbirine bağlayabilirsiniz. yakın arkadaş birbirine karşılık gelen iletişim mesafesinden daha fazla.

Diğer bir deyişle, kümeler arasındaki mesafeyi belirlemek için "en yakın komşu kuralı"nı kullanırsınız; bu yönteme tek bağlantı yöntemi denir. Bu kural "lifli" kümeler oluşturur, yani. kümeler, yalnızca birbirine diğerlerinden daha yakın olan bireysel öğelerle "birbirine bağlıdır".

Alternatif olarak, diğer tüm özellik çiftleri arasında birbirinden en uzak olan kümelerdeki komşuları kullanabilirsiniz. Bu yönteme tam bağlantı yöntemi denir. Tartışılanlara benzer, kümeleri birleştirmek için başka birçok yöntem de vardır.

Tek bağlantı (en yakın komşu yöntemi).

Yukarıda açıklandığı gibi, bu yöntemde, iki küme arasındaki mesafe, farklı kümelerdeki en yakın iki nesne (en yakın komşular) arasındaki mesafe ile belirlenir.

Bu kural, bir anlamda, kümeler oluşturmak için nesneleri bir araya getirmelidir ve sonuçta ortaya çıkan kümeler, uzun "dizeler" ile temsil edilme eğilimindedir.

Tam bağlantı (en uzak komşuların yöntemi).

Bu yöntemde, kümeler arasındaki mesafeler, farklı kümelerdeki herhangi iki nesne (yani "en uzak komşular") arasındaki en büyük mesafe olarak tanımlanır.

Bu yöntem, nesneler gerçekten farklı "korulardan" geldiğinde genellikle çok iyi çalışır.

Kümeler bir şekilde uzunsa veya doğal türleri "zincir" ise, bu yöntem uygun değildir.

Ağırlıksız ikili ortalama.

Bu yöntemde, iki farklı küme arasındaki mesafe, içindeki tüm nesne çiftleri arasındaki ortalama mesafe olarak hesaplanır. Yöntem, nesneler aslında farklı "koru" oluşturduğunda etkilidir, ancak genişletilmiş ("zincir" tipi) kümeler durumunda eşit derecede iyi çalışır.

Sneath ve Sokal (1973) adlı kitaplarında, bu yönteme aritmetik ortalamaları kullanan ağırlıksız çift-grup yöntemi olarak atıfta bulunmak için UPGMA kısaltmasını kullandıklarına dikkat edin.

Ağırlıklı ikili ortalama.

Yöntem, ilgili kümelerin boyutunun (yani içerdikleri nesne sayısı) hesaplamalarda bir ağırlık faktörü olarak kullanılması dışında, ağırlıksız ikili ortalama yöntemiyle aynıdır. Bu nedenle, eşit olmayan küme boyutları varsayıldığında önerilen yöntem kullanılmalıdır.

Sneath ve Sokal (1973), bu yönteme aritmetik ortalamaları kullanan ağırlıklı çift-grup yöntemi olarak atıfta bulunmak için WPGMA kısaltmasını sunar.

Ağırlıksız centroid yöntemi.

Bu yöntemde, iki küme arasındaki mesafe, ağırlık merkezleri arasındaki mesafe olarak tanımlanır.

Sneath ve Sokal (1973), bu yöntemi ağırlıksız çift-grup yöntemi olarak merkez ortalamasını kullanan UPGMC kısaltmasını kullanır.

Ağırlıklı centroid yöntemi (medyan).

Bu yöntem, hesaplamalarda küme boyutları arasındaki farkı (yani, içindeki nesnelerin sayısını) hesaba katmak için ağırlıkların kullanılması dışında öncekiyle aynıdır.

Bu nedenle, küme boyutlarında önemli farklılıklar varsa (veya bundan şüpheleniliyorsa), bu yöntem öncekine tercih edilir.

Sneath ve Sokal (1973), ağırlık merkezi ortalamasını kullanan ağırlıklı çift-grup yöntemi olarak belirtmek için WPGMC kısaltmasını kullandı.

Ward yöntemi.

Bu yöntem, kümeler arasındaki mesafeleri tahmin etmek için ANOVA yöntemlerini kullandığından diğer tüm yöntemlerden farklıdır. Yöntem, her adımda oluşturulabilen herhangi iki (varsayımsal) küme için kareler toplamını (SS) en aza indirir.

Ayrıntılar Ward'da (1963) bulunabilir. Genel olarak, yöntem çok verimli görünüyor, ancak küçük kümeler oluşturma eğiliminde.

iki yönlü birlik

Daha önce bu yöntem, kümelenmesi gereken "nesneler" açısından tartışılmıştı. Diğer tüm analiz türlerinde, araştırmacıyı ilgilendiren soru genellikle gözlemler veya değişkenler cinsinden ifade edilir. Hem gözlemlere hem de değişkenlere göre kümelemenin oldukça ilginç sonuçlara yol açabileceği ortaya çıktı.

Örneğin, bir tıp araştırmacısının şu konularda veri topladığını hayal edin: çeşitli özellikler(değişkenler) kalp hastalığından muzdarip hastaların durumları (gözlemler). Araştırmacı, benzer semptomları olan hasta kümelerini belirlemek için (hastaların) gözlemlerini kümelemek isteyebilir.

Aynı zamanda araştırmacı, benzer bir fiziksel durumla ilişkili değişken kümelerini belirlemek için değişkenleri kümelemek isteyebilir. Gözlemlerin mi yoksa değişkenlerin mi kümeleneceğine ilişkin bu tartışmadan sonra, neden her iki yönde kümelenmesin?

Küme Analizi modülü, tam da bunu yapmak için verimli bir iki yönlü birleştirme prosedürü içerir. Ancak, hem gözlemlerin hem de değişkenlerin anlamlı kümelerin keşfine aynı anda katkıda bulunmasının beklendiği durumlarda iki yönlü havuzlama (nispeten nadiren) kullanılır.

Dolayısıyla, önceki örneğe dönersek, bir tıp araştırmacısının belirli fiziksel durum özellikleri kümeleriyle ilişkili olarak benzer hasta kümelerini belirlemesi gerektiğini varsayabiliriz.

Elde edilen sonuçların yorumlanmasındaki zorluk, farklı kümeler arasındaki benzerliklerin, değişkenlerin alt kümelerindeki bazı farklılıklardan kaynaklanabileceği (veya bunun nedeni olabileceği) gerçeğinden kaynaklanmaktadır. Bu nedenle, ortaya çıkan kümeler doğal olarak heterojendir.

Belki ilk başta biraz puslu görünüyor; aslında, açıklanan diğer küme analizi yöntemleriyle karşılaştırıldığında, iki yönlü havuzlama muhtemelen en az kullanılan yöntemdir. Bununla birlikte, bazı araştırmacılar, keşifsel veri analizi için güçlü bir araç sunduğuna inanmaktadır (daha fazla bilgi için, Hartigan'ın bu yönteme ilişkin açıklamasına bakınız (Hartigan, 1975)).

K yöntem anlamına gelir

Bu kümeleme yöntemi, Birleştirme (ağaç kümeleme) ve İki Yönlü Birleştirme gibi kümeleme yöntemlerinden önemli ölçüde farklıdır. Varsayalım ki kümelerin sayısı hakkında hipotezleriniz var (gözlemle veya değişkenle).

Sisteme, mümkün olduğunca farklı olmaları için tam olarak üç küme oluşturmasını söyleyebilirsiniz. Bu tam olarak K-Means algoritmasının çözdüğü problem türüdür. Genel olarak, K-araçlar yöntemi, mümkün olduğunca birbirinden uzak tam olarak K farklı küme oluşturur.

Fiziksel durum örneğinde, bir tıbbi araştırmacı, klinik deneyimlerinden, hastalarının genellikle üç farklı kategoriye girdiğine dair bir "önseziye" sahip olabilir. Daha sonra, sezgisinin sayısal olarak doğrulanıp doğrulanamayacağını bilmek isteyebilir, yani, K'nin küme analizi, beklendiği gibi gerçekte üç hasta kümesi verir mi?

Eğer öyleyse, o zaman her küme için çeşitli fiziksel parametre ölçümlerinin araçları, araştırmacının hipotezlerini temsil etmenin nicel bir yolunu sağlayacaktır (örneğin, küme 1'deki hastaların yüksek parametresi 1, daha düşük parametresi 2'dir, vb.).

Hesaplamalı bir bakış açısından, bu yöntemi "tersine" bir varyans analizi olarak düşünebilirsiniz.

Program rastgele seçilen K küme ile başlar ve ardından nesnelerin bunlara aitliğini şu şekilde değiştirir:

kümeler içindeki değişkenliği en aza indirmek,
kümeler arasındaki değişkenliği en üst düzeye çıkarın.

Bu yöntem ters varyans analizine (ANOVA) benzer, çünkü ANOVA'daki anlamlılık testi, grup ortalamalarının birbirinden farklı olduğu hipotezini test etmede grup içi ve grup içi değişkenliği karşılaştırır.

K-ortalama kümelemede program, varyans analizini (ANOVA) gerçekleştirirken en önemli sonucu elde etmek için nesneleri (yani gözlemleri) bir gruptan (küme) diğerine taşır. Tipik olarak, bir K-ortalama küme analizinin sonuçları elde edildiğinde, kümelerin birbirinden nasıl farklılaştığını değerlendirmek için her boyut için her küme için ortalamalar hesaplanabilir.

İdeal olarak, analizde kullanılan ölçümlerin tümü olmasa da çoğu için çok farklı araçlar elde etmelisiniz. Her boyut için elde edilen F-istatistik değerleri, karşılık gelen boyutun kümeler arasında ne kadar iyi ayrım yaptığının bir başka göstergesidir.

Kaynak: "biometrica.tomsk.ru"

Nesnelerin özelliklerine göre sınıflandırılması

Küme analizi (küme analizi) - nesneleri özelliklerine göre sınıflandırmak, bir dizi nesneyi tanımlama kriterleri açısından yakın olan homojen gruplara bölmek, belirli bir grubun nesnelerini seçmek için çok boyutlu istatistiksel yöntemler kümesi.

Küme, nesneler arasındaki belirli bir benzerlik veya farklılık ölçüsüne dayalı olarak küme analizinin bir sonucu olarak tanımlanan bir grup nesnedir. Nesne, sınıflandırılması gereken belirli çalışma konularıdır. Sınıflandırmadaki nesneler, kural olarak, gözlemlerdir. Örneğin, ürün tüketicileri, ülkeler veya bölgeler, ürünler vb.

Değişkenlere göre küme analizi yapmak mümkün olmakla birlikte. Çok değişkenli küme analizinde nesnelerin sınıflandırılması aynı anda birkaç kritere göre gerçekleşir.Bunlar küme analizi yöntemine bağlı olarak hem nicel hem de kategorik değişkenler olabilir. Bu nedenle, küme analizinin temel amacı, örnekteki benzer nesne gruplarını bulmaktır.

Kümeleme analizinin çok boyutlu istatistiksel yöntemleri seti, hiyerarşik yöntemlere (toplayıcı ve bölücü) ve hiyerarşik olmayan (k-ortalama yöntemi, iki aşamalı küme analizi) ayrılabilir.

Ancak, yöntemlerin genel kabul görmüş bir sınıflandırması yoktur ve küme analizi yöntemleri bazen karar ağaçları oluşturmaya yönelik yöntemleri de içerir. nöral ağlar, diskriminant analizi, lojistik regresyon.

Çok yönlülüğü nedeniyle küme analizinin kapsamı çok geniştir. Kümeleme analizi, ekonomi, pazarlama, arkeoloji, tıp, psikoloji, kimya, biyoloji, kamu yönetimi, filoloji, antropoloji, sosyoloji ve diğer alanlarda kullanılmaktadır.

Küme analizinin uygulanmasına ilişkin bazı örnekler:

tıp - hastalıkların sınıflandırılması, semptomları, tedavi yöntemleri, hasta gruplarının sınıflandırılması;
pazarlama - şirketin ürün hattını optimize etme, pazarı mal veya tüketici gruplarına göre bölümlere ayırma, potansiyel bir tüketiciyi belirleme görevleri;
sosyoloji - yanıtlayanların homojen gruplara bölünmesi;
psikiyatri - başarılı tedavi için semptom gruplarının doğru teşhisi çok önemlidir;
biyoloji - organizmaların gruba göre sınıflandırılması;
ekonomi - Rusya Federasyonu konularının yatırım çekiciliğine göre sınıflandırılması.

Kaynak: "statmethods.ru"

Küme analizi hakkında genel bilgiler

Küme analizi, bir dizi farklı sınıflandırma algoritması içerir. Araştırmacılar tarafından birçok alanda sorulan ortak bir soru, gözlemlenen verilerin görsel yapılar halinde nasıl organize edileceğidir.

Örneğin biyologlar, aralarındaki farkları anlamlı bir şekilde tanımlamak için hayvanları farklı türlere ayırmayı amaçlar.

Küme analizinin görevi, ilk nesne kümesini benzer, yakın nesne gruplarına bölmektir. Bu gruplara kümeler denir.

Başka bir deyişle, küme analizi, nesneleri özelliklerine göre sınıflandırmanın yollarından biridir. Sınıflandırma sonuçlarının anlamlı bir yoruma sahip olması arzu edilir.

Kümeleme analizi yöntemleriyle elde edilen sonuçlar çeşitli alanlarda kullanılmaktadır:

Pazarlamada, rakiplerin ve tüketicilerin segmentasyonudur.
Psikiyatride paranoya, şizofreni vb. belirtilerin doğru teşhisi başarılı bir tedavi için çok önemlidir.
Yönetimde, tedarikçilerin sınıflandırılması önemlidir, evliliklerin gerçekleştiği benzer üretim durumlarının belirlenmesi.
Sosyolojide, yanıtlayanların homojen gruplara bölünmesi.
Portföy yatırımında, menkul kıymetler borsası hakkında elde edilen bilgilere dayanarak, belirli bir risk derecesi için yatırım getirisini maksimize etmeye izin veren optimal bir yatırım portföyü derlemek için, menkul kıymetleri getiri eğilimindeki benzerliklerine göre gruplandırmak önemlidir. .

Aslında küme analizi insan yaşamının her alanında kendini kanıtlamıştır. Genel olarak, bu tür büyük miktarda bilgiyi sınıflandırmak ve daha sonraki işlemlere uygun bir biçimde sunmak gerektiğinde, küme analizi çok yararlı ve etkili olur.

Kümeleme analizi, oldukça büyük miktarda bilgiyi göz önünde bulundurmaya ve geniş sosyo-ekonomik bilgi dizilerini büyük ölçüde sıkıştırmaya izin vererek onları kompakt ve görsel hale getirir.

Kümeleme analizi, karakterize eden zaman serisi kümeleriyle ilgili olarak büyük önem taşımaktadır. ekonomik gelişme(örneğin, genel ekonomik ve meta konjonktürü).

Burada, ilgili göstergelerin değerlerinin oldukça yakın olduğu dönemleri ayırt etmek ve dinamikleri en benzer olan zaman serisi gruplarını belirlemek mümkündür. Sosyo-ekonomik tahmin problemlerinde, küme analizini diğer nicel yöntemlerle (örneğin, regresyon analizi ile) birleştirmek çok umut vericidir.

Avantajlar ve dezavantajlar

Küme analizi, bir dizi özellik ile karakterize edilen herhangi bir nesnenin nesnel bir sınıflandırmasına izin verir. Bundan elde edilecek bir dizi fayda vardır:

Ortaya çıkan kümeler, gerçekte ne tür grupların var olduğunu açıklamak için yorumlanabilir.
Bireysel kümeler ayıklanabilir. Bu, veri setinde belirli hataların yapıldığı ve bunun sonucunda bireysel nesneler için gösterge değerlerinin keskin bir şekilde saptığı durumlarda yararlıdır. Küme analizi uygularken, bu tür nesneler ayrı bir kümeye düşer.
Daha fazla analiz için, yalnızca ilgilenilen özelliklere sahip olan kümeler seçilebilir.

Diğer herhangi bir yöntem gibi, küme analizinin de bazı dezavantajları ve sınırlamaları vardır. Özellikle:

kümelerin bileşimi ve sayısı seçilen bölümleme kriterlerine bağlıdır,
orijinal veri dizisini daha kompakt bir forma indirirken bazı bozulmalar meydana gelebilir,
küme parametrelerinin genelleştirilmiş değerlerinin özellikleriyle yer değiştirmeleri nedeniyle bireysel nesnelerin bireysel özellikleri kaybolabilir.

yöntemler

Şu anda yüzden fazla farklı kümeleme algoritması bilinmektedir. Bunların çeşitliliği, yalnızca farklı hesaplama yöntemleriyle değil, aynı zamanda kümelemenin altında yatan farklı kavramlarla da açıklanmaktadır. Bir veya başka bir kümeleme yönteminin seçilmesi için sadece genel anlamda önerilerde bulunmak mümkündür ve ana seçim kriteri, sonucun pratik kullanışlılığıdır.

Statistica paketi aşağıdaki kümeleme yöntemlerini uygular:

Hiyerarşik algoritmalar - ağaç kümeleme. Hiyerarşik algoritmalar, sıralı kümeleme fikrine dayanmaktadır. İlk adımda, her nesne ayrı bir küme olarak kabul edilir. Bir sonraki adımda, birbirine en yakın olan bazı kümeler ayrı bir kümede birleştirilecektir.
K-yöntemi anlamına gelir. Bu yöntem en çok kullanılan yöntemdir. Küme analizinin sözde referans yöntemleri grubuna aittir. Küme sayısı K kullanıcı tarafından belirlenir.
İki yönlü ilişkilendirme. Bu yöntemi kullanırken, kümeleme hem değişkenler (sütunlar) hem de gözlem sonuçları (satırlar) ile aynı anda gerçekleştirilir.

İki yönlü birleştirme prosedürü, değişkenler ve gözlemler üzerinde eşzamanlı kümelemenin anlamlı sonuçlar vermesi beklendiğinde gerçekleştirilir.

Prosedürün sonuçları tanımlayıcı istatistikler değişkenlere ve vakalara göre, ayrıca veri değerlerinin renk kodlu olduğu iki boyutlu bir renk şeması. Renk dağılımı ile homojen gruplar hakkında fikir edinebilirsiniz.

Değişkenlerin normalleştirilmesi

İlk nesne kümesinin kümelere bölünmesi, nesneler arasındaki mesafelerin hesaplanması ve aralarındaki mesafe mümkün olan en küçük olan nesnelerin seçimi ile ilişkilidir. En yaygın kullanılanı, hepimizin aşina olduğu Öklid (geometrik) mesafesidir. Bu ölçü, nesnelerin uzaydaki yakınlığına ilişkin sezgisel fikirlere karşılık gelir (sanki nesneler arasındaki mesafeler bir mezura ile ölçülmüştür).

Ancak belirli bir metrik için, nesneler arasındaki mesafe, ölçeklerdeki (ölçü birimlerindeki) değişikliklerden güçlü bir şekilde etkilenebilir. Örneğin, özelliklerden biri milimetre cinsinden ölçülür ve ardından değeri santimetreye çevrilirse, nesneler arasındaki Öklid mesafesi önemli ölçüde değişecektir. Bu, küme analizi sonuçlarının öncekilerden önemli ölçüde farklı olabileceği gerçeğine yol açacaktır.

Değişkenler farklı ölçü birimlerinde ölçülürse, ön normalleştirmeleri, yani ilk verilerin dönüştürülmesi ve bu onları boyutsuz niceliklere dönüştürmesi gerekir.

Normalleştirme, kümelemenin sonuçlarını değiştirebilen orijinal uzayın geometrisini büyük ölçüde bozar. İstatistik paketinde, herhangi bir x değişkeni aşağıdaki formüle göre normalleştirilir:

Bunu yapmak için, değişken adına sağ tıklayın ve açılan menüden komutların sırasını seçin: Doldur/Standartlaştır Bloğu/Sütunları Standardize Et. Normalleştirilmiş değişkenin değerleri sıfıra eşit olacak ve varyanslar bire eşit olacaktır.

Statistica'da K-ortalama yöntemi

K-araçlar yöntemi, bir dizi nesneyi, birbirinden mümkün olan en uzak mesafede bulunan belirli sayıda K farklı kümeye böler. Tipik olarak, bir K-ortalamalar küme analizinin sonuçları elde edildiğinde, kümelerin birbirinden nasıl farklılaştığını değerlendirmek için her boyut için her küme için ortalamalar hesaplanabilir.

İdeal olarak, analizde kullanılan ölçümlerin çoğu için çok farklı araçlar elde etmelisiniz. Her boyut için elde edilen F-istatistik değerleri, karşılık gelen boyutun kümeler arasında ne kadar iyi ayrım yaptığının bir başka göstergesidir.

Örnek olarak, bir işletmenin 17 çalışanının kariyer kalitesi göstergelerinden memnuniyet konusunda yaptığı bir anketin sonuçlarını ele alalım. Tablo, on puanlık bir ölçekte anket sorularının yanıtlarını içerir (1 minimum puan, 10 maksimum).

Değişken isimleri aşağıdaki soruların cevaplarına karşılık gelir:

SLT - kişisel hedeflerin ve organizasyonun hedeflerinin bir kombinasyonu;
OSO - ücretlerde adalet duygusu;
TBD - eve bölgesel yakınlık;
PEW - ekonomik refah duygusu;
CR - kariyer gelişimi;
ZhSR - işleri değiştirme arzusu;
OSB bir sosyal refah duygusudur.

Bu verileri kullanarak çalışanları gruplara ayırmak ve her biri için en etkili kontrol kollarını seçmek gerekir. Aynı zamanda, gruplar arasındaki farklılıklar bariz olmalı ve grup içinde katılımcılar mümkün olduğunca benzer olmalıdır.

Bugüne kadar, sosyolojik anketlerin çoğu yalnızca oy yüzdesi veriyor: ana olumlu yanıt sayısı veya memnun olmayanların yüzdesi dikkate alındı, ancak bu konu sistematik olarak ele alınmadı. Çoğu zaman, anket durumdaki eğilimleri göstermez.

Küme analizi prosedürleri, anket verilerine dayanarak, gerçekten var olan bazı özellik ilişkilerini belirlemek ve bu temelde tipolojilerini oluşturmak için kullanılabilir. Kümeleme analizi prosedürlerinin işleyişi sırasında bir sosyoloğun herhangi bir a priori hipotezinin varlığı, gerekli kondisyon.

Statistica programında küme analizi şu şekilde yapılır.

Bir veri dosyası oluşturun.
İstatistikler/Çok Değişkenli Keşif Teknikleri/Küme Analizi modülünü seçin. Tamam'ı tıklayın, bunun sonucunda bir iletişim kutusu görünecektir:
Görünen pencerede, K-araç kümeleme yöntemini seçin ve Tamam'a tıklayın.
Görüntülenen iletişim kutusunda aşağıdaki ayarları yapmanız gerekir:
- Değişkenler düğmesiyle değişkenleri seçin.
- Kümeleme nesnelerini seçin: bunlar değişkenler - sütunlar (Değişkenler sütunları) veya gözlemler - satırlar (Durumlar (Satırlar)) olabilir. İlk olarak, satırlara göre kümeleyelim (Cases(rows)).
- Küme sayısını seçin.
  Bu seçim, kullanıcı tarafından benzer nesne gruplarının sayısı hakkındaki kendi varsayımlarına dayalı olarak yapılır.
  Küme sayısını seçerken aşağıdakilere rehberlik edin:
  1. Mümkünse küme sayısı çok fazla olmamalıdır.
  2. Belirli bir kümenin nesnelerinin birleştiği mesafe, mümkünse, başka bir şeyin bu kümeye katıldığı mesafeden çok daha az olmalıdır.
  Küme sayısını seçerken, çoğu zaman aynı anda birkaç doğru çözüm vardır. Örneğin, anket sorularına verilen yanıtların sıradan çalışanlar ve işletme yönetimi ile nasıl bir ilişki içinde olduğuyla ilgileniyoruz. Bu nedenle K=2 seçiyoruz. Daha fazla segmentasyon için küme sayısını artırabilirsiniz.
- Ardından, nesnelerin kümelere ilk bölünmesini seçmeniz gerekir (İlk küme merkezleri). İstatistik paketi şunları sunar:
  1. küme merkezleri arasındaki maksimum mesafeye sahip gözlemleri seçin;
  2. mesafeleri sıralayın ve düzenli aralıklarla gözlemleri seçin (varsayılan ayar);
  3. ilk gözlem merkezlerini alın ve kalan nesneleri onlara ekleyin.
  Amaçlarımız için ilk seçenek uygundur.

Pek çok kümeleme algoritması genellikle verinin doğasında olmayan bir yapıyı “empoze eder” ve araştırmacının yönünü şaşırtır. Bu nedenle, birkaç küme analizi algoritması uygulamak ve algoritmaların sonuçlarının genel bir değerlendirmesine dayalı sonuçlar çıkarmak son derece gereklidir.

Analizin sonuçları, beliren iletişim kutusunda görüntülenebilir:

Araç Grafiği sekmesini seçerseniz, küme merkezlerinin koordinatlarının bir grafiği çizilecektir:

Bu grafikteki her kesik çizgi, kümelerden birine karşılık gelir:

Grafiğin yatay ekseninin her bölümü, analize dahil edilen değişkenlerden birine karşılık gelir.
Dikey eksen, kümelerin her birinde yer alan nesneler için değişkenlerin ortalama değerlerine karşılık gelir.

İki insan grubunun hemen hemen tüm konularda bir hizmet kariyerine yönelik tutumlarında önemli farklılıklar olduğu not edilebilir. Sadece bir konuda tam bir oybirliği var - sosyal refah (OSB) anlamında veya daha doğrusu eksikliği (10 üzerinden 2,5 puan).

Şu varsayılabilir:

küme 1 çalışanları görüntüler,
küme 2 - liderlik:
- Yöneticiler, kişisel hedefler ve kurumsal hedeflerin (SOL'ler) bir kombinasyonu olan kariyer gelişiminden (CR) daha memnundur.
- Daha yüksek bir ekonomik refah duygusuna (SEW) ve bir ücret eşitliği duygusuna (SWA) sahiptirler.
- Muhtemelen daha az ulaşım sorunu nedeniyle, evlerine yakınlık konusunda işçilerden daha az endişe duyuyorlar.
- Ayrıca, yöneticilerin işleri değiştirme isteği daha azdır (JSR).

İşçiler iki kategoriye ayrılsalar da çoğu soruya görece aynı cevapları veriyorlar. Başka bir deyişle, bir şey genel çalışan grubuna uygun değilse, aynısı üst yönetime de uymaz veya tam tersi.

Grafiklerin uyumlaştırılması, bir grubun iyiliğinin diğerinin iyiliğine yansıdığı sonucuna varmamızı sağlar.

Küme 1, eve olan bölgesel yakınlıktan memnun değil. Bu grup, esas olarak şehrin farklı yerlerinden işletmeye gelen işçilerin ana kısmıdır. Bu nedenle, üst yönetime, işletmenin çalışanları için kârın bir kısmını konut inşaatına tahsis etmesini teklif etmek mümkündür.

İki insan grubunun hizmet kariyerine karşı tutumunda önemli farklılıklar vardır:

Kariyer gelişiminden memnun olan, kişisel hedefler ile organizasyonun hedefleri arasında yüksek bir çakışma olan çalışanlar, iş değiştirme arzusu duymazlar ve çalışmalarının sonuçlarından memnuniyet duymazlar.
Tersine, işini değiştirmek isteyen ve çalışmalarının sonuçlarından memnun olmayan çalışanlar yukarıdaki göstergelerden memnun değildir.

Üst yönetim mevcut duruma özellikle dikkat etmelidir.

Her öznitelik için varyans analizinin sonuçları Varyans analizi düğmesine basılarak görüntülenir:

Çıktı:

küme merkezlerinden nesne sapma karelerinin toplamı (SS İçinde),
küme merkezleri arasındaki sapmaların karelerinin toplamı (SS Arası),
F-istatistik değerleri,
önem seviyeleri s.

Örneğimiz için, iki değişken için anlamlılık seviyeleri oldukça büyüktür, bu da az sayıda gözlemle açıklanmaktadır. Çalışmanın makalede bulunabilecek tam versiyonunda, küme merkezleri için ortalamaların eşitliği ile ilgili hipotezler 0.01'den küçük önem seviyelerinde reddedilmektedir.

Sınıflandırmaları ve mesafeleri kaydet düğmesi, her kümede bulunan nesnelerin sayısını ve nesnelerin her kümenin merkezine olan mesafelerini görüntüler.

Her kümenin bileşimi ve nesnelerin merkezden uzaklığı

Tablo, CLUSTER sayılarıyla kümeleri oluşturan durum numaralarını (CASE_NO) ve her kümenin merkezinden (DISTANCE) olan mesafeleri gösterir.

Kümelere ait nesneler hakkında bilgi bir dosyaya yazılabilir ve daha ileri analizlerde kullanılabilir. Bu örnekte, anketlerle elde edilen sonuçların bir karşılaştırması, küme 1'in esas olarak sıradan işçilerden ve küme 2 - yöneticilerden oluştuğunu göstermiştir.

Bu nedenle, anketin sonuçları işlenirken, kümeleme analizinin, bir ortalama histogramı oluşturarak veya çeşitli göstergelerden memnun olanların yüzdesini hesaplayarak ulaşılamayan sonuçlara varılmasına izin veren güçlü bir yöntem olduğu not edilebilir. çalışma hayatının kalitesi.

Ağaç kümeleme, ilkesi, önce en yakın ve daha sonra giderek daha uzak öğeleri bir kümede sırayla kümelemek olan hiyerarşik bir algoritma örneğidir. Bu algoritmaların çoğu bir benzerlik matrisinden (mesafeler) başlar ve her bir eleman ilk başta ayrı bir küme olarak kabul edilir.

Küme analizi modülünü yükledikten ve Birleştirme (ağaç kümeleme) öğesini seçtikten sonra, kümeleme parametreleri giriş penceresinde aşağıdaki parametreleri değiştirebilirsiniz:

İlk veriler (Giriş). Çalışılan verinin bir matrisi (Ham veri) ve bir uzaklık matrisi (Mesafe matrisi) şeklinde olabilirler.
Kümeleme (Küme) gözlemleri (Durumlar (ham) veya değişkenler (Değişken (sütunlar))), nesnenin durumunu açıklar.
Mesafe ölçüleri. Burada aşağıdaki önlemler arasından seçim yapabilirsiniz:
- Öklid uzaklıkları,
- Kare Öklid uzaklıkları,
- şehir bloklarının mesafesi (Manhattan mesafesi, Şehir bloğu (Manhattan) mesafesi), Chebychev mesafe metriği,
- güç mesafesi (Güç…;),
- Yüzde anlaşmazlık.
Kümeleme yöntemi (Birleştirme (bağlantı) kuralı).
Aşağıdaki seçenekler burada mevcuttur:
- tek bağlantı (en yakın komşu yöntemi) (Tek Bağlantı),
- tam bağlantı (en uzak komşular yöntemi) (Tam Bağlantı),
- ağırlıksız ikili grup ortalaması,
- ağırlıklı ikili grup ortalaması,
- ağırlıksız centroid yöntemi (Ağırlıksız çift-grup centroid),
- ağırlıklı centroid yöntemi (medyan) (Ağırlıklı çift grup centroid (medyan)),
- Ward'ın yöntemi.

Kümelemenin bir sonucu olarak, yatay veya dikey bir dendrogram oluşturulur - nesneler ve kümeler arasındaki mesafelerin sırayla birleştirildiklerinde belirlendiği bir grafik.

Grafiğin ağaç yapısı, seçilen eşiğe - kümeler arasındaki belirli bir mesafeye - bağlı olarak kümeleri tanımlamanıza olanak tanır.

Ek olarak, orijinal nesneler arasındaki mesafe matrisi (Mesafe matrisi) görüntülenir; her kaynak nesne için ortalama ve standart sapmalar (Dağıtım istatistikleri). Ele alınan örnek için, varsayılan ayarlarla değişkenlerin bir küme analizini gerçekleştireceğiz. Ortaya çıkan dendrogram şekilde gösterilmiştir:

Dendrogramın dikey ekseni, nesneler arasındaki ve nesneler ve kümeler arasındaki mesafeleri çizer. Yani, SEB ve OSD değişkenleri arasındaki mesafe beşe eşittir. İlk adımda bu değişkenler tek bir kümede birleştirilir.

Dendrogramın yatay bölümleri, belirli bir kümeleme adımı için seçilen eşik mesafelerine karşılık gelen seviyelerde çizilir.

“İş değiştirme arzusu” (JSR) sorusunun ayrı bir küme oluşturduğu grafikten görülmektedir. Genel olarak, herhangi bir yere gitme arzusu herkesi eşit olarak ziyaret eder. Ayrıca, ayrı bir küme, eve bölgesel yakınlık sorunudur (LHB).

Önem açısından, K-araç yöntemi kullanılarak yapılan çalışmanın sonuçlarına göre yapılan konut inşaatı ihtiyacı hakkındaki sonucu doğrulayan ikinci sıradadır.

Ekonomik refah (PEW) ve ödeme eşitliği (PWF) duyguları birleştirilir - bu bir ekonomik sorunlar bloğudur. Kariyer(CR) ve kişisel hedefler ile kurumsal hedeflerin (SOL'ler) birleşimi de birleştirilir.

Diğer kümeleme yöntemleri ve diğer mesafe türlerinin seçimi, dendrogramda önemli bir değişikliğe yol açmaz.

Sonuçlar

Küme analizi, herhangi bir konu alanında keşifsel veri analizi ve istatistiksel araştırma için güçlü bir araçtır.
Statistica programı, küme analizinin hem hiyerarşik hem de yapısal yöntemlerini uygular. Bu istatistiksel paketin avantajları, grafik yeteneklerinden kaynaklanmaktadır. Çalışılan değişkenlerin uzayında elde edilen kümelerin iki boyutlu ve üç boyutlu grafik temsilleri ve ayrıca nesneleri gruplandırmak için hiyerarşik prosedürün sonuçları sağlanmaktadır.
Birkaç küme analizi algoritması uygulamak ve algoritmaların sonuçlarının genel bir değerlendirmesine dayalı sonuçlar çıkarmak gerekir.
Kümeleme analizi, farklı şekillerde yapılırsa, sonuçlar karşılaştırılır ve ortak örüntüler bulunursa ve kümeleme yönteminden bağımsız olarak kararlı kümeler bulunursa başarılı sayılabilir.
Küme analizi, tanımlamanızı sağlar sorunlu durumlar ve bunları çözmenin yollarını ana hatlarıyla belirtin. Bu nedenle, bu parametrik olmayan istatistik yöntemi, sistem analizinin ayrılmaz bir parçası olarak düşünülebilir.

Giriş Tipleri

Nesnelerin gösterge niteliğinde açıklaması. Her nesne, adı verilen bir dizi özelliğiyle tanımlanır. işaretler. Özellikler sayısal veya sayısal olmayan olabilir.
Nesneler arasındaki mesafe matrisi. Her nesne, eğitim örneğindeki diğer tüm nesnelere olan mesafelerle tanımlanır.

Mesafe matrisiöznitelik tanımları arasındaki mesafe fonksiyonunun (metrik) nasıl tanıtılacağına bağlı olarak, nesnelerin özellik açıklamalarının matrisinden sonsuz sayıda şekilde hesaplanabilir. Öklid metriği sıklıkla kullanılır, ancak çoğu durumda bu seçim bir buluşsaldır ve yalnızca uygunluk değerlendirmelerinden kaynaklanır.

Ters problem - nesneler arasındaki ikili mesafelerin matrisi ile özellik açıklamalarının geri yüklenmesi - genel durumda çözümü yoktur ve yaklaşık çözüm benzersiz değildir ve önemli bir hataya sahip olabilir. Bu problem çok boyutlu ölçekleme yöntemleri ile çözülmektedir.

Böylece, kümeleme probleminin formülasyonu mesafe matrisi daha geneldir. Öte yandan, özellik açıklamalarının varlığında, genellikle daha fazlasını oluşturmak mümkündür. etkili yöntemler kümeleme.

Kümelemenin hedefleri

Küme yapısını tanımlayarak verileri anlama. Örneği benzer nesne gruplarına bölmek, her kümeye kendi analiz yöntemini uygulayarak ("böl ve yönet" stratejisi) daha fazla veri işlemeyi ve karar vermeyi basitleştirmeyi mümkün kılar.
Veri sıkıştırma. İlk örnek aşırı büyükse, her kümeden en tipik temsilcilerden birini bırakarak azaltılabilir.
Yenilik tespiti. Herhangi bir kümeye eklenemeyen atipik nesneler seçilir.

İlk durumda, küme sayısını küçültmeye çalışırlar. İkinci durumda, her küme içindeki nesnelerin yüksek (veya sabit) derecede benzerliğini sağlamak daha önemlidir ve herhangi bir sayıda küme olabilir. Üçüncü durumda, kümelerden herhangi birine uymayan bireysel nesneler en çok ilgi çekenlerdir.

Taksonominin sonucu, ağaç benzeri bir hiyerarşik yapıdır. Ek olarak, her nesne, ait olduğu tüm kümelerin, genellikle büyükten küçüğe bir numaralandırılmasıyla karakterize edilir. Görsel olarak, taksonomi, dendrogram adı verilen bir grafik olarak temsil edilir.

Benzerliğe dayalı klasik bir sınıflandırma örneği canlıların iki terimli isimlendirmesi 18. yüzyılın ortalarında Carl Linnaeus tarafından önerildi. Benzer sistematizasyonlar, ilgili bilgileri düzene sokmak için birçok bilgi alanında inşa edilmiştir. çok sayıda nesneler.

Mesafe fonksiyonları

Kümeleme yöntemleri

İstatistiksel kümeleme algoritmaları
Hiyerarşik kümeleme veya sınıflandırma

Kümelenme Sorununun Resmi Açıklaması

Kümeleme sorununun çözümü temelde belirsizdir ve bunun birkaç nedeni vardır:

Kümeleme kalitesi için benzersiz bir en iyi kriter yoktur. Açıkça tanımlanmış bir kriteri olmayan, ancak oldukça makul bir kümelemeyi “yapıya göre” gerçekleştiren bir dizi algoritmanın yanı sıra bir dizi buluşsal kriter bilinmektedir. Hepsi farklı sonuçlar verebilir.
Küme sayısı genellikle önceden bilinmez ve bazı öznel kriterlere göre belirlenir.
Kümelemenin sonucu, seçimi kural olarak öznel olan ve bir uzman tarafından belirlenen metriğe önemli ölçüde bağlıdır.

Bağlantılar

Vorontsov K.V. Emsallere Göre Matematiksel Öğretim Yöntemleri. Moskova Fizik ve Teknoloji Enstitüsü (2004), VMiK MSU (2007).
Sergey Nikolenko. Ders slaytları "Kümeleme Algoritmaları 1" ve "Kümeleme Algoritmaları 2". Kurs "Kendi kendine öğrenme sistemleri".

Edebiyat

Aivazyan S.A., Buchstaber V.M., Enyukov I.S., Meshalkin L.D. Uygulamalı İstatistikler: Sınıflandırma ve Boyut Azaltma. - M.: Finans ve istatistik, 1989.
Zhuravlev Yu.I., Ryazanov V.V., Senko O.V."Tanıma". Matematiksel yöntemler. Yazılım sistemi. Pratik uygulamalar. - M.: Faziş, 2006. .
Zagoruiko N.G. Uygulamalı veri ve bilgi analizi yöntemleri. - Novosibirsk: IM SO RAN, 1999. .
Mandel I.D. küme analizi. - M.: Finans ve istatistik, 1988. .
Shlesinger M., Glavach V.İstatistiksel ve yapısal tanıma üzerine on ders. - Kiev: Naukova Dumka, 2004. .
Hastie T., Tibshirani R., Friedman J.İstatistiksel Öğrenmenin Unsurları. - Springer, 2001. .

Giriş Tipleri

Nesnelerin gösterge niteliğinde açıklaması. Her nesne, adı verilen bir dizi özelliğiyle tanımlanır. işaretler. Özellikler sayısal veya sayısal olmayan olabilir.
Nesneler arasındaki mesafe matrisi. Her nesne, eğitim örneğindeki diğer tüm nesnelere olan mesafelerle tanımlanır.

Kümelemenin hedefleri

Küme yapısını tanımlayarak verileri anlama. Örneği benzer nesne gruplarına bölmek, her kümeye kendi analiz yöntemini uygulayarak ("böl ve yönet" stratejisi) daha fazla veri işlemeyi ve karar vermeyi basitleştirmeyi mümkün kılar.
Veri sıkıştırma. İlk örnek aşırı büyükse, her kümeden en tipik temsilcilerden birini bırakarak azaltılabilir.
yenilik tespiti. yenilik algılama). Herhangi bir kümeye eklenemeyen atipik nesneler seçilir.

İlk durumda, küme sayısını küçültmeye çalışırlar. İkinci durumda, her küme içindeki nesnelerin yüksek derecede benzerliğini sağlamak daha önemlidir ve herhangi bir sayıda küme olabilir. Üçüncü durumda, kümelerden herhangi birine uymayan bireysel nesneler en çok ilgi çekenlerdir.

Taksonominin sonucu, ağaç benzeri bir hiyerarşik yapıdır. Ek olarak, her nesne, ait olduğu tüm kümelerin, genellikle büyükten küçüğe bir numaralandırılmasıyla karakterize edilir.

Benzerliğe dayalı klasik bir sınıflandırma örneği, 18. yüzyılın ortalarında Carl Linnaeus tarafından önerilen canlıların iki terimli isimlendirmesidir. Çok sayıda nesne hakkında bilgiyi organize etmek için birçok bilgi alanında benzer sistemleştirmeler oluşturulmuştur.

Kümeleme yöntemleri

Kümelenme Sorununun Resmi Açıklaması

Edebiyat

Aivazyan S.A., Buchstaber V.M., Enyukov I.S., Meshalkin L.D. Uygulamalı İstatistikler: Sınıflandırma ve Boyut Azaltma. - M.: Finans ve istatistik, 1989.
Zhuravlev Yu.I., Ryazanov V.V., Senko O.V."Tanıma". Matematiksel yöntemler. Yazılım sistemi. Pratik uygulamalar. - E.: Faziş, 2006. ISBN 5-7036-0108-8.
Zagoruiko N.G. Uygulamalı veri ve bilgi analizi yöntemleri. - Novosibirsk: IM SO RAN, 1999. ISBN 5-86134-060-9.
Mandel I.D. küme analizi. - E.: Finans ve istatistik, 1988. ISBN 5-279-00050-7.
Shlesinger M., Glavach V.İstatistiksel ve yapısal tanıma üzerine on ders. - Kiev: Naukova Dumka, 2004. ISBN 966-00-0341-2.
Hastie T., Tibshirani R., Friedman J.İstatistiksel Öğrenmenin Unsurları. - Springer, 2001. ISBN 0-387-95284-5.
Jain Murty Flynn Veri kümeleme: bir inceleme . // ACM Hesaplama. hayatta kal. 31 (3) , 1999

Dış bağlantılar

Rusça

www.MachineLearning.ru - makine öğrenimi ve veri madenciliğine adanmış profesyonel wiki kaynağı
S. Nikolenko. Kümeleme algoritmaları üzerine ders slaytları

İngilizcede

KOMPAKT - Kümeleme Değerlendirmesi için Karşılaştırmalı Paket. Ücretsiz bir Matlab paketi, 2006.
P. Berkin, Kümeleme Veri Madenciliği Teknikleri Araştırması, Tahakkuk Yazılımı, 2002.
Jain, Murty ve Flynn: Veri Kümeleme: Bir İnceleme, ACM Komp. Surv., 1999.
hiyerarşik, k-ortalamalar ve bulanık c-ortalamaların başka bir sunumu için bu kümeleme girişine bakın. Ayrıca Gauss'ların karışımı hakkında bir açıklaması var.
davut dowe, Karışım Modelleme sayfası- diğer kümeleme ve karışım modeli bağlantıları.
kümeleme hakkında bir eğitim
Çevrimiçi ders kitabı: Bilgi Teorisi, Çıkarım ve Öğrenme Algoritmaları, David J.C. MacKay, k-araç kümeleme, yumuşak k-araç kümeleme ve E-M algoritması ve E-M algoritmasının varyasyonel görünümü dahil olmak üzere türevler hakkında bölümler içerir.
"Kendi Kendini Organize Eden Gen", rekabetçi öğrenme ve kendi kendini organize eden haritalar yoluyla kümelemeyi açıklayan öğretici.
kernlab - Çekirdek tabanlı makine öğrenimi için R paketi (spektral kümeleme uygulamasını içerir)
Öğretici - Kümeleme Algoritmalarının tanıtıldığı öğretici (k-ortalamalar, bulanık-c-ortalamalar, hiyerarşik, gaussianların karışımı) + bazı etkileşimli demolar (java uygulamaları)
Veri Madenciliği Yazılımı - Veri madenciliği yazılımı sıklıkla kümeleme tekniklerini kullanır.
Java Rekabetçi Öğrenme Uygulaması Kümeleme için Denetimsiz Sinir Ağları paketi. Java'da yazılmıştır. Tüm kaynak koduyla tamamlayın.