Klasteranalüüsi meetodid. hierarhilised meetodid. Klasteranalüüs on algoritm sarnaste tunnuste järgi rühmadesse jagatud andmete uurimiseks.

Tervitused!

Lõputöös viisin läbi andmete rühmitamise algoritmide ülevaate ja võrdleva analüüsi. Arvasin, et juba kogutud ja läbitöötatud materjal võib olla kellelegi huvitav ja kasulik.
Ta rääkis artiklis selle kohta, mis on klasterdamine. Kordan osaliselt Aleksandri sõnu, osaliselt täiendan. Ka käesoleva artikli lõpus saavad huvilised materjale lugeda bibliograafia linkidelt.

Püüdsin ka kuiva "diplomi" esituslaadi ajakirjanduslikumaks tuua.

Klasterdamise mõiste

Klasterdamine (või klastrianalüüs) on ülesanne jaotada objektide komplekt rühmadesse, mida nimetatakse klastriteks. Igas rühmas peaksid olema "sarnased" objektid ja erinevate rühmade objektid peaksid olema võimalikult erinevad. Klasterdamise ja klassifitseerimise peamine erinevus seisneb selles, et rühmade loend ei ole selgelt määratletud ja see määratakse algoritmi käigus.

Klasteranalüüsi rakendamine aastal üldine vaade taandub järgmistele etappidele:

  1. Objektide näidise valimine rühmitamiseks.
  2. Muutujate hulga määratlus, mille alusel valimi objekte hinnatakse. Vajadusel normaliseerige muutujate väärtused.
  3. Objektide sarnasuse mõõteväärtuste arvutamine.
  4. Klasteranalüüsi meetodi rakendamine sarnaste objektide (klastrite) rühmade loomiseks.
  5. Analüüsitulemuste esitlemine.
Pärast tulemuste saamist ja analüüsimist on võimalik valitud mõõdikut ja klasterdamismeetodit korrigeerida kuni optimaalse tulemuse saamiseni.

Kaugusmõõdud

Niisiis, kuidas teha kindlaks objektide "sarnasus"? Kõigepealt peate iga objekti jaoks tegema karakteristikute vektori - reeglina on see arvväärtuste kogum, näiteks inimese pikkus-kaal. Siiski on ka algoritme, mis töötavad kvalitatiivsete (nn kategooriliste) tunnustega.

Kui oleme tunnusvektori määranud, saame selle normaliseerida nii, et kõik komponendid panustavad "kauguse" arvutamisel samaväärselt. Normaliseerimisprotsessi ajal vähendatakse kõiki väärtusi teatud vahemikku, näiteks [-1, -1] või .

Lõpuks mõõdetakse iga objektipaari puhul nendevaheline "kaugus" – sarnasuse aste. Mõõdikuid on palju, siin on vaid peamised:

Mõõdikute valik on täielikult uurija enda teha, kuna erinevate mõõtude kasutamisel võivad klasterdamise tulemused oluliselt erineda.

Algoritmide klassifikatsioon

Enda jaoks olen tuvastanud kaks peamist klastrite algoritmide klassifikatsiooni.
  1. Hierarhiline ja tasane.
    Hierarhilised algoritmid (nimetatakse ka taksonoomia algoritmideks) ei ehita valimi ühte partitsiooni mitteühendatud klastriteks, vaid pesastatud partitsioonide süsteemi. See. väljundis saame kobarapuu, mille juur on kogu valim ja lehed on kõige väiksemad kobarad.
    Lamedad algoritmid loovad ühe objektide partitsiooni klastriteks.
  2. Selge ja hägune.
    Selged (või mittekattuvad) algoritmid määravad igale näidisobjektile klastri numbri, st. iga objekt kuulub ainult ühte klastrisse. Hägusad (või ristuvad) algoritmid määravad igale objektile reaalsete väärtuste komplekti, mis näitavad objekti ja klastri suhte astet. Need. iga objekt kuulub teatud tõenäosusega igasse klastrisse.

Klastrite ühendamine

Hierarhiliste algoritmide kasutamise puhul tekib küsimus, kuidas klastreid omavahel kombineerida, kuidas arvutada nendevahelisi “kaugusi”. Mõõdikuid on mitu:
  1. Üks link (lähimad naabrid)
    Selle meetodi puhul määratakse kahe klastri vaheline kaugus erinevates klastrites kahe lähima objekti (lähimate naabrite) vahelise kaugusega. Saadud klastrid kipuvad kokku ahelduma.
  2. Täielik link (kaugimate naabrite kaugus)
    Selle meetodi puhul määratakse klastrite vahelised kaugused erinevates klastrites (st kõige kaugemate naabrite) mis tahes kahe objekti vahelise suurima vahemaa järgi. See meetod töötab tavaliselt väga hästi, kui objektid on pärit eraldi rühmadest. Kui klastrid on piklikud või nende loomulik tüüp on "kett", siis see meetod ei sobi.
  3. Kaalumata paaride keskmine
    Selle meetodi puhul arvutatakse kahe erineva klastri vaheline kaugus kõigi neis olevate objektide paaride keskmise kaugusena. Meetod on tõhus, kui objektid moodustavad erinevaid rühmi, kuid see toimib sama hästi ka laiendatud ("ahel" tüüpi) klastrite puhul.
  4. Kaalutud paaride keskmine
    Meetod on identne kaalumata paaripõhise keskmise meetodiga, välja arvatud see, et arvutustes kasutatakse kaalutegurina vastavate klastrite suurust (st neis sisalduvate objektide arvu). Seetõttu tuleks seda meetodit kasutada juhul, kui eeldatakse ebavõrdseid klastri suurusi.
  5. Kaalumata tsentroidi meetod
    Selle meetodi puhul määratletakse kahe klastri vaheline kaugus nende raskuskeskmete vahelise kaugusena.
  6. Kaalutud tsentroidi meetod (mediaan)
    See meetod on identne eelmisega, välja arvatud see, et arvutustes kasutatakse klastri suuruste erinevuste arvessevõtmiseks kaalu. Seega, kui klastri suurustes on või kahtlustatakse olulisi erinevusi, on see meetod eelmisest eelistatum.

Algoritmide ülevaade

Hierarhilised klasterdamisalgoritmid
Hierarhilisi rühmitamisalgoritme on kahte peamist tüüpi: kasvavad ja kahanevad algoritmid. Ülalt-alla algoritmid töötavad ülalt-alla põhimõttel: alguses paigutatakse kõik objektid ühte klastrisse, mis seejärel jagatakse järjest väiksemateks klastriteks. Levinumad on alt-üles-algoritmid, mis paigutavad iga funktsiooni algselt eraldi klastrisse ja liidavad seejärel klastrid suuremateks ja suuremateks klastriteks, kuni kõik valimitud funktsioonid sisalduvad samas klastris. Seega konstrueeritakse pesastatud partitsioonide süsteem. Selliste algoritmide tulemused esitatakse tavaliselt puu - dendrogrammi - kujul. Sellise puu klassikaline näide on loomade ja taimede klassifikatsioon.

Klastrite vaheliste kauguste arvutamiseks kasutavad kõik kõige sagedamini kahte kaugust: üksikühendust või täisühendust (vt klastrite vahekauguse mõõtmiste ülevaadet).

Hierarhiliste algoritmide puuduseks on terviklike partitsioonide süsteem, mis võib olla lahendatava probleemi kontekstis üleliigne.

Ruuttõrke algoritmid
Klasterdamisprobleemi võib käsitleda kui objektide optimaalse rühmadesse jaotamise konstrueerimist. Sel juhul saab optimaalsust määratleda kui nõuet minimeerida ruutkeskmise jaotuse viga:

Kus cj- klastri "massikeskus". j(punkt antud klastri tunnuste keskmiste väärtustega).

Ruutvea algoritmid on lamedate algoritmide tüüpi. Selle kategooria kõige levinum algoritm on k-keskmiste meetod. See algoritm loob teatud arvu klastreid, mis asuvad üksteisest võimalikult kaugel. Algoritmi töö on jagatud mitmeks etapiks:

  1. Vali juhuslikult k punktid, mis on klastrite esialgsed "massikeskused".
  2. Määrake iga objekt lähima massikeskmega klastrisse.
  3. Arvutage klastrite "massikeskmed" ümber vastavalt nende praegusele koostisele.
  4. Kui algoritmi peatamise kriteerium ei ole täidetud, minge tagasi sammu 2 juurde.
Algoritmi töö peatamise kriteeriumiks valitakse tavaliselt keskmise ruutvea minimaalne muutus. Algoritmi on võimalik peatada ka siis, kui 2. etapis ei olnud objekte, mis kolisid klastrist klastrisse.

Selle algoritmi puuduste hulka kuulub vajadus määrata tükeldamiseks klastrite arv.

Hägusad algoritmid
Kõige populaarsem fuzzy klasterdamisalgoritm on c-means algoritm. See on k-keskmise meetodi modifikatsioon. Algoritmi sammud:

See algoritm ei pruugi sobida, kui klastrite arv ei ole ette teada või kui on vaja iga objekt unikaalselt omistada ühele klastrile.
Graafiteoorial põhinevad algoritmid
Selliste algoritmide olemus seisneb selles, et objektide valik esitatakse graafikuna G=(V, E), mille tipud vastavad objektidele ja mille servade kaal on võrdne objektide vahelise "kaugusega". Graafikklasterdamise algoritmide eeliseks on nähtavus, rakendamise suhteline lihtsus ja võimalus teha erinevaid täiustusi geomeetrilistest kaalutlustest lähtuvalt. Peamised algoritmid on ühendatud komponentide eraldamise algoritm, minimaalse ulatuva (ulatuva) puu koostamise algoritm ja kihilise klastrite moodustamise algoritm.
Algoritm ühendatud komponentide eraldamiseks
Ühendatud komponentide eraldamise algoritmis määratakse sisendparameeter R ja graafikus kõik servad, mille "kaugused" on suuremad kui R. Seotuks jäävad vaid lähimad objektide paarid. Algoritmi eesmärk on leida selline väärtus R, mis jääb kõigi "kauguste" vahemikku, mille juures graafik "lahkub" mitmeks ühendatud komponendiks. Saadud komponendid on klastrid.

Parameetri valimiseks R tavaliselt koostatakse paarikaupa kauguste jaotuste histogramm. Täpselt määratletud klastriandmete struktuuriga ülesannete puhul on histogrammil kaks piiki – üks vastab klastrisisesele kaugusele, teine ​​​​vastab klastritevahelistele kaugustele. Parameeter R on valitud nende piikide vahelisest miinimumtsoonist. Samas on kaugusläve abil üsna keeruline klastrite arvu kontrollida.

Minimaalne ulatuva puu algoritm
Minimaalse ulatuva puu algoritm loob esmalt graafikule minimaalse ulatuva puu ja seejärel eemaldab järjestikku suurima kaaluga servad. Joonisel on näidatud üheksa tunnuse jaoks saadud minimaalne ulatuv puu.

Eemaldades 6 ühiku pikkuse CD lingi (maksimaalse vahemaaga serv), saame kaks klastrit: (A, B, C) ja (D, E, F, G, H, I). Teise klastri saab jagada veel kaheks klastriks, eemaldades serva EF, mille pikkus on 4,5 ühikut.

Kihiline klasterdamine
Kihtide kaupa klasterdamise algoritm põhineb ühendatud graafiku komponentide valikul objektide (tippude) teatud kauguste tasemel. Kauguse tase määratakse kauguse läve järgi c. Näiteks kui objektide vaheline kaugus , siis.

Kihiline klasterdamisalgoritm genereerib graafi alamgraafikute jada G, mis peegeldavad klastrite vahelisi hierarhilisi suhteid:

,

Kus G t = (V, E t)- taseme graafik koos t,
,
koos t– t-nda vahemaa lävi,
m on hierarhia tasandite arv,
G 0 = (V, o), o on tühi graafi servade hulk, mis on saadud t0 = 1,
G m = G, see tähendab objektide graafik ilma kauguse (graafiku servade pikkuse) piiranguteta, kuna t m = 1.

Vahemaa lävede muutmisega ( 0 , …, m-ga), kus 0 = alates 0 < alates 1 < …< koos m= 1, on võimalik kontrollida saadud klastrite hierarhia sügavust. Seega on kihtide kaupa klasterdamise algoritm võimeline looma nii tasase andmepartitsiooni kui ka hierarhilise partitsiooni.

Algoritmide võrdlus

Algoritmide arvutuslik keerukus

Algoritmide võrdlev tabel
Klasterdamisalgoritm Klastrite vorm Sisendandmed tulemused
Hierarhiline Tasuta Klastrite arv või kauguslävi hierarhia kärpimiseks Klastrite kahendpuu
k-tähendab hüpersfäär Klastrite arv Klastrite keskused
c-tähendab hüpersfäär Klastrite arv, udususe aste Klastrite keskused, liikmemaatriks
Ühendatud komponentide valimine Tasuta Kauguse lävi R
Minimaalne laiuv puu Tasuta Klastrite arv või kauguse lävi servade eemaldamiseks Klastrite puustruktuur
Kihiline klasterdamine Tasuta Kauguslävede järjestus Erinevate hierarhiatasemetega klastrite puustruktuur

Natuke rakendusest

Oma töös oli mul vaja valida hierarhilistest struktuuridest (puudest) eraldi alad. Need. sisuliselt oli vaja algpuu lõigata mitmeks väiksemaks puuks. Kuna suunatud puu on graafi erijuht, sobivad loomulikult graafiteoorial põhinevad algoritmid.

Erinevalt täielikult ühendatud graafist ei ole suunatud puu kõik tipud ühendatud servadega ja servade koguarv on n–1, kus n on tippude arv. Need. puu sõlmede suhtes lihtsustatakse ühendatud komponentide eraldamise algoritmi tööd, kuna suvalise arvu servade eemaldamine "tükeldab" puu ühendatud komponentideks (eraldi puudeks). Minimaalne ulatuva puu algoritm langeb sel juhul kokku ühendatud komponentide eraldamise algoritmiga – pikimate servade eemaldamisel jagatakse algne puu mitmeks puuks. Sel juhul on ilmne, et kõige minimaalsema ulatuva puu ehitamise faas jäetakse vahele.

Teiste algoritmide kasutamise korral peaksid nad eraldi arvestama objektidevaheliste seoste olemasolu, mis muudab algoritmi keerulisemaks.

Eraldi tahan öelda, et parima tulemuse saavutamiseks on vaja katsetada kaugusmõõtude valikut ja mõnikord isegi algoritmi muuta. Ühtset lahendust pole.

klastri analüüs

Enamik teadlasi kaldub uskuma, et esimest korda kasutatakse terminit "klastrianalüüs" (ingl. klaster- kimp, tromb, kimp) pakkus välja matemaatik R. Trion. Seejärel tekkis rida termineid, mida tänapäeval peetakse mõiste "klastrianalüüs" sünonüümiks: automaatne klassifitseerimine; botrüoloogia.

Klasteranalüüs on mitmemõõtmeline statistiline protseduur, mis kogub andmeid, mis sisaldavad teavet objektide valimi kohta, ja korraldab seejärel objektid suhteliselt homogeenseteks rühmadeks (klastriteks) (Q-klasterdamine või Q-tehnika, õige klastrianalüüs). Klaster - elementide rühm, mida iseloomustab ühine omadus, klasteranalüüsi peamine eesmärk on leida proovist sarnaste objektide rühmad. Klasteranalüüsi rakendusala on väga lai: seda kasutatakse arheoloogias, meditsiinis, psühholoogias, keemias, bioloogias, avalikus halduses, filoloogias, antropoloogias, turunduses, sotsioloogias ja teistes distsipliinides. Rakenduse universaalsus on aga kaasa toonud suure hulga kokkusobimatute terminite, meetodite ja lähenemisviiside esilekerkimise, mis raskendavad klasteranalüüsi ühemõttelist kasutamist ja järjepidevat tõlgendamist. Orlov A. I. soovitab eristada järgmist:

Ülesanded ja tingimused

Klasteranalüüs teostab järgmist peamised eesmärgid:

  • Tüpoloogia või klassifikatsiooni väljatöötamine.
  • Objektide rühmitamiseks kasulike kontseptuaalsete skeemide uurimine.
  • Hüpoteeside genereerimine andmete uurimise põhjal.
  • Hüpoteeside testimine või uurimine, et teha kindlaks, kas ühel või teisel viisil tuvastatud tüübid (rühmad) on olemasolevates andmetes tegelikult olemas.

Olenemata õppeainest hõlmab klasteranalüüsi kasutamine järgmised sammud:

  • Proovide võtmine rühmitamiseks. On arusaadav, et on mõttekas koondada ainult kvantitatiivsed andmed.
  • Muutujate kogumi määratlus, mille järgi valimi objekte hinnatakse, see tähendab tunnusruumi.
  • Objektide vahelise sarnasuse (või erinevuse) ühe või teise mõõtme väärtuste arvutamine.
  • Klasteranalüüsi meetodi rakendamine sarnaste objektide rühmade loomiseks.
  • Kobarlahenduse tulemuste valideerimine.

Klasteranalüüs esitab järgmist andmenõuded:

  1. näitajad ei tohiks olla üksteisega korrelatsioonis;
  2. näitajad ei tohiks olla vastuolus mõõtmisteooriaga;
  3. indikaatorite jaotus peaks olema normaalsele lähedane;
  4. näitajad peavad vastama "stabiilsuse" nõudele, mis tähendab, et juhuslikud tegurid ei mõjuta nende väärtusi;
  5. proov peaks olema homogeenne, mitte sisaldama "kõrvalväärtusi".

Leiate andmete kahe põhinõude - ühtsuse ja täielikkuse - kirjelduse:

Homogeensus eeldab, et kõik tabelis esitatud olemid oleksid ühesugused. Täielikkuse nõue on, et komplektid I ja J esitas vaadeldava nähtuse ilmingute täieliku kirjelduse. Kui arvestada tabelit, milles I on kollektsioon ja J- seda populatsiooni kirjeldav muutujate kogum, siis see peaks olema uuritava üldkogumi esinduslik valim ja tunnuste süsteem J peaks andma indiviidide rahuldava vektorpildi i uurija vaatevinklist.

Kui klasteranalüüsile eelneb faktoranalüüs, siis valimit ei ole vaja “parandada” - välja toodud nõuded teostab faktori modelleerimise protseduur ise (on veel üks eelis - z-standardiseerimine ilma negatiivsete tagajärgedeta valimile; kui see viiakse läbi otse klasteranalüüsi jaoks, see võib viia rühmade eraldamise selguse vähenemiseni). Vastasel juhul tuleb proovi kohandada.

Klasterdamisprobleemide tüpoloogia

Sisestustüübid

AT kaasaegne teadus Sisendandmete töötlemiseks kasutatakse mitmeid algoritme. Analüüsi objektide võrdlemise teel tunnuste alusel (bioloogiateadustes kõige levinum) nimetatakse K- analüüsi tüüp ja tunnuste võrdlemise korral objektide põhjal - R- analüüsi tüüp. On püütud kasutada hübriidanalüüsitüüpe (näiteks RQ analüüs), kuid seda metoodikat ei ole veel korralikult välja töötatud.

Klastrite loomise eesmärgid

  • Andmete mõistmine klastri struktuuri tuvastamise kaudu. Valimi jagamine sarnaste objektide rühmadesse võimaldab lihtsustada edasist andmetöötlust ja otsuste tegemist, rakendades igale klastrile oma analüüsimeetodit (strateegia „jaga ja valluta”).
  • Andmete tihendamine. Kui esialgne valim on liiga suur, saab seda vähendada, jättes igast klastrist ühe tüüpilisema esindaja.
  • uudsuse tuvastamine. uudsuse tuvastamine). Valitakse ebatüüpilised objektid, mida ei saa ühegi klastri külge kinnitada.

Esimesel juhul püütakse klastrite arvu väiksemaks muuta. Teisel juhul on olulisem tagada kõrge aste objektide sarnasused igas klastris ja klastreid võib olla mis tahes arv. Kolmandal juhul pakuvad suurimat huvi üksikud objektid, mis ei mahu ühtegi klastrisse.

Kõigil neil juhtudel saab rakendada hierarhilist klasterdamist, kui suured klastrid jagatakse väiksemateks, mis omakorda veel väiksemateks jne. Selliseid ülesandeid nimetatakse taksonoomia ülesanneteks. Taksonoomia tulemuseks on puutaoline hierarhiline struktuur. Lisaks iseloomustab iga objekti kõigi klastrite loend, kuhu see kuulub, tavaliselt suurtest kuni väikesteni.

Klasterdamismeetodid

Klasterdamismeetodite üldtunnustatud klassifikatsioon puudub, kuid V. S. Berikovi ja G. S. Lbovi kindlat katset võib märkida. Kui üldistada klastrimeetodite erinevaid klassifikatsioone, saame eristada mitmeid rühmi (mõned meetodid võib omistada mitmele rühmale korraga ja seetõttu tehakse ettepanek käsitleda seda tüpiseerimist kui mõningast lähendust klastrimeetodite tegelikule klassifikatsioonile):

  1. Tõenäosuslik lähenemine. Eeldatakse, et iga vaadeldav objekt kuulub ühte k klassist. Mõned autorid (näiteks A. I. Orlov) usuvad seda seda rühma ei viita üldse klasterdamisele ja vastandub sellele nimetuse all "diskrimineerimine", ehk siis valikule määrata objektid ühte teadaolevatest rühmadest (koolitusnäidised).
  2. Tehisintellektisüsteemidel põhinevad lähenemised. Väga tinglik rühm, kuna AI meetodeid on palju ja metoodiliselt on need väga erinevad.
  3. loogiline lähenemine. Dendrogrammi konstrueerimine toimub otsustuspuu abil.
  4. Graafikteoreetiline lähenemine.
    • Graafiku klasterdamise algoritmid
  5. Hierarhiline lähenemine. Eeldatakse pesastatud rühmade (erineva järjestusega klastrite) olemasolu. Algoritmid jagunevad omakorda aglomeratiivseteks (ühendavateks) ja jagavateks (eraldavateks). Tunnuste arvu järgi eristatakse mõnikord monoteetilisi ja polüteetilisi klassifitseerimismeetodeid.
    • Hierarhiline jaotusrühmitus ehk taksonoomia. Klasterdamisprobleeme käsitletakse kvantitatiivses taksonoomias.
  6. Muud meetodid. Ei kuulu eelmistesse rühmadesse.
    • Statistilised klasterdamisalgoritmid
    • Klastrite ansambel
    • KRAB perekonna algoritmid
    • Algoritm, mis põhineb sõelumismeetodil
    • DBSCAN jne.

Lähenemisviisid 4 ja 5 on mõnikord kombineeritud struktuurse või geomeetrilise lähenemise nime all, millel on rohkem formaliseeritud läheduse mõiste. Vaatamata olulistele erinevustele loetletud meetodite vahel, tuginevad nad kõik originaalile. kompaktsuse hüpotees»: objektiruumis peavad kõik lähedased objektid kuuluma samasse klastrisse ja vastavalt kõik erinevad objektid erinevatesse klastritesse.

Klasterdamisprobleemi ametlik avaldus

Laskma olla objektide kogum, olla klastrite arvude (nimede, siltide) kogum. Objektide vaheline kaugusfunktsioon on antud. On olemas piiratud õppeobjektide komplekt. Valim tuleb jagada mittekattuvateks alamhulkadeks, nn klastrid, nii et iga klaster koosneb meetriliselt lähedastest objektidest ja erinevate klastrite objektid erinevad oluliselt. Sel juhul määratakse igale objektile klastri number.

Klasterdamisalgoritm on funktsioon, mis seob mis tahes objekti klastri numbriga. Komplekt on mõnel juhul ette teada, kuid sagedamini on ülesandeks määrata optimaalne klastrite arv, ühe või teise seisukohast. kvaliteedikriteeriumid rühmitamine.

Klasterdamine (supervised learning) erineb klassifitseerimisest (supervised learning) selle poolest, et algsete objektide silte pole algselt määratud ja komplekt ise võib olla isegi tundmatu.

Klasterdamisprobleemi lahendus on põhimõtteliselt mitmetähenduslik ja sellel on mitu põhjust (paljude autorite arvates):

  • ei eksisteeri üheselt parim kriteerium klastrite kvaliteet. Tuntud on mitmeid heuristlikke kriteeriume, aga ka mitmeid algoritme, millel pole selgelt määratletud kriteeriumi, kuid mis teostavad üsna mõistlikku klasterdamist “konstruktsiooni järgi”. Kõik need võivad anda erinevaid tulemusi. Seetõttu on klastrite kvaliteedi määramiseks vaja oma ala asjatundjat, kes oskaks hinnata klastrite valiku mõttekust.
  • klastrite arv on tavaliselt ette teadmata ja määratakse mingi subjektiivse kriteeriumi järgi. See kehtib ainult diskrimineerimismeetodite kohta, kuna klastrite puhul valitakse klastrid lähedusnäitajatel põhineva formaliseeritud lähenemisviisi abil.
  • klasterdamise tulemus sõltub oluliselt mõõdikust, mille valik on reeglina samuti subjektiivne ja selle määrab ekspert. Kuid väärib märkimist, et erinevate ülesannete jaoks lähedusmeetmete valimiseks on mitmeid soovitusi.

Rakendus

Bioloogias

Bioloogias on klastrite loomisel palju rakendusi väga erinevates valdkondades. Näiteks bioinformaatikas kasutatakse seda interakteeruvate geenide keeruliste võrgustike analüüsimiseks, mis mõnikord koosnevad sadadest või isegi tuhandetest elementidest. Klasteranalüüs võimaldab tuvastada uuritava süsteemi alamvõrke, kitsaskohti, sõlmpunkte ja muid peidetud omadusi, mis lõpuks võimaldab välja selgitada iga geeni panuse uuritava nähtuse kujunemisse.

Ökoloogia valdkonnas kasutatakse seda laialdaselt ruumiliselt homogeensete organismirühmade, koosluste jms tuvastamiseks. Harvem kasutatakse koosluste uurimiseks aja jooksul klasteranalüüsi meetodeid. Koosluste struktuuri heterogeensus toob kaasa mittetriviaalsete klasteranalüüsi meetodite tekkimise (näiteks Czekanowski meetod).

Üldiselt väärib märkimist, et ajalooliselt on sarnasuse mõõte bioloogias sagedamini kasutatud läheduse, mitte erinevuse (kauguse) mõõtmetena.

Sotsioloogias

Sotsioloogiliste uuringute tulemuste analüüsimisel on soovitatav analüüs läbi viia hierarhilise aglomeratiivse perekonna meetoditega, nimelt Wardi meetodiga, mille puhul optimeeritakse klastrite sees minimaalne dispersioon, mille tulemusena tekivad ligikaudu võrdse suurusega klastrid. on loodud. Wardi meetod on sotsioloogiliste andmete analüüsimisel kõige edukam. Erinevuse mõõduna on ruutkeskne Eukleidiline kaugus parem, mis aitab kaasa klastrite kontrasti suurenemisele. Hierarhilise klasteranalüüsi põhitulemus on dendrogramm ehk "jääpurikadiagramm". Selle tõlgendamisel seisavad teadlased silmitsi samalaadse probleemiga nagu faktoranalüüsi tulemuste tõlgendamisel - klastrite tuvastamise üheselt mõistetavate kriteeriumide puudumine. Põhilistena on soovitatav kasutada kahte meetodit - dendrogrammi visuaalset analüüsi ja erinevate meetoditega teostatud klasterdamise tulemuste võrdlemist.

Dendrogrammi visuaalne analüüs hõlmab puu "lõikamist" proovi elementide optimaalsel sarnasuse tasemel. Viinapuu oks (Olenderfer M.S. ja Blashfield R.K. terminoloogia) tuleks ümber skaleeritud kauguse klastrikombinaadi skaalal umbes 5-le ära lõigata, et saavutada 80% sarnasus. Kui selle sildi järgi on klastrite valimine keeruline (mitu väikest klastrit ühinevad sellel), siis saate valida mõne muu sildi. Seda tehnikat pakkusid välja Oldenderfer ja Blashfield.

Nüüd kerkib küsimus vastuvõetud kobarlahenduse stabiilsusest. Tegelikult taandub klastrite stabiilsuse kontrollimine selle töökindluse kontrollimisele. Siin kehtib rusikareegel – klasterdamismeetodite muutumisel säilib stabiilne tüpoloogia. Hierarhilise klasteranalüüsi tulemusi saab kontrollida iteratiivse k-keskmiste klasteranalüüsi abil. Kui võrreldavates vastajate rühmade klassifikatsioonides on kokkulangevuste osakaal üle 70% (üle 2/3 kokkulangevusi), siis tehakse klasterotsus.

Lahenduse adekvaatsust on võimatu kontrollida ilma teist tüüpi analüüsi kasutamata. Vähemalt teoreetiliselt pole see probleem lahendatud. Oldenderferi ja Blashfieldi klassikaline klastrianalüüs arendab ja lükkab lõpuks tagasi viis täiendavat vastupidavuse testimise meetodit:

Arvutiteaduses

  • Otsingutulemuste rühmitamine – kasutatakse tulemuste "intelligentseks" rühmitamiseks failide, veebisaitide või muude objektide otsimisel, mis võimaldab kasutajal kiiresti navigeerida, valida ilmselgelt asjakohasema alamhulga ja välistada teadaoleva vähem asjakohase alamhulga, mis võib suurendada kasutatavust. liidese võrreldes väljundiga lihtsa asjakohasuse alusel sorteeritud loendi kujul.
    • Clusty – Vivísimo klastrite otsingumootor
    • Nigma – automaatse tulemuste klasterdamisega vene otsingumootor
    • Quintura - visuaalne klasterdamine märksõnapilve kujul
  • Pildi segmenteerimine pildi segmenteerimine) – rühmitamist saab kasutada digitaalkujutise jaotamiseks erinevateks piirkondadeks serva tuvastamise eesmärgil. serva tuvastamine) või objekti tuvastamine.
  • Andmete kaevandamine andmete kaevandamine)- Andmekaevanduses klasterdamine muutub väärtuslikuks, kui see toimib andmeanalüüsi ühe etapina, luues tervikliku analüütilise lahenduse. Sageli on analüütikul lihtsam tuvastada sarnaste objektide rühmi, uurida nende omadusi ja koostada iga rühma jaoks eraldi mudel, kui luua kõigi andmete jaoks üks üldmudel. Seda tehnikat kasutatakse turunduses pidevalt, tõstes esile klientide, ostjate, kaupade gruppe ning töötades välja igaühe jaoks eraldi strateegia.

Vaata ka

Märkmed

Lingid

Vene keeles
  • www.MachineLearning.ru – professionaalne masinõppele ja andmekaevandamisele pühendatud vikiressurss
Inglise keeles
  • COMPACT – võrdlev pakett klastrite hindamiseks. Tasuta Matlabi pakett, 2006.
  • P. Berkhin, Klasterdamise andmekaevandamise tehnikate uuring, Accrue Software, 2002.
  • Jain, Murty ja Flynn: Andmete rühmitamine: ülevaade, ACM Comp. Surv., 1999.
  • hierarhiliste, k-keskmiste ja hägusate c-keskmiste esitluse kohta vaadake seda klastrite sissejuhatust. Samuti on selgitus Gaussi segude kohta.
  • David Dowe, Segude modelleerimise leht- muud klastrite ja segumudelite lingid.
  • rühmitamise õpetus
  • Veebiõpik: Infoteooria, järeldused ja õppimisalgoritmid, autor David J.C. MacKay sisaldab peatükke k-keskmiste klastrite, pehmete k-keskmiste klastrite ja tuletuste, sealhulgas E-M algoritmi kohta ja E-M algoritmi variatsioonivaade.
  • "Iseorganiseerunud geen", õpetus, mis selgitab rühmitamist võistlusõppe ja iseorganiseeruvate kaartide kaudu.
  • kernlab – R-pakett kernelipõhiseks masinõppeks (sisaldab spektraalklastri rakendamist)
  • Õpetus – rühmitusalgoritmide (k-keskmised, fuzzy-c-keskmised, hierarhiline, Gaussi segu) tutvustus + mõned interaktiivsed demod (Java apletid)
  • Andmekaevandamise tarkvara – andmekaevandamise tarkvara kasutab sageli klastrite moodustamise tehnikaid.
  • Java konkurentsivõimeline õpperakendus Järelevalveta närvivõrkude komplekt rühmitamiseks. Java keeles kirjutatud. Komplektis kogu lähtekoodiga.
  • Masinõppetarkvara – sisaldab ka palju klastritarkvara.

Sageli peame kõige erinevamates tegevusvaldkondades tegelema suure hulga esemetega, millega seoses peame tegutsema.

Ja me ei suuda isegi kogu seda mahtu realiseerida, rääkimata selle mõistmisest.

Mis on väljapääs? No muidugi, "pange kõik riiulitele". Sel juhul omandab rahvatarkus täpselt määratletud teadusliku sõnastuse.

Klasteranalüüs on objektide uurimine, ühendades need sarnaste tunnustega homogeenseteks rühmadeks. Tema meetodid on rakendatavad sõna otseses mõttes kõikides valdkondades: meditsiinist Forexi kauplemiseni, autokindlustusest arheoloogiani. Ja turundajate ja personalispetsialistide jaoks on see lihtsalt asendamatu.

Lisateavet selle kohta artiklis.

Mis on klaster

Klasteranalüüs on mõeldud objektide komplekti jagamiseks homogeenseteks rühmadeks (klastriteks või klassideks). See on mitme muutujaga andmete klassifitseerimise ülesanne.


Erinevaid rühmitusalgoritme on umbes 100, kuid kõige sagedamini kasutatavad on järgmised:

  1. hierarhiline klastri analüüs,
  2. k-tähendab klasterdamist.

Kui kasutatakse klasteranalüüsi:

  • Turunduses on see konkurentide ja tarbijate segmenteerimine.
  • Juhtimises:
    1. personali jagamine erineva motivatsioonitasemega rühmadesse,
    2. tarnijate klassifikatsioon,
    3. sarnaste tootmisolukordade kindlakstegemine, kus abiellutakse.
  • Meditsiinis sümptomite, patsientide, ravimite klassifikatsioon.
  • Sotsioloogias vastajate jagunemine homogeenseteks rühmadeks.

Tegelikult on klastrianalüüs end hästi tõestanud kõigis inimelu valdkondades. Selle meetodi ilu seisneb selles, et see töötab ka siis, kui andmeid on vähe ja normaaljaotuste nõuded ei ole täidetud. juhuslikud muutujad ja muud statistilise analüüsi klassikaliste meetodite nõuded.

Selgitagem klasteranalüüsi olemust ranget terminoloogiat kasutamata.

Oletame, et viisite läbi töötajate küsitluse ja soovite välja selgitada, kuidas saate oma töötajaid kõige tõhusamalt juhtida. See tähendab, et soovite jagada töötajad rühmadesse ja valida igaühe jaoks kõige tõhusamad juhthoovad. Samas peaksid rühmadevahelised erinevused olema ilmsed ning grupisiseselt vastajad võimalikult sarnased.

Probleemi lahendamiseks tehakse ettepanek kasutada hierarhilist klasteranalüüsi. Selle tulemusena saame puu, mida vaadates peame otsustama, mitmesse klassi (klastrisse) tahame personali jagada. Oletame, et otsustame jagada töötajad kolme rühma, seejärel igasse klastrisse sattunud vastajate uurimiseks saame järgmise sisuga tahvelarvuti:


Selgitame, kuidas ülaltoodud tabel moodustatakse. Esimene veerg sisaldab klastri numbrit - rühma, mille andmed real kajastuvad. Näiteks esimeses kobaras on 80% meessoost. 90% esimesest klastrist langeb vanuserühma 30–50 aastat ja 12% vastanutest usub, et hüvitised on väga olulised. Ja nii edasi.

Proovime teha iga klastri vastajatest portreesid:

  1. Esimesse rühma kuuluvad peamiselt küpses eas mehed, kes on juhtivatel kohtadel. Sotsiaalpakett (MED, LGOTI, AJAvaba aeg) neid ei huvita. Nad eelistavad saada head palka, mitte aidata tööandjalt.
  2. Teine rühm, vastupidi, eelistab sotsiaalpaketti. See koosneb peamiselt "eakatest" inimestest, kes on madalatel ametikohtadel. Palk on nende jaoks kindlasti oluline, kuid prioriteete on teisigi.
  3. Kolmas rühm on kõige "noorem". Erinevalt kahest eelmisest on ilmne huvi õppimise ja ametialase kasvu võimaluste vastu. Sellel töötajate kategoorial on hea võimalus peagi esimest rühma täiendada.

Seega on tõhusate personalijuhtimise meetodite juurutamise kampaaniat kavandades ilmne, et meie olukorras on võimalik teise grupi sotsiaalpaketti tõsta näiteks töötasude kahjuks. Kui rääkida sellest, millised spetsialistid tuleks koolitusele saata, siis võib kindlasti soovitada tähelepanu pöörata ka kolmandale rühmale.

Allikas: "nickart.spb.ru"

Klasteranalüüs on turu mõistmise võti

Klaster on vara hind teatud ajavahemikul, mille jooksul tehinguid tehti. Saadud ostu-müügi mahtu näitab klastri sees number. Iga TF-i riba sisaldab reeglina mitut klastrit. See võimaldab teil üksikasjalikult näha ostu-, müügimahtusid ja nende saldot igal üksikul ribal, iga hinnataseme kohta.


Kobargraafiku koostamine

Ühe vara hinna muutus toob paratamatult kaasa ka teiste instrumentide hinnaliikumise ahela. Enamasti tekib trendiliikumise mõistmine juba sel hetkel, kui see kiiresti areneb ning trendi mööda turule sisenemine on tulvil paranduslainele langemist.

Edukate tehingute jaoks on vaja mõista hetkeolukorda ja osata ette näha tulevasi hinnaliikumisi. Seda saab õppida kobargraafikut analüüsides. Klasteranalüüsi abil näete turuosaliste aktiivsust ka kõige väiksema hinnariba sees.

See on kõige täpsem ja detailsem analüüs, kuna see näitab tehingumahtude punktjaotust iga vara hinnataseme kohta. Turg seisavad pidevalt vastamisi müüjate ja ostjate huvidega. Ja iga väikseim hinnaliikumine (linnuke) on liikumine kompromissile – hinnatase – mis sisse Sel hetkel sobib mõlemale poolele.

Kuid turg on dünaamiline, müüjate ja ostjate arv muutub pidevalt. Kui mingil ajahetkel domineerisid turul müüjad, siis järgmisel hetkel on tõenäoliselt ostjaid. Ka naaberhinnatasemetel tehtud tehingute arv ei ole sama.

Ja siiski, esiteks kajastub turuolukord tehingute kogumahus ja alles seejärel hinnas. Kui näete domineerivate turuosaliste (müüjate või ostjate) tegevust, saate ennustada hinnaliikumist ennast.

Klasteranalüüsi edukaks rakendamiseks peate kõigepealt mõistma, mis on klaster ja delta:

  • Klaster on hinnaliikumine, mis on jagatud tasemeteks, kus tehti tehinguid teadaolevate mahtudega.
  • Delta näitab erinevust igas klastris toimuva ostu ja müügi vahel.


kobargraafik

Iga klaster või deltade rühm võimaldab teil välja selgitada, kas ostjad või müüjad domineerivad teatud ajahetkel turul. Piisab vaid summaarse delta arvutamisest, summeerides müügid ja ostud. Kui delta on negatiivne, siis on turg üle müüdud, on üleliigseid müügitehinguid. Kui delta on positiivne, domineerivad turul selgelt ostjad.

Delta ise võib omandada normaalse või kriitilise väärtuse. Klastris olev normaalväärtust ületav deltamahu väärtus on punasega esile tõstetud. Kui delta on mõõdukas, iseloomustab see turul tasast olekut. Kell normaalväärtus delta turul on trendi liikumine, kuid kriitiline väärtus on alati hinna pöördumise eelkuulutaja.

Forexi kauplemine CA-ga

Maksimaalse kasumi saamiseks peate suutma määrata delta ülemineku mõõdukalt tasemelt normaalsele tasemele. Tõepoolest, sel juhul võite märgata korterist trendi liikumisele ülemineku algust ja saada kõige rohkem kasumit.

Kobardiagramm on visuaalsem, see võimaldab teil näha mahtude kogunemise ja jaotumise märkimisväärset taset, luua tugi- ja takistustasemeid.

See võimaldab kauplejal leida tehingu täpse kirje. Delta abil saab hinnata müügi või ostude ülekaalu turul. Klastrianalüüs võimaldab teil jälgida tehinguid ja jälgida nende mahtu mis tahes TF-i ribal. See on eriti oluline, kui lähenete märkimisväärsele toetuse või vastupanu tasemele. Klastrite hinnangud on turu mõistmise võti.

Allikas: "orderflowtrading.ru"

Klasteranalüüsi rakendusvaldkonnad ja tunnused

Mõiste klastrianalüüs (esmakordselt kasutusele Tryon, 1939) sisaldab tegelikult mitmeid erinevaid klassifitseerimisalgoritme. Üldine küsimus, küsisid paljude valdkondade teadlased, kuidas korraldada vaadeldavaid andmeid visuaalseteks struktuurideks, s.t. laiendada taksonoomiat.

Näiteks bioloogide eesmärk on loomad sisse murda erinevat tüüpi nendevaheliste erinevuste tähenduslikuks kirjeldamiseks. Bioloogias aktsepteeritud kaasaegse süsteemi järgi kuulub inimene primaatide, imetajate, amnioni, selgroogsete ja loomade hulka.

Pange tähele, et selles klassifikatsioonis, mida kõrgem on liitmise tase, seda väiksem on sarnasus vastava klassi liikmete vahel. Inimesel on rohkem sarnasusi teiste primaatidega (st ahvidega) kui imetajate perekonna "kaugete" liikmetega (st koertega) jne.

Pange tähele, et eelnev arutelu viitab rühmitamisalgoritmidele, kuid ei maini midagi statistilise olulisuse testimise kohta. Tegelikult pole klastrianalüüs mitte niivõrd tavaline statistiline meetod, kuivõrd erinevate algoritmide "komplekt" objektide "klastritesse jaotamiseks".

On seisukoht, et erinevalt paljudest teistest statistilistest protseduuridest kasutatakse klasteranalüüsi meetodeid enamikul juhtudel, kui teil pole klasside kohta a priori hüpoteese, kuid olete alles uurimise kirjeldavas faasis. Tuleb mõista, et klastrianalüüs määrab "kõige mõttekama otsuse".

Seetõttu ei ole statistilise olulisuse testimine siin tegelikult rakendatav isegi juhtudel, kui p-tasemed on teada (nagu näiteks K-keskmiste meetodi puhul).

Klasterdamistehnikat kasutatakse väga erinevates valdkondades. Hartigan (1975) on andnud suurepärase ülevaate paljudest avaldatud uuringutest, mis sisaldavad klasteranalüüsi meetoditega saadud tulemusi. Näiteks meditsiini valdkonnas viib haiguste rühmitamine, haiguste ravi või haigussümptomid laialdaselt kasutatavate taksonoomiateni.

Psühhiaatria vallas õige diagnoos Sümptomite rühmad, nagu paranoia, skisofreenia jne, on eduka ravi jaoks üliolulised. Arheoloogias püüavad teadlased kobaranalüüsi abil paika panna kivitööriistade, matuseesemete jms taksonoomiaid.

Klasteranalüüsi laialdased rakendused on tuntud aastal turuuuring. Üldiselt, kui on vaja info "mägesid" edasiseks töötlemiseks sobivatesse rühmadesse liigitada, osutub klasteranalüüs väga kasulikuks ja tõhusaks.

Puude rühmitamine

Seosalgoritmi (puu klasterdamise) eesmärk on ühendada objektid (näiteks loomad) piisavalt suurteks klastriteks, kasutades selleks mingit sarnasuse või objektide vahelise kauguse mõõdikut. Sellise rühmituse tüüpiline tulemus on hierarhiline puu.

Mõelge horisontaalsele puu diagrammile. Diagramm algab iga klassi objektiga (skeemi vasakus servas). Kujutage nüüd ette, et järk-järgult (väga väikeste sammudega) "nõrgendate" oma kriteeriumi selle kohta, millised objektid on ainulaadsed ja millised mitte. Teisisõnu alandate läve, mis on seotud otsusega ühendada kaks või enam objekti üheks klastriks.


Selle tulemusena seod sa järjest rohkem objekte kokku ja koondad (kombineerid) üha rohkemate rühmade järjest erinevamaid elemente. Viimases etapis liidetakse kõik objektid kokku.

Nendes diagrammides tähistavad horisontaalteljed ühendamise kaugust (vertikaalsetes dendrogrammides tähistavad vertikaalteljed ühendamise kaugust). Seega näete graafiku iga sõlme kohta (kus moodustub uus klaster) vahemaa suurust, mille jaoks vastavad elemendid on lingitud uude üksikusse klastrisse.

Kui andmetel on selge "struktuur" üksteisega sarnaste objektide klastrite osas, siis tõenäoliselt peegeldub see struktuur hierarhilises puus erinevate harude kaupa. Eduka liitumismeetodiga analüüsi tulemusena on võimalik tuvastada klastreid (harusid) ja neid tõlgendada.

Kauguse mõõdud

Ühenduse või puu klastrite meetodit kasutatakse objektide vahelise erinevuse või kauguse klastrite moodustamiseks. Neid vahemaid saab määratleda ühe- või mitmemõõtmelises ruumis. Näiteks kui peate kohvikus toiduliigid rühmitama, võite arvestada selles sisalduvate kalorite arvu, hinnaga, maitse subjektiivse hinnanguga jne.

Kõige otsesem viis mitmemõõtmelises ruumis olevate objektide vaheliste kauguste arvutamiseks on arvutada eukleidilised kaugused. Kui teil on kahe- või kolmemõõtmeline ruum, siis on see mõõt ruumis olevate objektide tegelik geomeetriline kaugus (nagu oleks objektide vahelised kaugused mõõdetud mõõdulindiga).

Siiski ei "hoole" koondamisalgoritm, kas selleks "ette nähtud" kaugused on reaalsed või mingid muud tuletatud kaugusmõõturid, mis on uurijale tähendusrikkamad; ja teadlaste ülesanne on leida õige meetod konkreetsete rakenduste jaoks.

  1. Eukleidiline kaugus.
  2. See näib olevat kõige rohkem üldine tüüp vahemaad. See on lihtsalt geomeetriline kaugus mitmemõõtmelises ruumis ja arvutatakse järgmiselt:

    Pange tähele, et Eukleidiline kaugus (ja selle ruut) arvutatakse algandmete, mitte standardsete andmete põhjal. See on tavaline selle arvutamise viis, millel on teatud eelised (näiteks kahe objekti vaheline kaugus ei muutu, kui analüüsi tuuakse uus objekt, mis võib osutuda kõrvalekaldeks).

    Vahemaid võivad aga oluliselt mõjutada erinevused telgede vahel, mille järgi kaugusi arvutatakse.

    Näiteks kui ühte telge mõõdetakse sentimeetrites ja seejärel teisendate selle millimeetriteks (korrutades väärtused 10-ga), siis koordinaatide põhjal arvutatud lõplik eukleidiline kaugus (või Eukleidilise kauguse ruut) järsult muutuda ja selle tulemusena võivad klasteranalüüsi tulemused eelmistest oluliselt erineda.

  3. Eukleidese kauguse ruut.
  4. Mõnikord võite soovida Eukleidilise standardkauguse ruudukujuliseks muuta, et anda kaugematele objektidele rohkem kaalu. See vahemaa arvutatakse järgmiselt:

  5. Linnaploki kaugus (Manhattani kaugus).
  6. See kaugus on lihtsalt koordinaatide erinevuste keskmine. Enamikul juhtudel annab see kaugusmõõtmine samad tulemused kui tavalise Eukleidese kauguse puhul.

    Kuid pange tähele, et selle mõõdiku puhul väheneb üksikute suurte erinevuste (kõrvalväärtuste) mõju (kuna need ei ole ruudus). Manhattani vahemaa arvutatakse järgmise valemi abil:

  7. Tšebõševi kaugus.
  8. See kaugus võib olla kasulik, kui soovitakse määratleda kaks objekti "erinevana", kui need erinevad mõne koordinaadi (ükskõik millise mõõtme) poolest. Tšebõševi kaugus arvutatakse järgmise valemi abil:

  9. Võimsuskaugus.

    Mõnikord soovitakse järk-järgult suurendada või vähendada kaalu, mis on seotud mõõtmega, mille vastavad objektid on väga erinevad. Seda saab saavutada võimuseaduse kauguse abil. Võimsuskaugus arvutatakse järgmise valemi abil:

    kus r ja p on kasutaja määratud parameetrid.

    Mõned näited arvutustest võivad näidata, kuidas see meede "töötab":

    • Parameeter p vastutab üksikute koordinaatide erinevuste järkjärgulise kaalumise eest.
    • Parameeter r vastutab objektide vaheliste suurte vahemaade järkjärgulise kaalumise eest.
    • Kui mõlemad parameetrid - r ja p on võrdsed kahega, siis see kaugus langeb kokku Eukleidilise kaugusega.
  10. Eriarvamuste protsent.
  11. Seda mõõdet kasutatakse siis, kui andmed on kategoorilised. See vahemaa arvutatakse järgmise valemiga:

Ühingu või assotsiatsiooni reeglid

Esimesel etapil, kui iga objekt on eraldi klaster, määratakse nende objektide vahelised kaugused valitud mõõdiku järgi. Kui aga mitu objekti on omavahel seotud, tekib küsimus, kuidas tuleks määrata klastrite vahelised kaugused?

Teisisõnu vajate kahe klastri jaoks liitumis- või linkimisreeglit. Siin on erinevaid võimalusi: näiteks saate kaks klastrit omavahel siduda, kui mis tahes kaks objekti on kahes klastris lähem sõberüksteisega kui vastav sidekaugus.

Teisisõnu kasutate klastrite vahelise kauguse määramiseks "lähima naabri reeglit"; seda meetodit nimetatakse ühe lingi meetodiks. See reegel ehitab "kiulisi" klastreid, st. klastrid "seovad omavahel" ainult üksikud elemendid, mis on üksteisele lähemal kui teised.

Teise võimalusena võite kasutada naabreid klastrites, mis on kõigist teistest funktsioonipaaridest üksteisest kõige kaugemal. Seda meetodit nimetatakse täislingi meetodiks. Klastritega liitumiseks on ka palju muid meetodeid, mis on sarnased juba käsitletutele.

  • Üksikühendus (lähima naabri meetod).
  • Nagu eespool kirjeldatud, määrab selle meetodi puhul kahe klastri vahelise kauguse erinevates klastrites asuvate kahe lähima objekti (lähimate naabrite) vaheline kaugus.

    See reegel peab teatud mõttes stringima objekte, et moodustada klastreid, ja saadud klastreid kipuvad esindama pikad "stringid".

  • Täisühendus (kõige kaugemate naabrite meetod).
  • Selle meetodi puhul määratletakse klastrite vahelised kaugused kui suurim kaugus erinevates klastrites (st "kõige kaugemate naabrite") mis tahes kahe objekti vahel.

    See meetod töötab tavaliselt väga hästi, kui esemed on tegelikult pärit väga erinevatest "saludest".

    Kui klastrid on mingil moel piklikud või nende loomulik tüüp on "kett", siis see meetod ei sobi.

  • Kaalumata paaride keskmine.
  • Selle meetodi puhul arvutatakse kahe erineva klastri vaheline kaugus kõigi neis olevate objektide paaride keskmise kaugusena. Meetod on tõhus, kui objektid moodustavad tegelikult erinevaid "salusid", kuid see toimib sama hästi ka laiendatud ("ahel" tüüpi) klastrite puhul.

    Pange tähele, et oma raamatus Sneath ja Sokal (1973) tutvustavad lühendit UPGMA, et viidata sellele meetodile kui kaalumata paarirühma meetodile, mis kasutab aritmeetilisi keskmisi.

  • Kaalutud paaride keskmine.
  • Meetod on identne kaalumata paaripõhise keskmise meetodiga, välja arvatud see, et arvutustes kasutatakse kaalutegurina vastavate klastrite suurust (st neis sisalduvate objektide arvu). Seetõttu tuleks pakutud meetodit kasutada juhul, kui eeldatakse klastri ebavõrdseid suurusi.

    Sneath ja Sokal (1973) võtavad kasutusele lühendi WPGMA, viidates sellele meetodile kui kaalutud paarirühma meetodile, kasutades aritmeetilisi keskmisi.

  • Kaalumata tsentroidi meetod.
  • Selle meetodi puhul määratletakse kahe klastri vaheline kaugus nende raskuskeskmete vahelise kaugusena.

    Sneath ja Sokal (1973) kasutavad akronüümi UPGMC, et viidata sellele meetodile kui kaalumata paarirühma meetodile, kasutades tsentroidi keskmist.

  • Kaalutud tsentroidi meetod (mediaan).
  • See meetod on identne eelmisega, välja arvatud see, et arvutustes kasutatakse kaalusid, et võtta arvesse klastri suuruste erinevust (st nendes olevate objektide arvu).

    Seega, kui klastri suurustes on (või kahtlustatakse) olulisi erinevusi, on see meetod eelmisest eelistatum.

    Sneath ja Sokal (1973) kasutasid lühendit WPGMC, et nimetada seda kaalutud paarirühma meetodiks, kasutades tsentroidi keskmist.

  • Ward meetod.
  • See meetod erineb kõigist teistest meetoditest, kuna see kasutab klastrite vaheliste kauguste hindamiseks ANOVA meetodeid. Meetod minimeerib ruutude summa (SS) mis tahes kahe (hüpoteetilise) klastri jaoks, mida saab igal etapil moodustada.

    Üksikasjad leiate Wardist (1963). Üldiselt tundub meetod olevat väga tõhus, kuid see kipub looma väikeseid klastreid.

kahesuunaline liit

Varem arutati seda meetodit "objektide" osas, mis tuleks rühmitada. Kõikide muude analüüsiliikide puhul väljendatakse uurijat huvitavat küsimust tavaliselt vaatluste või muutujatena. Selgub, et klasterdamine nii vaatluste kui ka muutujate järgi võib anda päris huvitavaid tulemusi.

Näiteks kujutage ette, et meditsiiniteadlane kogub andmeid erinevaid omadusi(muutujad) südamehaigust põdevate patsientide seisundid (vaatlused). Uurija võib soovida (patsientide) vaatlusi koondada, et tuvastada sarnaste sümptomitega patsientide rühmad.

Samal ajal võib teadlane soovida muutujaid rühmitada, et tuvastada muutujate klastrid, mis on seotud sarnase füüsilise olekuga. Pärast seda arutelu vaatluste või muutujate rühmitamise üle võib küsida, miks mitte rühmitada mõlemas suunas?

Klastrianalüüsi moodul sisaldab tõhusat kahesuunalist liitumisprotseduuri just selle tegemiseks. Kahepoolset ühendamist kasutatakse aga (suhteliselt harva) olukordades, kus nii vaatlused kui ka muutujad aitavad samaaegselt kaasa tähenduslike klastrite avastamisele.

Seega, naastes eelmise näite juurde, võime eeldada, et meditsiiniteadlane peab tuvastama patsientide rühmad, mis on sarnased teatud füüsilise seisundi tunnuste klastrite suhtes.

Saadud tulemuste tõlgendamise raskus tuleneb asjaolust, et erinevate klastrite sarnasused võivad tuleneda (või olla selle põhjuseks) muutujate alamhulkade mõnest erinevusest. Seetõttu on saadud klastrid oma olemuselt heterogeensed.

Võib-olla tundub see alguses pisut udune; Tõepoolest, võrreldes teiste kirjeldatud klasteranalüüsi meetoditega, on kahesuunaline ühendamine tõenäoliselt kõige vähem kasutatav meetod. Kuid mõned teadlased usuvad, et see pakub võimsat tööriista uurimuslikuks andmeanalüüsiks (lisateabe saamiseks vt selle meetodi Hartigani kirjeldust (Hartigan, 1975)).

K tähendab meetodit

See rühmitusmeetod erineb oluliselt aglomeratiivsetest meetoditest, nagu liit (puurühmitus) ja kahesuunaline liit. Oletame, et teil on juba hüpoteesid klastrite arvu kohta (vaatluse või muutuja järgi).

Saate anda süsteemile käsu moodustada täpselt kolm klastrit, et need oleksid võimalikult erinevad. See on täpselt seda tüüpi probleem, mille K-Meansi algoritm lahendab. Üldiselt ehitab K-keskmise meetod täpselt K erinevat klastrit, mis on üksteisest võimalikult kaugel.

Füüsilise seisundi näite puhul võib meditsiiniteadlasel olla oma kliinilise kogemuse põhjal "aimus", et nende patsiendid jagunevad üldiselt kolme erinevasse kategooriasse. Järgmiseks võib ta soovida teada, kas tema intuitsiooni saab arvuliselt kontrollida, st kas K-keskmiste klastrite analüüs annab ootuspäraselt kolm patsientide klastrit?

Kui jah, siis iga klastri füüsikaliste parameetrite erinevate mõõtmiste vahendid annaksid kvantitatiivse viisi uurija hüpoteeside esitamiseks (nt klastri 1 patsientidel on kõrge parameeter 1, madalam parameeter 2 jne).

Arvutuslikust vaatenurgast võib seda meetodit pidada "tagurpidi" dispersioonanalüüsiks.

Programm alustab K juhuslikult valitud klastriga ja muudab seejärel objektide kuuluvust neisse, et:

  1. minimeerida varieeruvust klastrite sees,
  2. maksimeerida klastrite vahelist varieeruvust.

See meetod on sarnane dispersioonanalüüsiga (ANOVA) selle poolest, et ANOVA olulisuse testis võrreldakse rühmadevahelist ja rühmasisest varieeruvust, testides hüpoteesi, et rühmade keskmised erinevad üksteisest.

K-keskmiste klastrite puhul liigutab programm objekte (st vaatlusi) ühest rühmast (klastrist) teise, et saada dispersioonanalüüsi (ANOVA) tegemisel kõige olulisem tulemus. Tavaliselt, kui K-keskmiste klastrite analüüsi tulemused on saadud, saab arvutada iga klastri keskmised iga dimensiooni jaoks, et hinnata, kuidas klastrid erinevad üksteisest.

Ideaalis peaksite saama enamiku, kui mitte kõigi analüüsis kasutatud mõõtmiste jaoks väga erinevaid vahendeid. Iga dimensiooni jaoks saadud F-statistika väärtused on veel üks näitaja selle kohta, kui hästi vastav dimensioon klastreid eristab.

Allikas: "biometrica.tomsk.ru"

Objektide klassifitseerimine nende omaduste järgi

Klasteranalüüs (klastrianalüüs) - mitmemõõtmeliste statistiliste meetodite kogum objektide klassifitseerimiseks nende omaduste järgi, objektide komplekti jagamiseks kriteeriumide määratlemise poolest lähedasteks homogeenseteks rühmadeks, teatud rühma objektide valimiseks.

Klaster on objektide rühm, mis tuvastatakse klastrianalüüsi tulemusel, mis põhineb objektide sarnasuse või erinevuse antud mõõtmisel. Objektiks on konkreetsed õppeained, mida tuleb klassifitseerida. Klassifikatsiooni objektid on reeglina vaatlused. Näiteks toodete tarbijad, riigid või piirkonnad, tooted jne.

Kuigi muutujate kaupa on võimalik teha klasteranalüüsi. Objektide klassifitseerimine mitmemõõtmelises klasteranalüüsis toimub samaaegselt mitme kriteeriumi järgi, mis võivad olenevalt klasteranalüüsi meetodist olla nii kvantitatiivsed kui ka kategoorilised muutujad. Seega on klasteranalüüsi põhieesmärk leida proovist sarnaste objektide rühmad.

Klasteranalüüsi mitmemõõtmeliste statistiliste meetodite kogumi võib jagada hierarhilisteks (aglomeratiivne ja jagunev) ja mittehierarhilisteks (k-keskmiste meetod, kaheetapiline klasteranalüüs).

Siiski puudub meetodite üldtunnustatud klassifikatsioon ja klasteranalüüsi meetodid hõlmavad mõnikord ka meetodeid otsustuspuude koostamiseks, närvivõrgud, diskriminantanalüüs, logistiline regressioon.

Klasteranalüüsi ulatus on selle mitmekülgsuse tõttu väga lai. Klasteranalüüsi kasutatakse majanduses, turunduses, arheoloogias, meditsiinis, psühholoogias, keemias, bioloogias, avalikus halduses, filoloogias, antropoloogias, sotsioloogias ja muudes valdkondades.

Siin on mõned näited klastrianalüüsi rakendamisest.

  • meditsiin - haiguste klassifikatsioon, nende sümptomid, ravimeetodid, patsiendirühmade klassifikatsioon;
  • turundus - ettevõtte tootesarja optimeerimise ülesanded, turu segmenteerimine kaubagruppide või tarbijate kaupa, potentsiaalse tarbija tuvastamine;
  • sotsioloogia - vastajate jagunemine homogeenseteks rühmadeks;
  • psühhiaatria – sümptomiterühmade õige diagnoosimine on eduka ravi jaoks ülioluline;
  • bioloogia - organismide liigitamine rühmadesse;
  • majandus - Vene Föderatsiooni subjektide klassifikatsioon investeeringute atraktiivsuse järgi.

Allikas: "statmethods.ru"

Üldteave klastrianalüüsi kohta

Klasteranalüüs sisaldab erinevaid klassifitseerimisalgoritme. Levinud küsimus paljude valdkondade teadlaste poolt on, kuidas vaadeldavaid andmeid visuaalseteks struktuurideks korraldada.

Näiteks bioloogide eesmärk on jagada loomi erinevateks liikideks, et nendevahelisi erinevusi sisukalt kirjeldada.

Klasteranalüüsi ülesanne on jagada esialgne objektide komplekt sarnaste, lähedaste objektide rühmadeks. Neid rühmi nimetatakse klastriteks.

Teisisõnu, klasteranalüüs on üks viise objektide liigitamiseks nende omaduste järgi. On soovitav, et klassifikatsiooni tulemustel oleks sisukas tõlgendus.

Klasteranalüüsi meetoditega saadud tulemusi kasutatakse erinevates valdkondades:

  1. Turunduses on see konkurentide ja tarbijate segmenteerimine.
  2. Psühhiaatrias on eduka ravi jaoks ülioluline selliste sümptomite nagu paranoia, skisofreenia jne õige diagnoosimine.
  3. Juhtimises on oluline tarnijate klassifitseerimine, sarnaste tootmissituatsioonide tuvastamine, milles abiellub.
  4. Sotsioloogias vastajate jagunemine homogeenseteks rühmadeks.
  5. Portfelliinvesteeringus on oluline grupeerida väärtpabereid vastavalt nende sarnasusele tootlustrendis, et aktsiaturu kohta saadud info põhjal koostada optimaalne investeerimisportfell, mis võimaldab maksimeerida investeeringute tootlust antud riskiastme juures. .

Tegelikult on klastrianalüüs end hästi tõestanud kõigis inimelu valdkondades. Üldjuhul osutub klasteranalüüs väga kasulikuks ja tõhusaks alati, kui on vaja klassifitseerida suur hulk sedalaadi teavet ja esitada see edasiseks töötlemiseks sobival kujul.

Klasteranalüüs võimaldab arvestada üsna suure teabehulgaga ja tihendada suuri sotsiaal-majandusliku teabe massiive, muutes need kompaktseks ja visuaalseks.

Klasteranalüüsil on suur tähtsus seoses iseloomustavate aegridade komplektidega majandusareng(näiteks üldine majanduslik ja kaubakonjunktuur).

Siin on võimalik välja tuua perioodid, mil vastavate näitajate väärtused olid üsna lähedased, samuti määrata aegridade rühmad, mille dünaamika on kõige sarnasem. Sotsiaalmajandusliku prognoosimise probleemides on väga paljutõotav kombineerida klasteranalüüsi teiste kvantitatiivsete meetoditega (näiteks regressioonanalüüsiga).

Eelised ja miinused

Klasteranalüüs võimaldab objektiivselt klassifitseerida objekte, mida iseloomustavad mitmed tunnused. Sellest saab saada mitmeid eeliseid:

  • Saadud klastreid saab tõlgendada, st kirjeldada, millised rühmad tegelikult eksisteerivad.
  • Üksikuid klastreid saab praakida. See on kasulik juhtudel, kui andmekogumis tehti teatud vigu, mille tagajärjel on üksikute objektide indikaatorite väärtused järsult erinevad. Klasteranalüüsi rakendamisel jagunevad sellised objektid eraldi klastrisse.
  • Edasiseks analüüsiks saab valida ainult need klastrid, millel on huvipakkuvad omadused.

Nagu igal teisel meetodil, on klastrianalüüsil teatud puudused ja piirangud. Eriti:

  1. klastrite koosseis ja arv sõltub valitud partitsioonikriteeriumidest,
  2. algse andmemassiivi vähendamisel kompaktsemale kujule võivad tekkida teatud moonutused,
  3. üksikute objektide individuaalsed omadused võivad kaduda, kuna need asendatakse klastri parameetrite üldistatud väärtuste omadustega.

meetodid

Praegu on teada rohkem kui sada erinevat klasterdamisalgoritmi. Nende mitmekesisust ei seleta mitte ainult erinevad arvutusmeetodid, vaid ka erinevad klasterdamise aluseks olevad kontseptsioonid. Soovitusi ühe või teise klasterdamismeetodi valimiseks saab anda ainult üldsõnaliselt ning peamiseks valikukriteeriumiks on tulemuse praktiline kasulikkus.

Statistica pakett rakendab järgmisi rühmitusmeetodeid:

  • Hierarhilised algoritmid – puude klasterdamine. Hierarhilised algoritmid põhinevad järjestikuse rühmitamise ideel. Esialgses etapis käsitletakse iga objekti eraldi klastrina. Järgmises etapis ühendatakse mõned üksteisele kõige lähemal olevad klastrid eraldi klastriks.
  • K-tähendab meetod. Seda meetodit kasutatakse kõige sagedamini. See kuulub klasteranalüüsi nn referentsmeetodite rühma. Klastrite arvu K määrab kasutaja.
  • Kahesuunaline assotsiatsioon. Selle meetodi kasutamisel toimub klasterdamine samaaegselt nii muutujate (veerud) kui ka vaatlustulemuste (read) järgi.

Kahesuunaline liitumisprotseduur viiakse läbi siis, kui võib eeldada, et muutujate ja vaatluste samaaegne rühmitamine annab sisukaid tulemusi.

Protseduuri tulemused on kirjeldav statistika muutujate ja juhtumite järgi, samuti kahemõõtmeline värvitabel, millele andmeväärtused on värvikoodiga kodeeritud. Värvi jaotuse abil saate aimu homogeensetest rühmadest.

Muutujate normaliseerimine

Esialgse objektide komplekti jagamine klastriteks on seotud objektide vahekauguste arvutamise ja objektide valikuga, mille vaheline kaugus on kõigist võimalikest väikseim. Kõige sagedamini kasutatav on meile kõigile tuttav Eukleidiline (geomeetriline) kaugus. See mõõdik vastab intuitiivsetele ideedele objektide läheduse kohta ruumis (justkui mõõdetaks objektidevahelisi kaugusi mõõdulindiga).

Kuid antud mõõdiku puhul võivad skaalade (mõõtühikute) muutused tugevalt mõjutada objektide vahelist kaugust. Näiteks kui üht tunnust mõõdetakse millimeetrites ja seejärel teisendatakse selle väärtus sentimeetriteks, muutub objektide vaheline eukleidiline kaugus dramaatiliselt. See toob kaasa asjaolu, et klasteranalüüsi tulemused võivad eelmistest oluliselt erineda.

Kui muutujaid mõõdetakse erinevates mõõtühikutes, siis on vajalik nende eelnormaliseerimine ehk algandmete teisendamine, mis teisendab need dimensioonideta suurusteks.

Normaliseerimine moonutab tugevalt algse ruumi geomeetriat, mis võib muuta klastrite moodustamise tulemusi. Statistica paketis normaliseeritakse iga muutuja x järgmise valemi järgi:

Selleks tee muutuja nimel paremklõps ja vali avanevas menüüs käskude jada: Fill/ Standardize Block/ Standardize Columns. Normaliseeritud muutuja väärtused muutuvad võrdseks nulliga ja dispersioonid võrdseks ühega.

K-keskmise meetod Statisticas

K-keskmiste meetod jagab objektide komplekti etteantud arvuks K erinevatest klastritest, mis asuvad üksteisest suurimal võimalikul kaugusel. Tavaliselt, kui K-keskmiste klastrite analüüsi tulemused on saadud, saab arvutada iga klastri iga dimensiooni keskmised, et hinnata, kuidas klastrid üksteisest erinevad.

Ideaalis peaksite saama enamiku analüüsis kasutatavate mõõtmiste jaoks väga erinevad vahendid. Iga dimensiooni jaoks saadud F-statistika väärtused on veel üks näitaja selle kohta, kui hästi vastav dimensioon klastreid eristab.

Toome näitena ettevõtte 17 töötaja seas läbiviidud uuringu tulemused rahulolu karjäärikvaliteedi näitajatega. Tabelis on küsimustiku küsimuste vastused kümnepallisel skaalal (1 on minimaalne punktisumma, 10 on maksimaalne).

Muutujate nimed vastavad vastustele järgmistele küsimustele:

  1. SLT - isiklike eesmärkide ja organisatsiooni eesmärkide kombinatsioon;
  2. OSO – õiglustunne palkade osas;
  3. TBD - maja territoriaalne lähedus;
  4. PEW – majandusliku heaolu tunne;
  5. CR - karjäärikasv;
  6. ZhSR - soov töökohta vahetada;
  7. OSB on sotsiaalse heaolu tunne.


Neid andmeid kasutades on vaja töötajad gruppidesse jagada ning igaühe jaoks valida kõige tõhusamad juhthoovad. Samas peaksid rühmadevahelised erinevused olema ilmsed ning grupisiseselt vastajad võimalikult sarnased.

Praeguseks on enamik sotsioloogilisi uuringuid andnud vaid protsendi häältest: arvesse võetakse positiivsete vastuste põhiarvu või rahulolematute protsenti, kuid seda küsimust süstemaatiliselt ei käsitleta. Kõige sagedamini ei näita uuring olukorra trende.

Klasteranalüüsi protseduure saab kasutada küsitlusandmete põhjal mõne reaalselt olemasolevate tunnuste seoste tuvastamiseks ja nende põhjal nende tüpoloogia genereerimiseks. Sotsioloogi a priori hüpoteeside olemasolu klasteranalüüsi protseduuride käigus ei ole vajalik tingimus.

Statistica programmis tehakse klastrianalüüs järgmiselt.

  1. Looge andmefail.
  2. Valige moodul Statistika / mitme muutujaga uurimismeetodid / klastrianalüüs. Klõpsake nuppu OK, mille tulemusena ilmub dialoogiboks:

  3. Ilmuvas aknas valige K-means klasterdamismeetod ja klõpsake nuppu OK.
  4. Ilmuvas dialoogiboksis peate määrama järgmised sätted.


    • Valige muutujad nupuga Muutujad.
    • Valige rühmitusobjektid: need võivad olla muutujad - veerud (Variables veerud) või vaatlused - read (Cases (Rows)). Esiteks rühmitame ridade kaupa (Cases(rows)).
    • Valige klastrite arv.
      Selle valiku teeb kasutaja, tuginedes tema enda oletustele sarnaste objektide rühmade arvu kohta.

      Klastrite arvu valimisel juhinduge järgmisest:

      1. Klastrite arv, kui võimalik, ei tohiks olla liiga suur.
      2. Vahemaa, mille kaugusel antud klastri objektid ühendati, peaks võimaluse korral olema palju väiksem kui vahemaa, mille kaugusel miski muu selle klastriga liitub.
      Klastrite arvu valikul on enamasti mitu õiget lahendust korraga. Meid huvitab näiteks see, kuidas ankeedi küsimustele antud vastused korreleeruvad tavatöötajate ja ettevõtte juhtimisega. Seetõttu valime K=2. Edasiseks segmenteerimiseks saate suurendada klastrite arvu.
    • Järgmiseks tuleb valida objektide esialgne jaotus klastriteks (Initial cluster centers). Statistica pakett pakub:
      1. valida vaatlusi maksimaalse vahemaaga klastri keskuste vahel;
      2. sortida vahemaid ja valida vaatlusi kindlate ajavahemike järel (vaikesäte);
      3. võtke esimesed vaatluskeskused ja kinnitage neile ülejäänud objektid.

      Meie eesmärkidel sobib esimene variant.

Paljud rühmitusalgoritmid "sunnivad" sageli andmetele mitteoleneva struktuuri ja segavad teadlast. Seetõttu on äärmiselt vajalik rakendada mitmeid klasteranalüüsi algoritme ja teha järeldusi algoritmide tulemuste üldhinnangu põhjal.

Analüüsi tulemusi saab vaadata ilmuvas dialoogiboksis:

Kui valite vahekaardi Keskmiste graafik, joonistatakse klastri tsentrite koordinaatide graafik:


Selle graafiku iga katkendjoon vastab ühele klastritest:

  • Graafiku horisontaaltelje iga jaotus vastab ühele analüüsis sisalduvatest muutujatest.
  • Vertikaaltelg vastab igasse klastrisse kuuluvate objektide muutujate keskmistele väärtustele.

Võib märkida, et kahe inimrühma suhtumises teenistuskarjääri on peaaegu kõigis küsimustes olulisi erinevusi. Vaid ühes küsimuses valitseb täielik üksmeel - sotsiaalse heaolu (OSB) mõttes, õigemini selle puudumine (2,5 punkti 10-st).

Võib oletada, et:

  1. klastris 1 kuvatakse töötajad,
  2. klaster 2 – juhtimine:
    • Juhid on rohkem rahul karjääri arendamise (CR), isiklike eesmärkide ja organisatsiooni eesmärkide (SOL) kombinatsiooniga.
    • Neil on kõrgem majandusliku heaolu tunne (SEW) ja palga õigluse tunne (SWA).
    • Nad on vähem mures kodu läheduse pärast kui töötajad, tõenäoliselt vähemate transpordiprobleemide tõttu.
    • Samuti on juhtidel väiksem soov töökohta vahetada (JSR).

Hoolimata asjaolust, et töötajad jagunevad kahte kategooriasse, annavad nad enamikule küsimustele suhteliselt ühesugused vastused. Teisisõnu, kui miski ei sobi üldisele töötajate rühmale, ei sobi see ka kõrgemale juhtkonnale ja vastupidi.

Graafikute ühtlustamine võimaldab järeldada, et ühe grupi heaolu peegeldub teise grupi heaolus.

1. klaster ei ole rahul maja territoriaalse lähedusega. See grupp on põhiosa töötajatest, kes tulevad ettevõttesse peamiselt erinevatest linnaosadest. Seetõttu on võimalik pakkuda tippjuhtkonnale suunata osa kasumist ettevõtte töötajate eluaseme ehitamiseks.

Kahe inimrühma suhtumises teeninduskarjääri on olulisi erinevusi:

  1. Need töötajad, kes on rahul karjäärikasvuga, kellel on suur isiklike eesmärkide ja organisatsiooni eesmärkide kokkulangevus, ei soovi töökohta vahetada ja tunnevad rahulolu oma töö tulemustega.
  2. Seevastu töötajad, kes soovivad töökohta vahetada ja ei ole oma töö tulemustega rahul, ei ole ülaltoodud näitajatega rahul.

Kõrgem juhtkond peaks hetkeolukorrale erilist tähelepanu pöörama.

Dispersioonanalüüsi tulemused iga atribuudi kohta kuvatakse, vajutades nuppu Dispersioonanalüüs:

Väljund:

  • objektide klastri keskpunktidest kõrvalekaldumise ruutude summad (SS sees),
  • klastri tsentrite vaheliste kõrvalekallete ruudu summad (SS Between),
  • F-statistika väärtused,
  • olulisuse tasemed lk.
Meie näite puhul on kahe muutuja olulisuse tasemed üsna suured, mis on seletatav vaatluste väikese arvuga. Uuringu täisversioonis, mis on leitav artiklist, lükatakse hüpoteesid klastrikeskuste keskmiste võrdsuse kohta ümber olulisuse tasemetel alla 0,01.

Nupp Salvesta klassifikatsioonid ja kaugused kuvab igas klastris sisalduvate objektide arvu ja objektide kaugusi iga klastri keskpunktist.

Iga klastri koosseis ja objektide kaugus tsentrist

Tabelis on näidatud juhtumite numbrid (CASE_NO), millest koosnevad klastrid koos CLUSTERi numbritega, ja kaugused iga klastri keskpunktist (DISTANCE).

Informatsiooni klastritesse kuuluvate objektide kohta saab kirjutada faili ja kasutada edasises analüüsis. Antud näites ankeetidega saadud tulemuste võrdlus näitas, et klaster 1 koosneb peamiselt tavatöötajatest ja klaster 2 - juhtidest.

Seega võib märkida, et küsitluse tulemuste töötlemisel osutus klasteranalüüs võimsaks meetodiks, mis võimaldab teha järeldusi, milleni ei saa teha keskmistest histogrammi koostades või arvutades erinevate näitajatega rahulolevate protsenti. tööelu kvaliteet.

Puude klasterdamine on näide hierarhilisest algoritmist, mille põhimõte on rühmitada järjestikku esmalt lähimad ja seejärel üksteisest üha kaugemad elemendid. Enamik neist algoritmidest lähtub sarnasuse (kauguste) maatriksist ja iga üksikut elementi käsitletakse alguses eraldi klastrina.

Pärast klastrite analüüsi mooduli laadimist ja valiku Liitumine (puu rühmitamine) valimist saate klastri parameetrite sisestamise aknas muuta järgmisi parameetreid:

  1. Algandmed (sisend). Need võivad olla uuritud andmete maatriksi (Raw data) ja kauguste maatriksi kujul (Distance matrix).
  2. Klasterdamise (Cluster) vaatlused (Cases (raw)) või muutujad (Variable (columns)), kirjeldavad objekti olekut.
  3. Kaugusmõõdud. Siin saate valida järgmiste meetmete hulgast:
    • Eukleidese vahemaad,
    • Eukleidilise kauguse ruudus,
    • linnakvartalite kaugus (Manhattani kaugus, linnaosa (Manhattani) kaugus), Tšebõtševi kauguse meeter,
    • võimsuse kaugus (võimsus…;),
    • Eriarvamuse protsent.
  4. Klasterdamismeetod (ühendamise (linkage) reegel).
    Siin on saadaval järgmised valikud:
    • üksik link (lähima naabri meetod) (üks link),
    • täielik link (kõige kaugemate naabrite meetod) (täielik sidumine),
    • kaalumata paarirühma keskmine,
    • kaalutud paarirühma keskmine,
    • kaalumata tsentroidi meetod (kaalumata paarirühma tsentroid),
    • kaalutud tsentroidi meetod (mediaan) (kaalutud paarirühma tsentroid (mediaan)),
    • Wardi meetod.

Klasterdamise tulemusena ehitatakse üles horisontaalne või vertikaalne dendrogramm - graafik, millel määratakse objektide ja klastrite vahelised kaugused nende järjestikusel kombineerimisel.

Graafiku puustruktuur võimaldab defineerida klastreid sõltuvalt valitud lävest – antud klastritevahelisest kaugusest.

Lisaks kuvatakse algsete objektide vahemaade maatriks (Distance matrix); iga lähteobjekti keskmine ja standardhälve (Distiptive statistika). Vaadeldava näite puhul viime läbi vaikeseadetega muutujate klasteranalüüsi. Saadud dendrogramm on näidatud joonisel:


Dendrogrammi vertikaaltelg kujutab objektide ning objektide ja klastrite vahelised kaugused. Seega on muutujate SEB ja OSD vaheline kaugus viiega. Need muutujad ühendatakse esimeses etapis üheks klastriks.

Dendrogrammi horisontaalsed segmendid joonistatakse tasemetel, mis vastavad antud klastrite moodustamise etapi jaoks valitud lävikaugustele.

Graafikult on näha, et küsimus “soov töökohta vahetada” (JSR) moodustab omaette klastri. Üldiselt külastab soov kuhugi maha visata kõiki võrdselt. Lisaks on eraldi klaster kodule territoriaalse läheduse (LHB) küsimus.

Olulisuselt on see teisel kohal, mis kinnitab K-keskmise meetodil tehtud uuringu tulemuste järgi tehtud järeldust elamuehituse vajalikkuse kohta.

Majandusliku heaolu tunne (PEW) ja palgatasu (PWF) on ühendatud – see on majandusprobleemide plokk. Karjäär Kombineeritakse ka (CR) ning isiklike eesmärkide ja organisatsiooni eesmärkide kombinatsiooni (SOL).

Muud klasterdamismeetodid ja ka teist tüüpi kauguste valik ei too kaasa olulisi muutusi dendrogrammis.

tulemused

  1. Klasteranalüüs on võimas tööriist uurimuslikuks andmeanalüüsiks ja statistiliseks uurimistööks mis tahes teemavaldkonnas.
  2. Statistica programm rakendab klasteranalüüsi nii hierarhilisi kui ka struktuurseid meetodeid. Selle statistikapaketi eelised tulenevad nende graafilistest võimalustest. Antakse saadud klastrite kahe- ja kolmemõõtmelised graafilised esitused uuritud muutujate ruumis ning objektide rühmitamise hierarhilise protseduuri tulemused.
  3. Vajalik on rakendada mitmeid klasteranalüüsi algoritme ja teha järeldusi algoritmide tulemuste üldhinnangu põhjal.
  4. Klasteranalüüsi võib lugeda edukaks, kui seda tehakse erineval viisil, võrreldakse tulemusi ja leitakse ühised mustrid ning leitakse stabiilsed klastrid sõltumata klasterdamismeetodist.
  5. Klasteranalüüs võimaldab tuvastada probleemsed olukorrad ja kirjeldage viise nende lahendamiseks. Seetõttu võib seda mitteparameetrilise statistika meetodit pidada süsteemianalüüsi lahutamatuks osaks.

Sisestustüübid

  • Objektide orienteeruv kirjeldus. Iga objekti kirjeldab selle omaduste kogum, mida nimetatakse märgid. Funktsioonid võivad olla numbrilised või mittenumbrilised.
  • Objektide vaheline kaugusmaatriks. Iga objekti kirjeldatakse kaugustega kõigist teistest õppeproovis olevatest objektidest.

Kaugusmaatriks saab arvutada objektide tunnuskirjelduste maatriksist lõpmatul hulgal viisil, olenevalt sellest, kuidas kaugusfunktsiooni (meetrikat) tunnuskirjelduste vahel sisse viia. Sageli kasutatakse eukleidilist mõõdikut, kuid see valik on enamikul juhtudel heuristiline ja tuleneb ainult mugavuse kaalutlustest.

Pöördprobleemile – tunnuste kirjelduste taastamisele objektide vahekauguste paarismaatriksi abil – pole üldjuhul lahendust ning ligikaudne lahendus ei ole unikaalne ja võib sisaldada olulist viga. See probleem lahendatakse mitmemõõtmeliste skaleerimismeetoditega.

Seega klasterdamise probleemi sõnastamine poolt kaugusmaatriks on üldisem. Teisest küljest on funktsioonide kirjelduste olemasolul sageli võimalik juurde ehitada tõhusad meetodid rühmitamine.

Klastrite loomise eesmärgid

  • Andmete mõistmine klastri struktuuri tuvastamise kaudu. Valimi jagamine sarnaste objektide rühmadesse võimaldab lihtsustada edasist andmetöötlust ja otsuste tegemist, rakendades igale klastrile oma analüüsimeetodit (strateegia „jaga ja valluta”).
  • Andmete tihendamine. Kui esialgne valim on liiga suur, saab seda vähendada, jättes igast klastrist ühe tüüpilisema esindaja.
  • Uudsuse tuvastamine. Valitakse ebatüüpilised objektid, mida ei saa ühegi klastri külge kinnitada.

Esimesel juhul püütakse klastrite arvu väiksemaks muuta. Teisel juhul on olulisem tagada igas klastris olevate objektide kõrge (või fikseeritud) sarnasus ja klastreid võib olla suvaline arv. Kolmandal juhul pakuvad suurimat huvi üksikud objektid, mis ei mahu ühtegi klastrisse.

Kõigil neil juhtudel saab rakendada hierarhilist klasterdamist, kui suured klastrid jagatakse väiksemateks, mis omakorda veel väiksemateks jne. Selliseid ülesandeid nimetatakse taksonoomia ülesanneteks.

Taksonoomia tulemuseks on puutaoline hierarhiline struktuur. Lisaks iseloomustab iga objekti kõigi klastrite loend, kuhu see kuulub, tavaliselt suurtest kuni väikesteni. Visuaalselt on taksonoomia kujutatud graafikuna, mida nimetatakse dendrogrammiks.

Klassikaline näide sarnasusel põhinevast taksonoomiast on elusolendite binoomnomenklatuur pakkus välja Carl Linnaeus 18. sajandi keskel. Sarnased süstematiseeringud on üles ehitatud paljudes teadmiste valdkondades, et teavet sujuvamaks muuta suurel hulgal objektid.

Kauguse funktsioonid

Klasterdamismeetodid

  • Statistilised klasterdamisalgoritmid
  • Hierarhiline klasterdamine või taksonoomia

Klasterdamisprobleemi ametlik avaldus

Laskma olla objektide kogum, olla klastrite arvude (nimede, siltide) kogum. Objektide vaheline kaugusfunktsioon on antud. On olemas piiratud õppeobjektide komplekt. Valim tuleb jagada mittekattuvateks alamhulkadeks, nn klastrid, nii et iga klaster koosneb meetriliselt lähedastest objektidest ja erinevate klastrite objektid erinevad oluliselt. Sel juhul määratakse igale objektile klastri number.

Klasterdamisalgoritm on funktsioon, mis seob mis tahes objekti klastri numbriga. Komplekt on mõnel juhul ette teada, kuid sagedamini on ülesandeks määrata optimaalne klastrite arv, ühe või teise seisukohast. kvaliteedikriteeriumid rühmitamine.

Klasterdamine (supervised learning) erineb klassifitseerimisest (supervised learning) selle poolest, et algsete objektide silte pole algselt määratud ja komplekt ise võib olla isegi tundmatu.

Klasterdamisprobleemi lahendus on põhimõtteliselt mitmetähenduslik ja sellel on mitu põhjust:

  • Klasterdamise kvaliteedi jaoks pole ainulaadselt parimat kriteeriumi. Tuntud on mitmeid heuristlikke kriteeriume, aga ka mitmeid algoritme, millel pole selgelt määratletud kriteeriumi, kuid mis teostavad üsna mõistlikku klasterdamist “konstruktsiooni järgi”. Kõik need võivad anda erinevaid tulemusi.
  • Klastrite arv on tavaliselt ette teadmata ja määratakse mingi subjektiivse kriteeriumi järgi.
  • Klasterdamise tulemus sõltub oluliselt mõõdikust, mille valik on reeglina samuti subjektiivne ja selle määrab ekspert.

Lingid

  • Vorontsov K.V. Matemaatika õpetamismeetodid pretsedentide järgi. Moskva Füüsika- ja Tehnoloogiainstituut (2004), VMiK MGU (2007).
  • Sergei Nikolenko. Loengu slaidid "Clustering Algorithms 1" ja "Clustering Algorithms 2". Kursus "Iseõppimissüsteemid".

Kirjandus

  1. Aivazyan S. A., Buchstaber V. M., Enyukov I. S., Meshalkin L. D. Rakendusstatistika: klassifikatsioon ja mõõtmete vähendamine. - M.: Rahandus ja statistika, 1989.
  2. Žuravlev Yu. I., Rjazanov V. V., Senko O. V."Äratundmine". Matemaatilised meetodid. Tarkvarasüsteem. Praktilised rakendused. - M.: Fazis, 2006. .
  3. Zagoruiko N. G. Andmete ja teadmiste analüüsi rakendatud meetodid. - Novosibirsk: IM SO RAN, 1999. .
  4. Mandel I.D. klastri analüüs. - M.: Rahandus ja statistika, 1988. .
  5. Shlesinger M., Glavach V. Kümme loengut statistilisest ja struktuursest tunnustamisest. - Kiiev: Naukova Dumka, 2004. .
  6. Hastie T., Tibshirani R., Friedman J. Statistikaõppe elemendid. - Springer, 2001. .

Sisestustüübid

  • Objektide orienteeruv kirjeldus. Iga objekti kirjeldab selle omaduste kogum, mida nimetatakse märgid. Funktsioonid võivad olla numbrilised või mittenumbrilised.
  • Objektide vaheline kaugusmaatriks. Iga objekti kirjeldatakse kaugustega kõigist teistest õppeproovis olevatest objektidest.

Klastrite loomise eesmärgid

  • Andmete mõistmine klastri struktuuri tuvastamise kaudu. Valimi jagamine sarnaste objektide rühmadesse võimaldab lihtsustada edasist andmetöötlust ja otsuste tegemist, rakendades igale klastrile oma analüüsimeetodit (strateegia „jaga ja valluta”).
  • Andmete tihendamine. Kui esialgne valim on liiga suur, saab seda vähendada, jättes igast klastrist ühe tüüpilisema esindaja.
  • uudsuse tuvastamine. uudsuse tuvastamine). Valitakse ebatüüpilised objektid, mida ei saa ühegi klastri külge kinnitada.

Esimesel juhul püütakse klastrite arvu väiksemaks muuta. Teisel juhul on olulisem tagada igas klastris olevate objektide suur sarnasus ja klastreid võib olla suvaline arv. Kolmandal juhul pakuvad suurimat huvi üksikud objektid, mis ei mahu ühtegi klastrisse.

Kõigil neil juhtudel saab rakendada hierarhilist klasterdamist, kui suured klastrid jagatakse väiksemateks, mis omakorda veel väiksemateks jne. Selliseid ülesandeid nimetatakse taksonoomia ülesanneteks.

Taksonoomia tulemuseks on puutaoline hierarhiline struktuur. Lisaks iseloomustab iga objekti kõigi klastrite loend, kuhu see kuulub, tavaliselt suurtest kuni väikesteni.

Klassikaline sarnasusel põhineva taksonoomia näide on Carl Linnaeuse poolt 18. sajandi keskel välja pakutud elusolendite binoomnomenklatuur. Sarnased süstematiseeringud on üles ehitatud paljudes teadmiste valdkondades, et korraldada teavet suure hulga objektide kohta.

Klasterdamismeetodid

Klasterdamisprobleemi ametlik avaldus

Laskma olla objektide kogum, olla klastrite arvude (nimede, siltide) kogum. Objektide vaheline kaugusfunktsioon on antud. On olemas piiratud õppeobjektide komplekt. Valim tuleb jagada mittekattuvateks alamhulkadeks, nn klastrid, nii et iga klaster koosneb meetriliselt lähedastest objektidest ja erinevate klastrite objektid erinevad oluliselt. Sel juhul määratakse igale objektile klastri number.

Klasterdamisalgoritm on funktsioon, mis seob mis tahes objekti klastri numbriga. Komplekt on mõnel juhul ette teada, kuid sagedamini on ülesandeks määrata optimaalne klastrite arv, ühe või teise seisukohast. kvaliteedikriteeriumid rühmitamine.

Kirjandus

  1. Aivazyan S. A., Buchstaber V. M., Enyukov I. S., Meshalkin L. D. Rakendusstatistika: klassifikatsioon ja mõõtmete vähendamine. - M.: Rahandus ja statistika, 1989.
  2. Žuravlev Yu. I., Rjazanov V. V., Senko O. V."Äratundmine". Matemaatilised meetodid. Tarkvarasüsteem. Praktilised rakendused. - M.: Fazis, 2006. ISBN 5-7036-0108-8.
  3. Zagoruiko N. G. Andmete ja teadmiste analüüsi rakendatud meetodid. - Novosibirsk: IM SO RAN, 1999. ISBN 5-86134-060-9.
  4. Mandel I.D. klastri analüüs. - M.: Rahandus ja statistika, 1988. ISBN 5-279-00050-7.
  5. Shlesinger M., Glavach V. Kümme loengut statistilisest ja struktuursest tunnustamisest. - Kiiev: Naukova Dumka, 2004. ISBN 966-00-0341-2.
  6. Hastie T., Tibshirani R., Friedman J. Statistikaõppe elemendid. - Springer, 2001. ISBN 0-387-95284-5.
  7. Jain Murty Flynn Andmete rühmitamine: ülevaade . // ACM Comput. Surv. 31 (3) , 1999

Välised lingid

Vene keeles

  • www.MachineLearning.ru – professionaalne masinõppele ja andmekaevandamisele pühendatud vikiressurss
  • S. Nikolenko. Klasterdamisalgoritmide loenguslaidid

Inglise keeles

  • COMPACT – võrdlev pakett klastrite hindamiseks. Tasuta Matlabi pakett, 2006.
  • P. Berkhin, Klasterdamise andmekaevandamise tehnikate uuring, Accrue Software, 2002.
  • Jain, Murty ja Flynn: Andmete rühmitamine: ülevaade, ACM Comp. Surv., 1999.
  • hierarhiliste, k-keskmiste ja hägusate c-keskmiste esitluse kohta vaadake seda klastrite sissejuhatust. Samuti on selgitus Gaussi segude kohta.
  • David Dowe, Segude modelleerimise leht- muud klastrite ja segumudelite lingid.
  • rühmitamise õpetus
  • Veebiõpik: Infoteooria, järeldused ja õppimisalgoritmid, autor David J.C. MacKay sisaldab peatükke k-keskmiste klastrite, pehmete k-keskmiste klastrite ja tuletuste kohta, sealhulgas EM-i algoritmi ja E-M-algoritmi variatsioonivaadet.
  • "Iseorganiseerunud geen" , õpetus, mis selgitab rühmitamist võistlusõppe ja iseorganiseeruvate kaartide kaudu.
  • kernlab – R-pakett kernelipõhiseks masinõppeks (sisaldab spektraalklastri rakendamist)
  • Õpetus – rühmitusalgoritmide (k-keskmised, fuzzy-c-keskmised, hierarhiline, Gaussi segu) tutvustus + mõned interaktiivsed demod (Java apletid)
  • Andmekaevandamise tarkvara – andmekaevandamise tarkvara kasutab sageli klastrite moodustamise tehnikaid.
  • Java konkurentsivõimeline õpperakendus Järelevalveta närvivõrkude komplekt rühmitamiseks. Java keeles kirjutatud. Komplektis kogu lähtekoodiga.