Klyngeanalyselitteratur. Sammendrag: Klyngeanalyse

Denne boken er viet til bare en av de mest lovende, i denne forstand, tilnærminger til analyse av flerdimensjonale prosesser og fenomener - klyngeanalyse.

Klyngeanalyse er en metode for gruppering av flerdimensjonale objekter basert på presentasjon av resultatene av individuelle observasjoner etter punkter i et passende geometrisk rom, etterfulgt av utvalg av grupper som "klynger" av disse punktene. Egentlig betyr "klynge" på engelsk "haug", "haug med (druer)", "klynge (av stjerner)" osv. Dette begrepet passer uvanlig godt inn i den vitenskapelige terminologien, siden den første stavelsen tilsvarer den tradisjonelle begrepet "klasse", og det andre indikerer så å si dets kunstige opprinnelse. Vi er ikke i tvil om at terminologien for klyngeanalyse vil erstatte alle konstruksjoner som tidligere ble brukt til dette formålet (uten tilsyn mønstergjenkjenning, stratifisering, taksonomi, automatisk klassifisering, etc.). Potensialene ved klyngeanalyse er åpenbare for å løse, for eksempel, problemene med å identifisere grupper av virksomheter som opererer under lignende forhold eller med lignende resultater, homogene grupper av befolkningen i ulike aspekter av livet eller livsstilen generelt, etc.

Som en vitenskapelig retning gjorde klyngeanalyse seg kjent på midten av 60-tallet og har utviklet seg raskt siden da, og er en av grenene til den mest intensive veksten av statistikk. Det er tilstrekkelig å si at bare antall monografier om klyngeanalyse som hittil er publisert i forskjellige land, måles i hundrevis (mens vi for eksempel ifølge en slik "velfortjent" metode for multivariat statistisk analyse, som faktor analyse, vil det neppe være mulig å telle flere titalls bøker). Og dette er ganske forståelig. Tross alt snakker vi faktisk om modellering av grupperingsoperasjonen, en av de viktigste ikke bare i statistikk, men generelt - både i kognisjon og i beslutningsprosesser.

I vårt land er det publisert en rekke monografier om studiet av spesifikke sosioøkonomiske problemer ved bruk av klyngeanalyse (1), metoden for bruk av klyngeanalyse i sosioøkonomisk forskning (2), metoden for klyngeanalyse som sådan (3) (Grunnleggende om statistisk analyse )

Den foreslåtte boken av ID Mandel er så å si vinkelrett på denne klassifiseringen: innholdet er knyttet til hver av disse tre retningene.

Hensikten med boken er å oppsummere den nåværende tilstanden til klyngeanalyse, analysere mulighetene for bruken av den og oppgavene for videre utvikling. Denne ideen i seg selv kan ikke annet enn å vekke respekt: \u200b\u200bupartisk analyse og generalisering krever mye arbeid, erudisjon, mot, og blir vurdert av det vitenskapelige samfunnet mye lavere enn fremdriften og utviklingen av sine egne design. (Boken inneholder imidlertid også forfatterens opprinnelige utvikling relatert til "intensjonell" analyse og dualiteten av klassifiseringer.)

Både fordelene med boken og dens ulemper er knyttet til realiseringen av dette målet. Fordelene inkluderer:

· metodisk studie av begrepene homogenitet, gruppering og klassifisering, med tanke på flerdimensjonalitet av fenomener og prosesser;

· en systematisert gjennomgang av tilnærminger og metoder for klyngeanalyse (inkludert opptil 150 spesifikke algoritmer);

· presentasjon av teknologi og resultater av eksperimentell sammenligning av klyngeanalyseprosedyrer; Denne boka er viet til bare en av de mest lovende, i denne forstand, tilnærminger til analyse av flerdimensjonale prosesser og fenomener - klyngeanalyse.

Som en vitenskapelig retning fikk klyngeanalyse seg til kjenne på midten av 60-tallet og har utviklet seg raskt siden da, og er en av grenene til den mest intensive veksten av statistikk. Det er nok å si at bare antall monografier om klyngeanalyse, utvikling av generelle ordninger for bruk av klyngeanalysemetoder, implementert i ganske beskrivende tabeller; anbefaling av presentasjonen.

Disse fordelene bestemmer det uavhengige stedet for ID Mandels bok blant andre publikasjoner.

Ulempene med boken er tvetydigheten i noen anbefalinger og fraværet av en systematisk analyse av problemene med å bruke klyngeanalysemetoder i fagets sosioøkonomiske anvendelser. Det er sant at sistnevnte skyldes utilstrekkelig bruk av klyngeanalyse på dette området.

Boken gir fotfeste, hvis bruk muliggjør fremgang i den vanskeligste utgaven av enhver teori - den praktiske bruken av verktøyene den gir.

B.G. Mirkin

1 ... Adrianov A.Yu., Linzen L., Clusters som et verktøy for utvikling av ideelle organisasjoner // www.dis.ru.

2. Alimbaev A.A., Pritvorova T.P., Taubaev A.A. Dannelse og utvikling av klynger i sammenheng med industriell og innovativ utvikling av Republikken Kasakhstan // www.liter.kz

3. Analytisk notat for juli-august 2006 fra Territorial Body of the Federal State Statistics Service for Astrakhan Region

4. Bludova S.N. Regionale klynger som en måte å håndtere det utenlandske økonomiske komplekset i regionen // www.ncstu.ru

5. Borodatov A.V., Kozhevnikova V.D. Initiativ for å lage en Sevastopol turist- og rekreasjonsklynge // Forretningspartner. - 2004. - Nr. 10. - fra. 33-37.

6. Buriak A.P., Voropov A.G. Klyngeanalyse - grunnlaget for å styre konkurransekraft på makronivå // Markedsføring. - 2003. - Nr. 1. - fra. 34-40.

7. Davydov A.R., Lyalkina G.B. Nye former for organisering av innovasjonsprosessen. Internasjonal opplevelse // www.dis.ru

8. Dranev Ya.N. Klyngetilnærming til den økonomiske utviklingen av territorier. - Moskva: Scanrus forlag, 2003. - 195 s.

9. Zasimova L.S. Vekstrater for næringsmiddelindustriens produksjon i Astrakhan-regionen // www.volgainform.ru

10. Kapustin A.N. Turismeinvesteringer: kvalitet kontra kvantitet // www. astrakhan.net

11. Kutyin V.M. Territorial økonomisk klynging (klassifisering) av russiske regioner: sosio-geografisk aspekt // Eurasias sikkerhet. - 2003. - Nr. 1. - fra. 21-28.

12. Lee S. Clusters - nye former for organisering av innovasjonsprosessen // www.naukakaz.kz.

13. Lozinsky S., Prazdnichnykh A. Konkurranseevne og næringsklynger: en ny agenda for russisk næringsliv og regjering // Byggenæringens verden. - 2003. - Nr. 2. - fra. 32-41.

14. Martynov L.M. Vekst i matvareproduksjonen i Astrakhan-regionen // www.caspy.net

15. Melnikova S.V. Grunnlaget for velstanden til Astrakhan-turisme er en spesiell miljøpolitikk // Turisme i Russland. - 2006. - Nr. 8. - fra. 31-35.

16. Migranyan A.A. Teoretiske aspekter ved dannelsen av konkurranseklynger // www.dis.ru.

17. Mikheev Yu.V., Khasaev G.R. Klynger gjennom partnerskap til fremtiden // www.ptpu.ru.

18. Nikolaev M.V. Klyngekonsentrasjon av effektiv integrering av regioner i den globale økonomien // www.subcontract.ru

19. Perkina M.V. Hotellvirksomheten tar stjerner fra himmelen // Astrakhan vedomosti. - 2006. - Nr. 19. - fra. 3.

20. Porter M.E. Konkurranse: Pr. fra engelsk: Uch. pos. - M.: Williams Publishing House, 2000. - 495 s.

21. Porter M. Internasjonal konkurranse. - M.: Mezhdunar. relations, 1993. - 869 s.

22. Dekret fra regjeringen i Astrakhan-regionen av 2510.2006 nr. 368-P om sektormålprogrammet "Utvikling av turisme i Astrakhan-regionen i 2007".

23. Programmet for sosioøkonomisk utvikling av Astrakhan-regionen, med tanke på dobling av brutto regionalt produkt for 2005-2007.

24. Sviridov A.P. Økologisk turisme kan redde Astrakhan-regionen // www.volga-astrakhan.ru

25. Yu.V. Simachev Klynging som en måte å sikre konkurransekraften i regionen // www.clusters-net.ru

26. Sokolenko S.I. Fra klyngeforskning til utvikling av kommersielle og industrielle strukturer i nettverk // Russisk økonomisk journal. - 2004. - Nr. 6. - fra. 10-15.

27. Sokolenko S.I. Utvikling av turist- og rekreasjonsklynger: et regionalt initiativ fra Ukraina // Region. - 2004. - Nr. 2. - fra. 19-22.

28. Spankulova L.S. Problemer med utviklingen av industriell klyngeøkonomi på regionalt nivå // AlPari. - 2004. - Nr. 2. - fra. seksten-

29. Statistisk årbok for samfunnsøkonomisk utvikling av Astrakhan-regionen 2004, 2005 / Territorial body of the Federal State Statistics Service for the Astrakhan region

30. L. P. Steblyakova Problemer med å skape og utvikle klynger av økonomien: erfaring fra utlandet // Forhandlinger fra Karaganda University of Business, Management and Law. - 2005. - Nr. 2. - fra. 22-29.

31. Steblyakova L. P., Vechkinzova E. A. Dannelse av klynger av konkurranseevne i sentrale Kasakhstan // www.liter.kz

32. Strategisk utviklingsplan for den kommunale formasjonen "City of Astrakhan" for 2005 - 2010.

33. Strategi for utvikling av turisme i Astrakhan-regionen på mellomlang og lang sikt 2005

34. Filippov P. Klynger av konkurransekraft // Ekspert. - 2003. - Nr. 43. - fra. 10-15.

35. Tsikhan T.V. Klyngeteori om økonomisk utvikling // Teori og praksis for ledelse. - 2003. - Nr. 5. - fra. 22-25.

36 ... A.A. Chulok Mekanismer for å øke konkurranseevnen til den regionale økonomien // www.subcontract.ru

37. Shekhovtsova L.S. Klynge som et moderne verktøy for å øke konkurransekraften i regionen // www.clusters-net.ru

38.www.astrahanpages.com

39.www.astrasocial.ru

40. www. astrgorod.ru

41. www. astrobl.ru

42. www. asttour.ru

43. www.economy.astrobl.ru

Begrepet "klyngeanalyse" ble først brukt av den amerikanske psykologen Robert Tryon i sitt arbeid med samme navn tilbake i 1930. Til tross for dette oppfattes begrepene "klynge" og "klyngeanalyse" av morsmål som nye, noe som er bemerket av Alexander Khrolenko, som gjennomførte en korpusanalyse av bruken av lekseme "klyngen": "de fleste forfattere som bruker dette begrepet, tar hensyn til dets nyhet" (Khrolenko , 2016, s.106)

Klyngeanalyse inkluderer mange forskjellige klassifiseringsalgoritmer, hvis formål er å organisere informasjon i klynger. Det er viktig å huske at klyngeanalyse ikke er en spesifikk algoritme i seg selv, men er et problem som må løses. I sitt arbeid "The Scarcity of Linear Hierarchy" bemerker Mark Ereshefsky at klyngeanalyse er en av tre typer klassifisering av objekter i omverdenen, sammen med essensialisme og historisk klassifisering.

I språkvitenskap innebærer klyngeprinsippet for beskrivelsen, i tillegg til å analysere enhetene som inngår i denne klyngen, også analysen av forholdet i dem. Dette kan være forbindelser på forskjellige nivåer: fra logiske (paradigmatiske og syntagmatiske, for eksempel) til orddannelse og fonetiske sammenhenger.

F. Brown identifiserer følgende trinn i klyngeanalyse (Brown):

1. Velge et mål og foreta de nødvendige målingene, kriteriene eller enhetene som skal klassifiseres
2. Sette mål for likhet
3. Formulering av regler for å bestemme rekkefølgen for dannelse av klynger
4. Bruk av regler for å danne klynger

Det skal bemerkes at det tredje punktet reiser spørsmål, siden et særtrekk ved klynging som klassifiseringsmetode er fraværet av spesifiserte klasser. Dokumentklynging er en oppgave for henting av informasjon. I motsetning til kategorisering av tekster inkluderer den ikke forhåndsdefinerte kategorier eller opplæringseksempler. Klynger og forholdet mellom dem "blir automatisk hentet fra dokumenter, og dokumenter knyttes sekvensielt til disse klyngene" (Golub, s. 52-53) Mark Ereshefsky presenterer klyngeanalyse som en klassifiseringsmetode. Han mener at "alle former for klyngeanalyse er basert på to forutsetninger: medlemmer av en taksonomisk gruppe må ha en klynge av fellestrekk, og disse funksjonene kan ikke vises i hele eller bare ett medlem av denne gruppen." (Ereshefsky, s. 15)

I sitt arbeid "Cluster approach in linguistic analysis" (Nurgalieva, 2013) N.Kh. Nurgalieva identifiserer fire hovedoppgaver for klyngeanalyse:

1. Utvikling av en typologi eller klassifisering
2. Forskning på nyttige konseptuelle ordninger for gruppering av objekter
3. Presentasjon av hypoteser basert på de undersøkte dataene
4. Testing av hypoteser eller studier for å avgjøre om typene (gruppene) som er identifisert på en eller annen måte er til stede i tilgjengelige data

Alle metoder for klyngeanalyse kan deles inn i "hard", klar klyngeanalyse, når hvert objekt enten tilhører en klynge, eller ikke, og i "myk", uklar klyngeanalyse, når hvert objekt tilhører en gruppe med en viss grad av sannsynlighet.

Klyngeanalysemetoder er også delt inn i hierarkiske og ikke-hierarkiske. Hierarkiske metoder innebærer nestede grupper, i motsetning til ikke-hierarkiske metoder. Nurgalieva bemerker at den hierarkiske metoden "synes å være den mest egnede for å løse språklige problemer" (Nurgalieva, s. 1), siden den lar deg se og analysere strukturen til fenomenet som studeres.

Mari State Technical University

institutt for RTiMBS

Klyngeanalyse

Metodiske instruksjoner for laboratoriearbeid

Yoshkar-Ola

200 8

Introduksjon

Teoretisk del

Klyngeanalyseproblem
Klyngeanalysemetoder
Klyngealgoritmer
Antall klynger
Dendogrammer

Praktisk del

Eksempel
Et eksempel på en løsning i programmetSPSS 11.0
Et eksempel på en løsning i programmetSTATISTICA
Oppgave for laboratoriearbeid

Konklusjon

Bibliografi

applikasjon

Introduksjon

En omfattende gruppe dataanalyseproblemer basert på bruk av statistiske metoder er de såkalte klassifiseringsproblemene. Det er tre underdomener av klassifiseringsteori: diskriminering (diskriminerende analyse), klynging (klyngeanalyse) og gruppering.

Hovedformålet med klyngeanalyse er å dele settet med objekter og funksjoner som studeres i homogene grupper eller klynger i riktig forstand. Dette betyr at oppgaven med å klassifisere data og identifisere den tilsvarende strukturen i den blir løst. Klyngeanalysemetoder kan brukes i en lang rekke tilfeller, selv i de tilfellene når det gjelder en enkel gruppering, der alt koker ned til dannelsen av grupper ved kvantitativ likhet.

Klyngeanalyse lar deg vurdere en ganske stor mengde informasjon og redusere kraftig, komprimere store mengder informasjon, gjøre dem kompakte og visuelle.

Klyngeanalyse kan brukes syklisk. I dette tilfellet utføres studien til de nødvendige resultatene er oppnådd. Videre kan hver syklus her gi informasjon som i stor grad kan endre retning og tilnærminger til videre anvendelse av klyngeanalyse. Denne prosessen kan representeres av et tilbakemeldingssystem.

De forskjellige anvendelsene av klyngeanalyse kan oppsummeres i fire hovedoppgaver:

utvikling av en typologi eller klassifisering;

utforske nyttige konseptuelle ordninger for gruppering av objekter;

generere hypoteser basert på datautforskning;

hypotesetesting eller forskning for å avgjøre om typene (gruppene) identifisert på en eller annen måte er til stede i tilgjengelige data.

Klyngeteknikken brukes i mange forskjellige felt. Hartigan (1975) har gitt en utmerket oversikt over mange publiserte studier som inneholder klyngeanalyseresultater. For eksempel innen medisin fører klynging av sykdommer, behandling av sykdommer eller sykdomsymptomer til mye brukte taksonomier. Innen psykiatrien er riktig diagnose av klynger av symptomer som paranoia, schizofreni osv. Avgjørende for vellykket terapi.

Ulemper ved klyngeanalyse:

Mange klyngeanalysemetoder er ganske enkle prosedyrer som som regel ikke har tilstrekkelig statistisk begrunnelse.

Klyngeanalysemetoder er utviklet for mange vitenskapelige disipliner, og bærer derfor preg av spesifikasjonene til disse fagene.

Ulike klyngemetoder kan og vil generere forskjellige løsninger for de samme dataene.

Formålet med klyngeanalyse er å finne eksisterende strukturer. Samtidig er handlingen å innføre struktur i de analyserte dataene, dvs. klyngemetoder er nødvendige for å oppdage strukturen i dataene, noe som ikke er lett å finne ved visuell inspeksjon eller med hjelp fra eksperter.

Send ditt gode arbeid i kunnskapsbasen er enkelt. Bruk skjemaet nedenfor

Studenter, studenter, unge forskere som bruker kunnskapsbasen i studiene og arbeidet, vil være veldig takknemlige for deg.

Skrevet på http://www.allbest.ru/

Introduksjon

1. Definisjon og oppgaver for klyngeanalyse

2. Metoder for klyngeanalyse

3. Dendogrammer

Konklusjon

Bibliografi

Introduksjon

Klyngeanalyse er et sett med metoder for å klassifisere flerdimensjonale observasjoner. Begrepet klyngeanalyse, først laget av Tryon i 1939, omfatter over 100 forskjellige algoritmer.

I motsetning til klassifiseringsoppgaver krever klyngeanalyse ikke a priori antakelser om datasettet, pålegger ikke begrensninger for representasjonen av objektene som studeres, og lar deg analysere indikatorer for ulike typer data (intervaldata, frekvenser, binære data). Det skal imidlertid huskes at variablene må måles på sammenlignbare skalaer.

Klyngeanalyse lar deg redusere dimensjonen til data, for å gjøre den visuell.

Klyngeanalyse brukes til å identifisere grupper av punkter i dataene som er tydelig forskjellige fra hverandre. Viktigheten av å løse dette problemet skyldes at bruken av standard dataanalyseverktøy (inkludert standardøkonometriske prosedyrer) i nærvær av klynger i dataene vil føre til en skjevhet i både punktestimater (regresjonskoeffisienter) og standardfeil, og derfor til feil statistiske konklusjoner. I tillegg kan datastrukturen og likheten mellom observasjoner være av uavhengig interesse.

Klyngeanalyse er designet for å dele et sett med objekter i homogene grupper (klynger eller klasser). Faktisk er dette en oppgave med flerdimensjonal dataklassifisering.

1. Definisjon og mål for klyngeanalyse

Når man analyserer og forutsier sosioøkonomiske fenomener, blir forskeren ofte møtt med multidimensjonaliteten i beskrivelsen. Dette skjer når man løser problemet med å segmentere markedet, bygger en typologi av land basert på et tilstrekkelig stort antall indikatorer, forutsier markedssituasjonen for individuelle varer, studerer og forutsier den økonomiske depresjonen og mange andre problemer.

Multivariate analysemetoder er det mest effektive kvantitative verktøyet for å studere sosioøkonomiske prosesser beskrevet av et stort antall egenskaper. Disse inkluderer klyngeanalyse, taksonomi, mønstergjenkjenning, faktoranalyse.

Klyngeanalyse gjenspeiler tydeligst trekk ved multivariat analyse i klassifisering, faktoranalyse - i studiet av kommunikasjon.

Noen ganger kalles klyngeanalysetilnærmingen numerisk taksonomi, numerisk klassifisering, selvlæringsgjenkjenning osv. I litteraturen.

Den første anvendelsen av klyngeanalyse ble funnet i sosiologi. Navneklyngeanalysen kommer fra det engelske ordet cluster - en haug, en klynge. For første gang i 1939 ble emnet klyngeanalyse bestemt og beskrevet av forskeren Trion. Hovedformålet med klyngeanalyse er å dele settet med objekter og funksjoner som studeres i homogene grupper eller klynger i riktig forstand. Dette betyr at oppgaven med å klassifisere dataene og identifisere den tilsvarende strukturen i den blir løst. Klyngeanalysemetoder kan brukes i en lang rekke tilfeller, selv i de tilfellene når det gjelder en enkel gruppering, der alt koker ned til dannelsen av grupper ved kvantitativ likhet.

Den store fordelen med klyngeanalyse er at den lar deg dele objekter ikke av en parameter, men av et helt sett med funksjoner. I tillegg pålegger klyngeanalyse, i motsetning til de fleste matematiske og statistiske metoder, ingen begrensninger for typen objekter som blir vurdert, og lar en vurdere mange innledende data av nesten vilkårlig art. Dette er av stor betydning, for eksempel for å forutsi konjunktur, når indikatorene har en variert form, noe som gjør det vanskelig å anvende tradisjonelle økonometriske tilnærminger.

Klyngeanalyse lar oss vurdere en ganske stor mengde informasjon og kraftig redusere, komprimere store mengder sosioøkonomisk informasjon, gjøre dem kompakte og klare.

Klyngeanalyse er av stor betydning i forhold til sett med tidsserier som kjennetegner økonomisk utvikling (for eksempel den generelle økonomiske situasjonen og varesituasjonen). Her kan du skille ut perioder når verdiene til de tilsvarende indikatorene var nær nok, samt bestemme gruppene av tidsserier, hvis dynamikk er mest lik.

I oppgavene til sosioøkonomisk prognose er kombinasjonen av klyngeanalyse med andre kvantitative metoder (for eksempel med regresjonsanalyse) veldig lovende.

Som alle andre metoder har klyngeanalyse visse ulemper og begrensninger: Spesielt avhenger sammensetningen og antall klynger av de valgte partisjoneringskriteriene. Når den opprinnelige dataarrayen reduseres til en mer kompakt form, kan det oppstå visse forvrengninger, og de individuelle egenskapene til individuelle objekter kan også gå tapt på grunn av at de erstattes av egenskapene til de generelle verdiene til klyngeparametrene. Når du klassifiserer objekter, ignoreres ofte muligheten for fravær av klyngeverdier i det vurderte settet.

I klyngeanalyse antas det at:

a) de valgte egenskapene innrømmer i prinsippet den ønskede inndelingen i klynger;

b) måleenheter (skala) er valgt riktig.

Valg av skala spiller en stor rolle. Dataene normaliseres vanligvis ved å trekke gjennomsnittet og dividere med standardavviket slik at avviket er ett.

Oppgaven med klyngeanalyse er å dele settet med objekter G i m (m er et heltall) klynger (delmengder) Q1, Q2, ..., Qm, basert på dataene i settet X, slik at hvert objekt Gj tilhører en eneste den samme delmengden av partisjonen og at objektene som tilhører den samme klyngen er like, mens objektene som tilhører forskjellige klynger er forskjellige.

La G for eksempel inkludere n-land, hvorav hvert er preget av BNP per innbygger (F1), antall M-biler per 1000 personer (F2), per innbygger strømforbruk (F3), per innbyggerforbruk av stål (F4), etc. Da er X1 (målevektor) et sett med spesifiserte egenskaper for det første landet, X2 for det andre, X3 for det tredje osv. Utfordringen er å bryte ned land etter utviklingsnivå.

Skillevegger som tilfredsstiller noen kriterier for optimalitet er løsningen på problemet med klyngeanalyse. Dette kriteriet kan være en viss funksjonell som uttrykker nivåene av ønskelighet til forskjellige partisjoner og grupperinger, som kalles den objektive funksjonen. For eksempel kan summen av gruppene i avviket tas som en objektiv funksjon:

hvor xj - representerer målingene til det j-te objektet.

For å løse problemet med klyngeanalyse er det nødvendig å definere begrepet likhet og heterogenitet.

Det er klart at de i- og j-th objektene ville falle i en klynge når avstanden (avstanden) mellom punktene Xi og Xj ville være liten nok og ville falle i forskjellige klynger når denne avstanden ville være stor nok. Å komme inn i en eller annen gruppe klynger av objekter bestemmes således av begrepet avstanden mellom Xi og Xj fra Ep, hvor Ep er det p-dimensjonale euklidiske rommet. En ikke-negativ funksjon d (Xi, Xj) kalles en avstandsfunksjon (metrisk) hvis:

a) d (Xi, Xj) і 0, for alle Xi og Xj fra Ep

b) d (Xi, Xj) \u003d 0 hvis og bare hvis Xi \u003d Xj

c) d (Xi, Xj) \u003d d (Xj, Xi)

d) d (Xi, Xj) Ј d (Xi, Xk) + d (Xk, Xj), hvor Xj; Xi og Xk er tre vektorer fra Ep.

Verdien d (Xi, Xj) for Xi og Xj kalles avstanden mellom Xi og Xj og tilsvarer avstanden mellom Gi og Gj i henhold til de valgte karakteristikkene (F1, F2, F3, ..., Fр).

De mest brukte avstandsfunksjonene er:

1. Euklidisk avstand

2.l1 - norm

4. Supremum er normen

dҐ (Xi, Xj) \u003d sup

k \u003d 1, 2, ..., s

5.lp - norm

dр (Xi, Xj) \u003d

Den euklidiske beregningen er den mest populære. L1-beregningen er den enkleste å beregne. Den overordnede normen beregnes enkelt og inkluderer bestillingsprosedyren, mens lp-normen dekker funksjonene til avstandene 1, 2, 3,.

La n målinger X1, X2, ..., Xn presenteres i form av en datamatrise av størrelse p ґ n:

Deretter kan avstanden mellom vektorparene d (Xi, Xj) representeres som en symmetrisk avstandsmatrise:

Konseptet motsatt avstand er begrepet likhet mellom objekter Gi. og Gj. En ikke-negativ reell funksjon S (Xi; Xj) \u003d Sij kalles et likhetsmål hvis:

1) 0Ј S (Xi, Xj)<1 для Хi № Хj

2) S (Xi, Xi) \u003d 1

3) S (Xi, Xj) \u003d S (Xj, Xi)

Par med likhetsmålverdier kan kombineres til en likhetsmatrise:

Sij-verdien kalles likhetskoeffisienten.

2. Klyngeanalysemetoder

Metoder for klyngeanalyse kan deles inn i to grupper:

* hierarkisk;

* ikke-hierarkisk.

Hver av gruppene inneholder mange tilnærminger og algoritmer.

Ved å bruke forskjellige metoder for klyngeanalyse kan analytikeren få forskjellige løsninger for de samme dataene. Dette regnes som normalt. La oss vurdere hierarkiske og ikke-hierarkiske metoder i detalj.

Essensen av hierarkisk klynging består i å sekvensielt kombinere mindre klynger i større eller dele store klynger i mindre.

Hierarkiske agglomerative metoder (Agglomerative Nesting, AGNES) Denne gruppen av metoder er preget av den sekvensielle kombinasjonen av de første elementene og en tilsvarende reduksjon i antall klynger.

I begynnelsen av algoritmen er alle objekter separate klynger. I det første trinnet kombineres de mest like objektene til en klynge. I påfølgende trinn fortsetter sammenslåingen til alle objekter danner en klynge. Hierarkiske splittende (delbare) metoder (DIvisive ANAlysis, DIANA) Disse metodene er det logiske motsatte av agglomerative metoder. I begynnelsen av algoritmen tilhører alle objekter en klynge, som er delt inn i mindre klynger i påfølgende trinn, noe som resulterer i en sekvens av splittende grupper.

Ikke-hierarkiske metoder avslører en høyere motstand mot støy og avvik, feil valg av beregninger og inkludering av ubetydelige variabler i settet som deltar i klynging. Prisen som skal betales for disse fordelene ved metoden er ordet "a priori". Analytikeren må på forhånd bestemme antall klynger, antall iterasjoner eller stoppregelen og noen andre klyngeparametere. Dette er spesielt vanskelig for nybegynnere.

Hvis det ikke er noen antagelser om antall klynger, anbefales hierarkiske algoritmer. Imidlertid, hvis utvalgsstørrelsen ikke tillater dette, er en mulig måte å gjennomføre en serie eksperimenter med forskjellige antall klynger, for eksempel begynne å dele datasettet fra to grupper og, gradvis øke antallet, sammenligne resultatene. På grunn av denne "variasjonen" av resultatene oppnås en tilstrekkelig stor fleksibilitet i klynging.

Hierarkiske metoder, i motsetning til ikke-hierarkiske, nekter å bestemme antall klynger, men bygger et komplett tre med nestede klynger.

Vanskeligheter med hierarkiske klyngemetoder: begrense størrelsen på datasettet; valg av nærhetstiltak; ufleksibilitet av de resulterende klassifiseringene.

Fordelen med denne gruppen metoder i sammenligning med ikke-hierarkiske metoder er deres klarhet og evnen til å få en detaljert forståelse av datastrukturen.

Ved å bruke hierarkiske metoder er det mulig å identifisere avvikere i datasettet ganske enkelt og som et resultat forbedre kvaliteten på dataene. Denne prosedyren er kjernen i to-trinns klyngealgoritmen. Dette datasettet kan deretter brukes til ikke-hierarkisk klynging.

Det er et aspekt til som allerede er nevnt i dette foredraget. Det er et spørsmål om klynging av hele datasettet eller et utvalg av det. Dette aspektet er viktig for begge vurderte grupper av metoder, men det er mer kritisk for hierarkiske metoder. Hierarkiske metoder kan ikke fungere med store datasett, men bruk av noe utvalg, dvs. data kan tillate at disse metodene brukes.

Klyngingsresultater har kanskje ikke tilstrekkelig statistisk begrunnelse. På den annen side, når man løser klyngeproblemer, er en ikke-statistisk tolkning av de oppnådde resultatene tillatt, så vel som et ganske bredt utvalg av varianter av konseptet med en klynge. Denne ikke-statistiske tolkningen gjør det mulig for analytikeren å oppnå tilfredsstillende klyngeresultater, noe som ofte er vanskelig med andre metoder.

1) Metode for komplette tilkoblinger.

Essensen av denne metoden er at to objekter som tilhører samme gruppe (klynge) har en likhetskoeffisient som er mindre enn en viss terskelverdi S. Når det gjelder den euklidiske avstanden d, betyr dette at avstanden mellom to punkter (objekter) i klyngen ikke overstige noen terskelverdi h. Dermed definerer h den maksimalt tillatte diameteren til delmengden som danner klyngen.

2) Metode for maksimal lokal avstand.

Hvert objekt betraktes som en enkeltpunktsklynge. Objekter er gruppert i henhold til følgende regel: to klynger kombineres hvis maksimal avstand mellom punkter i en klynge og punkter i en annen er minimal. Prosedyren består av n - 1 trinn, og resultatet er partisjoner som sammenfaller med alle mulige partisjoner i den forrige metoden for eventuelle terskelverdier.

3) Words metode.

I denne metoden, som en objektiv funksjon, brukes den interne gruppen av kvadratiske avvik, som ikke er noe mer enn summen av kvadratene til avstandene mellom hvert punkt (objekt) og gjennomsnittet over klyngen som inneholder dette objektet. Ved hvert trinn kombineres to klynger som fører til en minimal økning i objektivfunksjonen, dvs. intern gruppe av kvadrater. Denne metoden tar sikte på å kombinere klynger med tett plassering.

4) Centroid-metoden.

Avstanden mellom to klynger er definert som den euklidiske avstanden mellom sentrene (midlene) til disse klyngene:

d2 ij \u003d (`X -`Y) Т (` X -`Y) Klynging fortsetter i trinn i hvert av n-1 trinn, to klynger G og p kombineres med minimumsverdien d2ij Hvis n1 er mye større enn n2, så er samlingssentrene til to klynger er nær hverandre, og egenskapene til den andre klyngen blir praktisk talt ignorert når du kombinerer klynger. Noen ganger kalles denne metoden noen ganger også den vektede gruppemetoden.

3. Dendogrammer

Den mest kjente metoden for å representere en avstand eller likhetsmatrise er basert på ideen om et dendogram eller trediagram. Et dendogram kan defineres som en grafisk fremstilling av resultatene av den sekvensielle klyngeprosessen, som utføres i form av en matrise av avstander. Ved hjelp av et dendogram kan du grafisk eller geometrisk skildre klyngeprosedyren, forutsatt at denne prosedyren bare fungerer med elementene i avstanden eller likhetsmatrisen.

Det er mange måter å bygge dendogrammer på. I dendogrammet er objekter plassert vertikalt til venstre, klyngingsresultater er til høyre. Avstands- eller likhetsverdier som tilsvarer strukturen til nye klynger er tegnet langs en vannrett linje over dendogramene.

Figur 1 viser ett eksempel på et dendogram. Figur 1 tilsvarer tilfellet med seks objekter (n \u003d 6) og k-egenskaper (trekk). Objekter A og C er de nærmeste og blir derfor kombinert i en klynge på et nærhetsnivå på 0,9. Objekter D og E smelter sammen med 0,8. Nå har vi fire klynger:

Typen av dendogram avhenger av valget av mål for likhet eller avstand mellom objektet og klyngen og metoden for klynging. Det viktigste punktet er valget av et mål på likhet eller mål på avstand mellom objektet og klyngen.

Antall klyngeanalysealgoritmer er for stort. Alle kan deles inn i hierarkiske og ikke-hierarkiske.

Hierarkiske algoritmer er knyttet til konstruksjonen av dendogrammer og er delt inn i:

a) agglomerativ, karakterisert ved en sekvensiell kombinasjon av innledende elementer og en tilsvarende reduksjon i antall klynger;

b) delbart (delbart), hvor antall klynger øker, med utgangspunkt i en, noe som resulterer i dannelsen av en sekvens av splittende grupper.

Klyngeanalysealgoritmer har en god programvareimplementering i dag, som gjør det mulig å løse problemer av den største dimensjonen.

Konklusjon

Klyngeanalyse er et veldig praktisk verktøy for å identifisere markedssegmenter. Spesielt i vår tid med høyteknologi, når maskiner kommer til en menneskes hjelp, og en slik arbeidskrevende prosess blir bokstavelig talt noen sekunder.

Dannelsen av segmentene avhenger av tilgjengelige data, og er ikke forhåndsbestemt.

Variablene som ligger til grunn for klynging bør velges ut fra erfaringen fra tidligere forskning, teoretiske antakelser, testbare hypoteser, og også etter forskerens skjønn. I tillegg bør det velges et passende mål for avstand (likhet). Et trekk ved hierarkisk gruppering er utviklingen av en hierarkisk struktur eller trestruktur. Hierarkiske klyngemetoder kan være agglomerative eller splittende. Agglomerative metoder inkluderer: enkeltbindingsmetode, fullbindingsmetode og mediumbindingsmetode. En utbredt dispersjonsmetode er Bard-metoden. Ikke-hierarkiske klyngemetoder blir ofte referert til som k-betyr metoder. Disse metodene inkluderer sekvensiell terskelverdi, parallell terskelverk og optimalisering av distribusjon. Hierarkiske og ikke-hierarkiske metoder kan brukes sammen. Valget av klyngemetoden og valget av avstandsmålet henger sammen.

Beslutningen om antall klynger tas av teoretiske og praktiske årsaker. I hierarkisk klynging er et viktig kriterium for å bestemme antall klynger avstanden klyngene smelter sammen. De relative størrelsene på klyngene bør være slik at det er fornuftig å beholde denne klyngen, og ikke å slå den sammen med andre. Klynger tolkes i form av klyngesentrroider. Ofte hjelper det å tolke klynger ved å profilere dem gjennom variabler som ikke lå til grunn for klynging. Påliteligheten og gyldigheten av klyngeløsninger blir vurdert på forskjellige måter.

klyngehierarkisk agglomerativ dendogram

Bibliografi

1. Vasiliev V.I. og annen statistisk analyse av gjenstander av vilkårlig art. Introduksjon til kvalitetsstatistikk. - M.: IKAR, 2004.

2. Økonomisk og statistisk analyse / Red. Ilyenkova S.D. -M.: YUNTIT, 2002.

3. Parsadanov G.A. Prognoser og planlegging av det sosioøkonomiske systemet i landet. - M.: UNITI, 2001

Skrevet på Allbest.ru

Lignende dokumenter

Lineær programmering. Geometrisk tolkning og grafisk metode for å løse LPP. Simplex metode for å løse LPP. Metode for kunstig basis. Minimumselementmetodealgoritmen. Algoritme over potensialmetoden. Gomori-metoden. Vogel-metodealgoritme.

abstrakt, lagt til 02.03.2009

En grafisk metode for å løse problemet med å optimalisere produksjonsprosesser. Anvendelse av en simpleksalgoritme for å løse et økonomisk optimalisert produksjonskontrollproblem. Dynamisk programmeringsmetode for valg av optimal sporprofil.

test, lagt til 15.10.2010

Analytiske og numeriske metoder for ubegrenset optimalisering. Eliminasjonsmetode og Lagrange multiplikatormetode (MLM). Eulers metode er en klassisk metode for å løse ubegrensede optimaliseringsproblemer. Det klassiske problemet med betinget optimalisering. Om den praktiske betydningen av MML.

abstrakt, lagt til 17.11.2010

Grunnleggende metoder for å løse lineære programmeringsproblemer. Grafisk metode, simpleks metode. Dobbelt problem, potensialmetode. Modellering og særegenheter ved å løse et transportproblem ved hjelp av potensialmetoden ved hjelp av funksjonene i Microsoft Excel.

test, lagt til 14.03.2014

Typer manifestasjon av kvantitative forhold mellom tegn. Definisjoner av funksjonelle og korrelasjonsforbindelser. Den praktiske viktigheten av å etablere, retning og styrke av korrelasjonen. Firkantmetode (Pearson-metoden), rangmetode (Spearman-metoden).

presentasjon lagt til 19.04.2015

Geometrisk måte å løse standard lineære programmeringsproblemer med to variabler på. En universell metode for å løse et kanonisk problem. Grunnideen til simpleksmetoden, implementering ved eksempel. Tabellimplementering av en enkel simpleksmetode.

abstrakt, lagt til 06/15/2010

En åpenbar innledende referanseløsning. Simplex metode med naturlig basis. En grafisk metode for å løse lineære programmeringsproblemer. Dobbelt problem, den optimale løsningen. Kostnadsfaktormatrise. Komplett interindustriell balanse.

test, lagt til 30.04.2009

Målene for markedssegmentering i markedsaktiviteter. Essensen av klyngeanalyse, hovedstadiene i implementeringen. Velge en måte å måle avstand eller likhet på. Hierarkiske, ikke-hierarkiske klyngemetoder. Vurdering av pålitelighet og validitet.

rapport lagt til 02.11.2009

Metaklyngeanalyse: forståelse, algoritme, kunnskap. Hovedtrekk ved McKean-prosedyren. Graf over gjennomsnittsverdier for tre klynger. Metode for K-metoder, perevagi og kortsiktige seire. Forståelse om nettbaserte klyngealgoritmer.

abstrakt lagt til 27.05.2013

Matematisk teori om optimal beslutningstaking. Simplex-metode i tabellform. Sammensetning og løsning av et dobbelt lineært programmeringsproblem. Matematisk modell av transportproblemet. Analyse av muligheten for produksjon i bedriften.