طرق التحليل العنقودي. الأساليب الهرمية. تحليل الكتلة هو خوارزمية لدراسة البيانات مقسمة إلى مجموعات وفقًا لخصائص متشابهة.

تحيات!

في رسالتي ، أجريت مراجعة وتحليل مقارن لخوارزميات تجميع البيانات. اعتقدت أن المواد التي تم جمعها وعملها بالفعل قد تكون ممتعة ومفيدة لشخص ما.
حول ما هو التجمع ، قال في المقال. سأكرر جزئيًا كلمات الإسكندر ، ملحقًا جزئيًا. أيضًا في نهاية هذه المقالة ، يمكن للمهتمين قراءة المواد الموجودة على الروابط الموجودة في قائمة المراجع.

حاولت أيضًا أن أضع أسلوب "الدبلومة" الجاف في التقديم في أسلوب أكثر صحفيًا.

مفهوم التجميع

التجميع (أو تحليل الكتلة) هو مهمة تقسيم مجموعة من الكائنات إلى مجموعات تسمى المجموعات العنقودية. داخل كل مجموعة يجب أن تكون هناك كائنات "متشابهة" ، ويجب أن تكون أهداف المجموعات المختلفة مختلفة قدر الإمكان. يتمثل الاختلاف الرئيسي بين التجميع والتصنيف في أن قائمة المجموعات غير محددة بوضوح ويتم تحديدها في سياق الخوارزمية.

تطبيق التحليل العنقودي في نظرة عامةيتلخص في الخطوات التالية:

  1. اختيار عينة من الكائنات للتجميع.
  2. تحديد مجموعة من المتغيرات التي سيتم من خلالها تقييم الكائنات في العينة. إذا لزم الأمر ، قم بتطبيع قيم المتغيرات.
  3. حساب التشابه يقيس القيم بين الأشياء.
  4. تطبيق طريقة التحليل العنقودي لإنشاء مجموعات من الكائنات المتشابهة (العناقيد).
  5. عرض نتائج التحليل.
بعد تلقي النتائج وتحليلها ، من الممكن ضبط المقياس المختار وطريقة التجميع حتى يتم الحصول على النتيجة المثلى.

مقاييس المسافة

إذن ، كيف نحدد "تشابه" الأشياء؟ تحتاج أولاً إلى إنشاء متجه للخصائص لكل كائن - كقاعدة عامة ، هذه مجموعة من القيم الرقمية ، على سبيل المثال ، ارتفاع وزن الشخص. ومع ذلك ، هناك أيضًا خوارزميات تعمل مع الخصائص النوعية (ما يسمى الفئوية).

بمجرد تحديد متجه الميزة ، يمكننا تطبيعه بحيث تساهم جميع المكونات بنفس الشيء عند حساب "المسافة". أثناء عملية التسوية ، يتم تقليل جميع القيم إلى نطاق ما ، على سبيل المثال ، [-1 ، -1] أو.

أخيرًا ، لكل زوج من العناصر ، يتم قياس "المسافة" بينهما - درجة التشابه. هناك العديد من المقاييس ، وهنا فقط المقاييس الرئيسية:

اختيار المقياس متروك تمامًا للباحث ، نظرًا لأن نتائج التجميع يمكن أن تختلف بشكل كبير عند استخدام مقاييس مختلفة.

تصنيف الخوارزميات

بنفسي ، لقد حددت تصنيفين رئيسيين لخوارزميات التجميع.
  1. هرمي ومسطح.
    لا تقوم الخوارزميات الهرمية (تسمى أيضًا خوارزميات التصنيف) ببناء قسم واحد من العينة إلى مجموعات منفصلة ، ولكن نظام من الأقسام المتداخلة. الذي - التي. عند الإخراج ، نحصل على شجرة عنقودية ، يكون جذرها هو العينة بأكملها ، والأوراق هي أصغر العناقيد.
    تبني الخوارزميات المسطحة قسمًا واحدًا من الكائنات في مجموعات.
  2. واضح وغامض.
    تقوم الخوارزميات الواضحة (أو غير المتداخلة) بتعيين رقم مجموعة لكل كائن عينة ، أي كل كائن ينتمي إلى مجموعة واحدة فقط. تقوم الخوارزميات الضبابية (أو المتقاطعة) بتعيين كل كائن مجموعة من القيم الحقيقية التي توضح درجة علاقة الكائن بالعناقيد. أولئك. كل كائن ينتمي إلى كل مجموعة مع بعض الاحتمالات.

دمج المجموعات

في حالة استخدام الخوارزميات الهرمية ، فإن السؤال الذي يطرح نفسه هو كيفية الجمع بين المجموعات مع بعضها البعض ، وكيفية حساب "المسافات" بينها. هناك عدة مقاييس:
  1. رابط واحد (أقرب المسافات المجاورة)
    في هذه الطريقة ، يتم تحديد المسافة بين مجموعتين من خلال المسافة بين أقرب كائنين (أقرب جيران) في مجموعات مختلفة. تميل المجموعات الناتجة إلى السلسلة معًا.
  2. رابط كامل (مسافة أبعد الجيران)
    في هذه الطريقة ، يتم تحديد المسافات بين المجموعات من خلال أكبر مسافة بين أي كائنين في مجموعات مختلفة (أي ، الجيران الأبعد). تعمل هذه الطريقة عادةً بشكل جيد جدًا عندما تأتي الكائنات من مجموعات منفصلة. إذا كانت المجموعات ممدودة أو كان نوعها الطبيعي هو "سلسلة" ، فهذه الطريقة غير مناسبة.
  3. يعني الزوج غير مرجح
    في هذه الطريقة ، يتم حساب المسافة بين مجموعتين مختلفتين على أنها متوسط ​​المسافة بين جميع أزواج الكائنات الموجودة فيها. الطريقة فعالة عندما تتشكل الكائنات مجموعات مختلفةومع ذلك ، فإنه يعمل بشكل جيد بنفس القدر في حالات الكتل الموسعة (النوع "المتسلسل").
  4. وزوج مرجح يعني
    تتطابق هذه الطريقة مع طريقة المتوسط ​​الزوجي غير الموزون ، باستثناء أن حجم المجموعات المعنية (أي عدد العناصر التي تحتوي عليها) يُستخدم كعامل ترجيح في الحسابات. لذلك ، يجب استخدام هذه الطريقة عند توقع أحجام غير متكافئة للكتل.
  5. طريقة النقطه الوسطى غير مرجح
    في هذه الطريقة ، يتم تعريف المسافة بين مجموعتين على أنها المسافة بين مركزي جاذبيتهم.
  6. طريقة النقطه الوسطى المرجحة (الوسيط)
    هذه الطريقة مماثلة للطريقة السابقة ، باستثناء أن الحسابات تستخدم أوزانًا لحساب الاختلافات بين أحجام الكتلة. لذلك ، إذا كانت هناك اختلافات كبيرة في أحجام الكتلة أو يشتبه في وجودها ، فإن هذه الطريقة هي الأفضل من الطريقة السابقة.

نظرة عامة على الخوارزميات

خوارزميات التجميع الهرمي
هناك نوعان رئيسيان من خوارزميات التجميع الهرمي: خوارزميات تصاعدي وتنازلي. تعمل الخوارزميات التنازلية على أساس تنازلي: في البداية ، يتم وضع جميع الكائنات في مجموعة واحدة ، والتي يتم تقسيمها بعد ذلك إلى مجموعات أصغر وأصغر. الأكثر شيوعًا هي الخوارزميات التصاعدية التي تضع في البداية كل ميزة في مجموعة منفصلة ثم تدمج المجموعات في مجموعات أكبر وأكبر حتى يتم تضمين جميع الميزات التي تم أخذ عينات منها في نفس المجموعة. وبالتالي ، يتم إنشاء نظام الأقسام المتداخلة. عادة ما يتم تقديم نتائج هذه الخوارزميات في شكل شجرة - مخطط شجر. المثال الكلاسيكي لمثل هذه الشجرة هو تصنيف الحيوانات والنباتات.

لحساب المسافات بين المجموعات ، غالبًا ما يستخدم الجميع مسافتين: اتصال واحد أو اتصال كامل (انظر نظرة عامة على مقاييس المسافة بين المجموعات).

عيب الخوارزميات الهرمية هو نظام الأقسام الكاملة ، والتي قد تكون زائدة عن الحاجة في سياق المشكلة التي يتم حلها.

خوارزميات الخطأ التربيعي
يمكن اعتبار مشكلة التجميع على أنها إنشاء تقسيم أمثل للكائنات إلى مجموعات. في هذه الحالة ، يمكن تعريف الأمثلية على أنها شرط لتقليل خطأ تقسيم الجذر التربيعي:

أين سي جيه- "مركز الكتلة" للكتلة ي(نقطة مع متوسط ​​قيم الخصائص لمجموعة معينة).

خوارزميات الخطأ التربيعية هي من نوع الخوارزميات المسطحة. الخوارزمية الأكثر شيوعًا في هذه الفئة هي طريقة k-mean. تبني هذه الخوارزمية عددًا معينًا من المجموعات الموجودة في أقصى مسافة ممكنة. ينقسم عمل الخوارزمية إلى عدة مراحل:

  1. اختر عشوائيا كالنقاط التي تمثل "مراكز الكتلة" الأولية للعناقيد.
  2. قم بتعيين كل كائن إلى الكتلة مع أقرب "مركز كتلة".
  3. أعد حساب "مراكز الكتلة" للعناقيد وفقًا لتكوينها الحالي.
  4. إذا لم يتم استيفاء معيار إيقاف الخوارزمية ، فارجع إلى الخطوة 2.
كمعيار لإيقاف تشغيل الخوارزمية ، عادة ما يتم اختيار الحد الأدنى من التغيير في متوسط ​​الخطأ التربيعي. من الممكن أيضًا إيقاف الخوارزمية إذا لم تكن هناك كائنات في الخطوة 2 تنتقل من كتلة إلى أخرى.

تشمل عيوب هذه الخوارزمية الحاجة إلى تحديد عدد المجموعات للتقسيم.

خوارزميات ضبابية
أكثر خوارزمية التجميع الضبابي شيوعًا هي خوارزمية الوسيلة c. إنه تعديل لطريقة k-mean. خطوات الخوارزمية:

قد لا تكون هذه الخوارزمية مناسبة إذا كان عدد المجموعات غير معروف مسبقًا ، أو إذا كان من الضروري إسناد كل كائن بشكل فريد إلى مجموعة واحدة.
الخوارزميات على أساس نظرية الرسم البياني
جوهر هذه الخوارزميات هو أن اختيار الأشياء يتم تمثيله كرسم بياني G = (V ، E)، التي تتوافق رؤوسها مع الأشياء ، ولها وزن يساوي "المسافة" بين الكائنات. تتمثل ميزة خوارزميات تجميع الرسم البياني في الوضوح والسهولة النسبية للتنفيذ وإمكانية إجراء تحسينات متنوعة بناءً على الاعتبارات الهندسية. الخوارزميات الرئيسية هي الخوارزمية لاستخراج المكونات المتصلة ، وخوارزمية إنشاء الحد الأدنى من الشجرة الممتدة (الممتدة) ، وخوارزمية التجميع الطبقي.
خوارزمية لاستخراج المكونات المتصلة
في خوارزمية استخراج المكونات المتصلة ، يتم تعيين معلمة الإدخال صوفي الرسم البياني جميع الحواف التي تكون "مسافاتها" أكبر من ص. تبقى أزواج الكائنات الأقرب فقط متصلة. الغرض من الخوارزمية هو إيجاد مثل هذه القيمة ص، والتي تقع في نطاق جميع "المسافات" ، حيث "ينقسم" الرسم البياني إلى عدة مكونات متصلة. المكونات الناتجة هي العناقيد.

لتحديد معلمة صعادة ما يتم إنشاء رسم بياني لتوزيعات المسافات الزوجية. في المهام ذات بنية بيانات الكتلة المحددة جيدًا ، سيكون للرسم البياني ذروتين - أحدهما يتوافق مع المسافات داخل العنقود ، والثاني يتوافق مع المسافات البينية. معامل صمن منطقة الحد الأدنى بين هذه القمم. في الوقت نفسه ، من الصعب جدًا التحكم في عدد المجموعات باستخدام عتبة المسافة.

الحد الأدنى من خوارزمية شجرة الامتداد
تقوم خوارزمية الشجرة الممتدة الدنيا أولاً ببناء الحد الأدنى من الشجرة الممتدة على الرسم البياني ثم تزيل بالتتابع الحواف ذات الوزن الأعلى. يوضح الشكل الحد الأدنى للشجرة الممتدة التي تم الحصول عليها لتسع ميزات.

بإزالة الرابط المسمى CD بطول 6 وحدات (الحافة بأقصى مسافة) ، نحصل على مجموعتين: (A ، B ، C) و (D ، E ، F ، G ، H ، I). يمكن تقسيم المجموعة الثانية إلى مجموعتين أخريين عن طريق إزالة الحافة EF ، التي يبلغ طولها 4.5 وحدة.

التجميع الطبقي
تعتمد خوارزمية التجميع طبقة تلو الأخرى على تحديد مكونات الرسم البياني المتصلة عند مستوى معين من المسافات بين الكائنات (الرؤوس). يتم تعيين مستوى المسافة من خلال عتبة المسافة ج. على سبيل المثال ، إذا كانت المسافة بين الأشياء ، الذي - التي .

تنشئ خوارزمية التجميع الطبقية سلسلة من الرسوم البيانية الفرعية جي، والتي تعكس العلاقات الهرمية بين المجموعات:

,

أين G t = (V ، E t)- مستوى الرسم البياني مع تي,
,
مع تي- عتبة المسافة t ،
م هو عدد مستويات التسلسل الهرمي ،
G 0 = (الخامس ، س)، o هي المجموعة الفارغة من حواف الرسم البياني التي تم الحصول عليها بواسطة t0 = 1,
ز م = ز، أي رسم بياني للكائنات دون قيود على المسافة (طول حواف الرسم البياني) ، منذ ذلك الحين ر م = 1.

عن طريق تغيير عتبات المسافة ( مع 0 ، ... ، مع م) ، حيث 0 = من 0 < من 1 < …< مع م= 1 ، من الممكن التحكم في عمق التسلسل الهرمي للمجموعات الناتجة. وبالتالي ، فإن خوارزمية التجميع طبقة تلو الأخرى قادرة على إنشاء قسم بيانات مسطح وقسم هرمي.

مقارنة الخوارزمية

التعقيد الحسابي للخوارزميات

جدول مقارن للخوارزميات
خوارزمية التجميع شكل العناقيد ادخال البيانات نتائج
الهرمية حر عدد المجموعات أو عتبة المسافة لاقتطاع التسلسل الهرمي شجرة ثنائية من العناقيد
ك يعني فرط عدد العناقيد مراكز الكتلة
ج- الوسائل فرط عدد العناقيد ودرجة الضبابية مراكز الكتلة ، مصفوفة العضوية
تحديد المكونات المتصلة حر عتبة المسافة R
الحد الأدنى الشجرة الممتدة حر عدد المجموعات أو عتبة المسافة لإزالة الحواف هيكل الشجرة من العناقيد
التجميع الطبقي حر تسلسل عتبات المسافة هيكل شجرة من مجموعات مع مستويات مختلفة من التسلسل الهرمي

قليلا عن التطبيق

في عملي ، كنت بحاجة إلى تحديد مناطق منفصلة عن الهياكل الهرمية (الأشجار). أولئك. في الأساس ، كان من الضروري قطع الشجرة الأصلية إلى عدة أشجار أصغر. نظرًا لأن الشجرة الموجهة هي حالة خاصة للرسم البياني ، فإن الخوارزميات القائمة على نظرية الرسم البياني مناسبة بشكل طبيعي.

على عكس الرسم البياني المتصل بالكامل ، ليست كل الرؤوس في الشجرة الموجهة متصلة بالحواف ، والعدد الإجمالي للحواف هو n – 1 ، حيث n هو عدد الرؤوس. أولئك. فيما يتعلق بعقد الشجرة ، سيتم تبسيط عمل الخوارزمية لاستخراج المكونات المتصلة ، نظرًا لأن إزالة أي عدد من الحواف ستؤدي إلى "تقسيم" الشجرة إلى مكونات متصلة (أشجار منفصلة). سيتطابق الحد الأدنى من خوارزمية الشجرة الممتدة في هذه الحالة مع خوارزمية استخراج المكونات المتصلة - عن طريق إزالة الحواف الأطول ، يتم تقسيم الشجرة الأصلية إلى عدة أشجار. في هذه الحالة ، من الواضح أنه تم تخطي مرحلة بناء الحد الأدنى من الشجرة الممتدة.

في حالة استخدام خوارزميات أخرى ، يجب أن يأخذوا في الاعتبار بشكل منفصل وجود العلاقات بين الكائنات ، مما يعقد الخوارزمية.

بشكل منفصل ، أود أن أقول أنه من أجل تحقيق أفضل نتيجة ، من الضروري تجربة اختيار مقاييس المسافة ، وفي بعض الأحيان تغيير الخوارزمية. لا يوجد حل واحد.

التحليل العنقودي

يميل معظم الباحثين إلى الاعتقاد بأن مصطلح "تحليل الكتلة" (eng. تَجَمَّع- مجموعة ، تجلط ، حفنة) من قبل عالم الرياضيات ر. تريون. في وقت لاحق ، نشأ عدد من المصطلحات التي تعتبر الآن مرادفة لمصطلح "تحليل الكتلة": التصنيف التلقائي ؛ علم النبات.

تحليل الكتلة هو إجراء إحصائي متعدد الأبعاد يجمع البيانات التي تحتوي على معلومات حول عينة من الكائنات ، ثم يرتب الكائنات في مجموعات متجانسة نسبيًا (مجموعات) (Q-clustering ، أو Q-technology ، تحليل الكتلة المناسب). الكتلة - مجموعة من العناصر تتميز بخاصية مشتركة ، والهدف الرئيسي من تحليل الكتلة هو العثور على مجموعات من الكائنات المتشابهة في العينة. نطاق تطبيقات التحليل العنقودي واسع جدًا: فهو يستخدم في علم الآثار والطب وعلم النفس والكيمياء وعلم الأحياء والإدارة العامة وعلم فقه اللغة والأنثروبولوجيا والتسويق وعلم الاجتماع والتخصصات الأخرى. ومع ذلك ، أدت عالمية التطبيق إلى ظهور عدد كبير من المصطلحات والطرق والنهج غير المتوافقة التي تجعل من الصعب استخدام التحليل العنقودي بشكل لا لبس فيه وتفسيره باستمرار. يقترح Orlov A.I التمييز على النحو التالي:

المهام والشروط

يقوم تحليل الكتلة بتنفيذ ما يلي الأهداف الرئيسية:

  • تطوير التصنيف أو التصنيف.
  • استكشاف المخططات المفاهيمية المفيدة لتجميع الكائنات.
  • توليد الفرضيات على أساس استكشاف البيانات.
  • اختبار الفرضيات أو البحث لتحديد ما إذا كانت الأنواع (المجموعات) المحددة بطريقة أو بأخرى موجودة بالفعل في البيانات المتاحة.

بغض النظر عن موضوع الدراسة ، يتضمن استخدام التحليل العنقودي الخطوات التالية:

  • أخذ العينات للتجميع. من المفهوم أنه من المنطقي تجميع البيانات الكمية فقط.
  • تعريف مجموعة من المتغيرات التي سيتم من خلالها تقييم الكائنات في العينة ، أي مساحة الميزة.
  • حساب قيم مقياس أو آخر للتشابه (أو الاختلاف) بين الكائنات.
  • تطبيق طريقة التحليل العنقودي لإنشاء مجموعات من الكائنات المتشابهة.
  • التحقق من صحة نتائج الحل العنقودي.

يقدم تحليل الكتلة ما يلي متطلبات البيانات:

  1. يجب ألا ترتبط المؤشرات ببعضها البعض ؛
  2. يجب ألا تتعارض المؤشرات مع نظرية القياسات ؛
  3. يجب أن يكون توزيع المؤشرات قريبًا من المعتاد ؛
  4. يجب أن تفي المؤشرات بمتطلبات "الاستقرار" ، مما يعني عدم تأثير العوامل العشوائية على قيمها ؛
  5. يجب أن تكون العينة متجانسة ولا تحتوي على "قيم متطرفة".

يمكنك العثور على وصف لاثنين من المتطلبات الأساسية للبيانات - التوحيد والاكتمال:

يتطلب التجانس أن تكون جميع الكيانات الممثلة في جدول من نفس الطبيعة. شرط الاكتمال هو أن المجموعات أناو يقدم وصفاً كاملاً لمظاهر الظاهرة قيد الدراسة. إذا نظرنا إلى الجدول الذي أناعبارة عن مجموعة و ي- مجموعة المتغيرات التي تصف هذا المجتمع ، ثم يجب أن تكون عينة تمثيلية من المجتمع المدروس ، ونظام الخصائص ييجب أن يعطي تمثيل ناقل مرضي للأفراد أنامن وجهة نظر الباحث.

إذا كان تحليل الكتلة مسبوقًا بتحليل عامل ، فلن تحتاج العينة إلى "إصلاح" - يتم تنفيذ المتطلبات المذكورة تلقائيًا بواسطة إجراء نمذجة العوامل نفسه (هناك ميزة أخرى - توحيد z بدون عواقب سلبية على العينة ؛ إذا يتم تنفيذه مباشرة للتحليل العنقودي ، ويمكن أن يؤدي إلى انخفاض في وضوح فصل المجموعات). خلاف ذلك ، يجب تعديل العينة.

تصنيف مشاكل التكتل

أنواع المدخلات

في العلم الحديثيتم استخدام عدة خوارزميات لمعالجة بيانات الإدخال. يسمى التحليل عن طريق مقارنة الكائنات بناءً على الميزات (الأكثر شيوعًا في العلوم البيولوجية) س- نوع التحليل ، وفي حالة مقارنة الميزات ، على أساس العناصر - ص- نوع التحليل. هناك محاولات لاستخدام أنواع مختلطة من التحليل (على سبيل المثال ، RQالتحليل) ، لكن هذه المنهجية لم يتم تطويرها بشكل صحيح بعد.

أهداف التجميع

  • فهم البيانات عن طريق تحديد هيكل الكتلة. إن تقسيم العينة إلى مجموعات من كائنات متشابهة يجعل من الممكن تبسيط معالجة البيانات واتخاذ القرار من خلال تطبيق طريقة التحليل الخاصة بها على كل مجموعة (استراتيجية "فرق تسد").
  • ضغط البيانات. إذا كانت العينة الأولية كبيرة بشكل مفرط ، فيمكن تقليلها ، وترك أحد أكثر الممثلين نموذجية من كل مجموعة.
  • كشف الجدة. كشف الجدة). يتم تحديد الكائنات غير النمطية التي لا يمكن إرفاقها بأي من المجموعات.

في الحالة الأولى ، يحاولون تقليل عدد المجموعات. في الحالة الثانية ، من المهم التأكد بدرجة عاليةأوجه التشابه بين الكائنات داخل كل مجموعة ، ويمكن أن يكون هناك أي عدد من المجموعات. في الحالة الثالثة ، تكون الأشياء الفردية التي لا تتناسب مع أي من المجموعات ذات أهمية قصوى.

في جميع هذه الحالات ، يمكن تطبيق التجميع الهرمي ، عندما يتم تقسيم المجموعات الكبيرة إلى مجموعات أصغر ، والتي بدورها يتم تقسيمها إلى مجموعات أصغر ، وما إلى ذلك. وتسمى هذه المهام مهام التصنيف. نتيجة التصنيف هي بنية هرمية تشبه الشجرة. بالإضافة إلى ذلك ، يتميز كل كائن بتعداد جميع المجموعات التي ينتمي إليها ، عادةً من الكبيرة إلى الصغيرة.

طرق التجميع

لا يوجد تصنيف مقبول بشكل عام لطرق التجميع ، ولكن يمكن ملاحظة محاولة قوية من قبل V. S. Berikov و G. S. Lbov. إذا قمنا بتعميم التصنيفات المختلفة لطرق التجميع ، فيمكننا التمييز بين عدد من المجموعات (يمكن أن تُنسب بعض الطرق إلى عدة مجموعات في وقت واحد ، وبالتالي يُقترح اعتبار هذا التصنيف بمثابة تقريب للتصنيف الحقيقي لطرق التجميع):

  1. النهج الاحتمالي. من المفترض أن كل عنصر قيد الدراسة ينتمي إلى إحدى فئات k. يعتقد بعض المؤلفين (على سبيل المثال ، أ. أ. أورلوف) ذلك هذه المجموعةلا يشير إلى التجميع على الإطلاق ويعارضه تحت اسم "التمييز" ، أي اختيار إسناد الأشياء إلى أحد الفرق الموسيقية الشهيرة(عينات تدريب).
  2. مناهج تعتمد على أنظمة الذكاء الاصطناعي. مجموعة مشروطة للغاية ، نظرًا لوجود الكثير من أساليب الذكاء الاصطناعي وهي مختلفة جدًا من الناحية المنهجية.
  3. نهج منطقي. يتم تنفيذ مخطط dendrogram باستخدام شجرة القرار.
  4. نهج الرسم البياني النظري.
    • خوارزميات تجميع الرسم البياني
  5. النهج الهرمي. يفترض وجود مجموعات متداخلة (مجموعات من أوامر مختلفة). الخوارزميات ، بدورها ، تنقسم إلى تكتل (موحد) وقسمي (فصل). وفقًا لعدد الميزات ، يتم تمييز طرق التصنيف الأحادية والمتحركة أحيانًا.
    • المجموعات أو التصنيف التقسيمي الهرمي. تعتبر مشاكل التجميع في التصنيف الكمي.
  6. أساليب أخرى. غير مدرج في المجموعات السابقة.
    • خوارزميات التجميع الإحصائي
    • فرقة العنقودية
    • خوارزميات عائلة كراب
    • خوارزمية تعتمد على طريقة الغربلة
    • DBSCAN إلخ.

يتم الجمع بين النهجين 4 و 5 أحيانًا تحت اسم النهج الهيكلي أو الهندسي ، والذي يحتوي على مفهوم أكثر رسمية للقرب. على الرغم من الاختلافات الكبيرة بين الطرق المدرجة ، إلا أنها تعتمد جميعها على الطريقة الأصلية " فرضية الاكتناز»: في مساحة الكائن ، يجب أن تنتمي جميع الكائنات القريبة إلى نفس المجموعة ، ويجب أن تكون جميع الكائنات المختلفة ، على التوالي ، في مجموعات مختلفة.

بيان رسمي لمشكلة التجميع

يجب أن تكون مجموعة من الكائنات ، تكون مجموعة من الأرقام (الأسماء والتسميات) من المجموعات. تم إعطاء دالة المسافة بين الأشياء. هناك مجموعة تدريب محدودة من الأشياء. مطلوب تقسيم العينة إلى مجموعات فرعية غير متداخلة تسمى عناقيد المجموعات، بحيث تتكون كل مجموعة من كائنات قريبة بالمتر ، وتختلف كائنات المجموعات المختلفة اختلافًا كبيرًا. في هذه الحالة ، يتم تعيين رقم عنقود لكل كائن.

خوارزمية التجميعهي وظيفة تربط أي كائن برقم عنقود. تُعرف المجموعة في بعض الحالات مسبقًا ، ولكن غالبًا ما تكون المهمة هي تحديد العدد الأمثل للمجموعات ، من وجهة نظر واحدة أو أخرى معايير الجودةتجمع.

يختلف التجميع (التعلم غير الخاضع للإشراف) عن التصنيف (التعلم الخاضع للإشراف) في أن تسميات الكائنات الأصلية لم يتم تعيينها في البداية ، وقد تكون المجموعة نفسها غير معروفة.

حل مشكلة التجميع غامض بشكل أساسي ، وهناك عدة أسباب لذلك (وفقًا لعدد من المؤلفين):

  • لا توجد بشكل لا لبس فيه أفضل معيارجودة التجميع. يُعرف عدد من المعايير الاستكشافية ، بالإضافة إلى عدد من الخوارزميات التي ليس لها معيار محدد بوضوح ، ولكنها تنفذ مجموعة معقولة إلى حد ما "عن طريق البناء". كل منهم يمكن أن يعطي نتائج مختلفة. لذلك ، لتحديد جودة التجميع ، يلزم وجود خبير في مجال الموضوع ، يمكنه تقييم جدوى اختيار المجموعات.
  • عادة ما يكون عدد المجموعات غير معروف مسبقًا ويتم تحديده وفقًا لبعض المعايير الذاتية. هذا صحيح فقط لأساليب التمييز ، لأنه في طرق التجميع ، يتم اختيار المجموعات باستخدام نهج رسمي يعتمد على تدابير القرب.
  • تعتمد نتيجة التجميع بشكل كبير على المقياس ، والذي يكون اختياره ، كقاعدة عامة ، ذاتيًا أيضًا ويحدده خبير. لكن من الجدير بالذكر أن هناك عددًا من التوصيات لاختيار إجراءات التقارب لمختلف المهام.

طلب

في علم الأحياء

في علم الأحياء ، للتكتل العديد من التطبيقات في مجموعة متنوعة من المجالات. على سبيل المثال ، في المعلوماتية الحيوية ، يتم استخدامه لتحليل الشبكات المعقدة من الجينات المتفاعلة ، والتي تتكون أحيانًا من مئات أو حتى آلاف العناصر. يسمح لك تحليل الكتلة بتحديد الشبكات الفرعية ، والاختناقات ، والمحاور ، والخصائص المخفية الأخرى للنظام قيد الدراسة ، مما يسمح لك في النهاية بمعرفة مساهمة كل جين في تكوين الظاهرة قيد الدراسة.

في مجال البيئة ، يتم استخدامه على نطاق واسع لتحديد المجموعات المتجانسة مكانيًا من الكائنات الحية ، والمجتمعات ، وما إلى ذلك. أقل شيوعًا ، يتم استخدام طرق التحليل العنقودي لدراسة المجتمعات بمرور الوقت. يؤدي عدم تجانس بنية المجتمعات إلى ظهور طرق غير تافهة لتحليل الكتلة (على سبيل المثال ، طريقة Czekanowski).

بشكل عام ، تجدر الإشارة إلى أنه تاريخيًا ، تُستخدم مقاييس التشابه في كثير من الأحيان كمقاييس تقارب في علم الأحياء ، بدلاً من مقاييس الفروق (المسافة).

في علم الاجتماع

عند تحليل النتائج البحث الاجتماعييوصى بإجراء التحليل باستخدام طرق عائلة تكتلية هرمية ، أي طريقة وارد ، حيث يتم تحسين الحد الأدنى من التباين داخل المجموعات ، ونتيجة لذلك ، يتم إنشاء مجموعات ذات أحجام متساوية تقريبًا. طريقة وارد هي الأكثر نجاحًا في تحليل البيانات الاجتماعية. كمقياس للاختلاف ، تكون المسافة الإقليدية التربيعية أفضل ، مما يساهم في زيادة تباين المجموعات. النتيجة الرئيسية لتحليل الكتلة الهرمية هي مخطط شجيرة أو "مخطط جليدي". عند تفسيرها ، يواجه الباحثون مشكلة من نفس النوع مثل تفسير نتائج تحليل العوامل - عدم وجود معايير واضحة لتحديد المجموعات. يوصى باستخدام طريقتين كطريقتين رئيسيتين - التحليل البصري للتشجير ومقارنة نتائج المجموعات التي يتم إجراؤها بواسطة طرق مختلفة.

يتضمن التحليل المرئي لمخطط dendrogram "قطع" الشجرة عند المستوى الأمثل للتشابه بين عناصر العينة. يجب "قطع" "غصن الكرمة" (مصطلحات Oldenderfer MS و Blashfield R.K.) عند حوالي 5 على مقياس Rescaled Distance Cluster Combine ، وبالتالي تحقيق مستوى تشابه بنسبة 80٪. إذا كان تحديد المجموعات بواسطة هذه التسمية أمرًا صعبًا (يتم دمج عدة مجموعات صغيرة في واحدة كبيرة عليها) ، فيمكنك اختيار تسمية أخرى. تم اقتراح هذه التقنية من قبل Oldenderfer و Blashfield.

الآن تبرز مسألة استقرار الحل العنقودي المعتمد. في الواقع ، التحقق من ثبات التجمع يأتي للتحقق من موثوقيتها. هناك قاعدة عامة هنا - يتم الحفاظ على تصنيف ثابت عندما تتغير طرق التجميع. يمكن التحقق من نتائج التحليل العنقودي الهرمي عن طريق التحليل العنقودي التكراري للوسائل k. إذا كانت التصنيفات التي تمت مقارنتها لمجموعات المستجيبين لها نصيب من المصادفات تزيد عن 70٪ (أكثر من ثلثي المصادفات) ، فسيتم اتخاذ قرار جماعي.

من المستحيل التحقق من كفاية الحل دون اللجوء إلى نوع آخر من التحليل. من الناحية النظرية على الأقل ، لم يتم حل هذه المشكلة. يشرح التحليل العنقودي الكلاسيكي لأولدندرفر وبلاشفيلد خمس طرق إضافية لاختبار القوة ويرفضها في النهاية:

في علوم الكمبيوتر

  • تجميع نتائج البحث - تُستخدم في التجميع "الذكي" للنتائج عند البحث عن الملفات ، ومواقع الويب ، والكائنات الأخرى ، مما يسمح للمستخدم بالتنقل بسرعة ، وتحديد مجموعة فرعية من الواضح أنها أكثر صلة بالموضوع وتستبعد مجموعة معروفة أقل صلة - والتي يمكن أن تزيد من قابلية الاستخدام من الواجهة مقارنة بالمخرجات في شكل بسيط مرتبة حسب قائمة الصلة.
    • Clusty - محرك البحث العنقودي Vivísimo
    • Nigma - محرك بحث روسي مع تجميع تلقائي للنتائج
    • Quintura - مجموعات مرئية في شكل سحابة من الكلمات الرئيسية
  • تقطيع الصورة تقطيع الصورة) - يمكن استخدام التجميع لتقسيم صورة رقمية إلى مناطق متميزة لغرض الكشف عن الحواف. كشف الحد) أو التعرف على الأشياء.
  • بيانات التعدين بيانات التعدين)- يصبح التجميع في التنقيب عن البيانات ذا قيمة عندما يعمل كإحدى مراحل تحليل البيانات ، وبناء حل تحليلي كامل. غالبًا ما يكون من الأسهل للمحلل تحديد مجموعات من الكائنات المتشابهة ودراسة ميزاتها وبناء نموذج منفصل لكل مجموعة بدلاً من إنشاء نموذج عام واحد لجميع البيانات. تستخدم هذه التقنية باستمرار في التسويق ، وتسليط الضوء على مجموعات العملاء والمشترين والسلع وتطوير استراتيجية منفصلة لكل منهم.

أنظر أيضا

ملحوظات

الروابط

بالروسية
  • www.MachineLearning.ru - مورد ويكي احترافي مخصص للتعلم الآلي واستخراج البيانات
باللغة الإنجليزية
  • COMPACT - حزمة مقارنة للتقييم العنقودي. حزمة ماتلاب مجانية ، 2006.
  • P. Berkhin ، مسح تقنيات التنقيب في البيانات العنقودية، برنامج Accrue ، 2002.
  • جاين ومورتي وفلين: تجميع البيانات: مراجعة، شركات ACM. Surv. ، 1999.
  • للحصول على عرض تقديمي آخر للوسائل الهرمية والوسائل k والوسائل c الضبابية ، راجع هذه المقدمة للتجميع. يحتوي أيضًا على شرح لمزيج Gaussians.
  • ديفيد داوي صفحة نمذجة الخليط- روابط نموذج التجميع والمزيج الأخرى.
  • برنامج تعليمي عن التجميع
  • الكتاب المدرسي عبر الإنترنت: نظرية المعلومات والاستدلال وخوارزميات التعلم ، بقلم ديفيد ج. يشتمل MacKay على فصول حول تجميع الوسائل k ، وتجميع الوسائل k الناعمة ، والاشتقاقات بما في ذلك خوارزمية E-M و العرض متغير لخوارزمية EM.
  • "الجين المنظم ذاتيًا" ، برنامج تعليمي يشرح التجميع من خلال التعلم التنافسي والخرائط ذاتية التنظيم.
  • kernlab - حزمة R للتعلم الآلي المستند إلى kernel (بما في ذلك تنفيذ المجموعات الطيفية)
  • البرنامج التعليمي - برنامج تعليمي مع إدخال خوارزميات التجميع (الوسائل k ، fuzzy-c-mean ، التسلسل الهرمي ، خليط من gaussians) + بعض العروض التفاعلية (تطبيقات Java الصغيرة)
  • برامج التنقيب عن البيانات - تستخدم برامج التنقيب عن البيانات بشكل متكرر تقنيات التجميع.
  • Java Competitve Learning Application مجموعة من الشبكات العصبية غير الخاضعة للإشراف للتجميع. مكتوب بلغة جافا. كاملة مع جميع التعليمات البرمجية المصدر.
  • برنامج التعلم الآلي - يحتوي أيضًا على الكثير من برامج التجميع.

في كثير من الأحيان في أكثر مجالات النشاط تنوعًا ، يتعين علينا التعامل مع عدد كبير من العناصر التي نحتاج إلى اتخاذ إجراء بشأنها.

ولا يمكننا حتى إدراك كل هذا الحجم ، ناهيك عن فهمه.

ما هو المخرج؟ حسنًا ، بالطبع ، "ضع كل شيء على الرفوف." في هذه الحالة ، تكتسب الحكمة الشعبية صياغة علمية واضحة المعالم.

التحليل العنقودي هو دراسة الكائنات عن طريق دمجها في مجموعات متجانسة ذات سمات متشابهة. أساليبه قابلة للتطبيق حرفياً في جميع المجالات: من الطب إلى تداول الفوركس ، ومن التأمين على السيارات إلى علم الآثار. وبالنسبة للمسوقين ومتخصصي الموارد البشرية ، لا يمكن الاستغناء عنه.

المزيد عن هذا في المقال.

ما هي الكتلة

تم تصميم التحليل العنقودي لتقسيم مجموعة من الكائنات إلى مجموعات متجانسة (مجموعات أو فئات). هذه مهمة تصنيف البيانات متعدد المتغيرات.


يوجد حوالي 100 خوارزمية تجميع مختلفة ، ومع ذلك ، فإن الأكثر استخدامًا هي:

  1. تحليل الكتلة الهرمي ،
  2. ك يعني التجميع.

حيث يتم تطبيق تحليل الكتلة:

  • في التسويق ، هذا هو تقسيم المنافسين والمستهلكين.
  • في الإدارة:
    1. تقسيم الأفراد إلى مجموعات ذات مستويات مختلفة من التحفيز ،
    2. تصنيف الموردين ،
    3. تحديد حالات الإنتاج المماثلة التي يحدث فيها الزواج.
  • في الطب ، تصنيف الأعراض والمرضى والأدوية.
  • في علم الاجتماع ، تقسيم المستجيبين إلى مجموعات متجانسة.

في الواقع ، أثبت التحليل العنقودي نفسه جيدًا في جميع مجالات الحياة البشرية. يكمن جمال هذه الطريقة في أنها تعمل حتى في حالة وجود القليل من البيانات وعدم تلبية متطلبات التوزيعات العادية. المتغيرات العشوائيةوغيرها من متطلبات الأساليب الكلاسيكية للتحليل الإحصائي.

دعونا نشرح جوهر التحليل العنقودي دون اللجوء إلى المصطلحات الصارمة.

لنفترض أنك أجريت دراسة استقصائية للموظفين وتريد تحديد الطريقة الأكثر فعالية لإدارة موظفيك. أي أنك تريد تقسيم الموظفين إلى مجموعات واختيار أدوات التحكم الأكثر فعالية لكل منهم. في الوقت نفسه ، يجب أن تكون الاختلافات بين المجموعات واضحة ، وداخل المجموعة ، يجب أن يكون المستجيبون متشابهين قدر الإمكان.

لحل المشكلة ، يُقترح استخدام التحليل العنقودي الهرمي. نتيجة لذلك ، سوف نحصل على شجرة ، تبحث في أي منها يجب أن نقرر عدد الفئات (المجموعات) التي نريد تقسيم الموظفين إليها. لنفترض أننا قررنا تقسيم فريق العمل إلى ثلاث مجموعات ، ثم لدراسة المستجيبين الذين وقعوا في كل مجموعة ، نحصل على جهاز لوحي بالمحتوى التالي:


دعونا نشرح كيف يتم تشكيل الجدول أعلاه. يحتوي العمود الأول على رقم المجموعة - المجموعة التي تنعكس بياناتها في الصف. على سبيل المثال ، الكتلة الأولى 80٪ من الذكور. يقع 90٪ من المجموعة الأولى ضمن الفئة العمرية من 30 إلى 50 عامًا ، ويعتقد 12٪ من المستجيبين أن الفوائد مهمة جدًا. وما إلى ذلك وهلم جرا.

دعنا نحاول عمل صور للمشاركين في كل مجموعة:

  1. المجموعة الأولى تتكون بشكل رئيسي من الرجال البالغين الذين يشغلون مناصب قيادية. الحزمة الاجتماعية (MED ، LGOTI ، وقت الفراغ) لا تهمهم. إنهم يفضلون الحصول على راتب جيد ، بدلاً من الحصول على مساعدة من صاحب العمل.
  2. المجموعة الثانية ، على العكس من ذلك ، تفضل الحزمة الاجتماعية. وهي تتألف بشكل رئيسي من "كبار السن" الذين يشغلون مناصب منخفضة. الراتب مهم بالتأكيد بالنسبة لهم ، ولكن هناك أولويات أخرى.
  3. المجموعة الثالثة هي الأكثر "شابة". على عكس السابقتين ، هناك اهتمام واضح بالتعلم وفرص النمو المهني. هذه الفئة من الموظفين لديها فرصة جيدة لتجديد المجموعة الأولى قريبًا.

وبالتالي ، عند التخطيط لحملة لإدخال أساليب فعالة لإدارة الموظفين ، من الواضح أنه في حالتنا من الممكن زيادة الحزمة الاجتماعية للمجموعة الثانية على حساب الأجور ، على سبيل المثال. إذا تحدثنا عن المتخصصين الذين يجب إرسالهم للتدريب ، فيمكننا بالتأكيد أن نوصي بالاهتمام بالمجموعة الثالثة.

المصدر: "nickart.spb.ru"

التحليل العنقودي هو المفتاح لفهم السوق

الكتلة هي سعر الأصل في فترة زمنية معينة تم خلالها إجراء المعاملات. يشار إلى الحجم الناتج من البيع والشراء برقم داخل الكتلة. يحتوي شريط أي TF ، كقاعدة عامة ، على عدة مجموعات. يتيح لك هذا الاطلاع بالتفصيل على أحجام المشتريات والمبيعات وتوازنها في كل شريط على حدة ، لكل مستوى سعر.


بناء الرسم البياني العنقودي

التغيير في سعر أحد الأصول يستلزم حتمًا سلسلة من تحركات الأسعار على الأدوات الأخرى أيضًا. في معظم الحالات ، يحدث فهم حركة الاتجاه بالفعل في الوقت الذي تتطور فيه بسرعة ، ويكون دخول السوق على طول الاتجاه محفوفًا بالوقوع في موجة تصحيحية.

بالنسبة للتداولات الناجحة ، من الضروري فهم الوضع الحالي والقدرة على توقع تحركات الأسعار المستقبلية. يمكن تعلم ذلك من خلال تحليل الرسم البياني العنقودي. بمساعدة تحليل الكتلة ، يمكنك رؤية نشاط المشاركين في السوق داخل أصغر شريط أسعار.

هذا هو التحليل الأكثر دقة وتفصيلاً ، حيث يوضح التوزيع النقطي لأحجام المعاملات لكل مستوى من مستويات أسعار الأصول. يواجه السوق باستمرار مصالح البائعين والمشترين. وكل حركة سعر صغيرة (علامة) هي الانتقال إلى حل وسط - مستوى السعر - الذي فيه هذه اللحظةيناسب كلا الطرفين.

لكن السوق ديناميكي ، وعدد البائعين والمشترين يتغير باستمرار. إذا كان البائعون يهيمنون على السوق في وقت ما ، فعندئذٍ في اللحظة التالية ، على الأرجح ، سيكون هناك مشترين. كما أن عدد المعاملات المكتملة عند مستويات الأسعار المجاورة ليس هو نفسه.

ومع ذلك ، أولاً ، ينعكس وضع السوق في الحجم الإجمالي للمعاملات ، وبعد ذلك فقط على السعر. إذا رأيت تصرفات المشاركين المهيمنين في السوق (البائعين أو المشترين) ، فيمكنك التنبؤ بحركة السعر نفسها.

لتطبيق تحليل الكتلة بنجاح ، تحتاج أولاً إلى فهم ماهية المجموعة والدلتا:

  • العنقود هو حركة سعر تنقسم إلى مستويات تمت فيها المعاملات بأحجام معروفة.
  • توضح الدلتا الفرق بين البيع والشراء الذي يحدث في كل مجموعة.


الرسم البياني العنقودي

تتيح لك كل مجموعة أو مجموعة دلتا معرفة ما إذا كان البائعون أو المشترين يهيمنون على السوق في وقت معين. يكفي فقط حساب إجمالي الدلتا من خلال جمع المبيعات والمشتريات. إذا كانت دلتا سلبية ، فإن السوق في ذروة البيع ، وهناك معاملات بيع زائدة عن الحاجة. عندما تكون الدلتا إيجابية ، فمن الواضح أن المشترين يهيمنون على السوق.

يمكن أن تأخذ الدلتا نفسها قيمة عادية أو حرجة. يتم تمييز قيمة حجم دلتا الزائدة عن القيمة العادية في الكتلة باللون الأحمر. إذا كانت الدلتا معتدلة ، فإن هذا يميز حالة ثابتة في السوق. في قيمة عاديةدلتا في السوق ، هناك حركة اتجاه ، لكن القيمة الحرجة دائمًا ما تكون نذيرًا لانعكاس السعر.

تداول الفوركس مع CA

للحصول على أقصى ربح ، يجب أن تكون قادرًا على تحديد انتقال دلتا من مستوى معتدل إلى مستوى عادي. في الواقع ، في هذه الحالة ، يمكنك ملاحظة بداية الانتقال من الحركة المستوية إلى حركة الاتجاه وتكون قادرًا على تحقيق أكبر قدر من الأرباح.

يعتبر مخطط الكتلة أكثر وضوحًا ، فهو يسمح لك برؤية مستويات كبيرة من تراكم الأحجام وتوزيعها ، وبناء مستويات الدعم والمقاومة.

هذا يسمح للمتداول بالعثور على المدخل الدقيق للتجارة. باستخدام دلتا ، يمكن للمرء أن يحكم على هيمنة المبيعات أو المشتريات في السوق. يسمح لك تحليل الكتلة بمراقبة المعاملات وتتبع أحجامها داخل شريط من أي TF. هذا مهم بشكل خاص عند الاقتراب من مستويات دعم أو مقاومة كبيرة. الأحكام العنقودية هي المفتاح لفهم السوق.

المصدر: "orderflowtrading.ru"

مجالات وميزات تطبيق التحليل العنقودي

يتضمن مصطلح تحليل الكتلة (الذي قدمه تريون لأول مرة ، 1939) مجموعة من خوارزميات التصنيف المختلفة. سؤال عام، التي يسألها الباحثون في العديد من المجالات ، هي كيفية تنظيم البيانات المرصودة في هياكل مرئية ، أي توسيع التصنيفات.

على سبيل المثال ، يهدف علماء الأحياء إلى اقتحام الحيوانات أنواع مختلفةلوصف الاختلافات بينهما بشكل هادف. وفقًا للنظام الحديث المتعارف عليه في علم الأحياء ، ينتمي الإنسان إلى الرئيسيات والثدييات والسلى والفقاريات والحيوانات.

لاحظ أنه في هذا التصنيف ، كلما ارتفع مستوى التجميع ، قل التشابه بين الأعضاء في الفئة المقابلة. لدى الإنسان أوجه تشابه أكبر مع الرئيسيات الأخرى (أي القردة) أكثر من تشابهها مع الأعضاء "البعيدين" في عائلة الثدييات (أي الكلاب) ، وهكذا.

لاحظ أن المناقشة السابقة تشير إلى خوارزميات التجميع ، ولكنها لا تذكر أي شيء عن اختبار الدلالة الإحصائية. في الواقع ، لا يعتبر تحليل الكتلة طريقة إحصائية عادية بقدر ما هو "مجموعة" من خوارزميات مختلفة "لتوزيع الأشياء في مجموعات".

هناك وجهة نظر مفادها أنه على عكس العديد من الإجراءات الإحصائية الأخرى ، يتم استخدام طرق التحليل العنقودي في معظم الحالات عندما لا يكون لديك أي فرضيات مسبقة حول الفصول ، ولكنك لا تزال في المرحلة الوصفية من البحث. يجب أن يكون مفهوماً أن تحليل الكتلة يحدد "القرار الأكثر أهمية على الأرجح".

لذلك ، لا ينطبق اختبار الأهمية الإحصائية هنا حقًا ، حتى في الحالات التي تُعرف فيها مستويات p (على سبيل المثال ، في طريقة K-mean).

تُستخدم تقنية التجميع في مجموعة متنوعة من المجالات. قدم Hartigan (1975) نظرة عامة ممتازة على العديد من الدراسات المنشورة التي تحتوي على النتائج التي تم الحصول عليها من خلال طرق التحليل العنقودي. على سبيل المثال ، في مجال الطب ، يؤدي تجميع الأمراض أو علاجها أو أعراض الأمراض إلى تصنيفات مستخدمة على نطاق واسع.

في مجال الطب النفسي التشخيص الصحيحمجموعات من الأعراض مثل جنون العظمة والفصام وما إلى ذلك أمر بالغ الأهمية للعلاج الناجح. في علم الآثار ، باستخدام التحليل العنقودي ، يحاول الباحثون إنشاء تصنيفات للأدوات الحجرية ، والأشياء الجنائزية ، وما إلى ذلك.

معروف تطبيقات واسعةتحليل الكتلة في بحوث التسويق. بشكل عام ، كلما كان من الضروري تصنيف "جبال" المعلومات إلى مجموعات مناسبة لمزيد من المعالجة ، يتبين أن التحليل العنقودي مفيد للغاية وفعال.

تجميع الأشجار

الغرض من خوارزمية الارتباط (تجميع الأشجار) هو دمج الكائنات (على سبيل المثال ، الحيوانات) في مجموعات كبيرة بما يكفي باستخدام قدر من التشابه أو المسافة بين الكائنات. النتيجة النموذجية لمثل هذا التجميع هي شجرة هرمية.

ضع في اعتبارك مخطط شجرة أفقي. يبدأ الرسم التخطيطي بكل كائن في الفصل (على الجانب الأيسر من الرسم التخطيطي). تخيل الآن أنك تدريجيًا (بخطوات صغيرة جدًا) "تضعف" معيارك فيما يتعلق بالأشياء الفريدة وما هو غير ذلك. بمعنى آخر ، تقوم بتخفيض العتبة المتعلقة بقرار دمج كائنين أو أكثر في مجموعة واحدة.


نتيجة لذلك ، تقوم بربط المزيد والمزيد من الكائنات معًا وتجميع (دمج) المزيد والمزيد من مجموعات العناصر المختلفة بشكل متزايد. أخيرًا ، في الخطوة الأخيرة ، يتم دمج جميع الكائنات معًا.

في هذه المخططات ، تمثل المحاور الأفقية مسافة التجميع (في مخططات التخطيط العمودية ، تمثل المحاور الرأسية مسافة التجميع). لذلك ، بالنسبة لكل عقدة في الرسم البياني (حيث يتم تكوين كتلة جديدة) ، يمكنك رؤية مقدار المسافة التي ترتبط بها العناصر المقابلة في مجموعة واحدة جديدة.

عندما تحتوي البيانات على "هيكل" واضح من حيث مجموعات العناصر المتشابهة مع بعضها البعض ، فمن المحتمل أن تنعكس هذه البنية في الشجرة الهرمية من خلال الفروع المختلفة. نتيجة للتحليل الناجح بواسطة طريقة الانضمام ، يصبح من الممكن اكتشاف الكتل (الفروع) وتفسيرها.

مقاييس المسافة

يتم استخدام طريقة الاتحاد أو تجميع الأشجار في تكوين مجموعات من الاختلاف أو المسافة بين الكائنات. يمكن تحديد هذه المسافات في فضاء أحادي البعد أو متعدد الأبعاد. على سبيل المثال ، إذا كان عليك تجميع أنواع الطعام في المقهى ، فيمكنك أن تأخذ في الاعتبار عدد السعرات الحرارية الموجودة فيه ، والسعر ، والتقييم الذاتي للذوق ، وما إلى ذلك.

الطريقة الأكثر مباشرة لحساب المسافات بين الكائنات في الفضاء متعدد الأبعاد هي حساب المسافات الإقليدية. إذا كان لديك مساحة ثنائية أو ثلاثية الأبعاد ، فإن هذا المقياس هو المسافة الهندسية الفعلية بين الكائنات في الفضاء (كما لو تم قياس المسافات بين الكائنات باستخدام شريط قياس).

ومع ذلك ، فإن خوارزمية التجميع لا "تهتم" بما إذا كانت المسافات "المقدمة" لذلك حقيقية أو بعض مقاييس المسافة المشتقة الأخرى ، والتي تكون أكثر أهمية للباحث ؛ ومهمة الباحثين هي إيجاد الطريقة الصحيحةل تطبيقات محددة.

  1. المسافة الإقليدية.
  2. يبدو أن هذا هو الأكثر النوع العامالمسافات. إنها ببساطة مسافة هندسية في فضاء متعدد الأبعاد وتحسب على النحو التالي:

    لاحظ أنه يتم حساب المسافة الإقليدية (ومربعها) من البيانات الأصلية ، وليس من البيانات الموحدة. هذه هي الطريقة المعتادة لحسابها ، والتي لها مزايا معينة (على سبيل المثال ، لا تتغير المسافة بين كائنين عند إدخال كائن جديد في التحليل ، والذي قد يتحول إلى شيء غريب).

    ومع ذلك ، يمكن أن تتأثر المسافات بشكل كبير بالاختلافات بين المحاور التي يتم من خلالها حساب المسافات.

    على سبيل المثال ، إذا تم قياس أحد المحاور بالسنتيمتر ، ثم قمت بتحويله إلى ملليمترات (بضرب القيم في 10) ، فإن المسافة الإقليدية النهائية (أو مربع المسافة الإقليدية) المحسوبة من الإحداثيات يتغير بشكل كبير ، ونتيجة لذلك ، يمكن أن تكون نتائج التحليل العنقودي مختلفة تمامًا عن النتائج السابقة.

  3. مربع المسافة الإقليدية.
  4. قد ترغب أحيانًا في ضبط المسافة الإقليدية القياسية لإعطاء وزن أكبر للأجسام البعيدة. يتم حساب هذه المسافة على النحو التالي:

  5. مسافة كتلة المدينة (مسافة مانهاتن).
  6. هذه المسافة هي ببساطة متوسط ​​الاختلافات على الإحداثيات. في معظم الحالات ، يؤدي قياس المسافة هذا إلى نفس النتائج مثل مسافة إقليدس المعتادة.

    ومع ذلك ، لاحظ أنه بالنسبة لهذا المقياس ، فإن تأثير الفروق الفردية الكبيرة (القيم المتطرفة) ينخفض ​​(لأنها ليست مربعة). يتم حساب مسافة مانهاتن باستخدام الصيغة:

  7. مسافة Chebyshev.
  8. يمكن أن تكون هذه المسافة مفيدة عندما يرغب المرء في تعريف كائنين على أنهما "مختلفان" إذا كانا يختلفان في أي إحداثي واحد (أي بعد واحد). يتم حساب مسافة Chebyshev بالصيغة:

  9. قوة المسافة.

    في بعض الأحيان يكون من المرغوب فيه زيادة الوزن أو إنقاصه تدريجيًا المرتبط بأبعاد تختلف فيها الكائنات المقابلة اختلافًا كبيرًا. يمكن تحقيق ذلك باستخدام مسافة قانون الطاقة. يتم حساب مسافة الطاقة بالصيغة:

    حيث r و p معلمات معرّفة من قبل المستخدم.

    يمكن أن توضح بعض الأمثلة الحسابية كيفية "عمل" هذا المقياس:

    • المعلمة p مسؤولة عن الترجيح التدريجي للاختلافات على الإحداثيات الفردية.
    • المعلمة r مسؤولة عن الترجيح التدريجي للمسافات الكبيرة بين الكائنات.
    • إذا كانت المعلمتان - r و p تساوي اثنين ، فإن هذه المسافة تتزامن مع المسافة الإقليدية.
  10. نسبة الخلاف.
  11. يستخدم هذا المقياس عندما تكون البيانات فئوية. يتم حساب هذه المسافة بالصيغة:

قواعد الرابطة أو الرابطة

في الخطوة الأولى ، عندما يكون كل كائن كتلة منفصلة ، يتم تحديد المسافات بين هذه الكائنات بواسطة المقياس المختار. ومع ذلك ، عندما ترتبط عدة كائنات معًا ، يُطرح السؤال ، كيف يجب تحديد المسافات بين المجموعات؟

بمعنى آخر ، تحتاج إلى قاعدة صلة أو ارتباط لمجموعتين. هناك العديد من الاحتمالات هنا: على سبيل المثال ، يمكنك ربط مجموعتين معًا عند وجود أي كائنين في مجموعتين أقرب صديقلبعضها البعض من مسافة الاتصال المقابلة.

بمعنى آخر ، يمكنك استخدام "قاعدة الجوار الأقرب" لتحديد المسافة بين المجموعات ؛ تسمى هذه الطريقة طريقة الارتباط الفردي. هذه القاعدة تبني عناقيد "ليفية" ، أي العناقيد "مرتبطة ببعضها البعض" فقط بواسطة عناصر فردية تصادف أنها أقرب إلى بعضها البعض من العناصر الأخرى.

بدلاً من ذلك ، يمكنك استخدام العناصر المجاورة في المجموعات البعيدة عن بعضها البعض عن كل أزواج الميزات الأخرى. تسمى هذه الطريقة طريقة الارتباط الكامل. هناك أيضًا العديد من الطرق الأخرى للانضمام إلى المجموعات ، على غرار تلك التي تمت مناقشتها.

  • اتصال واحد (أقرب طريقة جار).
  • كما هو موضح أعلاه ، في هذه الطريقة ، يتم تحديد المسافة بين مجموعتين من خلال المسافة بين أقرب كائنين (أقرب جيران) في مجموعات مختلفة.

    يجب أن تقوم هذه القاعدة ، بمعنى ما ، بربط الكائنات معًا لتشكيل مجموعات ، وتميل المجموعات الناتجة إلى تمثيل "سلاسل" طويلة.

  • اتصال كامل (طريقة أقرب الجيران).
  • في هذه الطريقة ، يتم تعريف المسافات بين المجموعات على أنها أكبر مسافة بين أي كائنين في مجموعات مختلفة (أي "الجيران الأبعد").

    عادة ما تعمل هذه الطريقة بشكل جيد للغاية عندما تأتي الأشياء بالفعل من "بساتين" مختلفة حقًا.

    إذا كانت المجموعات ممدودة بطريقة ما أو كان نوعها الطبيعي هو "سلسلة" ، فإن هذه الطريقة غير مناسبة.

  • يعني الزوج غير مرجح.
  • في هذه الطريقة ، يتم حساب المسافة بين مجموعتين مختلفتين على أنها متوسط ​​المسافة بين جميع أزواج الكائنات الموجودة فيها. تكون هذه الطريقة فعالة عندما تشكل الكائنات في الواقع "بساتين" مختلفة ، ولكنها تعمل بشكل جيد بنفس القدر في حالات التكتلات الممتدة (النوع "المتسلسل").

    لاحظ أنه في كتابهم Sneath and Sokal (1973) قدم الاختصار UPGMA للإشارة إلى هذه الطريقة على أنها طريقة المجموعة الزوجية غير الموزونة باستخدام المتوسطات الحسابية.

  • وزوج مرجح يعني.
  • تتطابق هذه الطريقة مع طريقة المتوسط ​​الزوجي غير الموزون ، باستثناء أن حجم المجموعات المعنية (أي عدد العناصر التي تحتوي عليها) يُستخدم كعامل ترجيح في الحسابات. لذلك ، يجب استخدام الطريقة المقترحة عند افتراض أحجام الكتلة غير المتكافئة.

    قدم Sneath and Sokal (1973) الاختصار WPGMA للإشارة إلى هذه الطريقة على أنها طريقة المجموعة الزوجية الموزونة باستخدام المتوسطات الحسابية.

  • طريقة النقطه الوسطى غير مرجح.
  • في هذه الطريقة ، يتم تعريف المسافة بين مجموعتين على أنها المسافة بين مركزي جاذبيتهم.

    استخدم Sneath and Sokal (1973) الاختصار UPGMC للإشارة إلى هذه الطريقة على أنها طريقة المجموعة الزوجية غير الموزونة باستخدام متوسط ​​النقطه الوسطى.

  • طريقة النقطه الوسطى المرجحة (الوسيط).
  • هذه الطريقة مماثلة للطريقة السابقة ، باستثناء أنه يتم استخدام الأوزان في العمليات الحسابية لمراعاة الفرق بين أحجام الكتلة (أي عدد العناصر الموجودة فيها).

    لذلك ، إذا كانت هناك (أو يشتبه في وجود) فروق ذات دلالة إحصائية في أحجام الكتلة ، فإن هذه الطريقة هي الأفضل من الطريقة السابقة.

    استخدم Sneath and Sokal (1973) الاختصار WPGMC للإشارة إليه على أنه طريقة المجموعة الزوجية الموزونة باستخدام متوسط ​​النقطه الوسطى.

  • طريقة وارد.
  • تختلف هذه الطريقة عن جميع الطرق الأخرى لأنها تستخدم طرق ANOVA لتقدير المسافات بين المجموعات. تقلل الطريقة من مجموع المربعات (SS) لأي مجموعتين (افتراضيتين) يمكن تشكيلهما في كل خطوة.

    يمكن العثور على التفاصيل في Ward (1963). بشكل عام ، تبدو الطريقة فعالة للغاية ، لكنها تميل إلى إنشاء مجموعات صغيرة.

اتحاد في اتجاهين

في وقت سابق تمت مناقشة هذه الطريقة من حيث "الكائنات" التي يجب تجميعها. في جميع أنواع التحليل الأخرى ، عادة ما يتم التعبير عن السؤال الذي يهم الباحث من حيث الملاحظات أو المتغيرات. اتضح أن التجميع ، من خلال الملاحظات والمتغيرات على حد سواء ، يمكن أن يؤدي إلى نتائج مثيرة للاهتمام للغاية.

على سبيل المثال ، تخيل أن باحثًا طبيًا يقوم بجمع بيانات عن الخصائص (المتغيرات) المختلفة لحالات المرضى (الملاحظات) المصابين بأمراض القلب. قد يرغب المحقق في تجميع الملاحظات (للمرضى) لتحديد مجموعات من المرضى الذين يعانون من أعراض مماثلة.

في الوقت نفسه ، قد يرغب الباحث في تجميع المتغيرات لتحديد مجموعات المتغيرات المرتبطة بحالة فيزيائية مماثلة. بعد هذه المناقشة حول ما إذا كان سيتم تجميع الملاحظات أو المتغيرات ، قد يتساءل المرء ، لماذا لا تتجمع في كلا الاتجاهين؟

تحتوي الوحدة النمطية لتحليل الكتلة على إجراء ربط ثنائي الاتجاه فعال للقيام بذلك. ومع ذلك ، يتم استخدام التجميع ثنائي الاتجاه (نادرًا نسبيًا) في الظروف التي يُتوقع فيها أن تساهم كل من الملاحظات والمتغيرات في وقت واحد في اكتشاف مجموعات ذات مغزى.

لذا ، بالعودة إلى المثال السابق ، يمكننا أن نفترض أن الباحث الطبي يحتاج إلى تحديد مجموعات من المرضى المتشابهة فيما يتعلق بمجموعات معينة من خصائص الحالة الجسدية.

تنشأ الصعوبة في تفسير النتائج التي تم الحصول عليها من حقيقة أن أوجه التشابه بين المجموعات المختلفة قد تأتي من (أو تكون سببًا) بعض الاختلاف في المجموعات الفرعية للمتغيرات. لذلك ، فإن المجموعات الناتجة غير متجانسة بطبيعتها.

ربما يبدو الأمر ضبابيًا بعض الشيء في البداية ؛ في الواقع ، بالمقارنة مع طرق التحليل العنقودية الأخرى الموصوفة ، ربما يكون التجميع ثنائي الاتجاه هو الطريقة الأقل استخدامًا. ومع ذلك ، يعتقد بعض الباحثين أنه يوفر أداة قوية لتحليل البيانات الاستكشافية (لمزيد من المعلومات ، انظر وصف هارتيجان لهذه الطريقة (Hartigan ، 1975)).

K تعني الطريقة

تختلف طريقة التجميع هذه بشكل كبير عن الطرق التجميعية مثل الاتحاد (تجميع الأشجار) والاتحاد ثنائي الاتجاه. افترض أن لديك بالفعل فرضيات حول عدد المجموعات (عن طريق الملاحظة أو المتغير).

يمكنك إخبار النظام بتشكيل ثلاث مجموعات بالضبط بحيث تكون مختلفة قدر الإمكان. هذا هو بالضبط نوع المشكلة التي تحلها خوارزمية K-Means. بشكل عام ، طريقة K-mean يبني بالضبط K مجموعات متباعدة متباعدة قدر الإمكان.

في مثال الحالة الجسدية ، قد يكون لدى الباحث الطبي "حدس" من تجربته السريرية أن مرضاهم ينقسمون عمومًا إلى ثلاث فئات مختلفة. بعد ذلك ، قد يرغب في معرفة ما إذا كان يمكن التحقق من حدسه عدديًا ، أي هل التحليل العنقودي لـ K يعني في الواقع ثلاث مجموعات من المرضى كما هو متوقع؟

إذا كان الأمر كذلك ، فإن وسائل المقاييس المختلفة للمعلمات الفيزيائية لكل مجموعة ستوفر طريقة كمية لتمثيل فرضيات المحقق (على سبيل المثال ، المرضى في المجموعة 1 لديهم معلمة عالية من 1 ، معلمة أقل من 2 ، إلخ).

من وجهة نظر حسابية ، يمكنك التفكير في هذه الطريقة على أنها تحليل للتباين "معكوس".

يبدأ البرنامج بـ K عناقيد تم اختيارها عشوائيًا ، ثم يغير انتماء الكائنات إليها من أجل:

  1. تقليل التباين داخل المجموعات ،
  2. تعظيم التباين بين المجموعات.

تشبه هذه الطريقة التحليل العكسي للتباين (ANOVA) من حيث أن اختبار الأهمية في ANOVA يقارن التباين بين المجموعة مقابل التباين داخل المجموعة في اختبار الفرضية التي تعني أن المجموعة تختلف عن بعضها البعض.

في K-mean clustering ، ينقل البرنامج الكائنات (أي الملاحظات) من مجموعة (عنقود) إلى أخرى من أجل الحصول على النتيجة الأكثر أهمية عند إجراء تحليل التباين (ANOVA). عادةً ، بمجرد الحصول على نتائج تحليل الكتلة K-mean ، يمكن للمرء حساب الوسائل لكل عنقود لكل بُعد لتقييم كيفية اختلاف المجموعات عن بعضها البعض.

من الناحية المثالية ، يجب أن تحصل على وسائل مختلفة جدًا لمعظم ، إن لم يكن كل ، القياسات المستخدمة في التحليل. تعد القيم الإحصائية F التي تم الحصول عليها لكل بُعد مؤشرًا آخر على مدى تميز البعد المقابل بين المجموعات.

المصدر: "biometrica.tomsk.ru"

تصنيف الأشياء حسب خصائصها

تحليل الكتلة (تحليل الكتلة) - مجموعة من الأساليب الإحصائية متعددة الأبعاد لتصنيف الكائنات وفقًا لخصائصها ، وتقسيم مجموعة من الكائنات إلى مجموعات متجانسة قريبة من حيث تحديد المعايير ، واختيار كائنات مجموعة معينة.

الكتلة هي مجموعة من الكائنات التي تم تحديدها كنتيجة لتحليل الكتلة بناءً على مقياس معين للتشابه أو الاختلاف بين الكائنات. الهدف هو الموضوعات المحددة للدراسة التي يجب تصنيفها. الكائنات في التصنيف ، كقاعدة عامة ، هي ملاحظات. على سبيل المثال ، مستهلكو المنتجات أو البلدان أو المناطق أو المنتجات ، إلخ.

على الرغم من أنه من الممكن إجراء تحليل الكتلة بواسطة المتغيرات. يحدث تصنيف الكائنات في التحليل العنقودي متعدد المتغيرات وفقًا لعدة معايير في وقت واحد ، ويمكن أن تكون هذه متغيرات كمية وفئوية ، اعتمادًا على طريقة تحليل الكتلة. لذلك ، فإن الهدف الرئيسي من تحليل الكتلة هو العثور على مجموعات من الكائنات المتشابهة في العينة.

يمكن تقسيم مجموعة الأساليب الإحصائية متعددة الأبعاد لتحليل الكتلة إلى طرق هرمية (تكتلية وتقسيمية) وغير هرمية (طريقة k-mean ، تحليل الكتلة على مرحلتين).

ومع ذلك ، لا يوجد تصنيف مقبول بشكل عام للطرق ، كما تتضمن طرق التحليل العنقودي أحيانًا أيضًا طرقًا لإنشاء أشجار القرار ، الشبكات العصبيةالتحليل التمييزي الانحدار اللوجستي.

نطاق التحليل العنقودي ، نظرًا لتعدد استخداماته ، واسع جدًا. يستخدم التحليل العنقودي في الاقتصاد والتسويق وعلم الآثار والطب وعلم النفس والكيمياء والبيولوجيا والإدارة العامة وعلم فقه اللغة والأنثروبولوجيا وعلم الاجتماع ومجالات أخرى.

فيما يلي بعض الأمثلة على تطبيق التحليل العنقودي:

  • الطب - تصنيف الأمراض وأعراضها وطرق العلاج وتصنيف مجموعات المرضى ؛
  • التسويق - مهام تحسين خط إنتاج الشركة ، وتقسيم السوق حسب مجموعات السلع أو المستهلكين ، وتحديد المستهلك المحتمل ؛
  • علم الاجتماع - تقسيم المستجيبين إلى مجموعات متجانسة ؛
  • الطب النفسي - التشخيص الصحيح لمجموعات الأعراض أمر بالغ الأهمية لنجاح العلاج ؛
  • علم الأحياء - تصنيف الكائنات الحية حسب المجموعة ؛
  • الاقتصاد - تصنيف موضوعات الاتحاد الروسي حسب جاذبية الاستثمار.

المصدر: "statmethods.ru"

معلومات عامة حول التحليل العنقودي

يتضمن تحليل الكتلة مجموعة من خوارزميات التصنيف المختلفة. السؤال الشائع الذي يطرحه الباحثون في العديد من المجالات هو كيفية تنظيم البيانات المرصودة في هياكل مرئية.

على سبيل المثال ، يهدف علماء الأحياء إلى تقسيم الحيوانات إلى أنواع مختلفة من أجل وصف الاختلافات بينها بشكل هادف.

تتمثل مهمة تحليل الكتلة في تقسيم المجموعة الأولية من الكائنات إلى مجموعات من كائنات متشابهة ومتقاربة. تسمى هذه المجموعات المجموعات.

بمعنى آخر ، يعد تحليل الكتلة إحدى طرق تصنيف الكائنات وفقًا لخصائصها. من المرغوب فيه أن يكون لنتائج التصنيف تفسير مفيد.

يتم استخدام النتائج التي تم الحصول عليها من خلال طرق التحليل العنقودي في مجموعة متنوعة من المجالات:

  1. في التسويق ، هو تقسيم المنافسين والمستهلكين.
  2. في الطب النفسي ، يعد التشخيص الصحيح للأعراض مثل جنون العظمة والفصام وما إلى ذلك أمرًا بالغ الأهمية لنجاح العلاج.
  3. في الإدارة ، يعتبر تصنيف الموردين أمرًا مهمًا ، وتحديد حالات الإنتاج المماثلة التي يحدث فيها الزواج.
  4. في علم الاجتماع ، تقسيم المستجيبين إلى مجموعات متجانسة.
  5. في الاستثمار في المحفظة ، من المهم تجميع الأوراق المالية وفقًا لتشابهها في اتجاه العائد من أجل تجميع ، بناءً على المعلومات التي تم الحصول عليها حول سوق الأوراق المالية ، محفظة استثمارية مثالية تسمح بتعظيم العائد على الاستثمارات لدرجة معينة من المخاطر .

في الواقع ، أثبت التحليل العنقودي نفسه جيدًا في جميع مجالات الحياة البشرية. بشكل عام ، كلما كان من الضروري تصنيف كمية كبيرة من المعلومات من هذا النوع وتقديمها في شكل مناسب لمزيد من المعالجة ، تبين أن التحليل العنقودي مفيد للغاية وفعال.

يسمح تحليل الكتلة بالنظر في كمية كبيرة إلى حد ما من المعلومات وضغط بشكل كبير على مجموعات كبيرة من المعلومات الاجتماعية والاقتصادية ، مما يجعلها مضغوطة ومرئية.

يعتبر التحليل العنقودي ذا أهمية كبيرة فيما يتعلق بمجموعات من خصائص السلاسل الزمنية النمو الإقتصادي(على سبيل المثال ، الظروف الاقتصادية والسلع العامة).

من الممكن هنا تحديد الفترات التي كانت فيها قيم المؤشرات المقابلة قريبة جدًا ، وكذلك تحديد مجموعات السلاسل الزمنية ، والتي تتشابه ديناميكياتها كثيرًا. في مشاكل التنبؤ الاجتماعي والاقتصادي ، من الواعد جدًا الجمع بين التحليل العنقودي والأساليب الكمية الأخرى (على سبيل المثال ، مع تحليل الانحدار).

المميزات والعيوب

يسمح تحليل الكتلة بتصنيف موضوعي لأي كائنات تتميز بعدد من الميزات. هناك عدد من الفوائد التي يمكن الحصول عليها من هذا:

  • يمكن تفسير المجموعات الناتجة ، أي لوصف نوع المجموعات الموجودة بالفعل.
  • يمكن استبعاد المجموعات الفردية. يكون هذا مفيدًا في الحالات التي حدثت فيها أخطاء معينة في مجموعة البيانات ، ونتيجة لذلك تنحرف قيم مؤشرات الكائنات الفردية بشكل حاد. عند تطبيق تحليل الكتلة ، تقع هذه الكائنات في مجموعة منفصلة.
  • لمزيد من التحليل ، يمكن فقط اختيار المجموعات التي لها خصائص الاهتمام.

مثل أي طريقة أخرى ، فإن التحليل العنقودي له عيوب وقيود معينة. بخاصة:

  1. يعتمد تكوين وعدد المجموعات على معايير التقسيم المختارة ،
  2. عند تقليل مجموعة البيانات الأصلية إلى شكل أكثر إحكاما ، قد تحدث بعض التشوهات ،
  3. قد تُفقد السمات الفردية للكائنات الفردية بسبب استبدالها بخصائص القيم المعممة لمعلمات الكتلة.

طُرق

حاليًا ، هناك أكثر من مائة خوارزميات تجميع مختلفة معروفة. يتم تفسير تنوعها ليس فقط من خلال الأساليب الحسابية المختلفة ، ولكن أيضًا من خلال المفاهيم المختلفة الكامنة وراء التجميع. من الممكن تقديم توصيات لاختيار طريقة أو طريقة أخرى للتجميع فقط في بعبارات عامة، ومعيار الاختيار الرئيسي هو الفائدة العملية للنتيجة.

تطبق حزمة Statistica طرق التجميع التالية:

  • الخوارزميات الهرمية - التجميع الشجري. تعتمد الخوارزميات الهرمية على فكرة التجميع المتسلسل. في الخطوة الأولى ، يتم اعتبار كل كائن على أنه كتلة منفصلة. في الخطوة التالية ، سيتم دمج بعض المجموعات الأقرب لبعضها البعض في مجموعة منفصلة.
  • طريقة K- يعني. هذه الطريقة هي الأكثر شيوعا. إنه ينتمي إلى مجموعة ما يسمى بالطرق المرجعية لتحليل الكتلة. يتم تعيين عدد المجموعات K بواسطة المستخدم.
  • جمعية ثنائية الاتجاه. عند استخدام هذه الطريقة ، يتم إجراء التجميع في وقت واحد بواسطة المتغيرات (الأعمدة) ونتائج الملاحظة (الصفوف).

يتم تنفيذ إجراء الربط ثنائي الاتجاه عندما يكون من المتوقع أن يوفر التجميع المتزامن على المتغيرات والملاحظات نتائج ذات مغزى.

نتائج الإجراء الإحصاء الوصفيحسب المتغيرات والحالات ، بالإضافة إلى مخطط ألوان ثنائي الأبعاد يتم فيه ترميز قيم البيانات بالألوان. من خلال توزيع اللون ، يمكنك الحصول على فكرة عن المجموعات المتجانسة.

تطبيع المتغيرات

يرتبط تقسيم المجموعة الأولية من الكائنات إلى مجموعات بحساب المسافات بين الكائنات واختيار الكائنات ، والتي تكون المسافة بينها هي الأصغر على الإطلاق. الأكثر شيوعًا هي المسافة الإقليدية (الهندسية) المألوفة لنا جميعًا. يتوافق هذا المقياس مع الأفكار البديهية حول قرب الأجسام في الفضاء (كما لو تم قياس المسافات بين الأشياء باستخدام شريط قياس).

ولكن بالنسبة لمقياس معين ، يمكن أن تتأثر المسافة بين الأشياء بشدة بالتغيرات في المقاييس (وحدات القياس). على سبيل المثال ، إذا تم قياس إحدى الميزات بالمليمترات ثم تم تحويل قيمتها إلى سنتيمترات ، فإن المسافة الإقليدية بين الكائنات ستتغير بشكل كبير. سيؤدي هذا إلى حقيقة أن نتائج التحليل العنقودي قد تختلف بشكل كبير عن النتائج السابقة.

إذا تم قياس المتغيرات بوحدات قياس مختلفة ، فإن تطبيعها الأولي مطلوب ، أي تحويل البيانات الأولية ، مما يحولها إلى كميات بلا أبعاد.

يؤدي التطبيع إلى تشويه هندسة المساحة الأصلية بشدة ، مما قد يؤدي إلى تغيير نتائج التجميع. في حزمة Statistica ، يتم تسوية أي متغير x وفقًا للصيغة:

للقيام بذلك ، انقر بزر الماوس الأيمن على اسم المتغير وحدد تسلسل الأوامر من القائمة التي تفتح: Fill / Standardize Block / Standardize Columns. ستصبح قيم المتغير العادي مساوية للصفر ، وستصبح الفروق مساوية للواحد.

K- يعني الأسلوب في الإحصاء

تقسم طريقة K-mean مجموعة من الكائنات إلى عدد معين K من مجموعات مختلفة تقع على أكبر مسافة ممكنة من بعضها البعض. عادةً ، بمجرد الحصول على نتائج تحليل الكتلة K-mean ، يمكن للمرء حساب المتوسطات لكل مجموعة لكل بُعد لتقييم كيفية اختلاف المجموعات عن بعضها البعض.

من الناحية المثالية ، يجب أن تحصل على وسائل مختلفة جدًا لمعظم القياسات المستخدمة في التحليل. تعد القيم الإحصائية F التي تم الحصول عليها لكل بُعد مؤشرًا آخر لمدى تمييز البعد المقابل بين المجموعات.

على سبيل المثال ، دعنا ننظر في نتائج مسح 17 موظفًا في مؤسسة حول الرضا عن مؤشرات الجودة المهنية. يحتوي الجدول على إجابات لأسئلة الاستبيان على مقياس من عشر نقاط (1 - الحد الأدنى من النقاط، 10 - كحد أقصى).

تتوافق أسماء المتغيرات مع إجابات الأسئلة التالية:

  1. SLT - مجموعة من الأهداف الشخصية وأهداف المنظمة ؛
  2. OSO - الشعور بالإنصاف في الأجور ؛
  3. يحدد لاحقًا - القرب الإقليمي من المنزل ؛
  4. PEW - الشعور بالرفاهية الاقتصادية ؛
  5. CR - النمو الوظيفي ؛
  6. ZhSR - الرغبة في تغيير الوظائف ؛
  7. OSB هو شعور بالرفاهية الاجتماعية.


باستخدام هذه البيانات ، من الضروري تقسيم الموظفين إلى مجموعات واختيار أدوات التحكم الأكثر فعالية لكل منهم. في الوقت نفسه ، يجب أن تكون الاختلافات بين المجموعات واضحة ، وداخل المجموعة ، يجب أن يكون المستجيبون متشابهين قدر الإمكان.

حتى الآن ، تعطي معظم الاستطلاعات الاجتماعية نسبة مئوية فقط من الأصوات: يتم النظر في العدد الرئيسي للإجابات الإيجابية ، أو النسبة المئوية لأولئك غير الراضين ، ولكن لا يتم النظر في هذه المسألة بشكل منهجي. في أغلب الأحيان ، لا يُظهر المسح اتجاهات الوضع.

يمكن استخدام إجراءات تحليل الكتلة لتحديد ، على أساس بيانات المسح ، بعض العلاقات القائمة بالفعل للميزات وإنشاء تصنيفها على هذا الأساس. إن وجود أي فرضيات مسبقة لعالم الاجتماع أثناء تشغيل إجراءات التحليل العنقودي ليس كذلك شرط ضروري.

في برنامج Statistica ، يتم إجراء تحليل الكتلة على النحو التالي.

  1. قم بإنشاء ملف بيانات.
  2. حدد وحدة الإحصاء / تقنيات الاستكشاف متعددة المتغيرات / تحليل الكتلة. انقر فوق "موافق" ، ونتيجة لذلك سيظهر مربع حوار:

  3. في النافذة التي تظهر ، حدد طريقة K-mean clustering وانقر فوق OK.
  4. في مربع الحوار الذي يظهر ، اضبط الإعدادات التالية:


    • حدد المتغيرات باستخدام زر المتغيرات.
    • حدد كائنات التجميع: يمكن أن تكون هذه متغيرات - أعمدة (أعمدة المتغيرات)) ، أو ملاحظات - صفوف (الحالات (الصفوف)). أولاً ، دعنا نتجمع حسب الصفوف (الحالات (الصفوف)).
    • حدد عدد المجموعات.
      يقوم المستخدم بهذا الاختيار بناءً على افتراضاته الخاصة حول عدد مجموعات الكائنات المتشابهة.

      عند اختيار عدد المجموعات ، يجب الاسترشاد بما يلي:

      1. يجب ألا يكون عدد المجموعات كبيرًا جدًا ، إن أمكن.
      2. يجب أن تكون المسافة التي تم فيها ضم كائنات مجموعة معينة ، إذا أمكن ، أقل بكثير من المسافة التي ينضم عندها شيء آخر إلى هذه المجموعة.
      عند اختيار عدد المجموعات ، غالبًا ما توجد عدة حلول صحيحة في نفس الوقت. نحن مهتمون ، على سبيل المثال ، بكيفية ارتباط الإجابات على أسئلة الاستبيان بالموظفين العاديين وإدارة المؤسسة. لذلك ، نختار K = 2. لمزيد من التقسيم ، يمكنك زيادة عدد المجموعات.
    • بعد ذلك ، تحتاج إلى تحديد التقسيم الأولي للكائنات إلى مجموعات (مراكز المجموعة الأولية). تقدم حزمة Statistica:
      1. اختيار الملاحظات مع أقصى مسافة بين مراكز الكتلة ؛
      2. فرز المسافات واختيار الملاحظات على فترات منتظمة (الإعداد الافتراضي) ؛
      3. خذ مراكز المراقبة الأولى وأرفق باقي الأشياء بها.

      لأغراضنا الخيار الأول مناسب.

غالبًا ما "تفرض" العديد من خوارزميات التجميع بنية غير متأصلة في البيانات وتسبب إرباكًا للباحث. لذلك ، من الضروري للغاية تطبيق العديد من خوارزميات التحليل العنقودي واستخلاص النتائج بناءً على تقييم عام لنتائج الخوارزميات.

يمكن عرض نتائج التحليل في مربع الحوار الذي يظهر:

إذا حددت علامة التبويب رسم بياني للوسائل ، فسيتم رسم رسم بياني لإحداثيات مراكز المجموعات:


يتوافق كل سطر متقطع في هذا الرسم البياني مع إحدى المجموعات:

  • يتوافق كل قسم من المحور الأفقي للرسم البياني مع أحد المتغيرات المدرجة في التحليل.
  • يتوافق المحور الرأسي مع متوسط ​​قيم المتغيرات للكائنات المضمنة في كل مجموعة.

يمكن ملاحظة أن هناك اختلافات كبيرة في موقف مجموعتين من الناس تجاه مهنة الخدمة في جميع القضايا تقريبًا. فقط في قضية واحدة يوجد إجماع كامل - بمعنى الرفاهية الاجتماعية (OSB) ، أو بالأحرى ، الافتقار إليها (2.5 نقطة من 10).

يمكن افتراض أن:

  1. تعرض المجموعة 1 العمال ،
  2. المجموعة 2 - القيادة:
    • يشعر المدراء برضا أكبر عن التطوير الوظيفي (CR) ، وهو مزيج من الأهداف الشخصية والأهداف التنظيمية (SOLs).
    • لديهم شعور أعلى بالرفاهية الاقتصادية (SEW) وشعور بالمساواة في الأجور (SWA).
    • فهم أقل قلقًا بشأن القرب من المنزل مقارنة بالعمال ، ربما بسبب مشاكل النقل الأقل.
    • أيضًا ، لدى المديرين رغبة أقل في تغيير الوظائف (JSR).

على الرغم من حقيقة أن العمال ينقسمون إلى فئتين ، إلا أنهم يقدمون نفس الإجابات نسبيًا على معظم الأسئلة. بمعنى آخر ، إذا كان هناك شيء لا يناسب المجموعة العامة للموظفين ، فإن الأمر نفسه لا يناسب الإدارة العليا ، والعكس صحيح.

يتيح لنا تنسيق الرسوم البيانية أن نستنتج أن رفاهية مجموعة ما تنعكس في رفاهية مجموعة أخرى.

المجموعة 1 غير راضية عن القرب الإقليمي من المنزل. هذه المجموعة هي الجزء الرئيسي من العمال الذين يأتون بشكل رئيسي إلى الشركة من أجزاء مختلفة من المدينة. لذلك ، من الممكن أن تعرض على الإدارة العليا تخصيص جزء من الأرباح لبناء مساكن لموظفي المؤسسة.

هناك اختلافات كبيرة في موقف مجموعتين من الناس تجاه مهنة الخدمة:

  1. هؤلاء الموظفون الراضون عن النمو الوظيفي ، والذين لديهم تطابق كبير بين الأهداف الشخصية وأهداف المنظمة ، ليس لديهم رغبة في تغيير وظائفهم ويشعرون بالرضا عن نتائج عملهم.
  2. على العكس من ذلك ، فإن الموظفين الذين يرغبون في تغيير وظائفهم وغير راضين عن نتائج عملهم غير راضين عن المؤشرات المذكورة أعلاه.

يجب أن تولي الإدارة العليا اهتمامًا خاصًا للوضع الحالي.

يتم عرض نتائج تحليل التباين لكل سمة من خلال الضغط على زر تحليل التباين:

انتاج:

  • مجاميع مربعات انحراف الكائن عن مراكز الكتلة (SS داخل) ،
  • مجموع الانحرافات التربيعية بين مراكز الكتلة (SS Between) ،
  • قيم إحصائية F ،
  • مستويات الأهمية ص.
على سبيل المثال ، مستويات الأهمية للمتغيرين كبيرة جدًا ، وهو ما يفسره العدد القليل من الملاحظات. في النسخة الكاملة من الدراسة ، والتي يمكن العثور عليها في الورقة ، تم رفض الفرضيات حول تكافؤ الوسائل لمراكز الكتلة عند مستويات أهمية أقل من 0.01.

يعرض زر حفظ التصنيفات والمسافات عدد الكائنات المضمنة في كل مجموعة ومسافات الكائنات إلى مركز كل مجموعة.

تكوين كل عنقود ومسافة الأشياء من المركز

يوضح الجدول أرقام الحالة (CASE_NO) التي تتكون منها العناقيد بأرقام CLUSTER والمسافات من مركز كل مجموعة (DISTANCE).

يمكن كتابة المعلومات حول الكائنات التي تنتمي إلى المجموعات في ملف واستخدامها في مزيد من التحليل. في هذا المثال ، أظهرت مقارنة النتائج التي تم الحصول عليها مع الاستبيانات أن المجموعة 1 تتكون أساسًا من العمال العاديين ، والمجموعة 2 - من المديرين.

وبالتالي ، يمكن ملاحظة أنه عند معالجة نتائج المسح ، تبين أن التحليل العنقودي طريقة قوية تسمح باستخلاص النتائج التي لا يمكن الوصول إليها من خلال إنشاء رسم بياني للمتوسطات أو عن طريق حساب النسبة المئوية للرضا عن مؤشرات مختلفة من جودة الحياة العملية.

تجميع الشجرة هو مثال على خوارزمية هرمية ، مبدأها هو تجميع العناصر الأقرب بالتسلسل أولاً ، ثم المزيد والمزيد من العناصر البعيدة عن بعضها البعض في كتلة. تبدأ معظم هذه الخوارزميات من مصفوفة تشابه (مسافات) ، ويتم اعتبار كل عنصر على حدة في البداية كمجموعة منفصلة.

بعد تحميل وحدة تحليل الكتلة واختيار الانضمام (التجميع الشجري) ، يمكنك تغيير المعلمات التالية في نافذة إدخال معلمات التجميع:

  1. البيانات الأولية (الإدخال). يمكن أن تكون في شكل مصفوفة من البيانات المدروسة (البيانات الأولية) وفي شكل مصفوفة المسافات (مصفوفة المسافة).
  2. تجميع الملاحظات (العنقودية) (الحالات (الأولية)) أو المتغيرات (المتغير (الأعمدة)) ، ووصف حالة الكائن.
  3. مقاييس المسافة. هنا يمكنك الاختيار من بين الإجراءات التالية:
    • مسافات اقليدية
    • مسافات إقليدية مربعة ،
    • مسافة كتل المدينة (مسافة مانهاتن ، مسافة مانهاتن) ، مسافة تشيبيتشيف المترية ،
    • مسافة الطاقة (الطاقة ... ؛) ،
    • نسبة الخلاف.
  4. طريقة التجميع (قاعدة الدمج (الربط)).
    الخيارات التالية متاحة هنا:
    • رابط واحد (أقرب طريقة مجاورة) (رابط واحد) ،
    • رابط كامل (طريقة أقرب الجيران) (ربط كامل) ،
    • متوسط ​​المجموعة الزوجية غير الموزون ،
    • المتوسط ​​المرجح للمجموعة الزوجية ،
    • طريقة النقطه الوسطى غير الموزونة (النقطه الوسطى غير مرجح زوج المجموعة) ،
    • طريقة النقطه الوسطى الموزونة (الوسيط) (النقطه الوسطى المرجحة للمجموعة الزوجية (الوسيط)) ،
    • طريقة وارد.

نتيجة للتجميع ، يتم بناء مخطط شجري أفقي أو عمودي - رسم بياني يتم من خلاله تحديد المسافات بين الكائنات والعناقيد عندما يتم دمجها بشكل تسلسلي.

يتيح لك الهيكل الشجري للرسم البياني تحديد المجموعات بناءً على الحد المحدد - مسافة معينة بين المجموعات.

بالإضافة إلى ذلك ، يتم عرض مصفوفة المسافات بين الكائنات الأصلية (مصفوفة المسافة) ؛ يعني والانحرافات المعيارية لكل كائن مصدر (الإحصاء المميز). بالنسبة للمثال المدروس ، سنقوم بإجراء تحليل عنقودي للمتغيرات باستخدام الإعدادات الافتراضية. يظهر مخطط الأسنان الناتج في الشكل:


يرسم المحور الرأسي للتشجير المسافات بين الكائنات وبين الكائنات والعناقيد. إذن ، المسافة بين المتغيرين SEB و OSD تساوي خمسة. يتم دمج هذه المتغيرات في الخطوة الأولى في مجموعة واحدة.

يتم رسم المقاطع الأفقية لمخطط dendrogram على مستويات مقابلة لمسافات العتبة المحددة لخطوة تجميع معينة.

يتضح من الرسم البياني أن السؤال "الرغبة في تغيير الوظائف" (JSR) يشكل مجموعة منفصلة. بشكل عام ، فإن الرغبة في الإغراق في أي مكان تزور الجميع على قدم المساواة. علاوة على ذلك ، فإن المجموعة المنفصلة هي مسألة القرب الإقليمي من المنزل (LHB).

من حيث الأهمية ، فهي في المرتبة الثانية ، مما يؤكد الاستنتاج حول الحاجة إلى بناء المساكن ، والتي تم إجراؤها وفقًا لنتائج الدراسة باستخدام طريقة K-mean.

يتم الجمع بين مشاعر الرفاهية الاقتصادية (PEW) والمساواة في الأجور (PWF) - وهذه مجموعة من القضايا الاقتصادية. حياة مهنيةيتم أيضًا الجمع بين (CR) ومجموعة الأهداف الشخصية والأهداف التنظيمية (SOLs).

طرق التجميع الأخرى ، بالإضافة إلى اختيار أنواع أخرى من المسافات ، لا تؤدي إلى تغيير كبير في مخطط الأسنان.

نتائج

  1. يعد تحليل الكتلة أداة قوية لتحليل البيانات الاستكشافية والبحث الإحصائي في أي مجال موضوع.
  2. يطبق برنامج Statistica كلا من الأساليب الهرمية والهيكلية لتحليل الكتلة. تعود مزايا هذه الحزمة الإحصائية إلى قدراتها الرسومية. يتم توفير تمثيلات بيانية ثنائية وثلاثية الأبعاد للمجموعات التي تم الحصول عليها في فضاء المتغيرات المدروسة ، وكذلك نتائج الإجراء الهرمي لتجميع الكائنات.
  3. من الضروري تطبيق العديد من خوارزميات التحليل العنقودي واستخلاص النتائج بناءً على تقييم عام لنتائج الخوارزميات.
  4. يمكن اعتبار تحليل الكتلة ناجحًا إذا تم إجراؤه طرق مختلفة، تتم مقارنة النتائج ويتم العثور على أنماط عامة ، وكذلك عناقيد مستقرة بغض النظر عن طريقة التجميع.
  5. يسمح لك تحليل الكتلة بتحديد حالات المشكلةوتحديد طرق حلها. لذلك ، يمكن اعتبار طريقة الإحصاء غير المعلمية هذه جزء أساسيتحليل النظام.

أنواع المدخلات

  • الوصف الإرشادي للأشياء. يتم وصف كل كائن من خلال مجموعة من خصائصه تسمى علامات. يمكن أن تكون الميزات رقمية أو غير رقمية.
  • مصفوفة المسافة بين الأشياء. يتم وصف كل كائن من خلال المسافات إلى جميع الكائنات الأخرى في مجموعة التدريب.

مصفوفة المسافةيمكن حسابها من مصفوفة أوصاف السمات للكائنات عدد لانهائيالطرق ، اعتمادًا على كيفية تقديم وظيفة المسافة (المترية) بين أوصاف الميزات. غالبًا ما يتم استخدام المقياس الإقليدي ، ولكن هذا الاختيار في معظم الحالات هو إرشادي ولا يرجع إلا إلى اعتبارات الملاءمة.

المشكلة العكسية - استعادة أوصاف الميزات بواسطة مصفوفة المسافات الزوجية بين الكائنات - في الحالة العامة ليس لها حل ، والحل التقريبي ليس فريدًا وقد يكون به خطأ كبير. تم حل هذه المشكلة من خلال طرق القياس متعددة الأبعاد.

وهكذا ، فإن صياغة مشكلة التجميع حسب مصفوفة المسافةهو أكثر عمومية. من ناحية أخرى ، في ظل وجود أوصاف للميزات ، غالبًا ما يكون من الممكن بناء المزيد طرق فعالةتجمع.

أهداف التجميع

  • فهم البيانات عن طريق تحديد هيكل الكتلة. إن تقسيم العينة إلى مجموعات من كائنات متشابهة يجعل من الممكن تبسيط معالجة البيانات واتخاذ القرار من خلال تطبيق طريقة التحليل الخاصة بها على كل مجموعة (استراتيجية "فرق تسد").
  • ضغط البيانات. إذا كانت العينة الأولية كبيرة بشكل مفرط ، فيمكن تقليلها ، وترك أحد أكثر الممثلين نموذجية من كل مجموعة.
  • كشف الحداثة. يتم تحديد الكائنات غير النمطية التي لا يمكن إرفاقها بأي من المجموعات.

في الحالة الأولى ، يحاولون تقليل عدد المجموعات. في الحالة الثانية ، من المهم ضمان درجة عالية (أو ثابتة) من التشابه للكائنات داخل كل مجموعة ، ويمكن أن يكون هناك أي عدد من المجموعات. في الحالة الثالثة ، تكون الأشياء الفردية التي لا تتناسب مع أي من المجموعات ذات أهمية قصوى.

في جميع هذه الحالات ، يمكن تطبيق التجميع الهرمي ، عندما يتم تقسيم المجموعات الكبيرة إلى مجموعات أصغر ، والتي بدورها يتم تقسيمها إلى مجموعات أصغر ، وما إلى ذلك. وتسمى هذه المهام مهام التصنيف.

نتيجة التصنيف هي بنية هرمية تشبه الشجرة. بالإضافة إلى ذلك ، يتميز كل كائن بتعداد جميع المجموعات التي ينتمي إليها ، عادةً من الكبيرة إلى الصغيرة. بصريا ، يتم تمثيل التصنيف كرسم بياني يسمى dendrogram.

مثال كلاسيكي على التصنيف القائم على التشابه هو التسمية ذات الحدين للكائنات الحيةاقترحه كارل لينيوس في منتصف القرن الثامن عشر. تم إنشاء أنظمة مماثلة في العديد من مجالات المعرفة من أجل تبسيط المعلومات حول بأعداد كبيرةأشياء.

وظائف المسافة

طرق التجميع

  • خوارزميات التجميع الإحصائي
  • المجموعات الهرمية أو التصنيف

بيان رسمي لمشكلة التجميع

يجب أن تكون مجموعة من الكائنات ، تكون مجموعة من الأرقام (الأسماء والتسميات) من المجموعات. تم إعطاء دالة المسافة بين الأشياء. هناك مجموعة تدريب محدودة من الأشياء. مطلوب تقسيم العينة إلى مجموعات فرعية غير متداخلة تسمى عناقيد المجموعات، بحيث تتكون كل مجموعة من كائنات قريبة بالمتر ، وتختلف كائنات المجموعات المختلفة اختلافًا كبيرًا. في هذه الحالة ، يتم تعيين رقم عنقود لكل كائن.

خوارزمية التجميعهي وظيفة تربط أي كائن برقم عنقود. تُعرف المجموعة في بعض الحالات مسبقًا ، ولكن غالبًا ما تكون المهمة هي تحديد العدد الأمثل للمجموعات ، من وجهة نظر واحدة أو أخرى معايير الجودةتجمع.

يختلف التجميع (التعلم غير الخاضع للإشراف) عن التصنيف (التعلم الخاضع للإشراف) في أن تسميات الكائنات الأصلية لم يتم تعيينها في البداية ، وقد تكون المجموعة نفسها غير معروفة.

حل مشكلة التجميع غامض بشكل أساسي ، وهناك عدة أسباب لذلك:

  • لا يوجد أفضل معيار فريد لجودة التجميع. يُعرف عدد من المعايير الاستكشافية ، بالإضافة إلى عدد من الخوارزميات التي ليس لها معيار محدد بوضوح ، ولكنها تنفذ مجموعة معقولة إلى حد ما "عن طريق البناء". كل منهم يمكن أن يعطي نتائج مختلفة.
  • عادة ما يكون عدد المجموعات غير معروف مسبقًا ويتم تحديده وفقًا لبعض المعايير الذاتية.
  • تعتمد نتيجة التجميع بشكل كبير على المقياس ، والذي يكون اختياره ، كقاعدة عامة ، ذاتيًا أيضًا ويحدده خبير.

الروابط

  • Vorontsov K.V. طرق تدريس الرياضيات بالسوابق. معهد موسكو للفيزياء والتكنولوجيا (2004) ، VMiK MGU (2007).
  • سيرجي نيكولينكو. شرائح المحاضرة "خوارزميات التجميع 1" و "خوارزميات التجميع 2". دورة نظم التعلم الذاتي.

الأدب

  1. Aivazyan S. A. ، Buchstaber V. M. ، Enyukov I. S. ، Meshalkin L. D.الإحصاء التطبيقي: التصنيف وتقليل الأبعاد. - م: المالية والإحصاء ، 1989.
  2. Zhuravlev Yu. I. ، Ryazanov V. V. ، Senko O. V."تعرُّف". الطرق الرياضية. نظام البرمجيات. تطبيقات عملية. - م: فازيس ، 2006.
  3. زاجورويكو ن.الأساليب التطبيقية لتحليل البيانات والمعرفة. - نوفوسيبيرسك: IM SO RAN، 1999.
  4. ماندل آي د.التحليل العنقودي. - م: المالية والإحصاء ، 1988.
  5. شليزنجر م ، Glavach V.عشر محاضرات في التعرف الإحصائي والبنيوي. - كييف: نوكوفا دومكا 2004.
  6. هاستي T. ، تيبشيراني ر ، فريدمان ج.عناصر التعلم الإحصائي. - سبرينغر ، 2001..

أنواع المدخلات

  • الوصف الإرشادي للأشياء. يتم وصف كل كائن من خلال مجموعة من خصائصه تسمى علامات. يمكن أن تكون الميزات رقمية أو غير رقمية.
  • مصفوفة المسافة بين الأشياء. يتم وصف كل كائن من خلال المسافات إلى جميع الكائنات الأخرى في مجموعة التدريب.

أهداف التجميع

  • فهم البيانات عن طريق تحديد هيكل الكتلة. إن تقسيم العينة إلى مجموعات من كائنات متشابهة يجعل من الممكن تبسيط معالجة البيانات واتخاذ القرار من خلال تطبيق طريقة التحليل الخاصة بها على كل مجموعة (استراتيجية "فرق تسد").
  • ضغط البيانات. إذا كانت العينة الأولية كبيرة بشكل مفرط ، فيمكن تقليلها ، وترك أحد أكثر الممثلين نموذجية من كل مجموعة.
  • كشف الجدة. كشف الجدة). يتم تحديد الكائنات غير النمطية التي لا يمكن إرفاقها بأي من المجموعات.

في الحالة الأولى ، يحاولون تقليل عدد المجموعات. في الحالة الثانية ، من المهم ضمان درجة عالية من التشابه للكائنات داخل كل مجموعة ، ويمكن أن يكون هناك أي عدد من المجموعات. في الحالة الثالثة ، تكون الأشياء الفردية التي لا تتناسب مع أي من المجموعات ذات أهمية قصوى.

في جميع هذه الحالات ، يمكن تطبيق التجميع الهرمي ، عندما يتم تقسيم المجموعات الكبيرة إلى مجموعات أصغر ، والتي بدورها يتم تقسيمها إلى مجموعات أصغر ، إلخ. وتسمى هذه المهام مهام التصنيف.

نتيجة التصنيف هي بنية هرمية تشبه الشجرة. بالإضافة إلى ذلك ، يتميز كل كائن بتعداد جميع المجموعات التي ينتمي إليها ، عادةً من الكبيرة إلى الصغيرة.

مثال كلاسيكي على التصنيف القائم على التشابه هو التسمية ذات الحدين للكائنات الحية التي اقترحها كارل لينيوس في منتصف القرن الثامن عشر. تم إنشاء أنظمة مماثلة في العديد من مجالات المعرفة من أجل تنظيم المعلومات حول عدد كبير من الكائنات.

طرق التجميع

بيان رسمي لمشكلة التجميع

يجب أن تكون مجموعة من الكائنات ، تكون مجموعة من الأرقام (الأسماء والتسميات) من المجموعات. تم إعطاء دالة المسافة بين الأشياء. هناك مجموعة تدريب محدودة من الأشياء. مطلوب تقسيم العينة إلى مجموعات فرعية غير متداخلة تسمى عناقيد المجموعات، بحيث تتكون كل مجموعة من كائنات قريبة بالمتر ، وتختلف كائنات المجموعات المختلفة اختلافًا كبيرًا. في هذه الحالة ، يتم تعيين رقم عنقود لكل كائن.

خوارزمية التجميعهي وظيفة تربط أي كائن برقم عنقود. تُعرف المجموعة في بعض الحالات مسبقًا ، ولكن غالبًا ما تكون المهمة هي تحديد العدد الأمثل للمجموعات ، من وجهة نظر واحدة أو أخرى معايير الجودةتجمع.

الأدب

  1. Aivazyan S. A. ، Buchstaber V. M. ، Enyukov I. S. ، Meshalkin L. D.الإحصاء التطبيقي: التصنيف وتقليل الأبعاد. - م: المالية والإحصاء ، 1989.
  2. Zhuravlev Yu. I. ، Ryazanov V. V. ، Senko O. V."تعرُّف". الطرق الرياضية. نظام البرمجيات. تطبيقات عملية. - م: فازيس ، 2006. ISBN 5-7036-0108-8.
  3. زاجورويكو ن.الأساليب التطبيقية لتحليل البيانات والمعرفة. - نوفوسيبيرسك: IM SO RAN ، 1999. ISBN 5-86134-060-9.
  4. ماندل آي د.التحليل العنقودي. - م: المالية والإحصاء ، 1988. ISBN 5-279-00050-7.
  5. شليزنجر م ، Glavach V.عشر محاضرات في التعرف الإحصائي والبنيوي. - كييف: نوكوفا دومكا ، 2004. ISBN 966-00-0341-2.
  6. هاستي T. ، تيبشيراني ر ، فريدمان ج.عناصر التعلم الإحصائي. - سبرينغر ، 2001. ISBN 0-387-95284-5.
  7. جين مورتي فلينتجميع البيانات: مراجعة. // ACM Comput. البقاء على قيد الحياة. 31 (3) , 1999

روابط خارجية

بالروسية

  • www.MachineLearning.ru - مورد ويكي احترافي مخصص للتعلم الآلي واستخراج البيانات
  • نيكولينكو. شرائح محاضرة حول خوارزميات التجميع

باللغة الإنجليزية

  • COMPACT - حزمة مقارنة للتقييم العنقودي. حزمة ماتلاب مجانية ، 2006.
  • P. Berkhin ، مسح تقنيات التنقيب في البيانات العنقودية، برنامج Accrue ، 2002.
  • جاين ومورتي وفلين: تجميع البيانات: مراجعة، شركات ACM. Surv. ، 1999.
  • للحصول على عرض تقديمي آخر للوسائل الهرمية والوسائل k والوسائل c الضبابية ، راجع هذه المقدمة للتجميع. يحتوي أيضًا على شرح لمزيج Gaussians.
  • ديفيد داوي صفحة نمذجة الخليط- روابط نموذج التجميع والمزيج الأخرى.
  • برنامج تعليمي عن التجميع
  • الكتاب المدرسي عبر الإنترنت: نظرية المعلومات والاستدلال وخوارزميات التعلم ، بقلم ديفيد ج. يشتمل MacKay على فصول حول تجميع الوسائل k ، وتجميع الوسائل k الناعمة ، والاشتقاقات بما في ذلك خوارزمية E-M والعرض المتغير لخوارزمية E-M.
  • "الجين المنظم ذاتيًا" ، برنامج تعليمي يشرح التجميع من خلال التعلم التنافسي والخرائط ذاتية التنظيم.
  • kernlab - حزمة R للتعلم الآلي المستند إلى kernel (بما في ذلك تنفيذ المجموعات الطيفية)
  • البرنامج التعليمي - برنامج تعليمي مع إدخال خوارزميات التجميع (الوسائل k ، fuzzy-c-mean ، التسلسل الهرمي ، خليط من gaussians) + بعض العروض التفاعلية (تطبيقات Java الصغيرة)
  • برامج التنقيب عن البيانات - تستخدم برامج التنقيب عن البيانات بشكل متكرر تقنيات التجميع.
  • Java Competitve Learning Application مجموعة من الشبكات العصبية غير الخاضعة للإشراف للتجميع. مكتوب بلغة جافا. كاملة مع جميع التعليمات البرمجية المصدر.