logo

التجميع في التعلم الآلي

التجميع أو التحليل العنقودي هو أسلوب للتعلم الآلي، يقوم بتجميع مجموعة البيانات غير المسماة. يمكن تعريفه بأنه 'طريقة لتجميع نقاط البيانات في مجموعات مختلفة، تتكون من نقاط بيانات متشابهة.' تظل الكائنات ذات أوجه التشابه المحتملة في مجموعة لديها أوجه تشابه أقل أو معدومة مع مجموعة أخرى.'

ويتم ذلك من خلال العثور على بعض الأنماط المتشابهة في مجموعة البيانات غير المسماة مثل الشكل والحجم واللون والسلوك وما إلى ذلك، وتقسيمها حسب وجود وغياب تلك الأنماط المتشابهة.

إنه ل تعليم غير مشرف عليه الطريقة، وبالتالي لا يتم توفير الإشراف على الخوارزمية، وهي تتعامل مع مجموعة البيانات غير المسماة.

بعد تطبيق تقنية التجميع هذه، يتم تزويد كل مجموعة أو مجموعة بمعرف كتلة. يمكن لنظام ML استخدام هذا المعرف لتبسيط معالجة مجموعات البيانات الكبيرة والمعقدة.

شار توسترينغ جافا

تُستخدم تقنية التجميع بشكل شائع في تحليل البيانات الإحصائية.

ملاحظة: التجميع يشبه في مكان ما خوارزمية التصنيف ولكن الفرق هو نوع مجموعة البيانات التي نستخدمها. في التصنيف، نعمل مع مجموعة البيانات المُصنفة، بينما في التجميع، نعمل مع مجموعة البيانات غير المُصنفة.

مثال : دعونا نفهم تقنية التجميع من خلال المثال الواقعي لـ Mall: عندما نزور أي مركز تسوق، يمكننا أن نلاحظ أن الأشياء ذات الاستخدام المماثل يتم تجميعها معًا. مثل أن يتم تجميع القمصان في قسم واحد، والسراويل في أقسام أخرى، وكذلك في أقسام الخضروات، يتم تجميع التفاح والموز والمانجو وما إلى ذلك في أقسام منفصلة، ​​حتى نتمكن من معرفة الأشياء بسهولة. تعمل تقنية التجميع أيضًا بنفس الطريقة. من الأمثلة الأخرى على التجميع تجميع المستندات وفقًا للموضوع.

يمكن استخدام تقنية التجميع على نطاق واسع في مهام مختلفة. بعض الاستخدامات الأكثر شيوعًا لهذه التقنية هي:

  • تجزئة السوق
  • تحليل البيانات الإحصائية
  • تحليل الشبكة الاجتماعية
  • تقطيع الصورة
  • كشف الشذوذ، الخ.

وبصرف النظر عن هذه الاستخدامات العامة، يتم استخدامه من قبل أمازون في نظام التوصيات الخاص بها لتقديم التوصيات وفقًا للبحث السابق عن المنتجات. نيتفليكس يستخدم أيضًا هذه التقنية للتوصية بالأفلام ومسلسلات الويب لمستخدميه وفقًا لسجل المشاهدة.

يشرح الرسم البياني أدناه عمل خوارزمية التجميع. يمكننا أن نرى أن الفواكه المختلفة مقسمة إلى عدة مجموعات ذات خصائص مماثلة.

التجميع في التعلم الآلي

أنواع طرق التجميع

تنقسم طرق التجميع على نطاق واسع إلى التجمعات الصعبة (نقطة البيانات تنتمي إلى مجموعة واحدة فقط) و التجمعات الناعمة (يمكن أن تنتمي نقاط البيانات إلى مجموعة أخرى أيضًا). ولكن هناك أيضًا طرقًا مختلفة أخرى للتجميع. فيما يلي طرق التجميع الرئيسية المستخدمة في التعلم الآلي:

إضافة سلسلة
    تقسيم المجموعات التجميع على أساس الكثافة التجميع القائم على نموذج التوزيع المجموعات الهرمية التجميع الغامض

تقسيم المجموعات

إنه نوع من التجميع الذي يقسم البيانات إلى مجموعات غير هرمية. ومن المعروف أيضا باسم الطريقة المعتمدة على النقطه الوسطى . المثال الأكثر شيوعًا لتقسيم المجموعات هو K-يعني خوارزمية التجميع .

في هذا النوع، يتم تقسيم مجموعة البيانات إلى مجموعة من المجموعات k، حيث يتم استخدام K لتحديد عدد المجموعات المحددة مسبقًا. يتم إنشاء مركز الكتلة بطريقة تكون فيها المسافة بين نقاط البيانات في مجموعة واحدة هي الأدنى مقارنةً بالنقطه الوسطى في مجموعة أخرى.

جافا التالي
التجميع في التعلم الآلي

التجميع على أساس الكثافة

تربط طريقة التجميع القائمة على الكثافة المناطق عالية الكثافة في مجموعات، ويتم تشكيل التوزيعات ذات الشكل التعسفي طالما يمكن توصيل المنطقة الكثيفة. تقوم هذه الخوارزمية بذلك عن طريق تحديد مجموعات مختلفة في مجموعة البيانات وربط المناطق ذات الكثافة العالية في مجموعات. يتم تقسيم المناطق الكثيفة في مساحة البيانات عن بعضها البعض بواسطة مناطق متفرقة.

يمكن أن تواجه هذه الخوارزميات صعوبة في تجميع نقاط البيانات إذا كانت مجموعة البيانات ذات كثافات متفاوتة وأبعاد عالية.

التجميع في التعلم الآلي

التجميع القائم على نموذج التوزيع

في طريقة التجميع القائمة على نموذج التوزيع، يتم تقسيم البيانات بناءً على احتمالية كيفية انتماء مجموعة البيانات إلى توزيع معين. يتم التجميع بافتراض بعض التوزيعات الشائعة التوزيع البياني .

مثال هذا النوع هو خوارزمية تجميع التوقعات وتعظيمها يستخدم نماذج الخليط الغوسي (GMM).

التجميع في التعلم الآلي

المجموعات الهرمية

يمكن استخدام التجميع الهرمي كبديل للتجميع المقسم حيث لا توجد متطلبات لتحديد عدد المجموعات التي سيتم إنشاؤها مسبقًا. في هذه التقنية، يتم تقسيم مجموعة البيانات إلى مجموعات لإنشاء بنية تشبه الشجرة، والتي تسمى أيضًا dendrogram . يمكن اختيار الملاحظات أو أي عدد من المجموعات عن طريق قطع الشجرة عند المستوى الصحيح. المثال الأكثر شيوعًا لهذه الطريقة هو الخوارزمية الهرمية التجميعية .

التجميع في التعلم الآلي

التجميع الغامض

التجميع المبهم هو نوع من الأساليب الناعمة التي قد ينتمي فيها كائن البيانات إلى أكثر من مجموعة أو مجموعة واحدة. تحتوي كل مجموعة بيانات على مجموعة من معاملات العضوية، والتي تعتمد على درجة العضوية في المجموعة. غامض C-يعني خوارزمية هو مثال على هذا النوع من التجمعات؛ تُعرف أحيانًا أيضًا باسم خوارزمية Fuzzy k-means.

خوارزميات التجميع

يمكن تقسيم خوارزميات التجميع بناءً على نماذجها الموضحة أعلاه. هناك أنواع مختلفة من خوارزميات التجميع المنشورة، ولكن يتم استخدام عدد قليل منها فقط بشكل شائع. تعتمد خوارزمية التجميع على نوع البيانات التي نستخدمها. على سبيل المثال، تحتاج بعض الخوارزميات إلى تخمين عدد المجموعات في مجموعة البيانات المحددة، بينما يُطلب من البعض الآخر العثور على الحد الأدنى للمسافة بين مراقبة مجموعة البيانات.

نناقش هنا بشكل أساسي خوارزميات التجميع الشائعة المستخدمة على نطاق واسع في التعلم الآلي:

افعل أثناء حلقة Java
    خوارزمية K-Means:تعد خوارزمية k-means واحدة من أكثر خوارزميات التجميع شيوعًا. يقوم بتصنيف مجموعة البيانات عن طريق تقسيم العينات إلى مجموعات مختلفة ذات تباينات متساوية. يجب تحديد عدد المجموعات في هذه الخوارزمية. إنه سريع مع عدد أقل من العمليات الحسابية المطلوبة، مع التعقيد الخطي الذي يبلغ على). خوارزمية التحول المتوسط:تحاول خوارزمية التحول المتوسط ​​العثور على المناطق الكثيفة في الكثافة السلسة لنقاط البيانات. إنه مثال لنموذج قائم على النقطه الوسطى، يعمل على تحديث المرشحين للنقطه الوسطى لتكون مركز النقاط داخل منطقة معينة.خوارزمية دبسكان:انها تقف للتجميع المكاني القائم على الكثافة للتطبيقات مع الضوضاء . وهو مثال لنموذج قائم على الكثافة يشبه التحول المتوسط، ولكن مع بعض المزايا الرائعة. في هذه الخوارزمية، يتم فصل المناطق ذات الكثافة العالية عن المناطق ذات الكثافة المنخفضة. وبسبب هذا، يمكن العثور على المجموعات في أي شكل تعسفي.تجميع التوقعات إلى الحد الأقصى باستخدام GMM:يمكن استخدام هذه الخوارزمية كبديل لخوارزمية k-means أو لتلك الحالات التي يمكن أن تفشل فيها K-means. في GMM، من المفترض أن نقاط البيانات موزعة بطريقة غاوسية.الخوارزمية الهرمية التجميعية:تقوم الخوارزمية الهرمية التجميعية بتنفيذ التجميع الهرمي من الأسفل إلى الأعلى. وفي هذا، يتم التعامل مع كل نقطة بيانات كمجموعة واحدة في البداية ثم يتم دمجها على التوالي. يمكن تمثيل التسلسل الهرمي للمجموعة كهيكل شجرة.نشر التقارب:وهي تختلف عن خوارزميات التجميع الأخرى لأنها لا تتطلب تحديد عدد المجموعات. وفي هذا تقوم كل نقطة بيانات بإرسال رسالة بين زوج نقاط البيانات حتى التقارب. لديها O(ن2T) التعقيد الزمني، وهو العيب الرئيسي لهذه الخوارزمية.

تطبيقات التجميع

فيما يلي بعض التطبيقات المعروفة لتقنية التجميع في التعلم الآلي:

    في التعرف على الخلايا السرطانية:تُستخدم خوارزميات التجميع على نطاق واسع لتحديد الخلايا السرطانية. فهو يقسم مجموعات البيانات السرطانية وغير السرطانية إلى مجموعات مختلفة.في محركات البحث:تعمل محركات البحث أيضًا على تقنية التجميع. تظهر نتيجة البحث بناءً على أقرب كائن لاستعلام البحث. ويتم ذلك عن طريق تجميع كائنات البيانات المتشابهة في مجموعة واحدة بعيدة عن الكائنات الأخرى المتباينة. تعتمد النتيجة الدقيقة للاستعلام على جودة خوارزمية التجميع المستخدمة.فئات الزبائن:يتم استخدامه في أبحاث السوق لتقسيم العملاء بناءً على اختيارهم وتفضيلاتهم.في علم الأحياء:يتم استخدامه في مجرى البيولوجيا لتصنيف الأنواع المختلفة من النباتات والحيوانات باستخدام تقنية التعرف على الصور.في استخدام الأراضي:يتم استخدام تقنية التجميع في تحديد مساحة استخدام الأراضي المتشابهة في قاعدة بيانات نظم المعلومات الجغرافية. يمكن أن يكون هذا مفيدًا جدًا لمعرفة الغرض الذي يجب أن تستخدم فيه الأرض المعينة، وهذا يعني لأي غرض تكون أكثر ملاءمة.