logo

مؤشر جيني في التعلم الآلي

مقدمة

لقد أدى التعلم الآلي إلى إصلاح الطريقة التي نعالج بها البيانات ونفحصها، وتعد خوارزميات شجرة القرار قرارًا مشهورًا لمهام التصنيف والانحدار. يعد مؤشر جيني، الذي يطلق عليه أيضًا اسم جيني للشوائب أو معامل جيني، مقياسًا هامًا للشوائب يستخدم في خوارزميات شجرة القرار. في هذه المقالة، سوف نتناول فكرة مؤشر جيني بشكل شامل، وصيغته العددية، وتطبيقاته في التعلم الآلي. سنقارن بالمثل مؤشر جيني ومقاييس الشوائب الأخرى، ونتحدث عن حدوده ومزاياه، ونفحص التحليلات السياقية لتطبيقاته في العالم الحقيقي. وأخيرًا، سنعرض التوجهات المستقبلية للبحث هنا.

ما هو مؤشر جيني؟

مؤشر جيني هو نسبة من الشوائب أو عدم المساواة في الإعدادات الإحصائية والنقدية. في التعلم الآلي، يتم استخدامه كمقياس للشوائب في خوارزميات شجرة القرار لمهام التصنيف. يقيس مؤشر جيني احتمالية تصنيف اختبار تم اختياره عشوائيًا بشكل خاطئ بواسطة خوارزمية شجرة القرارات، وتتراوح قيمته من 0 (نقي تمامًا) إلى 1 (غير نقي تمامًا).

صيغة مؤشر جيني

مؤشر جيني هو نسبة من الشوائب أو عدم المساواة في التداول، ويستخدم بانتظام كمقياس للشوائب في خوارزميات شجرة القرار. فيما يتعلق بأشجار القرار، يتم استخدام مؤشر جيني لتحديد أفضل ميزة لتقسيم البيانات في كل عقدة من الشجرة.

صيغة مؤشر جيني هي كما يلي:

مؤشر جيني في التعلم الآلي

حيث pi هو احتمال وجود شيء ما في فئة معينة.

على سبيل المثال، يجب أن نأخذ في الاعتبار مسألة التصنيف الثنائي مع فئتين An وB. إذا كان احتمال الفئة An هو p واحتمال الفئة B هو (1-p)، فيمكن حساب مؤشر جيني على النحو التالي: :

تنتقل قيمة مؤشر جيني من 0.0 إلى 0.5 لمسائل التصنيف الثنائي، حيث يوضح 0.0 عقدة نقية تمامًا (جميع الأمثلة لها مكان مع فئة مماثلة) ويظهر 0.5 عقدة غير نقية تمامًا (يتم توزيع الاختبارات بالتساوي عبر الفئتين ).

استخدام مؤشر جيني في مسائل التصنيف

يُستخدم مؤشر جيني بشكل عام كمقياس للشوائب في خوارزميات شجرة القرار لمشاكل التصنيف. في أشجار القرار، تعالج كل عقدة عنصرًا ما، والهدف هو تقسيم البيانات إلى مجموعات فرعية نقية بشكل أساسي بقدر ما يمكن توقعه. يتم استخدام مقياس الشوائب (مثل مؤشر جيني) لتحديد أفضل تقسيم في كل عقدة.

لتوضيح ذلك، يجب أن نفكر في مثال لشجرة القرار لمسألة التصنيف الثنائي. تحتوي الشجرة على عنصرين: العمر والدخل، والهدف هو التنبؤ بغض النظر عما إذا كان الفرد سيشتري منتجًا أم لا. يتم إنشاء الشجرة باستخدام مؤشر جيني كمقياس للشوائب.

عند العقدة الجذرية، يتم حساب مؤشر جيني في ضوء احتمالية وجود الأمثلة في الفئة 0 أو الفئة 1. ويتم تقسيم العقدة في ضوء المكون الذي يؤدي إلى الانخفاض الأعلى في مؤشر جيني. يتم إعادة صياغة هذه الدورة بشكل متكرر لكل مجموعة فرعية حتى يتم استيفاء إجراء التوقف.

أشجار القرار

شجرة القرار هي خوارزمية تعلم آلي معروفة تُستخدم في مهام التصنيف والانحدار. يتم عمل النموذج عن طريق تقسيم مجموعة البيانات بشكل متكرر إلى مجموعات فرعية أكثر تواضعًا في ضوء قيم أبرز المعلومات، والتي تم تحديدها للحد من عدم نقاء المجموعات الفرعية اللاحقة.

في كل عقدة من الشجرة، يتم اتخاذ قرار في ضوء قيم إحدى أبرز المعلومات، بهدف نهائي هو أن تكون المجموعات الفرعية اللاحقة نقية بشكل أساسي بقدر ما يمكن توقعه حقًا. يتم تقدير نقاء مجموعة فرعية بشكل منتظم من خلال مقياس الشوائب، على سبيل المثال، مؤشر جيني أو الإنتروبيا.

يمكن استخدام خوارزمية شجرة القرار لكل من مهام التصنيف الثنائية ومتعددة الفئات، بالإضافة إلى مهام الانحدار. في مهام التصنيف الثنائي، تقوم شجرة القرار بتقسيم مجموعة البيانات إلى مجموعتين فرعيتين في ضوء قيمة الميزة الثنائية، مثل نعم أو لا. في مهام التصنيف متعددة الفئات، تقوم شجرة القرار بتقسيم مجموعة البيانات إلى مجموعات فرعية متعددة في ضوء قيم الميزة المباشرة، مثل الأحمر أو الأخضر أو ​​الأزرق.

مؤشر جيني مقابل مقاييس الشوائب الأخرى

بصرف النظر عن مؤشر جيني، هناك مقاييس أخرى للشوائب تُستخدم عادةً في خوارزميات شجرة القرار، على سبيل المثال، الإنتروبيا واكتساب المعلومات.

إنتروبيا:

في التعلم الآلي، الإنتروبيا هي نسبة من عدم الانتظام أو الضعف في مجموعة من البيانات. يتم استخدامه عمومًا كمقياس للشوائب في خوارزميات شجرة القرار، جنبًا إلى جنب مع مؤشر جيني.

في خوارزميات شجرة القرار، يتم استخدام الإنتروبيا لتحديد أفضل مكون لتقسيم البيانات عليه في كل عقدة من الشجرة. الهدف هو العثور على العنصر الذي يؤدي إلى أكبر انخفاض في الإنتروبيا، والذي يرتبط بالمكون الذي يعطي أكبر قدر من المعلومات حول مسألة التصنيف.

مؤشر جيني في التعلم الآلي

في حين يتم استخدام الإنتروبيا ومؤشر جيني عادةً كمقاييس للشوائب في خوارزميات شجرة القرار، إلا أن لهما خصائص مختلفة. الإنتروبيا أكثر حساسية لتداول أسماء الفئات وستوفر بشكل عام أشجارًا أكثر تعديلاً، في حين أن مؤشر جيني أقل حساسية لتخصيص علامات الفئات وسيخلق بشكل عام أشجارًا أكثر محدودية مع انقسامات أقل. ويعتمد قرار قياس النجاسة على مسألة معينة وخصائص البيانات.

كسب المعلومات:

اكتساب المعلومات هو إجراء يستخدم لتقييم طبيعة الانقسام أثناء بناء شجرة القرار. الهدف من شجرة القرار هو تقسيم البيانات إلى مجموعات فرعية تكون في الأساس متجانسة بقدر ما يمكن تصوره بالنسبة للمتغير الموضوعي، لذلك يمكن استخدام الشجرة اللاحقة لوضع توقعات دقيقة بشأن البيانات الجديدة. يقيس اكتساب المعلومات الانخفاض في الإنتروبيا أو الشوائب الناتج عن الانقسام. يتم اختيار الميزة التي تتمتع بأكبر قدر من المعلومات الجديرة بالملاحظة كأفضل ميزة للتقسيم عليها في كل عقدة من شجرة القرار.

يعد الحصول على المعلومات مقياسًا يُستخدم عادة لتقييم طبيعة الانقسامات في أشجار القرار، ولكنه ليس هو الإجراء الذي يجب التركيز عليه. ويمكن أيضًا استخدام مقاييس أخرى، مثل مؤشر جيني أو معدل التصنيف الخاطئ. يعتمد قرار تقسيم الأساس على القضية الرئيسية وخصائص مجموعة البيانات المستخدمة.

مثال على مؤشر جيني

يجب أن نأخذ في الاعتبار مسألة التصنيف الثنائي حيث لدينا مجموعة بيانات مكونة من 10 أمثلة مع فئتين: 'إيجابي' و'سلبي'. من بين الأمثلة العشرة، 6 منها تنتمي إلى الفئة 'الإيجابية' و4 منها تنتمي إلى الفئة 'السلبية'.

لحساب مؤشر جيني لمجموعة البيانات، نحسب في البداية احتمالية كل فئة:

p_1 = 6/10 = 0.6 (إيجابي)

p_2 = 4/10 = 0.4 (سلبي)

ثم، عند هذه النقطة، نستخدم صيغة مؤشر جيني لحساب شوائب مجموعة البيانات:

جيني(S) = 1 - (p_1^2 + p_2^2)

= 1 - (0.6^2 + 0.4^2)

= 0.48

وبالتالي، فإن مؤشر جيني لمجموعة البيانات هو 0.48.

لنفترض حاليًا أننا بحاجة إلى تقسيم مجموعة البيانات على العنصر 'X' الذي يحتوي على قيمتين محتملتين: 'A' و'B'. قمنا بتقسيم مجموعة البيانات إلى مجموعتين فرعيتين في ضوء المكون:

المجموعة الفرعية 1 (X = A): 4 إيجابية، 1 سلبية

المجموعة الفرعية 2 (X = B): 2 إيجابي، 3 سلبي

لحساب الانخفاض في مؤشر جيني لهذا الانقسام، نقوم في البداية بحساب مؤشر جيني لكل مجموعة فرعية:

جيني(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0.32

جيني(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0.48

بعد ذلك، نستخدم صيغة اكتساب المعلومات لحساب الانخفاض في مؤشر جيني:

IG(S, X) = جيني(S) - ((5/10 * جيني(S_1)) + (5/10 * جيني(S_2)))

= 0.48 - ((0.5 * 0.32) + (0.5 * 0.48))

= 0.08

لذا، فإن كسب المعلومات (أي الانخفاض في مؤشر جيني) لتقسيم مجموعة البيانات عند التمييز 'X' هو 0.08.

في هذه الحالة، في حالة قيامنا بحساب كسب المعلومات لجميع العناصر واختيار العنصر الذي يتمتع بأكبر قدر من المعلومات الجديرة بالملاحظة، فسيتم اختيار هذا المكون كأفضل مكون للتقسيم عليه عند العقدة الجذرية لشجرة القرار.

مزايا:

يعد مؤشر جيني مقياسًا واسع النطاق لتقييم طبيعة الانقسامات في أشجار القرار، ويتمتع بعدد قليل من الأيدي العليا على المقاييس المختلفة، على سبيل المثال، الإنتروبيا أو معدل سوء التصنيف. فيما يلي جزء من المزايا الرئيسية لاستخدام مؤشر جيني:

يساوي جافا

كفاءة حسابية: يعد مؤشر جيني مقياسًا أقل تعقيدًا وأسرع من الناحية الحسابية مقارنةً بالمقاييس الأخرى، مثل الإنتروبيا، والتي تتضمن حساب اللوغاريتمات.

تفسير بديهي: مؤشر جيني واضح ومباشر. إنه يقيس احتمالية تصنيف مثال تم اختياره عشوائيًا من مجموعة بشكل غير صحيح في حالة وضع علامة عليه عشوائيًا وفقًا لنقل الفئة في المجموعة.

جيد للتصنيف الثنائي: يعتبر مؤشر جيني قويا بشكل خاص لمسائل التصنيف الثنائي، حيث يحتوي المتغير الموضوعي على فئتين فقط. وفي مثل هذه الحالات، من المعروف أن مؤشر جيني أكثر ثباتًا من المقاييس المختلفة.

قوية لعدم التوازن الطبقي: يعتبر مؤشر جيني أقل حساسية للاختلال الطبقي مقارنة بالمقاييس الأخرى مثل الدقة أو معدل سوء التصنيف. وذلك لأن مؤشر جيني يعتمد على النطاقات العامة للأمثلة في كل فئة بدلاً من الأرقام الكاملة.

أقل عرضة للإفراط في التجهيز: يميل مؤشر جيني إلى إنشاء أشجار قرارات أكثر تواضعًا مقارنةً بالمقاييس الأخرى، مما يجعله أقل عرضة للتجاوز. وذلك لأن مؤشر جيني يفضل بشكل عام الميزات التي تشكل أجزاء أصغر من البيانات، مما يقلل من احتمالات التجهيز الزائد.

سلبيات:

في حين أن مؤشر جيني يتمتع ببعض الفوائد كمقياس تقسيم لأشجار القرار، إلا أن له أيضًا بعض العيوب. فيما يلي جزء من الجوانب السلبية الرئيسية لاستخدام مؤشر جيني:

التحيز تجاه الميزات ذات الفئات المتعددة: يميل مؤشر Gini بشكل عام نحو الميزات التي تحتوي على العديد من الفئات أو القيم، حيث يمكنها إجراء المزيد من الانقسامات والأجزاء من البيانات. يمكن أن يؤدي هذا إلى زيادة التجهيز وشجرة قرارات أكثر تعقيدًا.

ليست جيدة للمتغيرات المستمرة: لا يعد مؤشر Gini مناسبًا للمتغيرات المستمرة، لأنه يتطلب تقسيم المتغير إلى فئات أو صناديق، مما قد يؤدي إلى فقدان المعلومات وتقليل الدقة.

يتجاهل تفاعلات الميزات: يفكر مؤشر جيني فقط في القوة البصيرة الفردية لكل ميزة ويتجاهل التفاعلات بين الميزات. وهذا يمكن أن يؤدي إلى انقسامات سيئة وتوقعات أقل دقة.

ليست مثالية لبعض مجموعات البيانات: في بعض الأحيان، قد لا يكون مؤشر جيني المقياس المثالي لتقييم طبيعة الانقسامات في شجرة القرار. على سبيل المثال، إذا كان المتغير الهدف مائلًا أو غير متوازن بشكل استثنائي، فقد تكون المقاييس المختلفة، على سبيل المثال، نسبة اكتساب المعلومات أو نسبة الربح أكثر ملاءمة.

عرضة للتحيز في وجود القيم المفقودة: يمكن أن يكون مؤشر جيني متحيزًا في حالة وجود قيم مفقودة، لأنه يميل بشكل عام نحو الميزات ذات القيم المفقودة الأقل، بغض النظر عما إذا كانت ليست الأكثر إفادة.

تطبيقات العالم الحقيقي لمؤشر جيني

تم استخدام مؤشر جيني في تطبيقات مختلفة في التعلم الآلي، مثل موقع الابتزاز، وتسجيل الائتمان، وتقسيم العملاء. على سبيل المثال، في اكتشاف الابتزاز، يمكن استخدام مؤشر جيني لتمييز التصاميم في تبادل البيانات والتعرف على طريقة التصرف الغريبة. في التصنيف الائتماني، يمكن استخدام مؤشر جيني للتنبؤ باحتمالية التخلف عن السداد في ضوء متغيرات مثل الدخل، وعلاقة الديون المستحقة بأخذ أجور المنزل، وسجل سداد القروض. في قسم العملاء، يمكن استخدام مؤشر جيني لتجميع العملاء في ضوء طريقة تصرفهم وميولهم.

بحث مستقبلي

على الرغم من استخدامه اللامحدود في خوارزميات شجرة القرار، لا تزال هناك درجة للبحث في مؤشر جيني. أحد مجالات البحث هو تطوير مقاييس الشوائب الجديدة التي يمكنها معالجة القيود المفروضة على مؤشر جيني، مثل ميله نحو العوامل ذات المستويات المتعددة. هناك مجال آخر للبحث وهو تبسيط خوارزميات شجرة القرار باستخدام مؤشر جيني، على سبيل المثال، استخدام تقنيات التجهيز للعمل على دقة أشجار القرار.

خاتمة

يعد مؤشر جيني مقياسًا هامًا للشوائب يُستخدم في خوارزميات شجرة القرار لمهام التصنيف. إنه يقيس احتمالية تصنيف الاختبار الذي تم اختياره عشوائيًا بشكل خاطئ بواسطة خوارزمية شجرة القرار، وتتراوح قيمته من 0 (نقي تمامًا) إلى 1 (غير نقي تمامًا). يعد مؤشر Gini واضحًا ومباشرًا ومنتجًا حسابيًا وقويًا للاستثناءات. وقد تم استخدامه في تطبيقات أخرى في التعلم الآلي، مثل اكتشاف التحريف، وتسجيل الائتمان، وتقسيم العملاء. في حين أن مؤشر جيني لديه بعض القيود، لا تزال هناك درجة للبحث عن تحسينه وتحسين مقاييس الشوائب الجديدة.