كما نعلم، يمكن تصنيف خوارزمية التعلم الآلي الخاضعة للإشراف على نطاق واسع إلى خوارزميات الانحدار والتصنيف. في خوارزميات الانحدار، توقعنا مخرجات القيم المستمرة، ولكن للتنبؤ بالقيم الفئوية، نحتاج إلى خوارزميات التصنيف.
ما هي خوارزمية التصنيف؟
خوارزمية التصنيف هي تقنية تعلم خاضعة للإشراف تُستخدم لتحديد فئة الملاحظات الجديدة على أساس بيانات التدريب. في التصنيف، يتعلم البرنامج من مجموعة البيانات أو الملاحظات المحددة ثم يصنف الملاحظة الجديدة إلى عدد من الفئات أو المجموعات. مثل، نعم أو لا، 0 أو 1، بريد عشوائي أم لا بريد عشوائي، قطة أو كلب، إلخ. يمكن تسمية الفئات كأهداف/تسميات أو فئات.
كيفية طباعة جافا
على عكس الانحدار، فإن متغير الإخراج للتصنيف هو فئة، وليس قيمة، مثل 'أخضر أو أزرق'، أو 'فاكهة أو حيوان'، وما إلى ذلك. نظرًا لأن خوارزمية التصنيف هي تقنية تعلم خاضعة للإشراف، وبالتالي فهي تأخذ بيانات إدخال مصنفة، والتي يعني أنه يحتوي على مدخلات مع الإخراج المقابل.
في خوارزمية التصنيف، يتم تعيين وظيفة الإخراج المنفصلة (ص) لمتغير الإدخال (س).
y=f(x), where y = categorical output
أفضل مثال على خوارزمية تصنيف ML هو كاشف البريد الإلكتروني العشوائي .
الهدف الرئيسي لخوارزمية التصنيف هو تحديد فئة مجموعة بيانات معينة، وتستخدم هذه الخوارزميات بشكل أساسي للتنبؤ بمخرجات البيانات الفئوية.
يمكن فهم خوارزميات التصنيف بشكل أفضل باستخدام الرسم البياني أدناه. في الرسم البياني أدناه، هناك فئتان، الفئة (أ) والفئة (ب). تتميز هذه الفئات بميزات متشابهة مع بعضها البعض وتختلف عن الفئات الأخرى.
تُعرف الخوارزمية التي تنفذ التصنيف على مجموعة بيانات باسم المصنف. هناك نوعان من التصنيفات:
أمثلة: نعم أو لا، ذكر أو أنثى، بريد مزعج أم لا، قطة أو كلب، وما إلى ذلك.
مثال: تصنيفات أنواع المحاصيل، تصنيف أنواع الموسيقى.
المتعلمون في مشاكل التصنيف:
وفي مسائل التصنيف هناك نوعان من المتعلمين:
مثال: خوارزمية K-NN، والتفكير القائم على الحالة
أنواع خوارزميات تصنيف ML:
يمكن تقسيم خوارزميات التصنيف إلى فئتين رئيسيتين:
- الانحدار اللوجستي
- دعم آلات المتجهات
- K-أقرب الجيران
- نواة SVM
- ساذج بايز
- تصنيف شجرة القرار
- التصنيف العشوائي للغابات
ملحوظة: سوف نتعلم الخوارزميات المذكورة أعلاه في الفصول اللاحقة.
تقييم نموذج التصنيف:
بمجرد اكتمال نموذجنا، من الضروري تقييم أدائه؛ إما أنه تصنيف أو نموذج الانحدار. لذلك، لتقييم نموذج التصنيف، لدينا الطرق التالية:
1. فقدان السجل أو الخسارة عبر الإنتروبيا:
- يتم استخدامه لتقييم أداء المصنف، الذي يكون ناتجه عبارة عن قيمة احتمالية بين 0 و 1.
- للحصول على نموذج تصنيف ثنائي جيد، يجب أن تكون قيمة فقدان السجل قريبة من 0.
- تزداد قيمة فقدان السجل إذا انحرفت القيمة المتوقعة عن القيمة الفعلية.
- تمثل خسارة السجل الأقل دقة أعلى للنموذج.
- بالنسبة للتصنيف الثنائي، يمكن حساب الإنتروبيا المتقاطعة على النحو التالي:
?(ylog(p)+(1?y)log(1?p))
حيث y = الناتج الفعلي، p = الناتج المتوقع.
مجموعة التعليمات البرمجية ج من السلاسل
2. مصفوفة الارتباك:
- توفر لنا مصفوفة الارتباك مصفوفة/جدول كمخرجات وتصف أداء النموذج.
- ومن المعروف أيضا باسم مصفوفة الخطأ.
- تتكون المصفوفة من نتائج التنبؤات في شكل ملخص، والذي يحتوي على إجمالي عدد التنبؤات الصحيحة والتنبؤات غير الصحيحة. تبدو المصفوفة كما في الجدول أدناه:
الإيجابية الفعلية | السلبية الفعلية | |
---|---|---|
الإيجابية المتوقعة | الإيجابية الحقيقية | إيجابية كاذبة |
سلبية متوقعة | سلبي خطأ | صحيح سلبي |
3. منحنى AUC-ROC:
- يرمز منحنى ROC إلى منحنى خصائص تشغيل جهاز الاستقبال والجامعة الأمريكية بالقاهرة تعني المنطقة تحت المنحنى .
- وهو رسم بياني يوضح أداء نموذج التصنيف عند عتبات مختلفة.
- لتصور أداء نموذج التصنيف متعدد الفئات، نستخدم منحنى AUC-ROC.
- يتم رسم منحنى ROC باستخدام TPR وFPR، حيث TPR (المعدل الإيجابي الحقيقي) على المحور Y وFPR (المعدل الإيجابي الخاطئ) على المحور X.
حالات استخدام خوارزميات التصنيف
يمكن استخدام خوارزميات التصنيف في أماكن مختلفة. فيما يلي بعض حالات الاستخدام الشائعة لخوارزميات التصنيف:
- كشف البريد الإلكتروني العشوائي
- التعرف على الكلام
- التعرف على الخلايا السرطانية.
- تصنيف المخدرات
- تحديد الهوية البيومترية، الخ.