logo

خوارزمية التصنيف في التعلم الآلي

كما نعلم، يمكن تصنيف خوارزمية التعلم الآلي الخاضعة للإشراف على نطاق واسع إلى خوارزميات الانحدار والتصنيف. في خوارزميات الانحدار، توقعنا مخرجات القيم المستمرة، ولكن للتنبؤ بالقيم الفئوية، نحتاج إلى خوارزميات التصنيف.

ما هي خوارزمية التصنيف؟

خوارزمية التصنيف هي تقنية تعلم خاضعة للإشراف تُستخدم لتحديد فئة الملاحظات الجديدة على أساس بيانات التدريب. في التصنيف، يتعلم البرنامج من مجموعة البيانات أو الملاحظات المحددة ثم يصنف الملاحظة الجديدة إلى عدد من الفئات أو المجموعات. مثل، نعم أو لا، 0 أو 1، بريد عشوائي أم لا بريد عشوائي، قطة أو كلب، إلخ. يمكن تسمية الفئات كأهداف/تسميات أو فئات.

كيفية طباعة جافا

على عكس الانحدار، فإن متغير الإخراج للتصنيف هو فئة، وليس قيمة، مثل 'أخضر أو ​​أزرق'، أو 'فاكهة أو حيوان'، وما إلى ذلك. نظرًا لأن خوارزمية التصنيف هي تقنية تعلم خاضعة للإشراف، وبالتالي فهي تأخذ بيانات إدخال مصنفة، والتي يعني أنه يحتوي على مدخلات مع الإخراج المقابل.

في خوارزمية التصنيف، يتم تعيين وظيفة الإخراج المنفصلة (ص) لمتغير الإدخال (س).

 y=f(x), where y = categorical output 

أفضل مثال على خوارزمية تصنيف ML هو كاشف البريد الإلكتروني العشوائي .

الهدف الرئيسي لخوارزمية التصنيف هو تحديد فئة مجموعة بيانات معينة، وتستخدم هذه الخوارزميات بشكل أساسي للتنبؤ بمخرجات البيانات الفئوية.

يمكن فهم خوارزميات التصنيف بشكل أفضل باستخدام الرسم البياني أدناه. في الرسم البياني أدناه، هناك فئتان، الفئة (أ) والفئة (ب). تتميز هذه الفئات بميزات متشابهة مع بعضها البعض وتختلف عن الفئات الأخرى.

خوارزمية التصنيف في التعلم الآلي

تُعرف الخوارزمية التي تنفذ التصنيف على مجموعة بيانات باسم المصنف. هناك نوعان من التصنيفات:

    المصنف الثنائي:إذا كانت مشكلة التصنيف لها نتيجتين محتملتين فقط، فإنها تسمى المصنف الثنائي.
    أمثلة: نعم أو لا، ذكر أو أنثى، بريد مزعج أم لا، قطة أو كلب، وما إلى ذلك.مصنف متعدد الفئات:إذا كانت مشكلة التصنيف لها أكثر من نتيجتين، فإنها تسمى بالمصنف متعدد الفئات.
    مثال: تصنيفات أنواع المحاصيل، تصنيف أنواع الموسيقى.

المتعلمون في مشاكل التصنيف:

وفي مسائل التصنيف هناك نوعان من المتعلمين:

    المتعلمون الكسالى:يقوم Lazy Learner أولاً بتخزين مجموعة بيانات التدريب والانتظار حتى يتلقى مجموعة بيانات الاختبار. في حالة المتعلم الكسول، يتم التصنيف على أساس البيانات الأكثر صلة المخزنة في مجموعة بيانات التدريب. يستغرق وقتًا أقل في التدريب ولكنه يستغرق وقتًا أطول للتنبؤات.
    مثال: خوارزمية K-NN، والتفكير القائم على الحالةالمتعلمون المتحمسون:يقوم المتعلمون المتحمسون بتطوير نموذج تصنيف يعتمد على مجموعة بيانات التدريب قبل تلقي مجموعة بيانات الاختبار. على عكس المتعلمين الكسالى، يستغرق المتعلم المجتهد وقتًا أطول في التعلم ووقتًا أقل في التنبؤ. مثال: أشجار القرار، ساذج بايز، آن.

أنواع خوارزميات تصنيف ML:

يمكن تقسيم خوارزميات التصنيف إلى فئتين رئيسيتين:

    النماذج الخطية
    • الانحدار اللوجستي
    • دعم آلات المتجهات
    النماذج غير الخطية
    • K-أقرب الجيران
    • نواة SVM
    • ساذج بايز
    • تصنيف شجرة القرار
    • التصنيف العشوائي للغابات

ملحوظة: سوف نتعلم الخوارزميات المذكورة أعلاه في الفصول اللاحقة.

تقييم نموذج التصنيف:

بمجرد اكتمال نموذجنا، من الضروري تقييم أدائه؛ إما أنه تصنيف أو نموذج الانحدار. لذلك، لتقييم نموذج التصنيف، لدينا الطرق التالية:

1. فقدان السجل أو الخسارة عبر الإنتروبيا:

  • يتم استخدامه لتقييم أداء المصنف، الذي يكون ناتجه عبارة عن قيمة احتمالية بين 0 و 1.
  • للحصول على نموذج تصنيف ثنائي جيد، يجب أن تكون قيمة فقدان السجل قريبة من 0.
  • تزداد قيمة فقدان السجل إذا انحرفت القيمة المتوقعة عن القيمة الفعلية.
  • تمثل خسارة السجل الأقل دقة أعلى للنموذج.
  • بالنسبة للتصنيف الثنائي، يمكن حساب الإنتروبيا المتقاطعة على النحو التالي:
 ?(ylog(p)+(1?y)log(1?p)) 

حيث y = الناتج الفعلي، p = الناتج المتوقع.

مجموعة التعليمات البرمجية ج من السلاسل

2. مصفوفة الارتباك:

  • توفر لنا مصفوفة الارتباك مصفوفة/جدول كمخرجات وتصف أداء النموذج.
  • ومن المعروف أيضا باسم مصفوفة الخطأ.
  • تتكون المصفوفة من نتائج التنبؤات في شكل ملخص، والذي يحتوي على إجمالي عدد التنبؤات الصحيحة والتنبؤات غير الصحيحة. تبدو المصفوفة كما في الجدول أدناه:
الإيجابية الفعلية السلبية الفعلية
الإيجابية المتوقعة الإيجابية الحقيقية إيجابية كاذبة
سلبية متوقعة سلبي خطأ صحيح سلبي
خوارزمية التصنيف في التعلم الآلي

3. منحنى AUC-ROC:

  • يرمز منحنى ROC إلى منحنى خصائص تشغيل جهاز الاستقبال والجامعة الأمريكية بالقاهرة تعني المنطقة تحت المنحنى .
  • وهو رسم بياني يوضح أداء نموذج التصنيف عند عتبات مختلفة.
  • لتصور أداء نموذج التصنيف متعدد الفئات، نستخدم منحنى AUC-ROC.
  • يتم رسم منحنى ROC باستخدام TPR وFPR، حيث TPR (المعدل الإيجابي الحقيقي) على المحور Y وFPR (المعدل الإيجابي الخاطئ) على المحور X.

حالات استخدام خوارزميات التصنيف

يمكن استخدام خوارزميات التصنيف في أماكن مختلفة. فيما يلي بعض حالات الاستخدام الشائعة لخوارزميات التصنيف:

  • كشف البريد الإلكتروني العشوائي
  • التعرف على الكلام
  • التعرف على الخلايا السرطانية.
  • تصنيف المخدرات
  • تحديد الهوية البيومترية، الخ.