logo

التحيز والتباين في التعلم الآلي

التعلم الآلي هو أحد فروع الذكاء الاصطناعي، والذي يسمح للآلات بإجراء تحليل البيانات والتنبؤات. ومع ذلك، إذا لم يكن نموذج التعلم الآلي دقيقًا، فيمكن أن يحدث أخطاء في التنبؤات، وعادةً ما تُعرف أخطاء التنبؤ هذه باسم التحيز والتباين. في التعلم الآلي، ستكون هذه الأخطاء موجودة دائمًا حيث يوجد دائمًا اختلاف طفيف بين تنبؤات النموذج والتنبؤات الفعلية. الهدف الرئيسي لمحللي ML/علم البيانات هو تقليل هذه الأخطاء من أجل الحصول على نتائج أكثر دقة. في هذا الموضوع، سنناقش التحيز والتباين، ومفاضلة التحيز والتباين، وعدم التجهيز والتجهيز الزائد. ولكن قبل البدء، دعونا أولاً نفهم ما هي الأخطاء في التعلم الآلي؟

التحيز والتباين في التعلم الآلي

أخطاء في التعلم الآلي؟

في التعلم الآلي، الخطأ هو مقياس لمدى دقة الخوارزمية في إجراء تنبؤات لمجموعة البيانات غير المعروفة سابقًا. وعلى أساس هذه الأخطاء، يتم تحديد نموذج التعلم الآلي الذي يمكنه الأداء الأفضل على مجموعة بيانات معينة. هناك نوعان رئيسيان من الأخطاء في التعلم الآلي، وهما:

    الأخطاء القابلة للتقليل:يمكن تقليل هذه الأخطاء لتحسين دقة النموذج. يمكن أيضًا تصنيف هذه الأخطاء إلى تحيز وتباين.
    التحيز والتباين في التعلم الآلي أخطاء لا يمكن إنقاصها:ستكون هذه الأخطاء موجودة دائمًا في النموذج

بغض النظر عن الخوارزمية التي تم استخدامها. سبب هذه الأخطاء هو المتغيرات غير المعروفة التي لا يمكن تخفيض قيمتها.

ما هو التحيز؟

بشكل عام، يقوم نموذج التعلم الآلي بتحليل البيانات والعثور على الأنماط فيها وإجراء التنبؤات. أثناء التدريب، يتعلم النموذج هذه الأنماط في مجموعة البيانات ويطبقها على بيانات الاختبار للتنبؤ. أثناء إجراء التنبؤات، يحدث فرق بين قيم التنبؤ التي يقدمها النموذج والقيم الفعلية/القيم المتوقعة , ويعرف هذا الاختلاف بأخطاء التحيز أو الأخطاء الناتجة عن التحيز . يمكن تعريفه على أنه عدم قدرة خوارزميات التعلم الآلي مثل الانحدار الخطي على التقاط العلاقة الحقيقية بين نقاط البيانات. تبدأ كل خوارزمية بقدر معين من التحيز لأن التحيز يحدث من الافتراضات الموجودة في النموذج، مما يجعل الوظيفة المستهدفة سهلة التعلم. النموذج لديه إما:

هندسة جافا
    انحياز منخفض:سيقدم نموذج التحيز المنخفض افتراضات أقل حول شكل الوظيفة المستهدفة.التحيز العالي:النموذج ذو التحيز العالي يقدم المزيد من الافتراضات، ويصبح النموذج غير قادر على التقاط الميزات المهمة لمجموعة البيانات الخاصة بنا. لا يمكن لنموذج التحيز العالي أيضًا أن يؤدي أداءً جيدًا على البيانات الجديدة.

بشكل عام، تتميز الخوارزمية الخطية بتحيز عالٍ، لأنها تجعلها تتعلم بسرعة. كلما كانت الخوارزمية أبسط، زاد احتمال تقديمها للتحيز. في حين أن الخوارزمية غير الخطية غالبًا ما تكون ذات انحياز منخفض.

بعض الأمثلة على خوارزميات التعلم الآلي ذات التحيز المنخفض هي أشجار القرار وأقرب الجيران وآلات ناقل الدعم . في الوقت نفسه، هناك خوارزمية ذات انحياز عالي الانحدار الخطي والتحليل التمييزي الخطي والانحدار اللوجستي.

طرق تقليل التحيز العالي:

يحدث التحيز العالي بشكل رئيسي بسبب نموذج بسيط للغاية. فيما يلي بعض الطرق لتقليل التحيز العالي:

  • قم بزيادة ميزات الإدخال حيث أن النموذج غير مناسب.
  • تقليل مدة التسوية.
  • استخدم نماذج أكثر تعقيدًا، مثل تضمين بعض ميزات متعددة الحدود.

ما هو خطأ التباين؟

سيحدد التباين مقدار التباين في التنبؤ إذا تم استخدام بيانات التدريب المختلفة. بكلمات بسيطة، يخبرنا التباين بمدى اختلاف المتغير العشوائي عن قيمته المتوقعة. من الناحية المثالية، لا ينبغي أن يختلف النموذج كثيرًا من مجموعة بيانات تدريبية إلى أخرى، مما يعني أن الخوارزمية يجب أن تكون جيدة في فهم التعيين المخفي بين متغيرات المدخلات والمخرجات. أخطاء التباين إما التباين المنخفض أو التباين العالي.

تباين منخفض يعني أن هناك اختلافًا بسيطًا في التنبؤ بالوظيفة المستهدفة مع حدوث تغييرات في مجموعة بيانات التدريب. في نفس الوقت، التباين العالي يُظهر تباينًا كبيرًا في التنبؤ بالوظيفة المستهدفة مع التغييرات في مجموعة بيانات التدريب.

النموذج الذي يُظهر تباينًا عاليًا يتعلم الكثير ويؤدي أداءً جيدًا مع مجموعة بيانات التدريب، ولا يعمم بشكل جيد مع مجموعة البيانات غير المرئية. ونتيجة لذلك، فإن هذا النموذج يعطي نتائج جيدة مع مجموعة بيانات التدريب ولكنه يظهر معدلات خطأ عالية في مجموعة بيانات الاختبار.

نظرًا لأن النموذج، مع التباين العالي، يتعلم الكثير من مجموعة البيانات، فإنه يؤدي إلى الإفراط في تجهيز النموذج. النموذج ذو التباين العالي لديه المشاكل التالية:

  • يؤدي نموذج التباين العالي إلى التجهيز الزائد.
  • زيادة تعقيدات النموذج.

عادة، تتمتع الخوارزميات غير الخطية بقدر كبير من المرونة لتناسب النموذج، ولها تباين كبير.

قائمة مرتبطة
التحيز والتباين في التعلم الآلي

بعض الأمثلة على خوارزميات التعلم الآلي ذات التباين المنخفض هي: الانحدار الخطي، الانحدار اللوجستي، والتحليل التمييزي الخطي . في نفس الوقت، الخوارزميات ذات التباين العالي هي شجرة القرار، وآلة ناقل الدعم، وأقرب الجيران.

طرق لتقليل التباين العالي:

  • قم بتقليل ميزات الإدخال أو عدد المعلمات عند زيادة تجهيز النموذج.
  • لا تستخدم نموذجًا معقدًا كثيرًا.
  • زيادة بيانات التدريب.
  • زيادة مدة التنظيم.

مجموعات مختلفة من التحيز والتباين

هناك أربع مجموعات محتملة من التحيز والتباين، والتي يمثلها الرسم البياني أدناه:

التحيز والتباين في التعلم الآلي
    التحيز المنخفض والتباين المنخفض:
    يُظهر الجمع بين التحيز المنخفض والتباين المنخفض نموذجًا مثاليًا للتعلم الآلي. ومع ذلك، فإنه ليس من الممكن عمليا.التحيز المنخفض والتباين العالي:مع التحيز المنخفض والتباين العالي، تكون تنبؤات النماذج غير متسقة ودقيقة في المتوسط. تحدث هذه الحالة عندما يتعلم النموذج باستخدام عدد كبير من المعلمات، وبالتالي يؤدي إلى حدوث خطأ التجهيز الزائد التحيز العالي والتباين المنخفض:مع التحيز العالي والتباين المنخفض، تكون التنبؤات متسقة ولكنها غير دقيقة في المتوسط. تحدث هذه الحالة عندما لا يتعلم النموذج جيدًا باستخدام مجموعة بيانات التدريب أو يستخدم أرقامًا قليلة من المعلمة. يؤدي إلى غير مناسب مشاكل في النموذج.التحيز العالي والتباين العالي:
    مع التحيز العالي والتباين العالي، تكون التنبؤات غير متسقة وغير دقيقة أيضًا في المتوسط.

كيفية التعرف على التباين العالي أو التحيز العالي؟

يمكن تحديد التباين العالي إذا كان النموذج يحتوي على:

التحيز والتباين في التعلم الآلي
  • خطأ تدريب منخفض وخطأ اختبار مرتفع.

يمكن تحديد التحيز العالي إذا كان النموذج يحتوي على:

  • ارتفاع خطأ التدريب وخطأ الاختبار يشبه تقريبًا خطأ التدريب.

مقايضة التحيز والتباين

أثناء بناء نموذج التعلم الآلي، من المهم حقًا الاهتمام بالتحيز والتباين لتجنب الإفراط في التجهيز أو النقص في النموذج. إذا كان النموذج بسيطًا جدًا مع عدد أقل من المعلمات، فقد يكون به تباين منخفض وتحيز عالي. في حين أنه إذا كان النموذج يحتوي على عدد كبير من المعلمات، فسيكون له تباين عالي وانحياز منخفض. لذا لا بد من تحقيق التوازن بين أخطاء التحيز وأخطاء التباين، وهذا التوازن بين خطأ التحيز وخطأ التباين يعرف باسم مقايضة التحيز والتباين.

التحيز والتباين في التعلم الآلي

للتنبؤ الدقيق للنموذج، تحتاج الخوارزميات إلى تباين منخفض وتحيز منخفض. لكن هذا غير ممكن لأن التحيز والتباين مرتبطان ببعضهما البعض:

كيفية القراءة من ملف CSV في جافا
  • إذا قمنا بتقليل التباين، فسيزيد التحيز.
  • إذا قمنا بتقليل التحيز، فسيزيد التباين.

تعد مقايضة التحيز والتباين قضية مركزية في التعلم الخاضع للإشراف. من الناحية المثالية، نحن بحاجة إلى نموذج يلتقط بدقة الانتظام في بيانات التدريب ويعمم بشكل جيد في نفس الوقت مع مجموعة البيانات غير المرئية. ولسوء الحظ، فإن القيام بذلك غير ممكن في وقت واحد. لأن خوارزمية التباين العالي قد تؤدي أداءً جيدًا مع بيانات التدريب، ولكنها قد تؤدي إلى الإفراط في التناسب مع البيانات المزعجة. حيث أن خوارزمية التحيز العالي تولد نموذجًا بسيطًا للغاية قد لا يلتقط حتى الانتظامات المهمة في البيانات. لذلك، نحن بحاجة إلى إيجاد نقطة جيدة بين التحيز والتباين لصنع النموذج الأمثل.

وبالتالي، تتعلق مقايضة التحيز والتباين بإيجاد النقطة المثالية لتحقيق التوازن بين أخطاء التحيز والتباين.