logo

خوارزمية أبريوري

تشير خوارزمية Apriori إلى الخوارزمية المستخدمة لحساب قواعد الارتباط بين الكائنات. ويعني كيفية ارتباط كائنين أو أكثر ببعضهما البعض. بمعنى آخر، يمكننا القول أن خوارزمية apriori هي قاعدة ارتباط تحلل أن الأشخاص الذين اشتروا المنتج A اشتروا أيضًا المنتج B.

الهدف الأساسي لخوارزمية apriori هو إنشاء قاعدة الارتباط بين الكائنات المختلفة. تصف قاعدة الارتباط كيفية ارتباط كائنين أو أكثر ببعضهما البعض. تسمى خوارزمية Apriori أيضًا بالتعدين المتكرر للنمط. بشكل عام، تقوم بتشغيل خوارزمية Apriori على قاعدة بيانات تتكون من عدد كبير من المعاملات. دعونا نفهم خوارزمية apriori بمساعدة مثال؛ لنفترض أنك ذهبت إلى Big Bazar واشتريت منتجات مختلفة. فهو يساعد العملاء على شراء منتجاتهم بسهولة ويزيد من أداء المبيعات في Big Bazar. في هذا البرنامج التعليمي، سنناقش خوارزمية apriori مع الأمثلة.

مقدمة

نأخذ مثالا لفهم المفهوم بشكل أفضل. لا بد أنك لاحظت أن بائع متجر البيتزا يقوم بإعداد مجموعة من البيتزا والمشروبات الغازية وأعواد الخبز معًا. كما يقدم خصمًا لعملائه الذين يشترون هذه المجموعات. هل فكرت يومًا لماذا يفعل ذلك؟ ويعتقد أن العملاء الذين يشترون البيتزا يشترون أيضًا المشروبات الغازية وأعواد الخبز. ومع ذلك، من خلال إنشاء المجموعات، فإنه يسهل الأمر على العملاء. وفي الوقت نفسه، يزيد أيضًا من أداء مبيعاته.

وبالمثل، إذا ذهبت إلى Big Bazar، فستجد البسكويت ورقائق البطاطس والشوكولاتة مجمعة معًا. إنه يوضح أن صاحب المتجر يجعل من السهل على العملاء شراء هذه المنتجات في نفس المكان.

المثالان أعلاه هما أفضل الأمثلة على قواعد الارتباط في

  • يدعم
  • ثقة
  • يرفع
  • لنأخذ مثالا لفهم هذا المفهوم.

    لقد ناقشنا بالفعل أعلاه؛ أنت بحاجة إلى قاعدة بيانات ضخمة تحتوي على عدد كبير من المعاملات. لنفترض أن لديك 4000 معاملة عملاء في Big Bazar. عليك أن تحسب الدعم والثقة والرفع لمنتجين، ويمكنك أن تقول البسكويت والشوكولاتة. وذلك لأن العملاء كثيرًا ما يشترون هذين العنصرين معًا.

    حاول التقاط جافا

    ومن بين 4000 معاملة، 400 معاملة تحتوي على بسكويت، و600 معاملة تحتوي على شوكولاتة، وهذه المعاملات الـ 600 تشمل 200 معاملة تحتوي على بسكويت وشوكولاتة. وباستخدام هذه البيانات سنكتشف الدعم والثقة والرفع.

    يدعم

    يشير الدعم إلى الشعبية الافتراضية لأي منتج. تجد الدعم كحاصل قسمة عدد المعاملات التي يشتمل عليها هذا المنتج على إجمالي عدد المعاملات. ومن هنا نحصل على

    الدعم (البسكويت) = (المعاملات المتعلقة بالبسكويت) / (إجمالي المعاملات)

    = 400/4000 = 10 بالمئة.

    ثقة

    تشير الثقة إلى احتمال قيام العملاء بشراء البسكويت والشوكولاتة معًا. لذلك، تحتاج إلى تقسيم عدد المعاملات التي تشمل كلاً من البسكويت والشوكولاتة على إجمالي عدد المعاملات للحصول على الثقة.

    لذلك،

    الثقة = (المعاملات المتعلقة بكل من البسكويت والشوكولاتة) / (إجمالي المعاملات المتعلقة بالبسكويت)

    = 200/400

    = 50 بالمائة.

    وهذا يعني أن 50 بالمائة من العملاء الذين اشتروا البسكويت اشتروا الشوكولاتة أيضًا.

    يرفع

    النظر في المثال أعلاه؛ يشير الرفع إلى زيادة نسبة بيع الشوكولاتة عند بيع البسكويت. المعادلات الرياضية للرفع موضحة أدناه.

    الرفع = (الثقة (البسكويت - الشوكولاتة)/ (الدعم (البسكويت)

    = 50/10 = 5

    وهذا يعني أن احتمال شراء الأشخاص لكل من البسكويت والشوكولاتة معًا يزيد بخمس مرات عن احتمال شراء البسكويت وحده. إذا كانت قيمة الرفع أقل من واحد، فهذا يتطلب أنه من غير المرجح أن يشتري الأشخاص كلا العنصرين معًا. كلما كانت القيمة أكبر، كلما كان الجمع أفضل.

    كيف تعمل خوارزمية Apriori في التنقيب عن البيانات؟

    سوف نفهم هذه الخوارزمية بمساعدة مثال

    فكر في سيناريو Big Bazar حيث تكون مجموعة المنتجات P = {Rice, Pulse, Oil, Milk, Apple}. تشتمل قاعدة البيانات على ستة معاملات حيث يمثل 1 وجود المنتج ويمثل 0 غياب المنتج.

    رقم المعاملة أرز نبض حليب زيت تفاحة
    t1 1 1 1 0 0
    t2 0 1 1 1 0
    t3 0 0 0 1 1
    t4 1 1 0 1 0
    t5 1 1 1 0 1
    t6 1 1 1 1 1

    خوارزمية Apriori تضع الافتراضات المعطاة

    • يجب أن تكون جميع المجموعات الفرعية لمجموعة العناصر المتكررة متكررة.
    • يجب أن تكون المجموعات الفرعية لمجموعة العناصر غير المتكررة غير متكررة.
    • إصلاح مستوى دعم العتبة. وفي حالتنا، حددنا النسبة عند 50 بالمائة.

    الخطوة 1

    قم بعمل جدول تكراري لجميع المنتجات التي تظهر في جميع المعاملات. والآن، قم باختصار الجدول التكراري لإضافة تلك المنتجات التي تتمتع بمستوى دعم عتبة يزيد عن 50 بالمائة فقط. نجد الجدول التكراري المحدد.

    منتج التكرار (عدد المعاملات)
    أرز (ر) 4
    نبض (ف) 5
    النفط (س) 4
    الحليب (م) 4

    يوضح الجدول أعلاه المنتجات التي يشتريها العملاء بشكل متكرر.

    الخطوة 2

    بيثون الجمل

    قم بإنشاء أزواج من المنتجات مثل RP وRO وRM وPO وPM وOM. سوف تحصل على الجدول التكراري المحدد.

    مجموعة العناصر التكرار (عدد المعاملات)
    ر.ب 4
    ريال عماني 3
    آر إم 2
    بعد 4
    مساءً 3
    عن 2

    الخطوه 3

    تنفيذ نفس عتبة الدعم البالغة 50 بالمائة والنظر في المنتجات التي تزيد عن 50 بالمائة. وفي حالتنا أكثر من 3

    وبالتالي، نحصل على RP، RO، PO، وPM

    الخطوة 4

    الآن، ابحث عن مجموعة مكونة من ثلاثة منتجات يشتريها العملاء معًا. نحصل على المجموعة المعطاة.

    1. RP وRO يعطيان RPO
    2. PO و PM يعطيان POM

    الخطوة 5

    احسب تكرار مجموعتي العناصر، وستحصل على الجدول التكراري المحدد.

    مجموعة العناصر التكرار (عدد المعاملات)
    RPO 4
    بوم 3

    إذا قمت بتنفيذ افتراض الحد الأدنى، فيمكنك معرفة أن مجموعة العملاء المكونة من ثلاثة منتجات هي RPO.

    لقد نظرنا في مثال سهل لمناقشة خوارزمية apriori في استخراج البيانات. في الواقع، تجد الآلاف من هذه المجموعات.

    كيفية تحسين كفاءة خوارزمية Apriori؟

    هناك طرق مختلفة تستخدم لكفاءة خوارزمية Apriori

    عد مجموعة العناصر على أساس التجزئة

    في حساب مجموعة العناصر المستندة إلى التجزئة، تحتاج إلى استبعاد مجموعة عناصر k التي يكون عدد دلو التجزئة المكافئ لها أقل من الحد الأدنى لمجموعة عناصر نادرة.

    تخفيض المعاملات

    في عملية تقليل المعاملات، تصبح المعاملة التي لا تتضمن أي مجموعة عناصر X متكررة غير ذات قيمة في عمليات الفحص اللاحقة.

    خوارزمية Apriori في استخراج البيانات

    لقد ناقشنا بالفعل مثالاً لخوارزمية apriori المتعلقة بتوليد مجموعة العناصر المتكررة. لخوارزمية Apriori العديد من التطبيقات في مجال التنقيب عن البيانات.

    فيما يلي المتطلبات الأساسية للعثور على قواعد الارتباط في استخراج البيانات.

    استخدم القوة الغاشمة

    قم بتحليل جميع القواعد وابحث عن مستويات الدعم والثقة للقاعدة الفردية. وبعد ذلك، قم بإزالة القيم التي تكون أقل من مستويات الدعم والثقة.

    النهج ذو الخطوتين

    يعد النهج المكون من خطوتين خيارًا أفضل للعثور على قواعد الارتباطات من أسلوب القوة الغاشمة.

    الخطوة 1

    في هذه المقالة، ناقشنا بالفعل كيفية إنشاء الجدول التكراري وحساب مجموعات العناصر التي لها قيمة دعم أكبر من قيمة دعم العتبة.

    الخطوة 2

    لإنشاء قواعد اقتران، تحتاج إلى استخدام قسم ثنائي لمجموعات العناصر المتكررة. تحتاج إلى اختيار الأشخاص الذين يتمتعون بأعلى مستويات الثقة.

    شيء فرز سريع

    في المثال أعلاه، يمكنك أن ترى أن مجموعة RPO كانت مجموعة العناصر المتكررة. الآن، نكتشف جميع القواعد باستخدام RPO.

    RP-O، RO-P، PO-R، O-RP، P-RO، R-PO

    يمكنك أن ترى أن هناك ست مجموعات مختلفة. لذلك، إذا كان لديك n من العناصر، فسيكون هناك 2ن- 2 قواعد رابطة المرشحين.

    مزايا خوارزمية Apriori

    • يتم استخدامه لحساب مجموعات العناصر الكبيرة.
    • سهلة الفهم والتطبيق.

    عيوب خوارزميات Apriori

    • تعد خوارزمية Apriori طريقة مكلفة للعثور على الدعم نظرًا لأن الحساب يجب أن يمر عبر قاعدة البيانات بأكملها.
    • في بعض الأحيان، تحتاج إلى عدد كبير من القواعد المرشحة، لذلك يصبح الأمر أكثر تكلفة من الناحية الحسابية.