يرمز CRISP-DM إلى العملية القياسية عبر الصناعة لاستخراج البيانات. توفر منهجية CRISP-DM نهجا منظما لتخطيط مشروع استخراج البيانات. إنها منهجية قوية ومثبتة جيدًا. نحن لا ندعي أي ملكية عليه. نحن لم نخترعه نحن نعمل على تحويل التطبيق العملي القوي والمرونة والفائدة عند استخدام التحليلات لحل مشكلات العمل. إنه الخيط الذهبي الذي يمر عبر كل اجتماع مع العميل تقريبًا.
هذا النموذج هو تسلسل مثالي للأحداث. من الناحية العملية، يمكن تنفيذ العديد من المهام بترتيب مختلف، وسيكون من الضروري غالبًا الرجوع إلى المهام السابقة وتكرار إجراءات معينة. لا يحاول النموذج التقاط جميع الطرق الممكنة من خلال عملية استخراج البيانات.
كيف تساعد تقنية CRISP؟
يوفر CRISP DM خريطة طريق، ويمنحك أفضل الممارسات، ويوفر هياكل للحصول على نتائج أفضل وأسرع لاستخدام التنقيب عن البيانات، وبالتالي فهو يساعد الشركة على المتابعة أثناء التخطيط لمشروع التنقيب عن البيانات وتنفيذه.
مراحل CRISP-DM
يوفر CRISP-DM نظرة عامة على دورة حياة استخراج البيانات كنموذج للعملية. يتكون نموذج دورة الحياة من ست مراحل، مع وجود أسهم تشير إلى التبعيات الأكثر أهمية والمتكررة بين المراحل. تسلسل المراحل ليس صارما. وتتحرك معظم المشاريع ذهابًا وإيابًا بين المراحل حسب الضرورة. يتميز نموذج CRISP-DM بالمرونة ويمكن تخصيصه بسهولة.
على سبيل المثال، إذا كانت مؤسستك تهدف إلى اكتشاف عمليات غسيل الأموال، فمن المحتمل أن تقوم بتدقيق كميات كبيرة من البيانات دون هدف محدد للنمذجة. بدلاً من النمذجة، سيركز عملك على استكشاف البيانات وتصورها للكشف عن الأنماط المشبوهة في البيانات المالية. يتيح لك CRISP-DM إنشاء نموذج لاستخراج البيانات يناسب احتياجاتك.
ويتضمن وصفًا للمراحل النموذجية للمشروع، والمهام المتضمنة في كل مرحلة، وشرحًا للعلاقات بين هذه المهام.
المرحلة الأولى: فهم الأعمال
المرحلة الأولى من عملية CRISP-DM هي فهم ما تريد تحقيقه من منظور الأعمال. قد يكون لدى مؤسستك أهداف وقيود متنافسة يجب أن تكون متوازنة بشكل صحيح. تهدف مرحلة العملية هذه إلى الكشف عن العوامل المهمة التي تؤثر على نتائج المشروع. إن إهمال هذه الخطوة قد يعني بذل الكثير من الجهد لإنتاج الإجابات الصحيحة للأسئلة الخاطئة.
ما هي المخرجات المرجوة من المشروع؟
تقييم الوضع الحالي
المؤشرات في ج
يتضمن ذلك تقصي حقائق أكثر تفصيلاً حول الموارد والقيود والافتراضات والعوامل الأخرى التي ستحتاج إلى أخذها في الاعتبار عند تحديد هدف تحليل البيانات وخطة المشروع.
- الموظفون (خبراء الأعمال، خبراء البيانات، الدعم الفني، خبراء استخراج البيانات)
- البيانات (مقتطفات ثابتة، الوصول إلى البيانات الحية أو المخزنة أو التشغيلية)
- موارد الحوسبة (منصات الأجهزة)
- البرمجيات (أدوات استخراج البيانات، والبرامج الأخرى ذات الصلة)
- يشكل مسرد مصطلحات الأعمال ذات الصلة جزءًا من فهم الأعمال المتاح للمشروع. يعد إنشاء هذا المسرد تمرينًا مفيدًا في 'استخلاص المعرفة' والتمرين التعليمي.
- يتم توضيح مسرد مصطلحات استخراج البيانات مع الأمثلة ذات الصلة بمشكلة العمل.
تحديد أهداف استخراج البيانات
ينص هدف العمل على الأهداف في مصطلحات الأعمال. ينص هدف استخراج البيانات على أهداف المشروع من الناحية الفنية. على سبيل المثال، قد يكون هدف العمل هو زيادة مبيعات الكتالوج للعملاء الحاليين. قد يكون هدف استخراج البيانات هو التنبؤ بعدد الأدوات التي سيشتريها العميل، مع الأخذ في الاعتبار مشترياته على مدى السنوات الثلاث الماضية، والمعلومات الديموغرافية (العمر، الراتب، المدينة، وما إلى ذلك)، وسعر العنصر.
إنتاج خطة المشروع
وصف الخطة المقصودة لتحقيق أهداف استخراج البيانات وأهداف العمل. يجب أن تحدد خطتك الخطوات التي يجب تنفيذها خلال بقية المشروع، بما في ذلك الاختيار الأولي للأدوات والتقنيات.
1. خطة المشروع: قم بإدراج المراحل التي سيتم تنفيذها في المشروع، مع مدتها والموارد المطلوبة والمدخلات والمخرجات والتبعيات. حيثما أمكن، حاول توضيح التكرارات واسعة النطاق في عملية استخراج البيانات، على سبيل المثال، تكرار مرحلتي النمذجة والتقييم.
كجزء من خطة المشروع، من المهم تحليل التبعيات بين الجداول الزمنية والمخاطر. ضع علامة على نتائج هذه التحليلات بشكل واضح في خطة المشروع، ومن الأفضل أن تكون مع الإجراءات والتوصيات إذا ظهرت المخاطر. قرر استراتيجية التقييم التي سيتم استخدامها في مرحلة التقييم.
خوارزمية لbfs
ستكون خطة مشروعك وثيقة ديناميكية. وفي نهاية كل مرحلة، ستقوم بمراجعة التقدم والإنجازات وتحديث خطة المشروع وفقًا لذلك. يجب أن تكون نقاط المراجعة المحددة لهذه التحديثات جزءًا من خطة المشروع.
2. التقييم الأولي للأدوات والتقنيات: في نهاية المرحلة الأولى، يجب عليك إجراء تقييم أولي للأدوات والتقنيات. على سبيل المثال، يمكنك تحديد أداة استخراج البيانات التي تدعم أساليب مختلفة لمراحل مختلفة من العملية. من المهم تقييم الأدوات والتقنيات في وقت مبكر من العملية لأن اختيار الأدوات والتقنيات قد يؤثر على المشروع بأكمله.
المرحلة الثانية: فهم البيانات
تتطلب المرحلة الثانية من عملية CRISP-DM منك الحصول على البيانات المدرجة في موارد المشروع. تتضمن هذه المجموعة الأولية تحميل البيانات إذا كان ذلك ضروريًا لفهم البيانات. على سبيل المثال، إذا كنت تستخدم أداة محددة لفهم البيانات، فمن المنطقي تمامًا تحميل بياناتك في هذه الأداة. إذا حصلت على مصادر بيانات متعددة، فأنت بحاجة إلى التفكير في كيفية ومتى ستقوم بدمجها.
وصف البيانات
فحص الخصائص 'الإجمالية' أو 'السطحية' للبيانات المكتسبة وتقديم تقرير عن النتائج.
استكشاف البيانات
خلال هذه المرحلة، ستتعامل مع أسئلة استخراج البيانات باستخدام تقنيات الاستعلام وتصور البيانات وإعداد التقارير. قد تشمل هذه:
- توزيع السمات الرئيسية
- العلاقات بين أزواج أو أعداد صغيرة من السمات
- نتائج التجميعات البسيطة
- خصائص المجموعات السكانية الفرعية الهامة
- تحليلات إحصائية بسيطة
قد تتناول هذه التحليلات أهداف التنقيب عن البيانات بشكل مباشر. قد يساهمون في وصف البيانات وتقارير الجودة أو تحسينها ويغذون عملية التحويل وخطوات إعداد البيانات الأخرى اللازمة لمزيد من التحليل.
التحقق من جودة البيانات
فحص جودة البيانات، والإجابة على أسئلة مثل:
مرحبا بالعالم جافا
- هل البيانات كاملة أم أنها تغطي كافة الحالات المطلوبة؟
- هل هي صحيحة أم أنها تحتوي على أخطاء، وإذا كانت هناك أخطاء فما مدى شيوعها؟
- هل هناك قيم مفقودة في البيانات؟ إذا كان الأمر كذلك، فكيف يتم تمثيلها، وأين تحدث، وما مدى شيوعها؟
تقرير جودة البيانات
قائمة نتائج التحقق من جودة البيانات. في حالة وجود مشاكل في الجودة، اقترح الحلول الممكنة. تعتمد حلول مشكلات جودة البيانات عمومًا بشكل كبير على البيانات والمعرفة التجارية.
المرحلة 3: إعداد البيانات
في مرحلة المشروع هذه، عليك أن تقرر البيانات التي ستستخدمها للتحليل. تتضمن المعايير التي قد تستخدمها لاتخاذ هذا القرار مدى ملاءمة البيانات لأهداف استخراج البيانات، وجودة البيانات، والقيود الفنية مثل القيود المفروضة على حجم البيانات أو أنواع البيانات.
تنظيف البيانات الخاصة بك
تتضمن هذه المهمة رفع جودة البيانات إلى المستوى الذي تتطلبه تقنيات التحليل التي حددتها. وقد يتضمن ذلك اختيار مجموعات فرعية نظيفة من البيانات، أو إدراج افتراضات مناسبة، أو تقنيات أكثر طموحًا مثل تقدير البيانات المفقودة عن طريق النمذجة.
بناء البيانات المطلوبة
تتضمن هذه المهمة عمليات إعداد البيانات البناءة مثل إنتاج السمات المشتقة أو السجلات الجديدة بالكامل أو القيم المحولة للسمات الموجودة.
دمج البيانات
تجمع هذه الطرق المعلومات من قواعد بيانات أو جداول أو سجلات متعددة لإنشاء سجلات أو قيم جديدة.
المرحلة الرابعة: النمذجة
تحديد تقنية النمذجة: كخطوة أولى، ستحدد تقنية النمذجة الأساسية التي ستستخدمها. على الرغم من أنك ربما تكون قد قمت بالفعل بتحديد أداة أثناء مرحلة فهم الأعمال، إلا أنه في هذه المرحلة، ستختار تقنية النمذجة المحددة، على سبيل المثال. بناء شجرة القرار باستخدام C5.0 أو إنشاء شبكة عصبية مع الانتشار الخلفي. إذا تم تطبيق تقنيات متعددة، قم بتنفيذ هذه المهمة بشكل منفصل لكل تقنية.
إنشاء تصميم الاختبار
قبل أن تقوم ببناء نموذج، تحتاج إلى إنشاء إجراء أو آلية لاختبار جودة النموذج وصلاحيته. على سبيل المثال، في مهام التنقيب عن البيانات الخاضعة للإشراف مثل التصنيف، من الشائع استخدام معدلات الخطأ كمقاييس الجودة لنماذج التنقيب عن البيانات. لذلك، عادةً ما تقوم بفصل مجموعة البيانات إلى مجموعات تدريب واختبار، وبناء النموذج على مجموعة القطار، وتقدير جودته على مجموعة اختبار منفصلة.
بناء النموذج
قم بتشغيل أداة النمذجة على مجموعة البيانات المعدة لإنشاء نموذج واحد أو أكثر.
هي أمثلة نموذجية
نموذج التقييم
قم بتفسير النماذج وفقًا لمعرفتك بالمجال الخاص بك، ومعايير نجاح استخراج البيانات، وتصميم الاختبار المطلوب. الحكم على مدى نجاح تطبيق تقنيات النمذجة والاكتشاف، ثم الاتصال بمحللي الأعمال وخبراء المجال لاحقًا لمناقشة نتائج استخراج البيانات في سياق الأعمال. تأخذ هذه المهمة في الاعتبار النماذج فقط، بينما تأخذ مرحلة التقييم أيضًا في الاعتبار جميع النتائج الأخرى التي تم إنتاجها خلال المشروع.
في هذه المرحلة يجب عليك ترتيب النماذج وتقييمها حسب معايير التقييم. يجب عليك أن تفكر في أهداف العمل ومعايير النجاح بقدر ما تستطيع هنا. في معظم مشاريع استخراج البيانات، يتم تطبيق تقنية واحدة أكثر من مرة، ويتم إنشاء نتائج استخراج البيانات باستخدام عدة تقنيات مختلفة.
المرحلة الخامسة: التقييم
تقييم نتائجك: خطوات التقييم السابقة تناولت عوامل مثل دقة وعمومية النموذج. خلال هذه الخطوة، ستقوم بتقييم مدى تلبية النموذج لأهداف عملك وستسعى إلى تحديد ما إذا كان هناك سبب تجاري وراء نقص هذا النموذج. هناك خيار آخر وهو اختبار النموذج على تطبيقات الاختبار في التطبيق الحقيقي إذا سمحت قيود الوقت والميزانية بذلك. تتضمن مرحلة التقييم أيضًا تقييم أي نتائج أخرى لاستخراج البيانات قمت بإنشائها. تتضمن نتائج استخراج البيانات نماذج ترتبط بالضرورة بأهداف العمل الأصلية وجميع النتائج الأخرى التي لا ترتبط بالضرورة بأهداف العمل الأصلية ولكنها قد تكشف أيضًا عن تحديات أو معلومات أو تلميحات إضافية للاتجاهات المستقبلية.
عملية الاستعراض
وفي هذه المرحلة، تبدو النماذج الناتجة مرضية وتلبي احتياجات العمل. من المناسب لك الآن إجراء مراجعة أكثر شمولاً لمشاركة استخراج البيانات لتحديد ما إذا كان هناك عامل أو مهمة مهمة تم التغاضي عنها بطريقة أو بأخرى. وتغطي هذه المراجعة أيضًا قضايا ضمان الجودة. على سبيل المثال: هل قمنا ببناء النموذج بشكل صحيح؟ هل استخدمنا فقط السمات المسموح لنا باستخدامها والمتاحة للتحليلات المستقبلية؟
تحديد الخطوات التالية
أنت الآن تقرر كيفية المتابعة اعتمادًا على نتائج التقييم ومراجعة العملية. هل تنتهي من هذا المشروع وتنتقل إلى النشر، أو تبدأ المزيد من التكرارات، أو تقوم بإعداد مشاريع جديدة لاستخراج البيانات؟ يجب عليك أيضًا تقييم مواردك وميزانيتك المتبقية، مما قد يؤثر على قراراتك.
المرحلة 6: النشر
نشر الخطة: في مرحلة النشر، ستأخذ نتائج التقييم الخاصة بك وتحدد استراتيجية لنشرها. إذا تم تحديد إجراء عام لإنشاء النموذج (النماذج) ذي الصلة، فسيتم توثيق هذا الإجراء هنا للنشر لاحقًا. من المنطقي النظر في طرق ووسائل النشر أثناء مرحلة فهم الأعمال لأن النشر أمر بالغ الأهمية لنجاح المشروع. هذا هو المكان الذي تساعد فيه التحليلات التنبؤية على تحسين الجانب التشغيلي لشركتك.
مراقبة الخطة وصيانتها
تعد المراقبة والصيانة من القضايا المهمة إذا أصبحت نتيجة استخراج البيانات جزءًا من الأعمال اليومية وبيئتها. يساعد الإعداد الدقيق لاستراتيجية الصيانة على تجنب فترات طويلة غير ضرورية من الاستخدام غير الصحيح لنتائج استخراج البيانات. يحتاج المشروع إلى خطة عملية مراقبة مفصلة لمراقبة نشر نتائج (نتائج) استخراج البيانات. تأخذ هذه الخطة في الاعتبار نوع النشر المحدد.
إنتاج التقرير النهائي
في نهاية المشروع، سوف تكتب التقرير النهائي. اعتمادًا على خطة النشر، قد يكون هذا التقرير مجرد ملخص للمشروع وتجاربه (إذا لم يتم توثيقها بالفعل كنشاط مستمر)، أو قد يكون عرضًا نهائيًا وشاملاً لنتيجة استخراج البيانات.
مراجعة المشروع
تحويل سلسلة إلى كثافة العمليات
قم بتقييم ما حدث بشكل صحيح وما هو خطأ، وما تم القيام به بشكل جيد وما يحتاج إلى تحسين.