تفاوت فرایندکاوی با داده‌کاوی
16/06/1401 - 13:10
فرآیندکاوی چیست و چه نقشی در دنیای کسب و کار دارد؟
این روزها بازار تحلیل و پردازش داده‌ها حسابی داغ است و ابزارها و روش‌های مختلفی برای تحلیل موشکافانه داده‌ها ارائه می‌شوند. در حالی که بخش عمده‌ای از کاربران با مفهوم داده‌کاوی و متن‌کاوی آشنایی دارند، شاید برخی با علم فرآیندکاوی آشنایی چندانی نداشته باشند. در این مطلب به شکل اجمالی با این مفهوم آشنا می‌شویم.

1606683296_1_0.gif

فرآیندکاوی چیست؟

در داده‌کاوی معمولا مدل‌ها برای پیش‌بینی نمونه‌های مشابه در آینده استفاده می‌شوند. در واقع روش‌های داده‌کاوی و یادگیری ماشین کمی وجود دارند که مانند یک جعبه سیاه پیش‌بینی‌هایی تولید می‌کنند بدون اینکه امکان برگشت به عقب یا بیان علت آن‌ها را داشته باشند. از آنجا که فرایندهای تجاری کنونی خیلی پیچیده هستند پیش‌بینی‌های دقیق معمولا غیرواقعی هستند. دانش به‌دست آمده و بینش عمیق‌تر نسبت به الگوهای و فرایندهای کشف شده به رفع پیچیدگی کمک خواهد کرد؛ بنابراین اگرچه داده‌کاوی و فرایندکاوی مشترکات زیادی دارند اما تفاوت‌های پایه‌ای بین آن‌ها در کاری که انجام می‌دهند و جایی که مورد استفاده قرار می‌گیرند وجود دارد. فرایندکاوی (Process mining) علم تقریبا نوظهوری است که میان هوش محاسباتی و داده‌کاوی و مدل‌سازی و تحلیل فرایندهای سازمان قرار می‌گیرد. هدف فرآیندکاوی، کشف، نظارت و بهبود فرایندهای واقعی از طریق استخراج دانش از داده‌های ذخیره شده در سیستم‌های اطلاعاتی است. فرآیندکاوی بیشتر به تحلیل فرایندها با استفاده از گزارش‌های رخدادها می‌پردازد. تکنیک‌های کلاسیک داده‌کاوی نظیر خوشه‌بندی، طبقه‌بندی، انجمن‌یابی و غیره روی مدل‌های فرایند تمرکز ندارند و فقط برای تحلیل گام مشخصی در فرایند کلی استفاده می‌شوند. فرآیندکاوی دیدگاه فرآیندی را به داده‌کاوی اضافه می‌کند. تکنیک‌های فرایندکاوی از داده‌های رخدادهای ثبت شده برای کشف و تحلیل و بهبود فرآیند استفاده می‌کنند. هر رخداد ثبت شده به یک فعالیت اشاره دارد و مرتبط با یک نمونه فرآیند می‌باشد.

فرآیندکاوی چگونه انجام می‌شود؟ 

روش‌های فرایندکاوی، براساس داده‌های رخداد به سه دسته تکنیک‌های کشف فرایند (process discovery)، تکنیک‌های بررسی انطباق (conformance checking) و تکنیک‌های بهبود فرآیند (process enhancement) طبقه‌بندی می‌شوند.

به‌طور مثال، در گروه اول که تکنیک‌های کشف فرایند هستند، داده‌های رخداد دریافت می‌شوند و یک مدل بدون استفاده از هیچ اطلاعات پیشینی تولید می‌کنند. تکنیک‌های بررسی انطباق بررسی می‌کنند که آیا فرایند واقعی که در حال اجرا در سازمان بوده منطبق با مدل کشف شده است و بلعکس. تکنیک‌های دسته سوم هم به این موضوع می‌پردازند که آیا می‌شود با استفاده از داده‌های رخداد یک فرایند را ارتقا یا توسعه داد. به عنوان مثال با استفاده از برچسب زمانی در داده‌های ثبت شده می‌توان مدل را طوری توسعه داد که گلوگاه‌ها، زمان انتظار برای دریافت خدمت و زمان توان عملیاتی را نشان دهد. برخلاف روش‌های تحلیلی دیگر، فرآیندکاوی فرایند محور است و نه داده محور اما با داده کاوی در ارتباط است.

فرایندکاوی چه تفاوتی با داده‌کاوی دارد؟

در حقیقت فرآیندکاوی قدرت داده‌کاوی و مدل‌سازی فرایند را ترکیب می‌کند؛ با تولید خودکار مدل فرایندها بر مبنای لاگ های رخداد، فرآیندکاوی باعث ایجاد مدل‌های زنده با قابلیت به روز رسانی بالا می‌شود. فرآیندکاوی نقاط مشترک زیادی با داده‌کاوی دارد. من جمله مشترکات این است که هر دو با چالش پردازش حجم بزرگ داده‌ها مواجه هستند. سیستم‌های فناوری اطلاعات داده‌های زیادی درباره فرایندهای تجاری مورد پشتیبانی خود جمع‌آوری می‌کنند. این داده‌ها به خوبی بیانگر آنچه در دنیای واقعی اتفاق افتاده هستند و قابلیت استفاده برای درک و بهبود سازمان را دارند. بر خلاف داده‌کاوی، فرایندکاوی بر دیدگاه فرایندی تمرکز می‌کند؛ یعنی به یک اجرای فرایند از منظر تعدادی فعالیت اجرا شده نگاه می‌کند. بیشتر تکنیک‌های داده‌کاوی الگوها را در قالبی مانند قوانین یا درخت تصمیم استخراج می‌کنند. اما فرایندکاوی مدل فرایندهای کاملی ایجاد می‌کند و سپس از آن‌ها برای شناسایی گلوگاه استفاده می‌کند. در داده‌کاوی عمومی‌سازی به منظور جلوگیری از سرریز شدن داده‌ها امری بسیار مهم است. این یعنی می‌خواهیم تمام داده‌هایی را که با قانون کلی سازگاری ندارند دور بیندازیم. در فرایندکاوی نیز عمومی‌سازی در کار کردن با فرایندهای پیچیده و درک جریان فرایندهای اصلی لازم است. همچنین در بیشتر موارد درک استثناءها به منظور کشف نقاط ناکارآمدی و نیازمند بهبود ضروری به نظر می‌رسد.

چالش‌های فرایندکاوی

کاوش فرایند مهم‌ترین ابزار برای سازمان‌های مدرنی است که نیاز به مدیریت مناسب فرایندهای عملیاتی دارند. از یک سو با رشد باورنکردنی حجم داده روبرو هستیم و از دیگر سو فرایندها و اطلاعات باید به‌طور مناسب جمع‌آوری شوند تا نیازمندی‌های مربوط به کارایی، انطباق و خدمت رسانی پاسخ داده شود. علی‌رغم کاربردی بودن فرآیندکاوی، هنوز چالش‌های عمده‌ای پیش رو می‌باشد که باید مورد توجه قرار گیرد. در ذیل به این چالش‌ها اشاره شده‌ است.

در سیستم‌های فعلی انرژی زیادی باید صرف استخراج داده‌های رویداد مناسب برای کاوش فرایند صورت گیرد. به‌طور معمول، در این زمنیه چند مشکل وجود دارد که باید مرتفع گردد. برخی از این مشکلات عبارتند از:

  • ممکن است داده‌ها بر روی چندین منبع توزیع شده باشد. این اطلاعات باید ادغام گردند. این مشکل زمانی حادتر می‌شود که از چندین شناسه برای منابع مختلف استفاده شود. مثلاً یک سیستم از نام و تاریخ تولد برای شناسایی افراد استفاده کند و سیستم دیگر از شماره امنیتی اجتماعی فرد.
  • داده‌های سازمانی بیشتر شی‌محور می‌باشند و نه فرایندمحور. به عنوان مثال محصولات و ظرف‌ها می‌تواند تگ‌های RFID ایی داشته باشند که خودکار منجر به ثبت رکورد گردند. برای رصد کردن سفارش یک مشتری، این اطلاعات شی محور باید ادغام و پیش پردازش شوند.
  • داده‌های رویداد ممکن است ناکامل باشند. یکی از رایج‌ترین مشکلات این است که رویدادها به صورت صریح به نمونه‌های فرایند اشاره نمی‌کنند.
  • داده‌های رویداد ممکن است حاوی اطلاعات پرت باشد. منظور از داده‌های پرت نمونه‌هایی است که از الگوی عمومی پیروی نکرده و به ندرت اتفاق می‌افتند.

برای حل این مشکل نیاز به ابزارهای بهتر و متدولوژی‌های مناسب تر می‌باشد. علاوه بر آن، همان‌طور که پیش تر نیز به آن اشاره شد، سازمان‌ها باید با داده‌های لاگ همانند شهروندان درجه یک برخورد کنند و نه به عنوان یک محصول جانبی.

  • دومین چالش بزرگ استفاده از داده‌های رویداد پیچیده‌ای که ویژگی‌های گوناگونی دارند. داده‌های گزارش ممکن است که ویژگی‌های خیلی متنوعی داشته باشند. بعضی از داده‌های لاگ ممکن است که آنچنان بزرگ باشند که رسیدگی به آن‌ها دشوار باشد و بعضی از آن‌ها ممکن است آنقدر کوچک باشند که نتوان نتایج قابل اطمینانی از آن‌ها استحصال کرد. ابزارهای موجود در مواجه با داده‌های با ابعاد پتابایت دشواری‌هایی دارند. در کنار تعداد رکوردهای رویدادهای ذخیره شده ویژگی‌های دیگری نظیر متوسط تعداد رویدادها در هر حالت، شباهت میان حالت‌ها، تعداد رویدادهای منحصر به فرد و تعداد مسیرهای واحد نیز هستند که باید مورد توجه قرار گیرند. به عنوان مثال فایل لاگ داده L1 با مشخصات ذیل را در نظر بگیرید: ۱۰۰۰ حالت، به‌طور متوسط ۱۰ رویداد به ازای هر حالت. فرض کنید فایل لاگ L2 حاوی تنها ۱۰۰ حالت باشد اما هر حالت حاوی ۱۰۰ رویداد باشد و همه رویدادها از یک مسیر واحد تبعیت کنند. پر واضح است که آنالیز L2 بمراتب دشوارتر از آنالیز L1 می‌باشد، علی‌رغم اینکه هر دو فایل سایز برابر و یکسانی دارند. از آنجایی که داده‌های لاگ تنها حاوی نمونه‌های مثال می‌باشند، بنابراین نباید اینطور فرض شود که آن‌ها کامل هستند. تکنیک‌های کاوش متن باید با استفاده از «فرض جهان باز» با این عدم کامل بودن کنار بیایند: این واقعیت که اگر پدیده‌ای اتفاق نمی‌افتد به معنای عدم امکان رخداد آن نیست. این موضوع تعامل با داده‌های لاگ با سایز کم و حاوی تغییرات زیاد را دشوار می‌کند. همان‌طور که پیش‌تر هم اشاره شد، بعضی از فایل‌های لاگ ممکن است حاوی رکوردهایی با سطح انتزاع بسیار پایین باشند. داده‌های با سطح پایین چندان مطلوب ذی نفعان نمی‌باشند؛ بنابراین عموماً سعی می‌شود تا داده‌های سطح پایین با همدیگر تجمیع شوند تا داده‌های با سطح بالاتر تولید گردد. به عنوان مثال، زمانی که فرایند تشخیص و درمان گروهی از بیماران آنالیز می‌شود، احتمالاً دیگر علاقه‌مند به دانستن نتایج آزمایش‌ها انفرادی افراد نیستیم. در این گونه از موارد، سازمان‌ها لازم است که از روش سعی و خطا استفاده نمایند تا دریابند که آیا داده‌ها مناسب برای کاوش فرایند می‌باشند؛ بنابراین ابزارها باید سرویس آزمایش امکان‌سنجی سریع برای یک پایگاه داده مشخص را فراهم نمایند.
  • چالش بعدی برقراری تعادل بین معیارهای کیفیت نظیر سازگاری، سادگی، دقت و عمومیت است. غالباً داده‌های ثبت شده کامل نیستند. مدل‌های فرایندی معمولاً محدودیتی برای تعداد نامحدود نمونه فرایند (درحالت وجود حلقه‌ها) ندارند. از طرفی، بعضی از نمونه‌ها هم نسبت به سایرین رخداد بمراتب کمتری دارند؛ بنابراین اینکه فکر کنیم هر نمونه فرایند قابل رخدادی در فایل وقایع ثبت شده موجود می‌باشد، تصور نادرستی می‌باشد. ساخت مدل برای رفتارهایی که به ندرت رخ می‌دهند (داده‌های نویز) کار بسیار دشواری می‌باشد. در این گونه موارد، برای پردازش این دسته از رفتارها بهتر است که از چک کردن مطابعت استفاده شود. نویز و ناکامل بودن، کشف فرایند را به یکی از پرچالش‌ترین مسائل تبدیل کرده‌است. تعادل برقرار کردن بین معیارهای سادگی، سازگاری، دقت و عمومیت داشتن کار پرچالشی می‌باشد. به همین دلیل اکثر تکنیک‌های قدرتمند کاوش فرایند پارامترهای متنوعی را فراهم می‌سازند. الگوریتم‌های جدیدی برای تعادل برقرار کردن بین این معیارها نیاز می‌باشد.
  • چالش بعدی در ارتباط با ساخت شاخصه‌های ارزیابی است. کاوش فرایند تکنولوژی نوظهوری است. همین امر نشان می‌دهد که چرا نیاز به شاخصه‌های ارزیابی می‌باشد. به عنوان مثال تاکنون ده‌ها تکنیک کشف فرایند ارائه شده‌است اما گزارش دقیقی از کیفیت این روش‌ها در دسترس نمی‌باشد. علی‌رغم اینکه تفاوت‌های زیادی در کارایی و عملکرد این تکنیک‌ها وجود دارد، ارزیابیشان کار دشوار و پیچیده‌ای می‌باشد؛ بنابراین نیاز به داده‌های استاندارد و همچنین معیارهای کیفیت مناسب به شدت احساس می‌شود. البته در این زمینه کارهای محدودی انجام شده‌است. از جمله معیارهای ارزیابی ارائه شده به چهار معیار سازگاری، سادگی، دقت و عمومیت می‌توان اشاره نمود. همچنین داده‌های رویداد ثبت شده هم در سایت فرایندکاوی موجود می‌باشد. از یک طرف باید شاخص‌ها براساس داده‌های واقعی باشد. از طرف دیگر نیاز به تولید پایگاه داده ترکیبی ایی می‌باشد که ویژگی‌های خاصی داشته باشد.
  • چالش بعدی ارتقای پیشرفرض‌های نمایشی که در کشف فرایند استفاده می‌شوند. یک تکنیک کشف فرایند، با استفاده از یک زبان مشخص (BPMN، Petri Net و ...) یک مدل فرایند تولید می‌نماید. به هر حال مهم است که تجسم نتایج، مجزای از نمایی باشد که در کشف فرایند مورد استفاده قرار می‌گیرد. انتخاب یک زبان هدف غالباً تعدادی فرض ضمنی را هم دربر می‌گیرد. این فرضیات فضای جستجو را محدود کرده و فرایندهایی که نمی‌توانند با استفاده از زبان مقصد نمایش داده شوند، کشف نخواهند شد. این به اصطلاح پیش فرض‌های نمایشی که در کشف فرایند استفاده می‌شوند باید با انتخاب آگاهانه همراه گردند و نباید (فقط) بر مبنای اولویت‌های نمایشی گرافیکی انتخاب شوند. مثلاً شکل ذیل را در نظر بگیرید. بسته به آنکه زبان مقصد اجازه همزمانی را بدهد یا ندهد، می‌تواند بر روی نمایش مدل کشف شده و کلاس مدلهایی که توسط الگوریتم استفاده می‌شود تأثیر داشته باشد. اگر پیش‌فرض‌های نمایشی اجازه همزمانی را ندهند (بخش a تصویر) و اجازه استفاده همزمان چند فعالیت از یک برچسب را ندهند (بخش c از تصویر)، آنگاه شکل b تصویر که دارای مشکلات هم باشد تنها امکان‌پذیر خواهد بود.
  • چالش بعدی کاوش بین سازمانی است.  به‌طور سنتی، کاوش فرایند در یک سازمان اجرا می‌گردد. اما با گسترش تکنولوژی وب سرویس، یکپارچگی زنجیره تأمین و محاسبات ابری، سناریوهایی پیش می‌آید که در آن داده‌های چند سازمان برای آنالیز در دسترس می‌باشد. در حقیقت دو مشخصه برای کاوش فرایندهای بین سازمانی موجود می‌باشد. در سناریوی همکارانه، سازمان‌های مختلف همگی باهم در جهت رسیدن به اهداف مشخصی همکاری داشته و نمونه فرایندها بین این سازمان‌ها در جریان می‌باشد. در این مدل سازمان‌ها همانند قطعات یک پازل می‌باشند. فرایند کلی به قطعاتی شکسته شده و بین سازمان‌ها توزیع می‌شود تا هر سازمان وظیفه مربوط به خود را انجام دهد. آنالیز رویدادهای ثبت شده در تنها یکی از این سازمان‌ها کافی نمی‌باشد. به منظور کشف فرایندهای انتها به انتها، رویدادهای ثبت شده سازمان‌های مختلف باید بایکدیگر ادغام گردد که کار ساده‌ای نمی‌باشد. سناریوی دوم این است که سازمان‌های مختلف در عین حال که از زیرساخت‌های مشترکی استفاده می‌نمایند، فرایند یکسانی را اجرا نمایند. به عنوان مثال Saleforce.com را می‌توانید در نظر بگیرید. این شرکت فرایند فروش شرکت‌های دیگر را بر عهده دارد و مدیریت می‌کند. از یک طرف شرکت‌ها از زیر ساخت این سایت استفاده می‌کنند و از طرف دیگر مجبور نیستند که دقیقاً یک فرایند قطعی را دنبال کنند (چراکه سیستم امکان تنظیمات اختصاصی در دنبال کردن فرایند به آن‌ها می‌دهد. واضح است که آنالیز این تغییرات بین سازمان‌های مختلف کار جذاب و جالبی می‌باشد. این سازمان‌ها می‌توانند از همدیگر یاد بگیرند و فراهم کنندگان سرویس ممکن است که سرویس هایشان را ارتقا بخشند و سرویس‌های ارزش افزوده‌ای را برمبنای نتیجه کاوش‌های بین سازمانی ارائه نمایند.

در ابتدا، تمرکز کاوش فرایند روی داده‌های قدیمی (که در پایگاه داده سیستم‌های اطلاعاتی موجود می‌باشد) بود، اما امروزه با گسترش تکنولوژی و افزایش پردازش‌های روی خط، کاوش فرایند نباید محدود به پردازش‌های برون خطی باشد. سه نوع پشتیبانی عملیاتی تعریف شده‌است: شناسایی، پیش‌بینی، توصیه. زمانی که نمونه‌ای از فرایند مورد انتظار تخطی می‌کند، می‌تواند شناسایی گردد و سیستم می‌تواند یک اخطار دهد. داده‌های قدیمی می‌تواند به منظور تولید مدل پیش گوی استفاده گردد. مثلاً می‌توان زمان به اتمام رسیدن یک نمونه را پیش‌گویی کرده و براساس آن تصمیماتی اخذ کرد. استفاده از روش‌های کاوش فرایند در مدل برون خطی، چالش‌های جدیدی را برحسب قدرت محاسباتی و کیفیت داده ایجاد می‌کند.

ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را می‌توانید از کتابخانه‌های عمومی سراسر کشور و نیز از دکه‌های روزنامه‌فروشی تهیه نمائید.

ثبت اشتراک نسخه کاغذی ماهنامه شبکه     
ثبت اشتراک نسخه آنلاین

 

کتاب الکترونیک +Network راهنمای شبکه‌ها

  • برای دانلود تنها کتاب کامل ترجمه فارسی +Network  اینجا  کلیک کنید.

کتاب الکترونیک دوره مقدماتی آموزش پایتون

  • اگر قصد یادگیری برنامه‌نویسی را دارید ولی هیچ پیش‌زمینه‌ای ندارید اینجا کلیک کنید.

ایسوس

نظر شما چیست؟