چرا برخی مدل‌های داده‌کاوی نتایج اشتباهی ارائه می‌کنند؟
شبکه‌های اجتماعی و شبکه‌های محلی که به اینترنت متصل می‌شوند، انواع مختلفی از داده‌ها تولید و ذخیره‌سازی می‌شوند. برای آماده‌سازی مدل‌های داده‌کاوی مطلوب، باید نوع‌های پایه و ویژگی‌های اساسی مجموعه داده‌ها را تجزیه و تحلیل کنیم. اولین گام در این تجزیه و تحلیل، طبقه‌بندی داده‌ها با استفاده از سامانه‌های کامپیوتری است. داده‌هایی که به‌طور معمول منبعی برای فرآیند داده‌کاوی به شمار می‌روند را می‌توان به داده‌های ساخت‌یافته، داده‌های نیمه ساختاری و داده‌های غیر ساختاری طبقه‌بندی کرد.

ثبثبثب.gif

بیشتر بانک‌های اطلاعاتی که کسب‌وکارها از آن‌ها استفاده می‌کنند شامل داده‌های ساخت‌یافته‌ای متشکل از فیلدهای عددی و مقادیر عددی+الفبا هستند، در حالی که پایگاه‌های اطلاعاتی علمی ممکن است شامل هر سه فیلد باشند.

نمونه‌هایی از داده‌های نیمه ساختاری، تصاویر الکترونیکی اسناد تجاری، گزارشات پزشکی، خلاصه‌ گزارش‌های مدیریتی و دفترچه‌های راهنما هستند. اکثر اسناد وب نیز در این گروه قرار می‌گیرند. از داده‌های بدون ساختار می‌توان به ویدئویی‌هایی که توسط دوربین‌های مداربسته در یک فروشگاه بزرگ ضبط می‌شوند اشاره کرد. کاهش قیمت تجهیزات نظارت تصویری تحت شبکه باعث شده تا کسب‌وکارهای مختلف از این دوربین‌ها در فروشگاه‌ها استفاده کنند، به همین دلیل شاهد افزایش داده‌های بدون ساختاری هستیم که توسط دوربین‌های ویدویی ضبط می‌شوند. به‌طور کلی برای استخراج اطلاعات از چنین داده‌هایی به کار بیشتر و پردازش‌های گسترده‌تر نیاز است.

داده‌های ساختاری اغلب به عنوان داده‌های سنتی شناخته می‌شوند، در حالی که داده‌های نیمه ساختاری و غیر ساختاری به صورت داده‌های غیر سنتی (داده‌های چندرسانه‌ای نامیده می‌شوند) در دسترس ما قرار دارند. بیشتر روش‌های فعلی داده‌کاوی و ابزارهای تجاری برای کار با داده‌های سنتی توسعه پیدا کرده‌اند. با این حال، توسعه ابزارهای داده‌کاوی برای داده‌های غیر سنتی و رابط‌های تبدیل این مدل اطلاعات به قالب‌های ساختاریافته با سرعت زیادی در حال پیشرفت است.

در مدل استاندارد داده‌های ساخت یافته که برای داده‌کاوی استفاده می‌شود، مجموعه‌ای مشخص از ویژگی‌ها وجود دارند. در دنیای داده‌کاوی اندازه‌گیری‌های بالقوه به‌نام ویژگی‌ها شناخته می‌شوند و به‌طور کلی در بیشتر موارد به شکل یکسان اندازه‌گیری می‌شوند. به‌طور معمول، نمایش داده‌های ساخت یافته در قالب جدولی یا در قالب یک رابطه واحد (اصطلاحی که در ارتباط با پایگاه داده‌های رابطه‌ای استفاده می‌شود) انجام می‌شود، در این حالت ستون‌ها ویژگی‌های اشیا ذخیره شده در جدول هستند و سطرها مقادیر این ویژگی‌ها برای نهادهای خاص هستند. نمایش گرافیکی ساده یک مجموعه داده‌ای و مشخصات آن در شکل زیر مشخص است.

در ادبیات داده‌کاوی، به‌طور معمول از اصطلاحات نمونه‌ها یا موارد برای توصیف سطرها استفاده می‌کنیم. انواع مختلفی از ویژگی‌ها (خصلت‌ها یا متغیرها) به عنوان مثال، زمینه‌ها - در رکوردهای داده‌های ساختاریافته در داده کاوی وجود دارد. با این‌حال به این نکته مهم دقت کنید که تمامی الگوهای داده‌کاوی در تعامل با ویژگی‌ها عملکرد یکسانی ندارند و باید در جای درست از آن‌ها استفاده کرد. روش‌های مختلفی برای توصیف ویژگی‌ها وجود دارد. یکی از روش‌های رایج بررسی یک ویژگی که بیشتر با اصطلاح متغیر از آن نام برده می‌شود این است که ببینیم متغیر مستقل است یا وابسته، یعنی این‌که آیا متغیری است که مقادیر آن وابسته به مقادیر دیگر متغیرهای نشان داده شده در یک مجموعه داده‌ای وابسته هستند یا خیر. این یک روش مبتنی بر مدل برای طبقه‌بندی متغیرها است. همه متغیرهای وابسته به عنوان خروجی سیستمی که ما برای آن مدلی ایجاد می‌کنیم پذیرفته می‌شوند و متغیرهای مستقل ورودی به سیستم هستند، همان‌گونه که شکل زیر نشان می‌دهد.

یک سیستم واقعی، علاوه بر متغیرهای ورودی (مستقل) X و (وابسته) خروجی Y ، اغلب دارای ورودی‌های مشاهده نشده Z است.

نکته مهمی که باید به آن دقت کنید این است که برخی متغیرهای اضافی وجود دارند که بر رفتار سیستم تأثیرگذار هستند، اما مقادیر مربوطه در یک مجموعه داده در طی یک فرآیند مدل‌سازی در دسترس نیستند. دلایل مختلفی باعث پدید آمدن این مشکل هستند که از آن جمله باید به پیچیدگی بالا، هزینه زیاد اندازه‌گیری ویژگی‌ها، عدم دانش و درک عمیق مدل‌ساز در ارتباط با اهمیت برخی از عوامل و تأثیر آن‌ها بر روی مدل اشاره کرد. این‌ مدل ویژگی‌ها به‌نام متغیرهای مشاهده نشده شناخته می‌شوند که عامل اصلی شکل‌گیری مدلی می‌شوند که نتایج اشتباهی را ارائه می‌کند. ویژگی‌های شناخته نشده به‌نام داده‌های گم‌شده نیز توصیف می‌شوند.

کامپیوترهای امروزی و ابزارهای نرم‌افزاری ارائه شده این ظرفیت را دارند تا مجموعه داده‌هایی متشکل از میلیون‌ها نمونه و صدها ویژگی را پردازش کنند. مجموعه داده‌های بزرگ شامل مجموعه‌هایی که نوع‌های داده‌ای ترکیبی را شامل می‌شوند محیط ایده‌آلی را پدید می‌آورند که مناسب برای به‌کارگیری تکنیک‌های داده‌کاوی مناسب هستند.

وقتی مقدار زیادی داده در کامپیوتری ذخیره می‌شود، نمی‌توان به سرعت به سراغ تکنیک‌های داده‌کاوی رفت، زیرا ابتدا باید مشکل مهم کیفیت داده‌ها حل شود. علاوه بر این، بدیهی است که تجزیه و تحلیل کیفیت به شیوه دستی در این مرحله فراهم نیست. بنابراین، تهیه تجزیه و تحلیل کیفیت داده‌ها در مراحل اولیه فرآیند داده‌کاوی ضروری است. به‌طور معمول این فرآیند باید در مرحله پیش‌پردازش داده‌ها انجام شود.

تحلیل کیفی داده‌ها تأثیر عمیقی بر تصویر سیستم دارد و مدل متناظر را که به‌طور ضمنی توصیف می‌شود را مشخص می‌کند. با استفاده از تکنیک‌های موجود داده‌کاوی، به سختی می‌توان تغییرات عمده کیفی در سازمانی که اطلاعات با کیفیت پایین تولید می‌کند را تشخیص داد. علاوه بر این، شناسایی جدید در داده‌های علمی بدون کیفیت تقریباً غیرممکن است. شاخص‌های کیفی مختلفی در ارتباط با داده‌ها وجود دارند که باید در مرحله پیش‌پردازش داده‌کاوی به آن‌ها دقت کنید. برخی از آن‌ها به شرح زیر هستند:

1. داده‌ها باید دقیق باشند. تحلیل‌گر باید بررسی کند که آیا نام‌ها به درستی تلفظ شده‌اند، کد در یک محدوده مشخص است، مقدار کامل است و غیره.

2. داده‌ها باید در نوع‌های داده‌ای مناسب ذخیره شده باشند. تحلیل‌گر باید اطمینان حاصل کند که مقدار عددی به صورت کاراکتر ارائه نشده است، اعداد صحیح (integer) هستند و به شکل واقعی (Real) نیستند و غیره.

3. داده‌ها باید یکپارچه باشند. به‌روزرسانی‌ها نباید نادیده گرفته شوند، زیرا کاربران مختلف ممکن است تغییراتی در داده‌ها اعمال کنند. اگر مکانیزمی به شکل پیش‌فرض از طریق سامانه مدیریت پایگاه داده‌ها (DBMS) در دسترس نیست، ضروری است که به‌طور منظم از داده‌ها نسخه پشتیبان تهیه شود که در صورت لزوم داده‌ها بازیابی شوند.

4- داده‌ها باید سازگار باشند. شکل و محتوا باید پس از ادغام مجموعه داده‌های بزرگ از منابع مختلف یکسان باشند.

5- داده‌ها نباید زائد باشند. در عمل، داده‌های زائد باید به حداقل برسند، تکرارها کنترل شوند یا  رکوردهای تکراری حذف شوند.

6. داده‌ها باید در زمان درست استفاده شوند. مولفه زمانی داده‌ها باید به‌طور صریح از طریق داده‌ها یا به‌طور ضمنی و به شیوه دستی از طبقه‌بندی داده‌‌ها تشخیص داده شود.

7. داده‌ها باید به خوبی درک شوند. استانداردهای نام‌گذاری شرط لازم هستند، اما به تنهایی برای درک داده‌ها کافی نیستند. کاربر باید بداند که داده‌ها با متناظر با دامنه‌ای هستند که آن‌ها را منتشر کرده است.

8- مجموعه داده‌ها باید کامل باشد. نرخ از دست رفتن داده‌ها باید به حداقل برسد. از دست رفتن داده‌ها می‌تواند کیفیت مدل را کاهش دهد. با این‌حال، برخی از تکنیک‌های داده‌کاوی برای پشتیبانی از تجزیه و تحلیل مجموعه داده‌ها حتا با مقادیر از دست رفته عملکرد خوبی دارند.

موضوع مهمی که باید بررسی کنید این است که چگونه مشکل داده‌های با کیفیت پایین را برطرف کنید، بنابراین ضروری است که همواره به دنبال بهترین الگوها باشید، به ویژه زمانی که در حال پردازش اولیه داده ها هستید. این فرایندها اغلب با استفاده از فناوری انباره داده‌ها انجام می‌شود.

ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را می‌توانید از کتابخانه‌های عمومی سراسر کشور و نیز از دکه‌های روزنامه‌فروشی تهیه نمائید.

ثبت اشتراک نسخه کاغذی ماهنامه شبکه     
ثبت اشتراک نسخه آنلاین

 

کتاب الکترونیک +Network راهنمای شبکه‌ها

  • برای دانلود تنها کتاب کامل ترجمه فارسی +Network  اینجا  کلیک کنید.

کتاب الکترونیک دوره مقدماتی آموزش پایتون

  • اگر قصد یادگیری برنامه‌نویسی را دارید ولی هیچ پیش‌زمینه‌ای ندارید اینجا کلیک کنید.

ایسوس

نظر شما چیست؟