دادهکاوی یک فرآیند تکرارشونده است که شامل کشف دانش از طریق روشهای خودکار یا دستی است که در یک چرخه انجام میشود تا در نهایت اطلاعات قابل استناد استخراج شوند. دادهکاوی به ویژه در سناریوهای تجزیه و تحلیل اکتشافی که هیچ مفهوم از پیش تعیین شدهای در مورد آنچه که قرار است در قالب نتایج به دست آیند کاربرد دارد. بهطور مثال، با شروع یک بحران فراگیر ممکن است صنایعی نظیر نفت و گاز به چه فعل و انفعلاتی روبرو شوند. دادهکاوی جستجو برای کشف اطلاعات جدید، ارزشمند و مستتر در حجم عظیمی از دادهها است که به تلاش و همکاری (Cooperative) مشترک انسان و کامپیوتر نیاز دارد. به همین دلیل، بهترین نتایج زمانی به دست میآیند که متخصصان بتوانند مشکلات و اهداف را به شکل دقیقی توصیف کنند و کامپیوترها بتوانند بر مبنای الگوهای کنکاشگر به جستوجوی اطلاعات بپردازند. کارشناسان علم آمار و فناوری دو کاربرد یا به عبارت دقیقتر دو ترند اصلی برای دادهکاوی تعریف کردهاند که شامل دادهکاوی پیشبینانه (prediction datamining) و دادهکاوی توصیفی (description data mining) است.
دادهکاوی پیشبینانه
دادهکاوی پیشبینانه/ پیشگویانه (predictive)، رویکرد پیشبینانه به معنای بهکارگیری برخی متغیرها یا فیلدهای درون مجموعه دادهها با هدف پیشبینی تحولات ناشناخته زمان حال یا آینده یا شناسایی متغیرهایی است که ارزش اطلاعاتی دارند. در اینجا واژه پیشگویانه (Prediction) به خروجی الگوریتمی اشاره دارد که پس از آموزش بر مبنای مجموعههای قبلی، بر مبنای دریافت مجموعه دادههای جدید و بهکارگیری آنها به پیشبینی احتمالات خاص میپردازد. بهطور مثال، آیا ارزش سهام یک شرکت ممکن است در آینده سقوط کند یا بالاتر برود. بر این اساس، دادهکاوی پیشگویانه به ساخت یک مدل سیستمی اشاره دارد که برخواسته از مجموعه دادههایی است که دریافت کرده است. در دادهکاوی پیشگویانه هدف ساخت مدلی است که به عنوان یک کد اجرایی قابل استناد باشد بتوان در فرآیندهایی نظیر طبقهبندی، پیشبینی، تخمین و وظایف این چنینی از آن استفاده کرد.
دادهکاوی توصیفی
فرآیند دادهکاوی توصیفی (Description) روی پیدا کردن الگوهای توصیفی دادهها که میتوانند توسط انسانها تفسیر شوند متمرکز است. در اینجا هدف ساخت، مدلی جدید و مبتنی بر اطلاعات غیر بدیهی (nontrivial) بر مبنای مجموعه دادههای در دسترس است. در دادهکاوی توصیفی هدف این است که با استفاده از الگوها و روابط حاکم بر بزرگ دادهها شناخت دقیقی در ارتباط با سیستمی که تحلیل شده به دست آید.
مدلهای پیشگویانه و توصیفی در کاربردهای خاص دادهکاوی به شکل قابل توجهی متفاوت از یکدیگر هستند. در هر دو حالت برای آنکه بتوان از مزایای شاخص رویکردهای توصیفی و پیشبینانه بهره برد باید از تکنیکهای دادهکاوی که در مقالههای آینده به آنها اشاره خواهد شد استفاده کرد.
مراحل تشکیلدهنده دادهکاوی
برای آنکه بتوان یک مدل پیشگویانه یا توصیفی کارآمد را پیادهسازی کرد، لازم است تا فرآیندهایی انجام شوند. در حالت کلی، برای انجام یک دادهکاوی اولیه باید مراحل زیر بر مبنای مدل انتخاب شده به دقت اجرا شوند.
(طبقهبندی) Classification: یکی از فرآیندهای مهم دادهکاوی است که عناصر موجود در یک مجموعه را به دستهها یا کلاسهای هدف اختصاص میدهد. هدف از طبقهبندی پیشبینی دقیق کلاس هدفی است که دادهها باید عضو آن شوند. بهطور مثال، یک مدل طبقهبندی میتواند برای شناسایی و برچسبگذاری متقاضیان وام بر مبنای ریسک اعتباری کم، متوسط یا زیاد انجام شود. به عبارت دقیقتر، چه افرادی در موعد پرداخت اقساط ممکن است در زمان تعیین شده اقساط را پرداخت کنند، برخی با چند روز تاخیر و برخی قادر به پرداخت اقساط نباشند.
(رگرسیون) Regression: رگرسیون یکی دیگر از عملکردهای مهم دادهکاوی است که عددی را پیشبینی میکند. بهطور مثال، یک مدل رگرسیون میتواند برای پیشبینی ارزش یک خانه بر مبنای موقعیت مکانی، تعداد اتاقها، مساحت زمنی و سایر عوامل استفاده شود. یک فرآیند رگرسیون با مجموعهای از دادهها آغاز میشود در آن مقادیر هدف شناخته شده هستند. در رگرسیون یک عنصر دادهای به یک متغیر پیشگویانه ارزش واقعی (real-value) نگاشت میشود.
(خوشهبندی) Clustering: یکی از فرآیندهای رایج در دادهکاوی توصیفی است که در آن کارشناسی به دنبال شناسایی مجموعهای محدود از دستهها یا خوشهها برای توصیف دادهها است.
خلاصهسازی (Summarization): یک وظیفه توصیفی اضافی است که شامل روشهایی برای شناسایی یک توصیف مختصر برای مجموعهای از دادهها است.
مدلسازی وابستگی (Dependency Modeling): یافتن یک مدل محلی که وابستگیهای قابل توجهی را میان متغیرها یا میان مقادیر یک ویژگی در یک مجموعه داده یا در بخشی از یک مجموعه داده توصیف میکند.
شناسایی تغییر و انحراف (Change and deviation detection): به کشف و شناسایی مهمترین تغییرات اعمال شده در مجموعه دادهها اشاره دارد.
طبقهبندیها و تعاریف مقدماتی که ارائه کردیم تنها برای آشنایی خوانندگان با پیچیدگی مفاهیم مرتبط با دادهکاوی و قابلیتهایی که دادهکاوی ارائه میکند ذکر شده است. در آموزشهای آتی با استفاده از نمودارهای گرافیکی سعی خواهیم کرد به شکل جامعتری به توصیف مجموعه دادههای پیچیده و بزرگ بپردازیم.
موفقیت در در پیادهسازی دقیق و درست یک فرآیند دادهکاوی تا حد زیادی به دانش، خلاقیت و مدت زمانی که طراح صرف آموزش مدل میکند بستگی دارد. در حقیقت، دادهکاوی شبیه به حل یک معما است. قطعات جداگانه پازل به خودی خود ساختار پیچیدهای ندارند. با اینحال، زمانی که به عنوان یک مجموعه واحد در کنار یکدیگر قرار میگیرند، تشریح کننده سامانهای بزرگ و جامع میشوند. زمانیکه برای اولین بار و بدون تجربه به سراغ تحلیل یک چنین سناریویی میروید و گامهای اول را بر میدارید که شامل بررسی معما است، به احتمال زیاد احساس شکست میکنید، زیرا به درستی نمیدانید که باید چه کاری انجام دهید، نقطه شروع کجا است و به ترتیب باید چه گامهایی برداشته شوند. با اینحال، وقتی بدانید چگونه با قطعات پازل کار کنید، متوجه میشوید کار آنچنان که نمود میکند سخت نیست. یک چنین قاعدهای بر دنیای دادهکاوی نیز صدق میکند.
در ابتدای کار، طراحان فرآیند دادهکاوی به احتمال زیاد اطلاعات زیادی در مورد منابع دادهای ندارند. اگر منابع در دسترس بودند، دیگر لزومی به انجام دادهکاوی نبود، زیرا همه چیز به سادگی در دسترس قرار داشت و حتا به شکل دستی انجام این فرآیند امکانپذیر بود. بهطور جداگانه، دادهها ساده، کامل و قابل توضیح به نظر میرسند. با اینحال، در حالت اجماع، آنها مانند پازلی به نظر میرسند که کمی ترسناک و درک آن دشوار است. بنابراین، در یک پروژه دادهکاوی ضروری است که تحلیلگر و طراح دانش دقیق و ذهن خلاقی داشته باشند و بتوانند مشکلات را از زوایای دیگری مشاهده کنند.
دادهکاوی یکی از حوزههای روبهرشد فناوریاطلاعات است. به همین دلیل است که اهل فن پیشبینی کردهاند در چند سال آینده دادهکاوی به سرعت به حوزهها و صنایع دیگر وارد خواهد شد. یکی از بزرگترین نقاط قوت دادهکاوی ارائه راهحلها و تکنیکهای منحصر بهفردی است که میتوانند برای حل مجموعهای از مشکلات استفاده شوند.
با توجه به اینکه دادهکاوی فرآیندی است که به شکل یک کار عادی روی مجموعهای عظیم از دادهها نظیر انبار دادهها و دادهگاها (Data Mart) انجام میشود، بنابراین مشاغلی نظیر خردهفروشیهای آنلاین، خطوط تولیدی کارخانجات، شرکتهای مخابراتی، صنعت بهداشت و درمان، موسسات مالی و حمل و نقل از علاقهمندان به این حوزه هستند.
ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را میتوانید از کتابخانههای عمومی سراسر کشور و نیز از دکههای روزنامهفروشی تهیه نمائید.
ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین
کتاب الکترونیک +Network راهنمای شبکهها
- برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.
کتاب الکترونیک دوره مقدماتی آموزش پایتون
- اگر قصد یادگیری برنامهنویسی را دارید ولی هیچ پیشزمینهای ندارید اینجا کلیک کنید.
نظر شما چیست؟