برای ورود به عصر کلان داده‌ها آماده هستید؟
به عصر کلان داده‌ها (Big Data) خوش آمدید. کلان داده‌ها، منابع نفتی جدیدی هستند که همه شرکت‌های کوچک و بزرگ به دنبال استخراج آن هستند. اهمیت کلان داده‌ها به اندازه‌ای زیاد است که برخی کارشناسان آن‌را با ظهور اینترنت مقایسه می‌کنند. به‌طوری که فرصت‌های شغلی زیادی به واسطه کلان داده‌ها پدید آمده‌اند، با این‌حال، برای موفقیت در این حوزه باید اطلاعات دقیقی داشته باشیم و مسائل پیرامون آن‌را از دیدگاه درستی بررسی کنیم. بیشتر آزمایشگاه‌های تحقیقاتی خصوصی و ملی سالیان متمادی است که از کلان داده‌ها به شکل حرفه‌ای استفاده می‌کنند. به‌طور مثال، آزمایش‌هایی که در آزمایشگاه‌های شتاب‌دهنده فیزیک ذرات انجام می‌شوند، تلاش‌ها در جهت جست‌وجوی ذرات جدید و تأیید یا رد نظریه‌های این حوزه، همگی بر پایه کلان داده‌ها انجام می‌شوند. حجم و مقدار داده‌های جمع‌آوری شده از آزمایش‌های مختلف به راحتی به صدها پتابایت در سال می‌رسد. با این‌حال، در برخی حوزه‌ها مثل فیزیک، تجزیه و تحلیل داده‌ها با استفاده از سرورهای محاسباتی با عملکرد بالا برای شناسایی هرگونه ذره جدیدی ممکن است بیش از یک سال طول بکشد. درست مثل این است که در انبار کاه به دنبال سوزن باشیم.

shabake-mag.jpg

پذیرش گسترده کلان داده‌ها با پیشرفت‌های سریع در فناوری که تولید، جمع‌آوری و تجزیه و تحلیل داده‌ها را ارزان‌تر و آسان‌تر می‌کند، تسهیل شده است. کلان داده مفهوم جدیدی نیست، آن‌چه جدید است، طبقه‌بندی و تجاری‌سازی کلان داده‌ها است. 

امروزه داده‌ها توسط منابع مختلفی مثل شبکه‌های اجتماعی، دستگاه‌های تلفن همراه و حسگرهای هوشمند مورد استفاده در اینترنت اشیا تولید می‌شوند. در حالت کلی، بیشتر داده‌های جمع‌آوری‌شده برای مشاهده و تجزیه و تحلیل آزادانه در دسترس همگان قرار دارد. با این‌حال، ارزش واقعی نه در خود داده‌ها، بلکه در استخراج هوشمندانه داده‌ها قرار دارد.

مجمع جهانی اقتصاد (WEF) در گزارش آوریل 2019 اعلام کرد که تخمین زده می‌شود تا سال 2025 میزان داده‌های تولید شده در روز در مقیاس جهانی از 400 اگزابایت فراتر رود. جالب آن‌که در سال 2020 میلادی حجم داده‌های تولید شده به رقم باورنکردنی 44 زتابایت رسید. تنها در یک مورد، شرکت متا روزانه حدود 4 پتابایت داده، شامل متن، تصویر و ویدیو و صوت تولید می‌کند. 

چالش‌های پیرامون کلان داده‌ها

جمع‌آوری عادی این حجم عظیم از داده‌ها سود چندانی ندارد، مگر این‌که داده‌ها به ارزش تجاری تبدیل شوند. در شرایطی که مدیریت داده‌ها و تجزیه و تحلیل آن‌ها جذابیت خاص خود را دارد، اما تبدیل این داده‌ها به بینش‌های تجاری ارزشمند کار ساده‌ای نیست. 

به همین دلیل است که دانشمندان داده در تلاش برای یافتن تکنیک‌های نوینی هستند که فرایند تجزیه و تحلیل داده‌ها را ساده‌تر و سریع‌تر از قبل کند. هرچه روند پردازش داده‌ها سریع‌تر شود و در زمان مناسبی انجام شود، ارزش بیشتری دارد. 

با این‌حال، داده‌هایی که از منابع مختلف به‌دست می‌آیند به اندازه‌ای پیچیده‌ هستند که پردازش آن‌ها با استفاده از سیستم‌های مدیریت پایگاه‌داده سنتی به یک معضل جدی تبدیل شد. از طرفی محدودیت‌های فنی پایگاه‌های داده سنتی باعث شد تا انقلاب کلان داده‌ها با یک وقفه کوتاه روبرو شود. 

پایگاه‌های داده‌ سنتی یا همان رابطه‌ای محدودیت‌هایی در ارتباط با ذخیره‌سازی فیلدها و رکوردهای اطلاعاتی دارند و اگر قرار باشد از نوع‌هایی مثل Text در بانک اطلاعاتی استفاده کنیم، عملکرد به‌شدت کاهش پیدا می‌کند. در نقطه مقابل، در دنیای کلان داده‌ها با افزایش اندازه داده‌ها روبرو هستیم که نه تنها فرایند مدیریت و سازما‌‌ن‌دهی آن‌ها در پایگاه‌ها داده را با مشکل روبرو می‌کند، بلکه فرایند پردازش آن‌ها را نیز سخت می‌کند، زیرا به حافظه اصلی زیادی نیاز داریم تا بتواند این حجم عظیم از اطلاعات را نگه‌داری کند. پایگاه‌های داده غیررابطه‌ای (NoSQL) کلید حل این مشکل هستند. امروزه تکامل فناوری‌های مرتبط با کلان داده به ما امکان می‌دهد ضبط، ذخیره‌سازی، پردازش و تجزیه و تحلیل داده‌ها در یک محیط توزیع شده را به بهترین شکل انجام دهیم. از فناوری‌های مهمی که نقش تاثیرگذاری در مدیریت و پردازش کلان داده‌ها داشتند باید  به هدوپ که چارچوبی برای تمامی فرآیندهای کلان داده است، سیستم فایل توزیع شده Hadoop (HDFS) برای ذخیره‌سازی خوشه‌ای توزیع‌شده و MapReduce برای پردازش داده‌ها اشاره کرد. 

سیر تکاملی کلان داده‌ها 

مفهوم کلان داده‌ها اولین بار توسط شرکت مشاوره‌ای مک‌کینزی مورد بررسی قرار گرفت. مک‌کینزی کلان داده‌ها را با سه ویژگی حجم، سرعت و تنوع تعریف کرد و در توصیف آن‌ها گفت: «چرخه حیات پردازش کلان داده‌ها را می‌توان به اکتساب، پیش‌پردازش، ذخیره‌سازی و مدیریت، حریم خصوصی و امنیت، تجزیه و تحلیل و مصور‌سازی طبقه‌بندی کرد.» شکل1

تکامل کلان داده‌ها را نشان می‌دهد. همان‌گونه که مشاهده می‌کنید از سال1990 به یکباره شاهد رشد نمایی کلان‌ داده‌ها هستیم. جالب آن‌که در دهه 1950 تنها 600 مگابایت داده تولید شده بود، اما تا سال 2010 این مقدار به 100 پتابایت رسید که برابر با 100,000,000,000 مگابایت است. 

ناکامی پایگاه‌های داده سنتی در مدیریت کلان داده

سیستم‌های مدیریت پایگاه داده رابطه‌ای (RDBMS) تا همین اواخر، رایج‌ترین رسانه ذخیره‌سازی برای ذخیره داده‌های تولید شده توسط سازمان‌ها بودند. 

سیستم‌های مدیریت پایگاه‌ داده رابطه‌ای برای ذخیره داده‌هایی پدید آمدند که امکان نگه‌داری آن‌ها در قالب یک متن ساده یا یک صفحه گسترده وجود نداشت و علاوه بر این، سازمان‌ها نیازمند ذخیره‌سازی اطلاعات ساخت‌یافته بودند. به‌طوری که رکوردهای جداول یک پایگاه داده، میزبان داده‌هایی بودند که هر یک به نوع مشخصی از اطلاعات اشاره داشتند. کلان داده‌ها درست در نقطه مقابل این معماری قرار دارند و یک فناوری نوظهور نسبت به پایگاه داده‌ای رابطه‌ای به شمار می‌روند. به همین دلیل سازگاری این دو فناوری با یکدیگر اگر نگوییم غیر ممکن، باید بگوییم کار مشکلی است. از محدودیت‌های مهم پایگاه داده سنتی در مدیریت کلان داده‌ها به موارد زیر باید اشاره کرد:

شکل 1

  •  افزایش تصاعدی در حجم داده‌ها که در مقیاس ترابایت و پتابایت است بحث مدیریت این حجم عظیم از داده‌ها را به یک چالش بزرگ  برای RDBMS‌ها تبدیل کرد. 
  •  برای رفع مشکل مدیریت داده‌ها، سازندگان RDBMS قابلیت پشتیبانی از تعداد بیشتری از پردازنده‌ها و مدیریت بیشتر حافظه‌ها را به RDBMS اضافه کردند که به نوبه خود باعث افزایش هزینه‌ها شد.
  •  تقریبا 80 درصد داده‌های واکشی شده از پایگاه‌های داده‌ای
  • نیمه ساختاریافته یا بدون ساختار هستند که بحث مدیریت و پردازش این داده‌ها را مشکل می‌کند. 
  •  RDBMS نمی‌تواند داده‌هایی که با سرعت زیادی به آن‌ها وارد می‌شوند را ذخیره‌سازی کند. 

جدول زیر تفاوت‌های مهم و بنیادین RDBMS و کلان داده‌ها را نشان می‌دهد. 

‌نکته‌ای که مهم است در ارتباط با کلان داده‌ها به آن اشاره داشته باشیم به تفاوت میان دو مفهوم کلان داده‌ها و داده‌کاوی باز می‌گردد. جدول زیر تفاوت‌های دو مفهوم داده‌کاوی و کلان داده‌ها را نشان می‌دهد. 

منابع کلان داده

همان‌گونه که اشاره شد، کلان داده‌ها از منابع مختلف قابل استخراج هستند و توسط منابع مختلف تولید می‌شوند. یکی از مهم‌ترین دلایلی که باعث رشد انفجاری داده‌ها شده، دیجیتالی شدن انواع مختلفی از دستگاه‌ها و خدمات است.

پرداخت قبوض الکترونیکی، خرید آنلاین، ارتباط از طریق رسانه‌های اجتماعی، ارسال ایمیل توسط سازمان‌های مختلف، ارائه تبلیغات به شکل دیجیتالی از نمونه‌های این دیجیتالی‌سازی در مقیاس جهانی هستند. از مهم‌ترین منابع تولید داده‌ها به موارد زیر باید اشاره کرد:

  •  حسگرها: مولفه کلیدی دنیای اینترنت اشیا هستند که نقش مهمی در تولید حجم عظیمی از اطلاعات دارند. از حس‌گرهای مهم در این زمینه باید به حس‌گرهای شتاب‌سنج نصب شده در دستگاه‌های تلفن همراه برای حس ارتعاشات و حرکات، حسگرهای مجاورتی که در مکان‌های عمومی بدون تماس فیزیکی با اشیاء استفاده می‌شود و حسگرهای نصب شده در وسایل نقلیه و تجهیزات پزشکی اشاره کرد. 
  •  مراقبت‌های بهداشتی: یکی دیگر از منابع مهمی هستند که روزانه حجم زیادی از داده‌ها را تولید می‌کنند. به‌طور مثال، پرونده الکترونیک سلامت (EHRs) که اطلاعات بیمار مانند سوابق پزشکی، نسخه‌های پزشکان و نتایج آزمایشات را نگه‌داری می‌کند و پورتال‌های مخصوص بیماران که به آن‌ها اجازه می‌دهد به سوابق پزشکی شخصی خود که در EHR ذخیره شده‌اند دسترسی داشته باشند و پایگاه‌های داده‌ای که توسط داروخانه‌ها استفاده شده و اطلاعات دقیقی در ارتباط با داروهایی که به بیماران فروخته شده‌اند را نگه‌داری می‌کنند چند نمونه ساده از کلان داده‌ها در حوزه پزشکی هستند. 
  •  اطلاعات پرواز: روزانه پروازهای زیادی در سراسر جهان انجام می‌شود. به‌طور مثال، تنها در یک مورد بیش از 2600 پرواز در امریکا به دلیل کرونا و هوای نامساعد در تعطیلات آغاز سال لغو شد. سیستم‌های اطلاعات پرواز نصب شده در هواپیماها، هلیکوپترها و جت‌ها فعالیت‌های پرواز، اطلاعیه‌های خدمه پرواز و اطلاعات عملکرد هواپیما را ثبت می‌کنند.
  •  داده‌های وب: به هر نوع تراکنش‌ انجام شده در بستر وب اشاره دارد. کلیک‌هایی که روی لینک‌های یک وب‌سایت‌ یا موتورهای جست‌وجو انجام می‌شود یا داده‌هایی که در فروشگاه‌های آنلاین تولید و جمع‌آوری می‌شوند نمونه ساده‌ای از این اطلاعات هستند. امروزه سازمان‌ها با تحلیل جریان کلیک لینک‌ها علایق مشتریان و الگوهای خرید آن‌ها را شناسایی می‌کنند و توصیه‌هایی به آن‌ها ارائه می‌کنند. علاوه بر این، تحلیل‌ها نقش مهمی در ارسال تبلیغات هدفمند برای مصرف‌کنندگان دارند. 
  •  داده‌های سازمانی: تراکنش‌های ایمیلی و اسنادی هستند که در سازمان‌ها تولید می‌شوند و برخواسته از فعالیت‌های تجاری سازمان‌ها هستند. 

چه کاربردهای مهمی برای  کلان داده‌ها قابل تصور است؟

کلان داده‌ها در تمامی صنایع و حوزه‌ها کاربرد دارند و محدود به فعالیت‌های خدماتی یا تولیدی نیستند، به‌طوری که در سیاست، اقتصاد، اجتماع، فناوری، محیط زیست و قانون نشانه‌های روشنی از حضور کلان داده‌ها را مشاهده می‌کنیم. به بیان دقیق‌تر، کلان داده‌ها از سطوح تاکتیکی تا سطوح راهبردی را شامل می‌شوند. در حال حاضر کاربردی که برای ما به عنوان کاربر و مصرف‌کننده جلوه بیشتری دارد در حوزه خدمات است. امروزه فروشگاه‌های آنلاینی مثل آمازون در نمونه خارجی یا دیجی‌کالا در نمونه داخلی از اطلاعاتی که دارند برای مرتب‌سازی اجناس با هدف سهولت دسترسی مشتریان به محصولات یا خدمات استفاده می‌کنند.

در حوزه حمل‌ونقل، سامانه‌ها و نرم‌افزارها از این تحلیل‌ها استفاده می‌کنند تا دسترسی سریع‌تر و کم هزینه‌تری برای مسافرت‌های درون شهری ایجاد کنند: بانک‌ها، موسسات مالی و بیمه‌گر از این اطلاعات برای شناسایی کلاه‌برداری‌ها و نیز شناسایی مشتریان نمونه به‌منظور پرداخت وام استفاده می‌کنند شهرداری‌ها از این اطلاعات استفاده می‌کنند تا مشکلات شهری را در اسرع وقت برطرف کنند: موتورهای جست‌وجو از این اطلاعات استفاده می‌کنند تا مفهوم محاوره شما را بهتر درک کنند و شما را مستقیم به صفحه مورد نظرتان هدایت کنند. فروشگاه‌های اینترنتی از این اطلاعات استفاده می‌کنند تا پیشنهادهای مناسبی به شما ارائه کنند و زنجیره عرضه و تقاضا را بهتر مدیریت کنند. 

شیوع کووید 19 و رشد چند برابری کلان داده‌ها

از زمان شیوع کووید 19 به‌نظر می‌رسد حوزه‌های بهداشت، آموزش و خرده‌فروشی‌ بیشترین استفاده از کلان داده‌ها را داشته‌اند. به‌طوری که آموزش الکترونیک رواج زیادی پیدا کرد و حتا موسسات داخلی فعال‌تر از گذشته اقدام به برگزاری دوره‌های آنلاین کردند. در تمامی این موارد، شرکت‌های خصوصی و موسسات دولتی اطلاعات ارزشمندی از مخاطبان به‌دست آوردند که نیازمند پردازش هستند. 

کاربرد ملموس کلان داده برای ما در حوزه خدمات مشهودتر از حوزه‌های دیگر است. شبکه‌های اجتماعی، پیام‌رسان‌ها، تاکسی‌های اینترنتی،  فروشگاه‌های اینترنتی و ابزارهای مسیریابی نمونه‌های روشنی از خدمات هستند که قبل از ظهور این اپیدمی نیز به سرعت در حال رشد بودند. کرونا باعث تشدید استفاده از برخی خدمات و افول برخی دیگر از آن‌ها شد. به‌طور مثال، سفارش کالا از سایت‌های اینترنتی با اقبال شدیدی روبه‌رو شد، به‌طوری که مدیرعامل شرکت پست اعلام کرد در مقطعی از زمان کارمندان این شرکت در چند شیفت چرخشی سفارش‌های پستی مردم را به‌دست‌شان می‌رسانند. استفاده از اینترنت و شبکه داده به دلیل وقت آزاد مردم و آنلاین شدن بیشتر فعالیت‌ها باعث نگرانی اپراتورها در مقیاس جهانی شد، اما در مقابل تعداد سفرهای درون و برون‌شهری کاهش یافت. 

آموزش آنلاین یکی از مواردی بود که قبل از کرونا در کشور رواج چندانی نداشت. شاید اگر می‌خواستیم برای رفتن به سمت آموزش الکترونیکی برنامه‌ریزی کنیم به دلیل وجود موانع و عدم تمایل آموزشگاه‌ها باید چند سال به‌انتظار می‌نشستیم و دست آخر هم خیلی از مشکلات حل نشده باقی می‌ماند، اما کرونا در کنار همه مسائلی که به وجود آورد. نکات مثبتی هم داشت که حرکت به سوی آموزش الکترونیکی، چه از جانب آموزشگاه‌ها و چه از جانب مردم یکی از آن‌ها بود.

حجم عظیمی از محتوای آموزشی تنها در یک سال تولید شد که دست‌کم برای چند سال آینده به عنوان یک منبع کمک آموزشی خوب در اختیار دانش‌آموزان، دانش‌جویان، معلمان و اساتید قرار خواهد گرفت. علاوه بر این، دسترسی مناطق محروم به محتوای آموزشی با کیفیت را نیز تسهیل کرد. این محتواهای آموزشی که ترکیبی از فیلم کلاس‌ها، اسلایدها، کوییزها، تمرین‌ها، سوالات امتحانی و غیره است همگی نمونه‌های روشنی از کلان داده‌ها هستند. 

کلام آخر

کلان‎ داده (Big Data) یکی از مفاهیم پرتکرار عصر حاضر است که اهل‌فن به خوبی آن‌را می‌شناسند، اما واقعیت مهمی در لابه‌لای این هزارتوی اطلاعات نهفته است. این حجم عظیم از داده‌ها ظرفیت آن‌را دارند تا تغییر و تحولات مهمی در عرصه‌های مختلف اجتماعی و اقتصادی جامعه با دایره اثرگذاری گسترده در سطوح مختلف به وجود آوردند و به راحتی تصمیم‌گیری‌های کلان در مقیاس سازمانی یا فراسازمانی (کشوری) را دست‌خوش تغییر کنند. کلان داده‌ها در رویکردهای پژوهشی بزرگ داده‌محور در سطوح و شیوه‌های تحلیل و تفسیر داده‌ها تغییرات مهمی به‌وجود می‌آورند و همان‌گونه که در مقاله خاستگاه تحقیق در عملیات مشاهده خواهید کرد، تعریفی جدید برای تحقیقات کلاسیک ارائه می‌کنند که نمی‌توان به‌آسانی از کنار آن گذشت.

ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را می‌توانید از کتابخانه‌های عمومی سراسر کشور و نیز از دکه‌های روزنامه‌فروشی تهیه نمائید.

ثبت اشتراک نسخه کاغذی ماهنامه شبکه     
ثبت اشتراک نسخه آنلاین

 

کتاب الکترونیک +Network راهنمای شبکه‌ها

  • برای دانلود تنها کتاب کامل ترجمه فارسی +Network  اینجا  کلیک کنید.

کتاب الکترونیک دوره مقدماتی آموزش پایتون

  • اگر قصد یادگیری برنامه‌نویسی را دارید ولی هیچ پیش‌زمینه‌ای ندارید اینجا کلیک کنید.

ایسوس

نظر شما چیست؟