تعاریف رایج Big Data
برای موفقیت در دنیای کلان داده‌ها (Big Data) باید با اصطلاحات تخصصی این حوزه آشنا باشید
هنگامی که قصد به‌کارگیری یک فناوری قدرتمند را دارید باید با اصطلاحات تخصصی و کاربردی آن حوزه آشنایی کامل داشته باشید. روزانه حجم زیادی از داده‌ها توسط سامانه‌های اطلاعاتی و حوزه‌های پر کاربرد مثل اینترنت اشیا، رایانش ابری و موارد مشابه تولید می‌شود. برای دستیابی به دانش موردنیاز برای اخذ تضمیمات تجاری باید مدت زمان زیادی را صرف تحلیل داده‌هایی کنید که ممکن است در حوزه‌های مختلف قرار داشته باشند. با توجه به این‌که کلان داده‌ها از مباحث روز دنیای فناوری هستند تاکنون پژوهش‌های زیادی در ارتباط با این حوزه انجام شده، اما بازهم کارهای انجام نشده زیادی وجود دارد که باید به سرانجام برسد. لازمه انجام درست این کارها و انجام تحقیقات کاربردی در این زمینه آشنایی دقیق با این حوزه و مفاهیم مرتبط با آن است.

shabake-mag.jpg

در دنیای دیجیتال، منابع مختلفی داده‌ها را تولید می‌کنند و علاوه بر این، رشد سریع فناوری‌های دیجیتال باعث افزایش نرخ تولید حجم عظیمی از داده‌ها شده است. در شرایطی که حجم عظیمی از داده‌ها در دسترس همه شرکت‌ها و سازمان‌ها قرار دارد و فرصت کم نظیری در اختیار  شرکت‌ها و سازمان‌ها قرار گرفته تا تحولات بنیادین و تاثیرگذاری در کسب‌وکارهای خود به وجود آورند، با این‌حال، کمبود متخصصانی که بتوانند به درستی این داده‌ها را پردازش کنند کاملا احساس می‌شود. به بیان دقیق‌تر، امروزه بخش عمده‌ای از افرادی که خود را متخصص در حوزه‌ای توصیف می‌کنند، در اصل آشنایی نسبی با چند نرم‌افزار دارند و آشنایی چندانی با مفاهیم تئوری و زیربنایی حوزه کاری خود ندارند. همین مسئله باعث شده تا این افراد نتوانند به درستی وظایف خود را انجام دهند و انتظارات شرکت‌ها را برآورده کنند. این مشکل در دنیای کلان داده‌ها کاملا محسوس است. با توجه به این‌که در دنیای کلان ‌داده‌ها با مجموعه‌ای از داده‌های بزرگ و پیچیده روبرو هستیم که پردازش آن‌ها با استفاده از سیستم‌های پایگاه داده یا نرم‌افزارهای پردازش داده سنتی کاری دشوار است و از طرفی این داده‌ها در بیشتر موارد نیازمند پالایش هستند، به ندرت قادر به پیدا کردن متخصصان خبره کلان داده در ایران هستیم. 

ساختارمند یا فاقد ساختار

به‌طور کلی کلان داده‌ها را مجموعه از داده‌های ساختار‌یافته (structured)، ساختار‌نیافته (unstructured) و نیمه‌ساختار‌یافته (semi-structured) در ابعاد پتابایت، اگزابایت، زتابایت و مقیاس‌های بالاتر پدید آورده‌اند. در چارچوب استاندارد، کلان ‌داده و داده‌های مرتبط با آن‌ها با چهار کلمه انگلیسی که همگی با حرف V آغاز می‌شوند توصیف می‌شوند. این چهار V حجم (Volume)، سرعت (Velocity)، صحت (veracity) و تنوع (Variety) هستند. با گذشت زمان تعداد این Vها به چهل‌ودو عدد رسیده که هر یک تعاریف خاص خود را دارند. البته همه آن‌ها کاربرد عملیاتی ندارند و بیشتر برای تعریف یک جنبه خاص از داده‌ها استفاده می‌شوند. 

  • حجم: مقدار داده‌هایی است که روزانه تولید می‌شوند.
  • سرعت: به نرخ رشد داده‌ها و مدت زمانی که برای پردازش داده‌ها صرف می‌شود اشاره دارد.
  • تنوع اطلاعاتی: به ترکیب داده‌های ساختار‌یافته، ساختار‌نیافته و نیمه‌ساختار‌یافته اشاره دارد.  
  • صحت: به معتبر، دسترس‌پذیری و پاسخ‌گو بودن داده‌ها اشاره دارد. 

کلان داده‌ها با هدف پردازش حجم عظیمی از داده‌ها که رشد نمایی و تنوع زیادی دارند، صحت آن‌ها موردتایید قرار گرفته و از ابزارها و روش‌های هوشمند محاسباتی برای پردازش آن‌ها استفاده شده به کار گرفته می‌شوند. رویکرد فوق به تصمیم‌گیری دقیق‌تر، کشف بینش و بهینه‌سازی ایده‌ها و کاهش هزینه‌های جاری کمک می‌کند.

از منظر تحول‌آفرینی، کلان ‌داده تحول بزرگ بعدی دنیای فناوری اطلاعات و به ویژه متاورس را رقم می‌زند. به‌طوری که کسب‌وکارهای اجتماعی (Social Business) را کاملا دگرگون خواهد کرد و راه را برای ورود به نسل بعدی پلتفرم‌های هوشمند که مبتنی بر واقعیت مجازی و ترکیبی هستند همواره می‌کند. متخصصان و شرکت‌های بزرگ با هدف سهولت در مدیریت و پردازش داده‌ها از انبارهای داده استفاده می‌کنند تا استخراج دانش دقیق از کلان داده‌ها کمتر پیچیده شود. 

برخی کارشناسان دنیای تحلیل داده‌ها بر این باور هستند که داده‌کاوی (Data Mining) کلید حل تمامی مشکلات مرتبط با تحلیل کلان داده‌ها است، در حالی که تجربه نشان داده این تکنیک در زمینه مدیریت مجموعه کلان‌ داده‌هایی در مقیاس وسیع چندان کاربردی نیست. مسئله کلیدی در تحلیل کلان داده‌ها، عدم هماهنگی بین سیستم‌های پایگاه داده و ابزارهای تحلیلی مانند داده‌کاوی و تحلیل‌های آماری (statistical analysis) است. این چالش‌ها هنگامی به وجود می‌آیند که قصد کشف دانش و ارائه آن برای کاربردهای عملیاتی مختلف را دارید. یک مسئله اساسی در این زمینه نحوه توصیف کمی مشخصه‌های اصلی کلان‌داده‌ها است، به‌طوری که داده‌کاوی در این زمینه خوب عمل نمی‌کند. 

به همین دلیل متخصصان این حوزه نظریات و مفاهیم جدیدی همچون معرفت‌شناختی (epistemological) را ارایه کردند. به‌علاوه، مطالعه در نظریه پیچیدگی کلان ‌داده‌ها به درک مشخصه‌های اساسی و شکل‌گیری الگوهای پیچیده، ساده‌سازی ارائه داده‌ها، دریافت خلاصه اطلاعات و ارایه راهکاری برای طراحی مدل‌ها و الگوریتم‌های محاسباتی ویژه این مبحث کمک می‌کند. تابه‌امروز، پژوهش‌های زیادی در زمینه‌های بیان شده پیرامون کلان‌ داده‌ها و گرایش‌های آن توسط پژوهشگران گوناگون انجام شده، اما هنوز نیاز به مطالعات بیشتر در این حوزه و زمینه‌های مرتبط نیاز است. 

انقلاب کلان داده‌ها

نکته مهمی که باید به آن دقت کنید این است که هر مجموعه داده‌ در دسترس با ویژگی‌های کلان ‌داده‌ها الزاما برای فرآیند تحلیل یا تصمیم‌گیری مناسب نیست. درک یک مجموعه داده و مفاهیم مرتبط با آن و برقراری ارتباط موثر با آن اغلب نیازمند ساخت یک مدل اولیه ذهنی است. به‌طور مثال، فرض کنید قصد آموزش فرمول‌های ریاضی به دانش‌آموزان یک مدرسه را دارید. به جای آن‌که دانش‌آموزان را با مجموعه‌ای بزرگ از فرمول‌ها، معادلات و ارقام (کلان داده‌هایی از نوع ساخت‌یافته) روبرو کنید، لازم است مقدمه‌ای برای آن‌ها ارایه کنید تا دانش‌آموزان بتوانند یک مدل اولیه ذهنی را تصور کنند و بدانند که چرا یادگیری معادلات و فرمول‌ها برای آن‌ها ضروری است. در ادامه باید جزییات غیر‌ضروری را حذف کنید و تنها روی نکات برجسته متمرکز شوید تا بتوانید تصویری دقیقی از فرمول‌ها به دانش‌آموزان نشان دهید. برای دستیابی به چنین هدفی باید به‌طور دقیق تمامی جزییات مربوط به حوزه کاری خود را بدانید تا بتوانید به ساده‌ترین شکل مفاهیم را به دانش‌آموزان انتقال دهید. همین قاعده در دنیای کلان داده‌ها مصادق پیدا می‌کند. هرچه دانش‌تان در ارتباط با مفاهیم و جزییات بیشتر باشد به شکل کارآمدتری قادر به حذف داده‌های غیر ضروری هستید. 

در سال 2001 میلادی گارتنر مقاله‌ای تحت عنوان «مهم‌ترین و تاثیرگذارترین گرایش‌های دنیای فناوری بر صنعت» منتشر کرد که غوغای زیادی به پا کرد. در آن مقاله، این گرایش‌ها با عناوین حجم داده (Data Volume)، سرعت داده (Data Velocity) و تنوع داده (Data Variety) معرفی شدند. البته توسعه این عناوین ادامه پیدا کرد و یک دهه بعد چهار V، هفت V، یازده V، پانزده V و اکنون چهل‌ودو V به دنیای کلان داده‌ها وارد شدند. این Vها همگی ویژگی‌های خاص داده‌ها را نشان می‌دهند. 

ویژگی‌های شاخص کلان‌‌ داده‌ها

اکنون که سال ۲۰۲۲ فرا رسیده است، پیچیدگی‌های دنیای تحلیل روز به روز در حال افزایش است و به همان نسبت فهرست تعداد Vهایی که برای تعریف کلان داده استفاده شده‌اند افزایش پیدا کرده است. در ادامه توضیح کوتاهی در مورد پر استفاده‌ترین V‌ها ارایه می‌کنیم. نکته مهمی که باید به آن دقت کنید این است که اگر به دنبال ورود به دنیای  کلان داده‌ها هستید، ضروری است در ارتباط با این مفاهیم پژوهش کاملی انجام دهید. 

  • نوسان (Volatility): در سیستم‌های تولیدی، متخصص باید آمادگی لازم برای رویارویی با نوسان داده‌ها را داشته باشد، به‌طوری که عملکرد مدل‌ها به واسطه دریافت داده‌های غیرمنتظره مختل نشوند و علاوه بر این، باید آمادگی دریافت ترکیبی از داده‌های عددی و کاراکتری را داشته باشید. 
  • تغییرپذیری (Variability): به ناسازگاری مجموعه‌های داده اشاره دارد که مدیریت فرآیند تحلیل را دشوار می‌کند. مشکل فوق به این دلیل به وجود می‌آید که منابع در دسترس علم داده‌ها دائما در حال تغییر است. ممکن است مدل‌هایی که در فرآیند تولید قرار می‌گیرند با داده‌های غیرقابل پیش‌بینی تغذیه شوند. 
  • تنوع (Variety): متخصصان کلان داده‌ها با قالب‌های داده گوناگون (فایل‌های متنی، پایگاه‌ داده‌های رابطه‌ای، شبکه‌های گراف، پایگاه داده غیر رابطه‌ای) و سطوح مختلفی از پیچیدگی داده‌ها روبرو هستند. تنوع در ارتباط با ساختار‌یافته، ساختار‌نیافته و نیمه‌ساختار‌یافته بودن داده‌ها نیز مطرح است. از سوی دیگر، منابع داده‌ای که داده‌ها از آن‌ها جمع‌آوری می‌شوند، متنوع هستند و همین تنوع منابع، زمان تحلیل‌ها را بیشتر و ارزش آن‌ها را افزایش می‌دهد. به بیان دیگر، تنوع به نوع و ماهیت داده‌ها باز می‌گردد که به پژوهش‌گر جهت تحلیل و ارایه بینشی دقیق کمک می‌کند. 
  • حجم (Volume): با افزایش دستگاه‌های با قابلیت اتصال به اینترنت، افراد بیشتری از تجهیزات و حس‌گرهای هوشمند استفاده خواهند کرد. بنابراین حجم داده‌ها افزایش پیدا می‌کند. حجم به کمیت داده‌های تولید و ذخیره‌سازی شده اشاره دارد. حجم داده‌ها نشانگر ارزش و بینش بالقوه نهفته در داده‌ها است.
  • ارزش (Value): علم داده با افزایش داده‌های موجود و توسعه روش‌های جدید، ارزش روز‌افزونی برای کاربران فراهم می‌کند.
  • تیغه (Vane): علم داده می‌تواند نقش مهمی‌ در تصمیم‌گیری‌های صحیح داشته باشد. 
  • رایج (Vanilla): ساده‌ترین و معمول‌ترین مدل‌ها اگر طراحی دقیق و درستی داشته باشند ارزشمند هستند. 
  • مزیت (Vantage): کلان‌ داده به کاربر یک دیدگاه منحصر به فرد از سیستم‌های پیچیده می‌دهد.
  • ابهام (Vagueness): به معنای داده یافت شده صرف‌نظر از حجم داده در دسترس است و به‌طور معمول غیرشفاف و مبهم است.
  • اعتبار (Validity): به این معنا است که انجام تحلیل دقیق برای داشتن پیش‌بینی‌های معتبر رویکردی ضروری است.
  • شجاعت (Valor): در رویارویی با کلان داده‌ها، تحلیل‌گر باید از سد چالش‌های مختلف عبور کند. 
  • تمرکز متغیر (Varifocal): کلان‌ داده‌ها در تعامل با علم داده‌ها امکان مشاهده مفاهیم کلی و جزییات را به‌طور همزمان ارایه می‌کنند. 
  • ناخواسته (Varmint): هر چه کلان ‌داده‌ها بزرگ‌تر شود به همان نسبت تضاد بیشتر می‌شود که روی ارایه نتایج درست تاثیر منفی می‌گذارد. 
  • انحراف (Veer): با پیدایش مفهومی به‌نام تحلیل داده چابک، پژوهش‌گر باید همسو با خواسته‌های کاربر حرکت کند و هر زمان از او درخواست شد سریعا تغییر جهت دهد تا خروجی کار قابل قبول باشد. 
  • پرده (Veil): کلان داده‌ها اجازه می‌دهند حقایق پشت پرده را نشان دهید و علاوه بر این، تاثیر متغیرهای پنهان در داده‌ها را بررسی کنید. 
  • سرعت (Velocity): نه تنها حجم داده‌ها با سرعت نمایی در حال افزایش است، بلکه نرخ تولید داده نیز به طور مداوم در حال رشد است. سرعت به روند تولید و انتشار سریع داده‌ها و پاسخ‌گویی به تقاضا برای پردازش داده‌ها اشاره دارد. 
  • محل (Venue): برای آن‌که تحلیل کلان داده‌ها نتایج مدنظر را به همراه داشته باشد باید فرایند سازمان‌دهی و پردازش روی موقعیت‌های مختلفی انجام شود. به‌طور مثال، گاهی اوقات پردازش در ایستگاه‌های کاری و گاهی اوقات در ابر انجام می‌شود.
  • پیش‌بینی (Vaticination): به تحلیل‌های پیش‌گویانه مبتنی بر رویکردهای آماری اشاره دارد. این پیش‌بینی‌ها می‌توانند بسته به سطح دقت و پیچیدگی مسئله، دقیق یا اشتباه باشند. 
  • گاوصندوق (Vault): به مجموعه کلان داده‌هایی اشاره دارد که به لحاظ امنیتی مهم هستند و نباید به شکل عادی در دسترس همگان قرار داشته باشند. 
  • صیقلی (Varnish): نحوه تعامل کاربر با خروجی کار پژوهش‌گر را نشان می‌دهد. 
  • گستردگی (vastness): ارتباط مستقیم با حس‌گرها و صنعت اینترنت اشیا دارد که حجم زیادی از داده‌ها را تولید می‌کنند. 
  • صحت (Veracity): صحت به کیفیت داده‌های ثبت شده که به شدت متنوع هستند و درستی تحلیل‌ها را تحت تاثیر قرار می‌دهند اشاره دارد. در همین زمینه،‌ تکرارپذیری رویکردی حیاتی برای انجام تحلیل‌های درست است.
  • حکم (Verdict): هرچه تعداد افرادی که بر تصمیم‌گیری‌های مدل تاثیرگذار هستند بیشتر می‌شود به همان نسبت صحت، اعتبار خروجی و تحلیل اهمیت پیدا می‌کند. 
  • نظم (Versed): متخصصان در بیشتر موارد برای انجام درست کارها باید از جزییات مختلفی اطلاع داشته باشند؛ به همین دلیل نیازمند سازمان‌دهی و نظم‌دهی به جزییات هستند. 
  • کنترل نسخه (Version Control): کنترل و پیگیری تغییرات واحد اطلاعاتی در فرآیندهای تحلیل همواره لازم است.
  • موشکافی (Vet): علم داده امکان موشکافی فرضیات و تقویت بینش با بهره‌گیری از شواهد را برای پژوهش‌گر به وجود می‌آورد. 
  • جدال (Vexed): به معنای توانایی متخصص در رویارویی با مسائل پیچیده و بزرگ و ارایه را‌ه‌حلی برای آن‌ها است. 
  • پایداری (viability): طراحی یک مدل پایدار کار دشواری است و ساخت سیستمی که بر پایه این مدل کار کند، سخت‌تر از آن.
  • مصورسازی (Visualization): مصورسازی با نمودارها و گرافیک‌ها، بهترین راه است که مشتریان با مدل ارتباط برقرار می‌کنند.
  • رواج (Vogue): یادگیری ماشین به اصلی‌ترین جریان بسیاری از صنایع تبدیل شده، به‌طوری که امروزه بیشتر کسب‌وکارها برای دستیابی به مزیت رقابتی از یادگیری ماشین استفاده می‌کنند. 
  • سفر (Voyage): پژوهش‌گر هر چه بیشتر با مسائلی که علم داده فراهم می‌کند روبرو می‌شود، تجربه بیشتری به دست می‌آورد. 
  • پر جنب‌و‌جوش (vibrant): تیم‌های فعال در زمینه تحلیل داده‌ها باید پر جنب‌وجوش باشند تا بتوانند بینش‌ها، ایده‌ها و مدل‌های دقیقی ارایه کنند. 
  • خوراک‌رسان (Victual): کلان‌ داده سوخت موردنیاز علم داده‌ها را تامین می‌کند. 
  • شیوع‌پذیری (Viral): به انتشار سریع داده‌ها میان کاربران و نرم‌افزارهای گوناگون اشاره دارد. 
  • تخصص (Virtuosity): با توجه به ماهیت پویای این حوزه، ضروری است که دانشمند داده مهارت و تخصص خود در این حوزه را دائما ارتقا دهد. 

انواع تحلیل‌ها در دنیای کلان داده‌ها 

تحلیل‌های پیش‌گویانه (Predictive Analytics): راه‌حلی است که از تجربه (داده) می‌آموزد رفتار آینده افراد را برای اتخاذ تصمیمات بهتر پیش‌بینی کند (در این‌جا، پیش‌بینی تنها محدود به انسان‌ها نیست و امکان پیش‌بینی تحولات اجتماعی، تجاری، اقتصادی و نمونه‌های مشابه وجود دارد). تحلیل‌های پیش‌گویانه از مدل‌های پیش‌بین (predictive models) استفاده می‌کنند. مدل پیش‌بین، رویکردی است که الگوهای رفتاری یک فرد را پیش‌بینی می‌کند. این مدل، ویژگی‌های (مشخصه‌ها) افراد (موجودیت‌ها) را به عنوان ورودی دریافت می‌کند و یک امتیاز پیش‌بینی به عنوان خروجی ارایه می‌کند. هرچه امتیاز پیش‌بینی بالاتر باشد، احتمال بروز آن رفتارها از طریق عامل بیشتر است. 

  • تحلیل‌های توصیفی (Descriptive Analytics): این نوع تحلیل‌ها ذات توصیفی دارند. تحلیل‌های توصیفی داده‌ها را خلاصه‌سازی کرده و کمتر بر جزئیات دقیق هر بخش از اطلاعات تمرکز می‌کنند و بیشتر روی روایت کلی متمرکز هستند. 
  • تحلیل‌های تجویزی (Prescriptive Analytics): تحلیل‌های تجویزی ذاتا ماهیت پیش‌گویانه دارند. این نوع تجزیه و تحلیل نتایج مطلوب را بر مبنای انجام یک عمل مشخص انجام می‌دهد و اقدامات مختلفی را برای رسیدن به یک نتیجه خاص پیشنهاد می‌کند. بنابراین، از یک سیستم بازخورد قوی استفاده می‌کند که به‌طور مداوم رابطه بین عمل و نتیجه را یاد می‌گیرد و به روز می‌کند

ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را می‌توانید از کتابخانه‌های عمومی سراسر کشور و نیز از دکه‌های روزنامه‌فروشی تهیه نمائید.

ثبت اشتراک نسخه کاغذی ماهنامه شبکه     
ثبت اشتراک نسخه آنلاین

 

کتاب الکترونیک +Network راهنمای شبکه‌ها

  • برای دانلود تنها کتاب کامل ترجمه فارسی +Network  اینجا  کلیک کنید.

کتاب الکترونیک دوره مقدماتی آموزش پایتون

  • اگر قصد یادگیری برنامه‌نویسی را دارید ولی هیچ پیش‌زمینه‌ای ندارید اینجا کلیک کنید.

ایسوس

نظر شما چیست؟