بزرگ داده‌ها (Big Data) چه هستند و انواع و کاربردهای آن‌ها کدام است؟

01/09/1400 - 11:35

بزرگ داده‌ها (Big Data) چه هستند و انواع و کاربردهای آن‌ها کدام است؟

همان‌گونه که اطلاع دارید چند روزی است که فیس‌بوک به متا که مخفف متاورس است تغییر نام داده است. در حالی که برخی این اقدام فیس‌بوک را یک کار استراتژیک توصیف می‌کنند، اما واقعیت این است که مدیران فیس‌بوک به چیزی فراتر از نیازهای روزمره انسان‌ها فکر می‌کنند. آن‌ها به دنبال ترسیم آینده‌ای هستند که همه چیزی شکل و بوی مجازی به خود خواهد گرفت، درست مثل فیلم دونده تیغه که دنیای کاملا مجازی را به تصویر می‌کشد و حتا هنگامی که مشغول صحبت کردن با افراد مختلف هستید، آن‌ها یک روبات یا نسخه‌ای شبیه‌سازی شده از یک ماهیت فیزیکی هستند. ماهیتی که در پس‌زمینه تمامی این فناوری‌ها قرار دارد اطلاعات است. اطلاعاتی که بسیار گسترده هستند و به‌نام بزرگ داده‌ها آن‌ها را می‌شناسیم و توسط فناوری‌هایی مثل یادگیری ماشین و داده‌کاوی استفاده می‌شوند. در این مقاله قصد داریم به‌طور کلی با ماهیت بزرگ داده‌ها آشنا شویم.

بزرگ داده‌ها چیستند؟

بزرگ داده‌ ها (Big Data) به مجموعه‌ای از داده‌ها اشاره دارد با گذشت زمان حجم آن‌ها به طور تصاعدی بیش‌تر می‌شود. این داده‌ها حجیم و پیچیده هستند، به طوری که ابزارهای سنتی قادر به مدیریت، پردازش و ذخیره‌سازی داده‌ها نیستند. به‌طور کلی، مفهوم بزرگ داده‌ها به تنوع و رشد تصادی و پر سرعت داده‌ها اشاره دارد. بر همین أساس، بزرگ داده‌ها به گروه‌های مختلفی تقسیم شده‌اند.

داده‌ها در دنیای بزرگ داده‌ها می‌توانند ساختارمند یا بدون ساختار باشند، اما این نوع و حجم داده نیستند که اهمیت دارند، بلکه مهم، کارهایی است که سازمان‌ها قادر به انجام آن‌ها با بزرگ داده‌ها هستند. بزرگ داده‌ها را می‌توان برای به دست آوردن بینش در ارتباط با تجزیه و تحلیل‌های استراتژیک به خدمت گرفت. این بینش باعث کیفی تصمیم‌گیری‌ها شده و باعث می‌شود سازمان‌ها تصمیمات راهبردی کارآمدتری را اتخاذ کنند.

انواع بزرگ داده‌ها

با توجه به اهمیت مفاهیم مربوط به بزرگ داده‌ها بهتر است با أنواع مختلف آن‌ها آشنا شویم. به‌طور معمول، بزرگ داده‌ها به گروه‌های زیر تقسیم می‌شوند:

داده‌های ساختاریافته (Structured Data): به داده‌هایی اشاره دارد که ساختار مناسبی دارند و برای به‌کارگیری در پروژه‌های بزرگ مناسب هستند. به‌طور مثال، داده‌های موجود در بانک‌های اطلاعات، فایل‌های اکسل و صفحات گسترده همگی در گروه داده‌های ساختاریافته طبقه‌بندی می‌شوند.

داده‌های نیمه ساختاریافته (Semi-Structured Data): داده‌هایی هستند که ساختار رسمی مدل‌های داده مرتبط با پایگاه داده‌های رابطه‌ای یا سایر اشکال جداول داده‌ها تطابق چندانی با آن‌ها ندارد. البته دقت کنید که داده‌های نیمه ساختاریافته حاوی برچسب‌هایی برای جداسازی عناصر معنایی و اجرای سلسله مراتبی رکوردها و فیلدهای داده‌ای هستند. به‌طور مثال، داده‌های موجود در ایمیل‌ها، فایل‌های گزارش و اسناد ورد در گروه داده‌های نیمه ساختاریافته قرار می‌گیرند.

داده‌های بدون ساختار (Unstructured Data): داده‌هایی هستند که به شکل گسترده‌ای در فضای مجازی در دسترس قرار دارند و فاقد هرگونه انسجام و ساختاری هستند که در ارتباط با بانک‌های اطلاعاتی شاهد آن هستیم. به بیان دقیق‌تر، در حالی که داده‌های بدون ساختار دارای ساختار داخلی هستند، اما از الگوهای مدیریت منسجم یا مدل‌های داده‌ای پیروی نمی‌کنند. به‌طور کلی این داده‌ها فاقد ساختار هستند. از نمونه‌های بارز این داده‌ها باید به فایل‌های تصویری، صوتی و ویدیویی اشاره کنیم که همگی فاقد ساختار منسجم مرسوم هستند.

بزرگ داده‌ها چه ویژگی‌هایی دارند؟

به‌طور معمول بزرگ داده‌ها مجموعه‌‌ای از سنجه‌ها و پارامترهای مختلف دارند که رویکردهای مختلف تجزیه و تحلیل بزرگ داده‌ها را شرح می‌دهند. با این‌حال، بزرگ داده‌ها به دلیل داشتن ویژگی‌های زیر داده شهرت پیدا کرده‌اند:

سرعت رشد داده‌ها (Velocity): در این‌جا واژه سرعت به معنای مدت زمانی است که صرف پردازش داده می‌شود که یکی از فاکتورهای مهم در ارتباط با بزرگ داده‌ها است. ویژگی سرعت پارامترهایی مثل میزان تغییر، انفجارهای فعالیت‌ (Activity Bursts) و پیوند مجموعه داده‌های ورودی را شامل می‌شود.

حجم داده‌ها (Volume): این سنجه با واحد اندازه‌گیری داده‌ها مرتبط است که بر مبنای گیگابایت، زتابایت (Zettabytes) و یوتابایت (Yottabytes) نشان داده می‌شوند. با توجه به روندهای دنیای فناوری کاملا مشخص است که در آنیده حجم داده‌ها به میزان قابل توجهی افزایش پیدا می‌کند.

تنوع داده‌ها (Variety): تنوع به وجود انواع مختلف بزرگ داده‌ها اشاره دارد. تنوع یکی از بزرگ‌ترین نگرانی‌هایی کارشناس فناوری اطلاعات است، زیرا این ویژگی روی عملکرد تأثیرگذار است. در چنین شرایطی کارشناسان باید از طریق به‌کارگیری مکانیزم‌های سازمان‌دهی مناسب به فکر مدیریت باشند.

ارزش داده‌ها (Value): به مزیت رقابتی اشاره دارد که در اختیار سازمان‌ها قرار می‌دهد. به‌طور مثال، آیا داده‌ها با اهداف شرکت مطابقت دارند، آیا این داده‌ها سازمان را در جهت ارتقا و شکوفایی سوق می‌دهند، در واقع، ویژ‌گی ارزش یکی از مهم‌ترین خصلت‌های بزرگ داده‌ها است.

صحت داده‌ها (Veracity): به میزان دقت و قابل اعتماد بودن داده‌ها اشاره دارد. اگر صحت داده‌ها پایین باشد، مدل‌ها نتایج ضعیف یا اشتباهی را ارایه می‌کنند.

اعتبار داده‌ها (Validity): در ارتباط با صحت مفهوم دیگری به‌نام اعتبار نیز وجود دارد که بیان‌گر این موضوع است که داده‌ها تا جه میزان منطبق، معتبر و همسو با اهداف هستند.

نوسان (Volatility): بزرگ داده‌ها دائما در حال تغییر هستند، به طوری که ممکن است داده‌هایی که در امروز از یک منبع جمع‌آوری شده‌اند با داده‌های فردا تفاوت زیادی داشته باشند. این تغییرپذیری داده‌ها نوسان نامیده می‌شود و بر همسوسازی داده‌ها تاثیر منفی می‌گذارد.

نمایش (Visualization): از ویژگی مذکور برای نشان دادن بینش‌های آماده شده توسط بزرگ داده‌ها از طریق به‌کارگیری رابط‌های بصری مثل نمودارها و گراف‌ها استفاده می‌شود.

بزرگ داده‌ها چه مزیت‌های رقابتی دارند؟

در یک دهه گذشته، بزرگ داده‌ها به یکی از حوزه‌های محبوب صنعت فناوری اطلاعات تبدیل شده‌اند، زیرا مزایای بالقوه‌ای در اختیار سازمان‌ها قرار می‌دهند. از جمله این مزایا باید به بهبود تجربه مشتری، مدیریت ریسک، توسعه محصول و ایجاد نوآوری، تصمیم‌گیری بهتر و سریع‌تر، کمپین‌های متمرکز و هدفمند، شبکه‌های تامین‌کننده گسترده، تشخیص کلاهبرداری، کاهش هزینه‌های سازمان و افزایش بهره‌وری و درآمد اشاره کرد.

بزرگ داده‌ها چه معایبی دارند؟

با وجود مزایای بالقوه‌ای که بزرگ داد‌ها در حوزهرهایی مثل دیجیتال مارکتینگ دارند، با این‌حال، معایب خاص خود را نیز دارند از جمله این معایب باید به کمبود داده‌های با کیفیت، تغییرات بسیار سریع، نیاز به سخت‌افزار مخصوص، مشکلات مربوط به ادغام با سیستم‌های قدیمی و مخاطرات امنیتی اشاره کرد. نظرسنجی که موسسه Syncsort انجام داده نشان می‌دهد، اولین چالش کار با بزرگ داده‌ها، کیفیت داده‌ها و نحوه بررسی آن‌ها است. قبل از آن که دانشمندان علم داده بتوانند به تحلیل بزرگ داده‌ها بپردازند، ابتدا باید از دقت، میزان مرتبط بودن داده‌ها و مناسب بودن قالب‌ آن‌ها اطمینان حاصل کنند. این‌کار باعث می‌شود روند گزارش‌دهی کند شود، اما بررسی مسائل مربوط به کیفیت داده ضروری است. اگر کیفیت داده‌ها بررسی نشوند، ممکن است بینش‌های حاصل از تحلیل داده‌ها بی‌ارزش تلقی شوند یا مشکلات عدیده‌ای برای سازمان به وجود آورد. به‌طور معمول اطلاعات مربوط به سازمان‌ها در سامانه‌ها و برنامه‌های مختلفی ذخیره‌سازی شده‌اند. یکپارچه‌سازی این منابع داده‌ای متفاوت و ناهمگون و انتقال داده‌ها در مکانی که قرار است استفاده شود، زمان‌بر و هزینه‌بر است. یکی دیگر از مسائل مهم در این زمینه زیرساخت فناوری اطلاعات است. سازمان‌ها به سخت‌افزارهای مناسب برای پشتیبانی از تحلیل بزرگ داده‌ها نیاز دارند، زیرا فضای ذخیره‌سازی برای نگه‌داری داده‌ها، پهنای باند شبکه برای انتقال داده‌ها به سیستم‌های تحلیل‌کننده و محاسبه منابع برای انجام این تحلیل‌ها همگی به هزینه‌های زیادی نیاز دارد. برخی شرکت‌ها برای حل این مشکلات به سراغ راه‌حل‌های ابرمحور رفته‌اند، اما مکانیزم‌های ابری قادر به حل تمامی مشکلات نیستند.

چه روش‌هایی برای تحلیل بزرگ داده‌ها وجود دارد؟

به‌طور معمول متخصصان از چهار روش برای تحلیل بزرگ داده‌ها استفاده می‌کنند که تجزیه و تحلیل توصیفی (Descriptive)، تجزیه و تحلیل تشخیصی (Diagnostic)، تجزیه و تحلیل پیش‌بینی کننده (Predictive) و تجزیه و تحلیل تجویزی (Prescriptive) نام دارند.

تجزیه و تحلیل توصیفی: تجزیه و تحلیل توصیفی یک روش سودمند برای کشف الگوها در بخش خاصی از مجموعه مشتریان است. ضمن آن‌که با استفاده از روش تحلیل توصیفی امکان ساده کردن داده‌ها وجود دارد و حتا این امکان وجود دارد که داده‌های گذشته را به شکل خواندنی خلاصه‌سازی کرد. در روش فوق روندها جزئیات بیش‌تری ارائه می‌شود و به عنوان یک ابزار کمکی برای ایجاد گزارش‌هایی مانند گزارش درآمد یک شرکت، سود، فروش و سایر موارد به کار می‌رود. آمار خلاصه (Summary Statistics)، خوشه‌بندی (Clustering) و قواعد وابستگی (Association Rule) همگی جز روش‌های تجزیه و تحلیل توصیفی هستند و برای تحلیل سبد بازار استفاده می‌شوند.

تجزیه و تحلیل تشخیصی: برای تشخیص مشکل استفاده می‌شود. به بیان دقیق‌تر، در روش فوق بینشی دقیق و عمیق در مورد علت اصلی مشکل ارائه می‌شود. اگر دانشمندان داده (Data Scientist) در نظر داشته باشند، دلایل پنهان یک اتفاق خاص را درک کنند از روش فوق استفاده می‌کنند. از روش‌های زیرمجموعه روش تشخصی باید به تکنیک شکستن مسئله (Drill Down)، داده‌کاوی، بازیابی داده‌ها (Data Recovery)، تحلیل رویگردانی دلیل (Churn Reason Analysis) و تجزیه و تحلیل نمرات سلامت مشتری (Health Score Analysis) اشاره کرد.

تجزیه و تحلیل پیش‌بینی کننده: در روش فوق سعی در پیش‌بینی حوادث آینده است. این اتفاقات ممکن است مواردی مثل روندهای بازار، روندهای مصرف‌کننده و سایر رویدادهای مرتبط با بازار باشند. این تجزیه و تحلیل با به کارگیری داده‌های گذشته و زمان حال برای پیش‌بینی وقایع استفاده می‌شود. تجزیه و تحلیل پیش‌‌گویانه یکی از رایج‌ترین نوع تحلیل‌های تجاری است. علاوه بر کاربرد تجزیه و تحلیل پیش‌گویانه برای ارائه‌دهندگان خدمات، این روش تحلیلی برای مصرف‌کنندگان نیز کاربرد دارد. در روش مذکور پس از پیگیری فعالیت‌های گذشته و تعیین نقطه مبنا، کارهایی پیش‌بینی می‌شوند که باید در آینده انجام شوند. در روش مذکور از مدل‌های داده کاوی، هوش مصنوعی و یادگیری ماشین برای تحلیل داده‌های جاری و پیش‌بینی اتفاقات احتمالی در سناریوهای خاص استفاده می‌شود.

تجزیه و تحلیل تجویزی: یکی دیگر از روش‌های کارآمد در حوزه بزرگ داده‌ها است. تجزیه و تحلیل تجویزی گام پس از تجزیه و تحلیل پیش‌گویانه است. در روش فوق، ابتدا اقدامات احتمالی در نظر گرفته شده و بررسی می‌شوند و در ادامه بر اساس نتایج تحلیل‌های تجویزی و پیش‌‌گویانه یک مجموعه داده‌های معین، پیشنهادها ارائه می‌شوند. تجزیه و تحلیل تجویزی از ادغام داده‌ها و قوانین تجاری مختلف پدید می‌آید و اجازه می‌دهد داده‌‌ها هم به صورت داخلی یعنی از طریق ورودی‌های سازمانی و هم به صورت خارجی یعنی از طریق بینش شبکه‌های اجتماعی جمع‌آوری شوند.

مدل 3V در حوزه بزرگ داده‌ها چیست؟

در مدل 3V، سه سنجه مهم بزرگ داده‌ها بررسی شده و با کمک این مدل، اساس کار بزرگ داده‌ها مشخص می‌شود. به عبارت دیگر، از طریق به‌کارگیری سه ویژگی مدل V3، نحوه ارزیابی بزرگ داده‌ها و تفاوت‌های عمده میان بزرگ داده‌ها و داده‌های سنتی مشخص می‌شوند. به‌طور معمول، مدل V3 سه ویژگی شاخص به شرح زیر دارد:

حجم (Volume): همان‌گونه که اشاره شد از ویژگی‌های شاخص بزرگ داده‌ها است.آمارها نشان می‌دهند روزانه حدود 5.2 کوینتیلیون (Quintillion) بایت داده ایجاد می‌شود که ۱۰ به توان ۱۸ است. به این ترتیب، داشتن داده‌ها با حجم ترابایت یا پتابایت در دستگاه‌های ذخیره‌سازی و سرورهای برخی از شرکت‌ها دیگر عجیب نیست.

سرعت: رشد و افزایش داده‌ها و به دنبال آن، نقش برجسته و مهم داده‌ها در دنیای کسب‌وکار باعث تغییر دیدگاه‌ها نسبت به داده‌ها شده است. در واقع، همزمان با تغییر الگوی جمع‌آوری داده‌ها، این امکان است که از داده‌ها به عنوان یک ابزار کمکی استفاده شود. در مدل ۳V مفهوم سرعت (Velocity) برای اندازه‌گیری میزان سرعت ورود داده‌ها استفاده می‌شود. برخی از داده‌ها بلادرنگ (Real-time) و برخی به شکل دسته‌ای وارد می‌شوند. با توجه به این‌که سرعت انتقال داده‌ها در هر پلتفرمی تفاوت دارد، مهم است که بدون داشتن همه حقایق و ارقام، اعمالی همچون تعمیم، کاستن یا نتیجه‌گیری سریع انجام نشوند.

تنوع (Variety): در گذشته داده‌ها یک مرتبه از مکانی جمع‌آوری و در یک قالب خاص ارائه می‌شدند. این داده‌ها به شکل فایل‌های پایگاه داده و فایل‌های اکسل، اکسس و CSV بودند. امروزه داده‌ها به شکل‌های غیر رایج مثل ویدئو، متن، فایل pdf و گرافیک در شبکه‌‌های اجتماعی و از طریق فناوری‌هایی مانند دستگاه‌های پوشیدنی (Wearable Devices) تولید یا جمع‌آوری می‌شوند. در حالی که داده‌ها با چنین قالب‌هایی بسیار کاربردی و مفید هستند، اما برای تحلیل و مدیریت داده‌های ورودی به مهارت‌های تحلیلی بیشتری نیاز است و به دنبال آن، کار بیشتری باید انجام شود. تنوع به چارچوب‌های مختلفی اشاره دارد که داده‌ها در قالب آن‌ها پدید می‌آیند. به‌طور مثال، تصاویر، ویدئوها، فایل‌های صوتی، ایمیل‌ها، اسناد، کتاب‌ها، ارائه‌ها و توئیت‌های تویتتر همگی داده هستند.

بزرگ داده‌ه چه کاربردی دارند؟

همان‌گونه که اشاره شد، بزرگ داده‌ها از حوزه‌های تاثیرگذار صنعت فناوری اطلاعات هستند. به همین دلیل در صنایع مختلفی کاربرد دارند. از جمله این صنایع باید به بانکداری و اوراق بهادار، دیجیتال مارکتینگ، ارتباطات، رسانه و سرگرمی، حوزه بهداشت و سلامت، سیستم‌های آموزشی، تولید و منابع طبیعی، خدمات دولتی، خدمات بیمه، خرده‌ فروشی و عمده فروشی، حمل و نقل و انرژی و خدمات اشاره کرد.

چرا بزرگ داده‌ها اهمیت دارند؟

تحلیل بزرگ داده‌ها انقلاب بزرگی در زمینه فناوری اطلاعات ایجاد کرده است. به‌طوری که عملکرد شرکت‌های مختلف از طریق تحلیل داده‌ها بهبود پیدا می‌کند. اصلی‌ترین عامل در این زمینه همان‌گونه که اشاره شد سه ویژگی کلیدی بزرگ داده‌ها یعنی حجم، سرعت و تنوع بالا و در ادامه تکنیک‌های تحلیلی مختلف مثل یادگیری ماشین داده کاوی، پردازش زبان‌‌ طبیعی و آمار است. از طریق به‌کارگیری بزرگ داده‌ها می‌توان عملیات مختلفی در یک پلتفرم واحد انجام داد. به‌طور مثال، امکان ذخیره‌سازی ترابایت‌هایی از داده‌ها، پیش پردازش و مصورسازی آن‌ها با کمک چند ابزار بزرگ داده‌ها وجود دارد. برای تحلیل داده‌ها برای کسب و کار باید اعمالی مانند استخراج داده (Data Extraction)، آماده‌سازی داده و ترکیب آن‌ها انجام شوند.

کلام آخر

در مجموع باید بگوییم که تحلیل بزرگ داده‌ها به سازمان‌ها اجازه می‌دهد با داده‌های خود به شکل کارآمدتری کار کنند و این داده‌ها را برای شناسایی فرصت‌های جدید به کارگیرند. امروزه تکنیک‌ها و الگوریتم‌های متفاوتی برای پیش‌بینی داده‌ها وجود دارند که برای موفقیت آینده شرکت می‌توان از آن‌ها استفاده کرد، به‌طوری که به خط‌دهی استراتژی‌های تجاری و سودآوری بیشتر کمک فراوانی کنند.

مطالب پربازدید

ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را می‌توانید از کتابخانه‌های عمومی سراسر کشور و نیز از دکه‌های روزنامه‌فروشی تهیه نمائید.

ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین

کتاب الکترونیک +Network راهنمای شبکه‌ها

برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.

کتاب الکترونیک دوره مقدماتی آموزش پایتون

اگر قصد یادگیری برنامه‌نویسی را دارید ولی هیچ پیش‌زمینه‌ای ندارید اینجا کلیک کنید.

برچسب:

به اشتراک گذاری مطلب:

Telegram Twitter Print HTML

نظر شما چیست؟

form.antibot { display: none !important; } You must have JavaScript enabled to use this form.