رفع ابهام از بزرگ داده‌ها
شش پرسشی که هر کسب ‌و کاری باید درباره معماری بزرگ داده‌ها مطرح کند
امروزه بسیاری از سازمان‌ها به‌دنبال آن هستند تا از بهترین ابزارهای مرتبط با بزرگ داده‌ها در جهت دستیابی به چشم‌اندازهای از پیش تعیین شده خود استفاده کنند. اما نیل به این هدف معطوف به درک درست پرسش‌هایی است که در ادامه آن‌ها را مشاهده خواهیم کرد.

این مطلب یکی از مقالات پرونده ویژه «داده‌های بزرگ؛ فردای بزرگ‌تر» شماره 197 ماهنامه شبکه است. علاقه‌مندان می‌توانند کل این پرونده ویژه را از روی سایت شبکه دانلود کنند.


در جریان برگزاری کنفرانس شرکت Dell EMC در ماه می سال جاری، کوری مینتون مهندس بخش سیستمی شرکت دل به روی صحنه رفت و به رهبران فناوری اطلاعات نشان داد به‌کارگیری بزرگ داده‌ها چگونه می‌تواند چشم‌اندازهای ناپیدا را پیش روی شرکت‌ها قرار دهد و دید بازتری را به رهبران کسب‌ و کار اعطا کند. بزرگ داده‌ها به کسب ‌و کارها وعده داده‌اند که سودآوری آن‌ها را بیش از پیش افزایش دهند، اما برای بسیاری از کسب ‌و کارها دستیابی به این مهم کاری دشوار است، به‌واسطه آنکه بسیاری از سازمان‌ها به‌درستی نمی‌دانند باید چه معماری را به کار گیرند یا ابزارهایی را مستقر کنند و مهم‌تر از آن اساساً به چه زیرساختی نیاز دارند. از آمار توصیفی گرفته تا مدل‌های پیش‌بینی کننده و حتی هوش مصنوعی همه این فناوری‌ها نیاز مبرمی به بزرگ داده‌ها دارند. امروزه بسیاری از سازمان‌ها به‌دنبال آن هستند تا از بهترین ابزارهای مرتبط با بزرگ داده‌ها در جهت دستیابی به چشم‌اندازهای از پیش تعیین شده خود استفاده کنند. اما نیل به این هدف معطوف به درک درست پرسش‌هایی است که در ادامه آن‌ها را مشاهده خواهیم کرد.

 افزایش ضریب هوشمندی شرکت‌ها و به‌ویژه بنگاه‌های اقتصادی یکی از مهم‌ترین دلایل به‌کارگیری بزرگ داده است. اما سامانه‌‌ها، سرویس‌ها یا محصولاتی که از سوی شرکت‌ها خریداری یا ساخته می‌شوند زمانی کارکرد واقعی خود را نشان می‌دهند که ابتدا با داده‌های مناسب تغذیه شوند و در ادامه به پردازش داده‌ها بپردازند. در چنین شرایطی است که این بنگاه‌ها می‌توانند از تحلیل‌های هوشمندانه مبتنی بر داده‌ها برای اخذ تصمیمات تطبیق‌پذیر و پیش‌دستانه استفاده کنند. در کنفرانس امسال شرکت دل که ماه می 2017 برگزار شد، کوری مینتون مهندس سامانه‌های تحلیلگر دل به شش پرسشی اشاره کرد که شرکت‌ها و کسب ‌و کارها پیش از آنکه به حوزه بزرگ داده‌ها وارد شوند، بهتر است آن ‌را مطرح کنند. در این مقاله به بررسی این شش پرسش خواهیم پرداخت. 

1•••• خرید کردن در مقابل ساختن 

اولین پرسشی که سازمان شما پیش از ورود به حوزه بزرگ داده‌ها باید آن‌ را مطرح کند این است که بهتر است یک سرویس/ سامانه بزرگ داده‌ها را خریداری یا خود از ابتدا چنین سامانه/ سرویسی را ایجاد کند؟ محصولات محبوبی همچون Teradata، SAS، SAP  و Splunk را می‌توان خریداری و به‌سادگی پیاده‌سازی کرد. البته سازمان‌ها می‌توانند از Hortonworks، Cloudera، Databricks و Apache Flink به‌منظور ساخت یک سرویس/ سامانه‌ بزرگ داده‌ها استفاده کنند. مینتون می‌گوید: «سازمان‌هایی که تصمیم می‌گیرند محصولات آماده را خریداری کنند به‌دنبال آن هستند تا در کوتاه‌مدت ارزش‌آفرینی کنند. این کار دو مزیت مهم برای آن‌ها به همراه دارد، اول آنکه خریداری یک سامانه/ سرویس یا محصول کار ساده‌تری است و دوم آنکه به‌کارگیری آن دردسر کمتری دارد. با این حال، برای دستیابی به این سادگی باید هزینه مربوط را پرداخت کنید که غالباً این سامانه‌ها با قیمت بالایی در اختیار سازمان‌ها قرار می‌گیرند. 
همچنین، برای آنکه این ابزارها در شرایطی مطلوب کار کنند باید تا حد امکان از تنوع اطلاعاتی واردشونده به این سامانه‌ها کم کرد. اگر سازمان شما با یک فروشنده شناخته شده در ارتباط است، گزینه ایده‌آل این است که از محصولات و ابزارهای جدیدی که از سوی یک فروشنده معروف در ارتباط با محصولات بزرگ داده‌ طراحی شده استفاده کنید.» اما در طرف مقابل سازمان‌ها گزینه دیگری که همانا ساخت چنین سامانه‌هایی است را در اختیار دارند. بیشتر ابزارهای محبوبی که برای ساخت یک سامانه بزرگ داده‌ها به کار گرفته می‌شوند اغلب قیمت کمی دارند یا رایگان هستند. 
به‌کارگیری این ابزارها به سازمان‌ها اجازه می‌دهد روی یک جریان ارزشی منحصر به فرد سرمایه‌گذاری کنند. زمانی که تصمیم می‌گیرد از این ابزارها به‌منظور ساخت سامانه‌های بزرگ داده‌ها استفاده کنید عموماً فرصت‌ها یا به عبارت دقیق‌تر کانال‌های زیادی را به‌لحاظ تنوع و گسترش‌پذیری می‌توانید به وجود آورید، اما این رویکرد می‌تواند کار را بیش از اندازه پیچیده کند. یکی از بزرگ‌ترین مشکلات مدیران با چنین سامانه‌هایی در ارتباط با قابلیت همکاری است. 

بیشتر ابزارهای محبوبی که برای ساخت یک سامانه بزرگ داده‌ها به کار گرفته می‌شوند اغلب قیمت کمی دارند یا رایگان هستند. 
به‌کارگیری این ابزارها به سازمان‌ها اجازه می‌دهد روی یک جریان ارزشی
منحصر به فرد سرمایه‌گذاری کنند

2•••• داده‌های جریانی در مقابل داده‌های انبوه/ دسته‌ای

مینتون می‌گوید: «داده‌های انبوه/ دسته‌ای از سوی محصولاتی همچون اوراکل، هادوپ، مپ ردیوس  و آپاچی اسپارک مدیریت می‌شوند. این ابزارها قادرند حجم بسیار بالایی از داده‌ها را مدیریت کنند.» این ابزارها قابل برنامه‌ریزی هستند و اغلب به‌منظور ساخت مجموعه‌ای از داده‌ها که از سوی متخصصان علم داده‌ برای آزمایش‌ها مورد استفاده قرار می‌گیرند به کار گرفته می‌شوند. محصولاتی همچون Kafka Apache، Splunk و Flink در ارتباط با داده‌های جریانی به کار گرفته می‌شوند. این ابزارها در تعامل با داده‌های جریانی به‌منظور ایجاد مدل‌های پیش‌بینی کننده به کار گرفته می‌شوند. مشکلی که داده‌های جریانی دارند این است که سرعت آن‌ها بالا است و همین موضوع باعث می‌شود کمتر بتوانیم به آن‌ها اعتماد کنیم. اما ویژگی مثبت داده‌های جریانی در این است که متنوع و وسیع هستند. داده‌های جریانی عمدتاً برای سازمان‌هایی مناسب هستند که فرهنگ دوآپس به‌خوبی در آن سازمان‌ها رعایت می‌شود.

3•••• کاپا در مقابل معماری لامبدا

توییتر مثال خوبی از معماری لامبدا است. در این معماری داده‌ها به دو مسیر تقسیم می‌شوند. گروهی از داده‌ها به‌منظور تغذیه لایه سرعت به‌منظور ارائه بینش سریع مورد استفاده قرار می‌گیرند، در حالی که گروه دیگری از داده‌ها به لایه‌ سرویس‌دهی انتقال داده می‌شوند. در این معماری داده‌های جریانی واردشونده به سیستم به‌منظور تغذیه دولایه batch و speed مورد استفاده قرار می‌گیرند. (شکل 1) مینتون می‌گوید: «مدل فوق به یک سازمان اجازه می‌دهد به هر دو رویکرد بینش جریانی و انبوه دسترسی پیدا کند و در نتیجه میان استریم‌ها تعادل برقرار می‌کند. چالشی که در ارتباط با این معماری وجود دارد این است که شما هم‌زمان دو نوع کدنویسی و دو برنامه را باید مدیریت کنید.» معماری کاپا همه چیز را در قالب یک جریان نشان می‌دهد، اما جریانی است که هدفش حفظ اعتبار داده‌ها و ارائه پردازش‌ بی‌درنگ است (شکل 2). همه داده‌ها به یک ورودی تغییرناپذیر نوشته می‌شوند و در ادامه تغییرات با این داده‌های تغییرناپذیر مورد ارزیابی قرار می‌گیرند. این رویکرد مؤثر است، به‌واسطه آنکه به کدنویسی کمتری احتیاج دارد و همچنین مدلی را ارائه می‌کند که به اعتقاد مینتون برای سازمانی که تازه کار خود را با بزرگ داده‌ها آغاز کرده مناسب است.


شکل 1- معماری لامبدا


شکل 2- معماری کاپا

توییتر مثال خوبی از معماری لامبدا است. در این معماری داده‌ها به دو مسیر تقسیم می‌شوند. گروهی از داده‌ها به‌منظور تغذیه لایه سرعت به‌منظور ارائه بینش سریع مورد استفاده قرار می‌گیرند، در حالی که گروه دیگری از داده‌ها به لایه‌ سرویس‌دهی انتقال داده می‌شوند

4•••• کلاود عمومی در مقایسه با کلاود خصوصی

کلاودهای عمومی و خصوصی یکی از ملزومات بزرگ داده‌ها هستند و از بسیاری جهات به یکدیگر شباهت‌هایی دارند. برای شروع، یک سازمان باید این موضوع را مورد بررسی قرار دهد که چه محیطی بر اساس استعدادهای درون‌سازمانی گزینه مناسبی برای شروع کار است. نیاز به داده‌ها، امنیت، انطباق‌ و الگوهای مصرفی انعطاف‌پذیر از دیگر عواملی هستند که باید مورد توجه قرار گیرند. 

5•••• مجازی‌ در مقابل فیزیکی

مینتون می‌گوید: «سال‌ها پیش بحث درباره زیرساخت‌های فیزیکی و مجازی به‌شدت گرم بود. با این حال فناوری مجازی‌ساز به رشد خود ادامه داد و به یکی از رقبای سرسخت تجهیزات فیزیکی تبدیل شد. به طوری که امروزه در زمینه استقرار بزرگ داده‌ها هر دو فناوری تقریباً مشابه یکدیگر هستند.» 
اما اینکه کدام‌یک از این دو مدل برای کسب ‌و کار شما مناسب است به تصمیمات مدیریتی و اینکه مدیران با کدام‌یک از این فناوری‌ها احساس راحتی می‌کنند و همچنین چه زیرساخت‌هایی در حال حاضر در سازمان شما وجود دارد بستگی دارد.

مطلب پیشنهادی

با 10 باور نادرست در ارتباط با بزرگ داده‌ها آشنا شوید
تصورات اشتباه در ارتباط با مدل‌های داده‌ای

6•••• DAS در مقابل NAS

مینتون می‌گوید: «سامانه‌های ذخیره‌ساز DAS (سرنام Direct-Attached Storage) که به طور مستقیم به سرور متصل می‌شوند در گذشته تنها راهی بودند که به‌منظور استقرار یک کلاستر هادوپ به کار گرفته می‌شدند. با توجه به اینکه پنهای باند شبکه‌ها افزایش پیدا کرده است، در حال حاضر گزینه ذخیره‌سازهای تحت شبکه NAS (سرنام Network-Attached Storage) گزینه ایده‌آلی در ارتباط با بزرگ داده‌ها به شمار می‌روند.» 
اگر از DAS استفاده کنید، آغاز کار برای شما ساده‌تر خواهد بود و مدلی که طراحی کرده‌اید به‌خوبی با مفاهیم نرم‌افزارمحور کار خواهد کرد. همچنین به این نکته توجه داشته باشید که DAS به‌خوبی با داده‌های جریانی کار می‌کند.
اما NAS نیز می‌تواند به‌خوبی چند پروتکل را مدیریت کند، در زمینه گسترش‌پذیری عملکرد خوبی دارد و همچنین به نیازهای امنیتی و انطباقی به‌خوبی پاسخ می‌‌دهد.

 

برچسب: