رشد بزرگ داده‎‎ها، تبدیل هادوپ به یک استاندارد سازمانی

10 روند برتر بزرگ داده‌ها در سال 2017 که تاثیرشان را در سال‌های آتی نشان خواهند داد

28/10/1396 - 11:55

10 روند برتر بزرگ داده‌ها در سال 2017 که تاثیرشان را در سال‌های آتی نشان خواهند داد

2016 را می‎توان سالی پررونق در عرصه داده‎های حجیم دانست، زیرا سازمان‎های بیشتری به ذخیره، پردازش و استخراج همه نوع فرمت و اندازه‎ای از داده پرداختند. در سال 2017 نیز سیستم‎هایی که از داده‎ها در مقیاس بزرگ در هر دو شکل ساخت‌یافته و بدون ساختار پشتیبانی می‎کنند، در حال اضافه شدن هستند. این بازار به سکوهایی نیاز خواهد داشت که از داده‎ها نگهداری کند و آن‌ها را در زمان استفاده کاربر نهایی برای تجزیه و تحلیل امن باقی نگه دارد. این سیستم‎ها به‌خوبی در داخل سیستم‎های فناوری اطلاعات و استانداردهای سازمانی کار می‎کنند. اما برای آنکه با کم و کیف این تغییرات در سال جاری بیشتر آشنا شوید، 10 روند برتر بزرگ داده‎ها در سال جاری را مورد بررسی قرار داده‎‎ایم.

این مطلب یکی از مقالات پرونده ویژه «داده‌های بزرگ؛ فردای بزرگ‌تر » شماره 197 ماهنامه شبکه است. علاقه‌مندان می‌توانند کل این پرونده ویژه را از روی سایت شبکه دانلود کنند.

1- داده‎های حجیم سریع و قابل دسترس خواهند شد

همین حالا هم می‎توانید در هادوپ (Hadoop) از یادگیری ماشینی استفاده کنید و به تجزیه و تحلیل داده‎ها بپردازید، اما اولین سؤالی که مردم اغلب می‎پرسند این است که SQL تعاملی تا چه میزان سریع است؟ SQL کانالی برای کاربران تجاری است که می‎خواهند با استفاده از هادوپ دسترسی سریع‎تر و تکرارپذیرتری به داده‎ها داشته باشند. این نیاز بیشتر از طریق پایگاه‎های داده سریع‎تر و سازگار مثل Exasol و MemSQL، ذخیره‌سازهای مبتنی بر هادوپ مثل Kudu و فناوری‎هایی که امکان کوئری‎گیری سریع‎تری را فراهم می‎کنند امکان‎پذیر خواهد شد. استفاده از SQL روی موتورهای هادوپ (Apache Impala, Hive LLAP, Presto, Phoenix و Drill) و فناوری‎های OLAP روی هادوپ (AtScale, Jethro Data و Kyvos Insights) باعث می‎شوند این شتاب‎دهنده‎های کوئری فاصله و شکاف بین ذخیره‌سازهای سنتی و دنیای داده‎های حجیم را از بین ببرند.

2- داده‎های حجیم تنها در اختیار هادوپ نخواهند ماند

ابزارهای هدف ساخته شده برای هادوپ در حال منسوخ شدن هستند. طی سال‌های گذشته شاهد حضور چند فناوری در زمینه داده‎های حجیم بوده‎ایم که نیاز به تجزیه و تحلیل در هادوپ را محقق می‎کردند. اما سازمان‎هایی متشکل از محیط‎های پیچیده و ناهمگن دیگر نمی‎خواهند تنها به یک منبع داده متکی باشند. آن‌ها برای رفع نیاز خود به منابعی احتیاج دارند که به سیستم‎های متکی به کلاود متصل هستند و می‎توانند داده‎های ساخت‌یافته و بدون ساختار را از منابع هادوپ و غیرهادوپ مدیریت کنند. از طرفی، حتی پایگاه‎های داده رابطه‎ای نیز برای داده‎های حجیم آماده شده‎اند. برای نمونه، SQL Server 2016 اخیراً پشتیبانی از JSON را به قابلیت‎های خود اضافه کرده است. در سال 2017 مصرف‌کنندگان متقاضی تجزیه و تحلیل بر روی تمام انواع داده خواهند بود. سکوهایی که توانایی مدیریت داده و منابع agnostic را داشته باشند رونق زیادی پیدا خواهند کرد و آن‌ها که تنها برای هادوپ ساخته شده‎اند و موارد استفاده محدودتری دارند، از رده خارج خواهند شد. می‎توان از Platfora به‌عنوان شاخص اولیه این روند یاد کرد.

3- سازمان‎ها از مخازنی شبیه به دریاچه‎های داده بهره خواهند برد

یک دریاچه داده شبیه به یک مخزن آب ساخته دست انسان است. اول شما سد را بنا می‎کنید (ساخت یک کلاستر)، بعد آب (داده) را به آن وارد می‎کنید. هنگامی‎ که دریاچه احداث شد، شروع به استفاده از این آب (داده) برای مقاصد مختلف مثل تولید برق، نوشیدن و بازسازی (تجزیه و تحیل داده، ML، امنیت سایبری وغیره) می‎کنید. تا همین چند وقت گذشته پر کردن این دریاچه آخرین کاری بود که باید انجام می‎شد. اما در سال 2017 توجیه کسب و کار برای هادوپ پراهمیت‎تر شده و خواهد ‎شد. سازمان‎ها برای دریافت پاسخ سریع‎تر درخواست‎های مکرر و سریع‎تری را برای استفاده از این دریاچه خواهند داشت. آن‌ها قبل از سرمایه‌گذاری روی کارکنان، داده و زیرساخت‎ها به‌دقت نتایج کسب و کار را بررسی می‎کنند. چنین کاری یک مشارکت قوی‎تر بین کسب و کار و صنعت آی‎تی را فراهم می‎کند.

مطلب پیشنهادی

دانلود کنید: پرونده ویژه داده‌های بزرگ؛ فردای بزرگ‌تر

4- معماری‎های پخته و کامل ساختار متناسب برای تمام چهارچوب‌ها را رد می‌کنند

هادوپ دیگر تنها یک سکوی پردازش دسته‎ای برای استفاده در علوم داده نخواهد بود. هادوپ به یک موتور چندمنظوره برای تجزیه و تحلیل داده تبدیل شده است و حتی برای گزارش‌های عملیاتی چرخه‎های کاری روزانه نیز از آن استفاده می‎شود. در سال 2017، سازمان‎ها با پیگیری استفاده از طراحی معماری مورد خاص به این نیازهای ترکیبی پاسخ خواهند داد. آن‌ها قبل از هرگونه اقدام به انجام یک استراتژی برای داده‎ها تعدادی از عوامل از قبیل موارد فردی، سؤالات، حجم، تعداد دفعات دسترسی، سرعت داده‎ها و سطح تجمع را بررسی می‎کنند. این معماری‎های مرجع مدرن بهترین ابزار آماده‌سازی داده‎های خودکار، Hadoop Core و سکوهای تجزیه و تحلیل سطح کاربر را به طریقی که بتوانند به‌عنوان نیازهای تکامل یافته دوباره تغییر شکل داده شوند با یکدیگر ترکیب می‎کنند. انعطاف‌پذیری این معماری‎ها درنهایت باعث انتخاب گزینه‎های مبتنی بر فناوری می‎شود.

5- سرمایه‎گذاری روی داده‎های حجیم به‌سمت تنوع و نه حجم و سرعت هدایت می‎شود

گارتنر داده‎های حجیم را بر اساس سه مؤلفه تعریف می‎کند؛ حجم بالا، سرعت بالا و تنوع بالا در موجودی اطلاعاتی. هرچند هر سه این مؤلفه‎ها در حال رشد هستند، اما تنوع بیشترین میزان رشد در سرمایه‌گذاری داده‎های حجیم را داشته است. این روند تا زمانی که شرکت‎ها در جست‌وجوی یکپارچگی منابع بیشتر و تمرکز روی داده‎های حجیم باشند، به رشد خود ادامه خواهد داد. از ساختارهای ساده‎تر مثل JSON تا انواع دیگر پایگاه‎های داده تا داده‎های نامسطح مثل Avro, Parquet, XML همگی اهمیت بیشتری پیدا می‎کنند. در سال 2017، سکوهای تجزیه و تحلیل بر اساس توانایی آن‌ها در فراهم آوردن ارتباط مستقیم با این منابع متنوع ارزیابی خواهند شد.

مطلب پیشنهادی

بزرگ داده‌ها؛ فرصت‌های طلایی یا زمینه‌سازهای تبعیض

بزرگ داده‌ها می‌توانند به سلاح‌های مخرب و خطرناک تبدیل شوند

6- Spark و یادگیری ماشینی آینده داده‎های حجیم را روشن می‎کنند

Apache Spark که به‌عنوان بخشی از اکوسیستم هادوپ شناخته می‎شد، حالا به انتخاب سازمان‎ها برای سکوی داده‎های حجیم تبدیل شده است. در بررسی معماری داده توسط مدیران آی‎تی و تحلیلگران BI مشخص شد که تقريباً 70 درصد از پاسخ‌دهندگان Spark را به MapReduce ترجیح می‎دهند.
این قابلیت‎های محاسبات عظیم روی داده‎های حجیم سکوهای قدرتمندی دارند که از امکانات محاسبات سریع یادگیری ماشینی، هوش مصنوعی و الگوريتم‎های نموداری برخوردار هستند. به عنوان نمونه، Azure ML مایکروسافت به‌لطف رابط کاربرپسند و یکپارچگی راحت با سایر سکوهای مایکروسافت گوی سبقت را از سایرین ربوده است. استفاده از ML به ایجاد مدل‎های بیشتر و برنامه‎های کاربردی منجر خواهد شد که می‎توانند داده‎هایی را در اندازه پتابایت مدیریت کنند. هرچه یادگیری ماشینی و سیستم‎ها هوشمندتر می‎شوند، امیدها به‌سمت تأمین‌کنندگان نرم‌افزارهای مستقلی خواهد رفت که می‎توانند این داده‎ها را به کاربر نهایی برسانند.

مطلب پیشنهادی

خودکارسازی فرآیندها و اخذ تصمیمات مبتنی بر داده‌ها

بهترین زبان‌های برنامه‌نویسی ویژه یادگیری ماشینی در سال 2017

7- هم‌گرایی اینترنت اشیا، کلاود و داده‎های حجیم فرصت‎های جدیدی برای تجزیه و تحلیل خودکار فراهم می‎کند

به نظر می‎رسد از امسال رویکردی در حال شکل‎گیری است که اعلام می‎دارد همه تجهیزات و دستگاه‎ها باید به یک حسگر مجهز شوند و اطلاعات را به واحد مرکزی ارسال کنند. اینترنت اشیا حجم بسیار زیادی از داده‎های ساخت‌یافته و بدون ساختار را توليد می‎کند و به‌اشتراک‌گذاری این داده از طریق خدمات کلاود رشد چشمگيری داشته است. این داده‎ها اغلب ناهم‌گون هستند و در بین چند سیستم وابسته و غیروابسته از کلاسترهای هادوپ تا پایگاه‎های داده NoSQL پراکنده هستند. در حالی که نوآوری در ذخیره‌سازی و خدمات مدیریت شده، فرآیند جذب را افزایش داده است، دسترسی و درک خود این اطلاعات همچنان یک چالش مهم خواهد بود. در نتیجه تقاضا برای ابزار تحلیلی که به طور یکپارچه به منابع متفاوتی از داده‎های میزبانی شده در کلاود متصل هستند بیشتر خواهد شد. چنین ابزاری کسب و کارها را قادر می‎سازد تا به هر گونه داده ذخیره شده در هر نقطه دسترسی داشته باشند و به آن‌ها کمک می‎کند فرصت‎های پنهان در سرمایه‌گذاری اینترنت اشیا خود را کشف کنند.

Apache Atlas به‌عنوان بخشی از ابتکار عمل حاکمیت داده‎ها ایجاد شده است و سازمان‎ها را قادر می‎سازد تا طبقه‌بندی داده‎های سازگار را درون اکوسیستم داده اعمال کنند

8- آماده‎سازی خودکار داده‎ها به جریان اصلی آماده‌‌سازی داده‎های حجیم برای کاربران نهایی تبدیل خواهد شد

فراهم کردن امکان دسترسی به داده‎های هادوپ برای کاربران تجاری یکی از بزرگ‌ترین چالش‎های پیش روی زمان ما است. با گسترش سکوهای تجزیه و تحلیل مستقل و خودکار این مسیر هموارتر شده است. اما کاربران تجاری می‎خواهند زمان و پیچیدگی تهیه داده‎ها را برای تجزیه و تحلیل بیش از این کاهش دهد. این موضوع به‌ویژه در مواقعی بیشتر اهمیت پیدا می‎کند که با انواع و فرمت‎های مختلفی از داده سر و کار داشته باشید. ابزارهای آماده‌سازی مستقل داده‎های پرسرعت نه‌تنها به داده‎های هادوپ اجازه می‎دهند تا در همان منبع آماده شوند، بلکه برای بازبینی سریع‎تر و راحت‎تر امکان تهیه نمونه فوری از داده را نیز در اختیار کاربر قرار می‎دهد. ما قبلاً نیز شاهد چنین نوآوری در این سطح از شرکت‎هایی مثل Alteryx, Trifacta و Paxata که تمرکز خود را روی آماده‌سازی داده‎های حجیم برای کاربر نهایی گذاشته‎اند بوده‎ایم. این ابزار موانع ورود به بخش‎های سازگار با هادوپ را کاهش می‎دهند و تا انتهای سال 2017 نیز رواج بیشتری پیدا خواهند کرد.

مطلب پیشنهادی

تصورات اشتباه در ارتباط با مدل‌های داده‌ای

با 10 باور نادرست در ارتباط با بزرگ داده‌ها آشنا شوید

9- داده‎های حجیم رشد می‎کند، هادوپ به استانداردهای سازمانی افزوده می‎شود

ما شاهد رشدی روزافزون از هادوپ خواهیم بود که به بخش اصلی از چشم‌انداز آی‌تی یک سازمان تبدیل می‎شود. در سال 2017 شاهد سرمایه‌گذاری بیشتر در بخش‎های امنیتی و حکومتی احاطه شده در سیستم‎های سازمانی خواهیم بود. Apache Sentry یک سیستم برای اعطای مجوز مبتنی بر ضوابط برای داده و فراداده‎های ذخيره شده در کلاستر هادوپ فراهم کرده است. Apache Atlas به‌عنوان بخشی از ابتکار عمل حاکمیت داده‎ها ایجاد شده است و سازمان‎ها را قادر می‎سازد تا طبقه‌بندی داده‎های سازگار را درون اکوسیستم داده اعمال کنند. Apache Ranger نیز مدیریت امنیت متمرکز را برای هادوپ فراهم می‎کند. مشتريان کم کم انتظار خواهند داشت تا این نوع از قابلیت‎ها را در سکوهای RDBMS سازمان خود مشاهده کنند. چنین قابلیت‎هایی در حال حرکت به‌سمت فناوری‎های نوظهور داده‎های حجیم هستند و در نتیجه آن یکی دیگر از موانع پیش روی سازمان‎ها برداشته خواهد شد.

10- افزایش فهرست‎بندی‎های فراداده به مردم کمک می‎کند تا به تجزیه و تحلیلی ارزشمند از داده‎های حجیم دست پيدا کنند

برای مدت زمان زیادی شرکت‎ها به‌دلیل نیاز به پردازش‎های بیش از اندازه داده‎های خود را دور می‎ریختند. آن‌ها با هادوپ می‎توانند مقدار بسیار زیادی از داده را پردازش کنند، اما این داده‎ها عموماً به شکلی که بتوان آن را به‌راحتی پیدا کرد سازماندهی نمی‎شوند. فهرست‎بندی‎های فراداده می‎توانند با استفاده از ابزارهای مستقل به کاربران کمک کنند تا داده‎های مرتبط مناسب تجزیه و تحلیل را شناسایی کنند. این خلأ مورد نیاز مشتريان توسط شرکت‎هایی مثل Informatica, Alation و Waterline پوشش داده می‎شود که از یادگیری ماشینی برای خودکارسازی فرآیند جست‌وجوی داده در هادوپ استفاده می‎کنند. آن‌ها فایل‎ها را با استفاده از تگ‌ها و کشف رابطه بین محتوای داده فهرست‌بندی می‎کنند. این کار هم به مصرف‌کننده و هم تولیدکننده داده کمک می‎کند تا مدت زمان فرآیند پردازش را کاهش دهند. در سال 2017 شاهد آگاهی و تقاضای بیشتری برای جست‌وجوی خودکار خواهیم بود که به‌شکل افزونه‎هایی به سیستم‎های خودکار تجزیه و تحلیل داده اضافه می‎شوند.