رشد بزرگ داده‎‎ها، تبدیل هادوپ به یک استاندارد سازمانی
10 روند برتر بزرگ داده‌ها در سال 2017 که تاثیرشان را در سال‌های آتی نشان خواهند داد
2016 را می‎توان سالی پررونق در عرصه داده‎های حجیم دانست، زیرا سازمان‎های بیشتری به ذخیره، پردازش و استخراج همه نوع فرمت و اندازه‎ای از داده پرداختند. در سال 2017 نیز سیستم‎هایی که از داده‎ها در مقیاس بزرگ در هر دو شکل ساخت‌یافته و بدون ساختار پشتیبانی می‎کنند، در حال اضافه شدن هستند. این بازار به سکوهایی نیاز خواهد داشت که از داده‎ها نگهداری کند و آن‌ها را در زمان استفاده کاربر نهایی برای تجزیه و تحلیل امن باقی نگه دارد. این سیستم‎ها به‌خوبی در داخل سیستم‎های فناوری اطلاعات و استانداردهای سازمانی کار می‎کنند. اما برای آنکه با کم و کیف این تغییرات در سال جاری بیشتر آشنا شوید، 10 روند برتر بزرگ داده‎ها در سال جاری را مورد بررسی قرار داده‎‎ایم.

این مطلب یکی از مقالات پرونده ویژه «داده‌های بزرگ؛ فردای بزرگ‌تر» شماره 197 ماهنامه شبکه است. علاقه‌مندان می‌توانند کل این پرونده ویژه را از روی سایت شبکه دانلود کنند.


1- داده‎های حجیم سریع و قابل دسترس خواهند شد

همین حالا هم می‎توانید در هادوپ (Hadoop) از یادگیری ماشینی استفاده کنید و به تجزیه و تحلیل داده‎ها بپردازید، اما اولین سؤالی که مردم اغلب می‎پرسند این است که SQL تعاملی تا چه میزان سریع است؟ SQL کانالی برای کاربران تجاری است که می‎خواهند با استفاده از هادوپ دسترسی سریع‎تر و تکرارپذیرتری به داده‎ها داشته باشند. این نیاز بیشتر از طریق پایگاه‎های داده سریع‎تر و سازگار مثل Exasol و MemSQL، ذخیره‌سازهای مبتنی بر هادوپ مثل Kudu و فناوری‎هایی که امکان کوئری‎گیری سریع‎تری را فراهم می‎کنند امکان‎پذیر خواهد شد. استفاده از SQL روی موتورهای هادوپ (Apache Impala, Hive LLAP, Presto, Phoenix و Drill) و فناوری‎های OLAP روی هادوپ (AtScale, Jethro Data و Kyvos Insights) باعث می‎شوند این شتاب‎دهنده‎های کوئری فاصله و شکاف بین ذخیره‌سازهای سنتی و دنیای داده‎های حجیم را از بین ببرند.

2- داده‎های حجیم تنها در اختیار هادوپ نخواهند ماند

ابزارهای هدف ساخته شده برای هادوپ در حال منسوخ شدن هستند. طی سال‌های گذشته شاهد حضور چند فناوری در زمینه داده‎های حجیم بوده‎ایم که نیاز به تجزیه و تحلیل در هادوپ را محقق می‎کردند. اما سازمان‎هایی متشکل از محیط‎های پیچیده و ناهمگن دیگر نمی‎خواهند تنها به یک منبع داده متکی باشند. آن‌ها برای رفع نیاز خود به منابعی احتیاج دارند که به سیستم‎های متکی به کلاود متصل هستند و می‎توانند داده‎های ساخت‌یافته و بدون ساختار را از منابع هادوپ و غیرهادوپ مدیریت کنند. از طرفی، حتی پایگاه‎های داده رابطه‎ای نیز برای داده‎های حجیم آماده شده‎اند. برای نمونه، SQL Server 2016 اخیراً پشتیبانی از JSON را به قابلیت‎های خود اضافه کرده است. در سال 2017 مصرف‌کنندگان متقاضی تجزیه و تحلیل بر روی تمام انواع داده خواهند بود. سکوهایی که توانایی مدیریت داده و منابع agnostic را داشته باشند رونق زیادی پیدا خواهند کرد و آن‌ها که تنها برای هادوپ ساخته شده‎اند و موارد استفاده محدودتری دارند، از رده خارج خواهند شد. می‎توان از Platfora به‌عنوان شاخص اولیه این روند یاد کرد.

3- سازمان‎ها از مخازنی شبیه به دریاچه‎های داده بهره خواهند برد

یک دریاچه داده شبیه به یک مخزن آب ساخته دست انسان است. اول شما سد را بنا می‎کنید (ساخت یک کلاستر)، بعد آب (داده) را به آن وارد می‎کنید. هنگامی‎ که دریاچه احداث شد، شروع به استفاده از این آب (داده) برای مقاصد مختلف مثل تولید برق، نوشیدن و بازسازی (تجزیه و تحیل داده، ML، امنیت سایبری وغیره) می‎کنید. تا همین چند وقت گذشته پر کردن این دریاچه آخرین کاری بود که باید انجام می‎شد. اما در سال 2017 توجیه کسب و کار برای هادوپ پراهمیت‎تر شده و خواهد ‎شد. سازمان‎ها برای دریافت پاسخ سریع‎تر درخواست‎های مکرر و سریع‎تری را برای استفاده از این دریاچه خواهند داشت. آن‌ها قبل از سرمایه‌گذاری روی کارکنان، داده و زیرساخت‎ها به‌دقت نتایج کسب و کار را بررسی می‎کنند. چنین کاری یک مشارکت قوی‎تر بین کسب و کار و صنعت آی‎تی را فراهم می‎کند. 

4- معماری‎های پخته و کامل ساختار متناسب برای تمام چهارچوب‌ها را رد می‌کنند

هادوپ دیگر تنها یک سکوی پردازش دسته‎ای برای استفاده در علوم داده نخواهد بود. هادوپ به یک موتور چندمنظوره برای تجزیه و تحلیل داده تبدیل شده است و حتی برای گزارش‌های عملیاتی چرخه‎های کاری روزانه نیز از آن استفاده می‎شود. در سال 2017، سازمان‎ها با پیگیری استفاده از طراحی معماری مورد خاص به این نیازهای ترکیبی پاسخ خواهند داد. آن‌ها قبل از هرگونه اقدام به انجام یک استراتژی برای داده‎ها تعدادی از عوامل از قبیل موارد فردی، سؤالات، حجم، تعداد دفعات دسترسی، سرعت داده‎ها و سطح تجمع را بررسی می‎کنند. این معماری‎های مرجع مدرن بهترین ابزار آماده‌سازی داده‎های خودکار، Hadoop Core و سکوهای تجزیه و تحلیل سطح کاربر را به طریقی که بتوانند به‌عنوان نیازهای تکامل یافته دوباره تغییر شکل داده شوند با یکدیگر ترکیب می‎کنند. انعطاف‌پذیری این معماری‎ها درنهایت باعث انتخاب گزینه‎های مبتنی بر فناوری می‎شود.

گارتنر داده‎های حجیم را بر اساس سه مؤلفه تعریف می‎کند؛ حجم بالا، سرعت بالا و تنوع بالا در موجودی اطلاعاتی. هرچند هر سه این مؤلفه‎ها در حال رشد هستند، اما تنوع بیشترین میزان رشد در سرمایه‌گذاری داده‎های حجیم را داشته است

5- سرمایه‎گذاری روی داده‎های حجیم به‌سمت تنوع و نه حجم و سرعت هدایت می‎شود

گارتنر داده‎های حجیم را بر اساس سه مؤلفه تعریف می‎کند؛ حجم بالا، سرعت بالا و تنوع بالا در موجودی اطلاعاتی. هرچند هر سه این مؤلفه‎ها در حال رشد هستند، اما تنوع بیشترین میزان رشد در سرمایه‌گذاری داده‎های حجیم را داشته است. این روند تا زمانی که شرکت‎ها در جست‌وجوی یکپارچگی منابع بیشتر و تمرکز روی داده‎های حجیم باشند، به رشد خود ادامه خواهد داد. از ساختارهای ساده‎تر مثل JSON تا انواع دیگر پایگاه‎های داده تا داده‎های نامسطح مثل Avro, Parquet, XML همگی اهمیت بیشتری پیدا می‎کنند. در سال 2017، سکوهای تجزیه و تحلیل بر اساس توانایی آن‌ها در فراهم آوردن ارتباط مستقیم با این منابع متنوع ارزیابی خواهند شد.

مطلب پیشنهادی

بزرگ داده‌ها می‌توانند به سلاح‌های مخرب و خطرناک تبدیل شوند
بزرگ داده‌ها؛ فرصت‌های طلایی یا زمینه‌سازهای تبعیض

6- Spark و یادگیری ماشینی آینده داده‎های حجیم را روشن می‎کنند 

Apache Spark که به‌عنوان بخشی از اکوسیستم هادوپ شناخته می‎شد، حالا به انتخاب سازمان‎ها برای سکوی داده‎های حجیم تبدیل شده است. در بررسی معماری داده توسط مدیران آی‎تی و تحلیلگران BI مشخص شد که تقريباً 70 درصد از پاسخ‌دهندگان Spark را به MapReduce ترجیح می‎دهند.
این قابلیت‎های محاسبات عظیم روی داده‎های حجیم سکوهای قدرتمندی دارند که از امکانات محاسبات سریع یادگیری ماشینی، هوش مصنوعی و الگوريتم‎های نموداری برخوردار هستند. به عنوان نمونه، Azure ML مایکروسافت به‌لطف رابط کاربرپسند و یکپارچگی راحت با سایر سکوهای مایکروسافت گوی سبقت را از سایرین ربوده است. استفاده از ML به ایجاد مدل‎های بیشتر و برنامه‎های کاربردی منجر خواهد شد که می‎توانند داده‎هایی را در اندازه پتابایت مدیریت کنند. هرچه یادگیری ماشینی و سیستم‎ها هوشمندتر می‎شوند، امیدها به‌سمت تأمین‌کنندگان نرم‌افزارهای مستقلی خواهد رفت که می‎توانند این داده‎ها را به کاربر نهایی برسانند.

مطلب پیشنهادی

بهترین زبان‌های برنامه‌نویسی ویژه یادگیری ماشینی در سال 2017
خودکارسازی فرآیندها و اخذ تصمیمات مبتنی بر داده‌ها

7- هم‌گرایی اینترنت اشیا، کلاود و داده‎های حجیم فرصت‎های جدیدی برای تجزیه و تحلیل خودکار فراهم می‎کند

به نظر می‎رسد از امسال رویکردی در حال شکل‎گیری است که اعلام می‎دارد همه تجهیزات و دستگاه‎ها باید به یک حسگر مجهز شوند و اطلاعات را به واحد مرکزی ارسال کنند. اینترنت اشیا حجم بسیار زیادی از داده‎های ساخت‌یافته و بدون ساختار را توليد می‎کند و به‌اشتراک‌گذاری این داده از طریق خدمات کلاود رشد چشمگيری داشته است. این داده‎ها اغلب ناهم‌گون هستند و در بین چند سیستم وابسته و غیروابسته از کلاسترهای هادوپ تا پایگاه‎های داده NoSQL پراکنده هستند. در حالی که نوآوری در ذخیره‌سازی و خدمات مدیریت شده، فرآیند جذب را افزایش داده است، دسترسی و درک خود این اطلاعات همچنان یک چالش مهم خواهد بود. در نتیجه تقاضا برای ابزار تحلیلی که به طور یکپارچه به منابع متفاوتی از داده‎های میزبانی شده در کلاود متصل هستند بیشتر خواهد شد. چنین ابزاری کسب و کارها را قادر می‎سازد تا به هر گونه داده ذخیره شده در هر نقطه دسترسی داشته باشند و به آن‌ها کمک می‎کند فرصت‎های پنهان در سرمایه‌گذاری اینترنت اشیا خود را کشف کنند.

 Apache Atlas به‌عنوان بخشی از ابتکار عمل حاکمیت داده‎ها ایجاد شده است و سازمان‎ها را قادر می‎سازد تا طبقه‌بندی داده‎های سازگار را درون اکوسیستم داده اعمال کنند

8- آماده‎سازی خودکار داده‎ها به جریان اصلی آماده‌‌سازی داده‎های حجیم برای کاربران نهایی تبدیل خواهد شد

فراهم کردن امکان دسترسی به داده‎های هادوپ برای کاربران تجاری یکی از بزرگ‌ترین چالش‎های پیش روی زمان ما است. با گسترش سکوهای تجزیه و تحلیل مستقل و خودکار این مسیر هموارتر شده است. اما کاربران تجاری می‎خواهند زمان و پیچیدگی تهیه داده‎ها را برای تجزیه و تحلیل بیش از این کاهش دهد. این موضوع به‌ویژه در مواقعی بیشتر اهمیت پیدا می‎کند که با انواع و فرمت‎های مختلفی از داده سر و کار داشته باشید. ابزارهای آماده‌سازی مستقل داده‎های پرسرعت نه‌تنها به داده‎های هادوپ اجازه می‎دهند تا در همان منبع آماده شوند، بلکه برای بازبینی سریع‎تر و راحت‎تر امکان تهیه نمونه فوری از داده را نیز در اختیار کاربر قرار می‎دهد. ما قبلاً نیز شاهد چنین نوآوری در این سطح از شرکت‎هایی مثل Alteryx, Trifacta و Paxata که تمرکز خود را روی آماده‌سازی داده‎های حجیم برای کاربر نهایی گذاشته‎اند بوده‎ایم. این ابزار موانع ورود به بخش‎های سازگار با هادوپ را کاهش می‎دهند و تا انتهای سال 2017 نیز رواج بیشتری پیدا خواهند کرد.

مطلب پیشنهادی

با 10 باور نادرست در ارتباط با بزرگ داده‌ها آشنا شوید
تصورات اشتباه در ارتباط با مدل‌های داده‌ای

9- داده‎های حجیم رشد می‎کند، هادوپ به استانداردهای سازمانی افزوده می‎شود

ما شاهد رشدی روزافزون از هادوپ خواهیم بود که به بخش اصلی از چشم‌انداز آی‌تی یک سازمان تبدیل می‎شود. در سال 2017 شاهد سرمایه‌گذاری بیشتر در بخش‎های امنیتی و حکومتی احاطه شده در سیستم‎های سازمانی خواهیم بود. Apache Sentry یک سیستم برای اعطای مجوز مبتنی بر ضوابط برای داده و فراداده‎های ذخيره شده در کلاستر هادوپ فراهم کرده است. Apache Atlas به‌عنوان بخشی از ابتکار عمل حاکمیت داده‎ها ایجاد شده است و سازمان‎ها را قادر می‎سازد تا طبقه‌بندی داده‎های سازگار را درون اکوسیستم داده اعمال کنند. Apache Ranger نیز مدیریت امنیت متمرکز را برای هادوپ فراهم می‎کند. مشتريان کم کم انتظار خواهند داشت تا این نوع از قابلیت‎ها را در سکوهای RDBMS سازمان خود مشاهده کنند. چنین قابلیت‎هایی در حال حرکت به‌سمت فناوری‎های نوظهور داده‎های حجیم هستند و در نتیجه آن یکی دیگر از موانع پیش روی سازمان‎ها برداشته خواهد شد.

10- افزایش فهرست‎بندی‎های فراداده به مردم کمک می‎کند تا به تجزیه و تحلیلی ارزشمند از داده‎های حجیم دست پيدا کنند

برای مدت زمان زیادی شرکت‎ها به‌دلیل نیاز به پردازش‎های بیش از اندازه داده‎های خود را دور می‎ریختند. آن‌ها با هادوپ می‎توانند مقدار بسیار زیادی از داده را پردازش کنند، اما این داده‎ها عموماً به شکلی که بتوان آن را به‌راحتی پیدا کرد سازماندهی نمی‎شوند. فهرست‎بندی‎های فراداده می‎توانند با استفاده از ابزارهای مستقل به کاربران کمک کنند تا داده‎های مرتبط مناسب تجزیه و تحلیل را شناسایی کنند. این خلأ مورد نیاز مشتريان توسط شرکت‎هایی مثل Informatica, Alation و Waterline پوشش داده می‎شود که از یادگیری ماشینی برای خودکارسازی فرآیند جست‌وجوی داده در هادوپ استفاده می‎کنند. آن‌ها فایل‎ها را با استفاده از تگ‌ها و کشف رابطه بین محتوای داده فهرست‌بندی می‎کنند. این کار هم به مصرف‌کننده و هم تولیدکننده داده کمک می‎کند تا مدت زمان فرآیند پردازش را کاهش دهند. در سال 2017 شاهد آگاهی و تقاضای بیشتری برای جست‌وجوی خودکار خواهیم بود که به‌شکل افزونه‎هایی به سیستم‎های خودکار تجزیه و تحلیل داده اضافه می‎شوند.

 

برچسب: