این مطلب یکی از مقالات پرونده ویژه «دادههای بزرگ؛ فردای بزرگتر» شماره 197 ماهنامه شبکه است. علاقهمندان میتوانند کل این پرونده ویژه را از روی سایت شبکه دانلود کنند.
1- دادههای حجیم سریع و قابل دسترس خواهند شد
همین حالا هم میتوانید در هادوپ (Hadoop) از یادگیری ماشینی استفاده کنید و به تجزیه و تحلیل دادهها بپردازید، اما اولین سؤالی که مردم اغلب میپرسند این است که SQL تعاملی تا چه میزان سریع است؟ SQL کانالی برای کاربران تجاری است که میخواهند با استفاده از هادوپ دسترسی سریعتر و تکرارپذیرتری به دادهها داشته باشند. این نیاز بیشتر از طریق پایگاههای داده سریعتر و سازگار مثل Exasol و MemSQL، ذخیرهسازهای مبتنی بر هادوپ مثل Kudu و فناوریهایی که امکان کوئریگیری سریعتری را فراهم میکنند امکانپذیر خواهد شد. استفاده از SQL روی موتورهای هادوپ (Apache Impala, Hive LLAP, Presto, Phoenix و Drill) و فناوریهای OLAP روی هادوپ (AtScale, Jethro Data و Kyvos Insights) باعث میشوند این شتابدهندههای کوئری فاصله و شکاف بین ذخیرهسازهای سنتی و دنیای دادههای حجیم را از بین ببرند.
2- دادههای حجیم تنها در اختیار هادوپ نخواهند ماند
ابزارهای هدف ساخته شده برای هادوپ در حال منسوخ شدن هستند. طی سالهای گذشته شاهد حضور چند فناوری در زمینه دادههای حجیم بودهایم که نیاز به تجزیه و تحلیل در هادوپ را محقق میکردند. اما سازمانهایی متشکل از محیطهای پیچیده و ناهمگن دیگر نمیخواهند تنها به یک منبع داده متکی باشند. آنها برای رفع نیاز خود به منابعی احتیاج دارند که به سیستمهای متکی به کلاود متصل هستند و میتوانند دادههای ساختیافته و بدون ساختار را از منابع هادوپ و غیرهادوپ مدیریت کنند. از طرفی، حتی پایگاههای داده رابطهای نیز برای دادههای حجیم آماده شدهاند. برای نمونه، SQL Server 2016 اخیراً پشتیبانی از JSON را به قابلیتهای خود اضافه کرده است. در سال 2017 مصرفکنندگان متقاضی تجزیه و تحلیل بر روی تمام انواع داده خواهند بود. سکوهایی که توانایی مدیریت داده و منابع agnostic را داشته باشند رونق زیادی پیدا خواهند کرد و آنها که تنها برای هادوپ ساخته شدهاند و موارد استفاده محدودتری دارند، از رده خارج خواهند شد. میتوان از Platfora بهعنوان شاخص اولیه این روند یاد کرد.
3- سازمانها از مخازنی شبیه به دریاچههای داده بهره خواهند برد
یک دریاچه داده شبیه به یک مخزن آب ساخته دست انسان است. اول شما سد را بنا میکنید (ساخت یک کلاستر)، بعد آب (داده) را به آن وارد میکنید. هنگامی که دریاچه احداث شد، شروع به استفاده از این آب (داده) برای مقاصد مختلف مثل تولید برق، نوشیدن و بازسازی (تجزیه و تحیل داده، ML، امنیت سایبری وغیره) میکنید. تا همین چند وقت گذشته پر کردن این دریاچه آخرین کاری بود که باید انجام میشد. اما در سال 2017 توجیه کسب و کار برای هادوپ پراهمیتتر شده و خواهد شد. سازمانها برای دریافت پاسخ سریعتر درخواستهای مکرر و سریعتری را برای استفاده از این دریاچه خواهند داشت. آنها قبل از سرمایهگذاری روی کارکنان، داده و زیرساختها بهدقت نتایج کسب و کار را بررسی میکنند. چنین کاری یک مشارکت قویتر بین کسب و کار و صنعت آیتی را فراهم میکند.
4- معماریهای پخته و کامل ساختار متناسب برای تمام چهارچوبها را رد میکنند
هادوپ دیگر تنها یک سکوی پردازش دستهای برای استفاده در علوم داده نخواهد بود. هادوپ به یک موتور چندمنظوره برای تجزیه و تحلیل داده تبدیل شده است و حتی برای گزارشهای عملیاتی چرخههای کاری روزانه نیز از آن استفاده میشود. در سال 2017، سازمانها با پیگیری استفاده از طراحی معماری مورد خاص به این نیازهای ترکیبی پاسخ خواهند داد. آنها قبل از هرگونه اقدام به انجام یک استراتژی برای دادهها تعدادی از عوامل از قبیل موارد فردی، سؤالات، حجم، تعداد دفعات دسترسی، سرعت دادهها و سطح تجمع را بررسی میکنند. این معماریهای مرجع مدرن بهترین ابزار آمادهسازی دادههای خودکار، Hadoop Core و سکوهای تجزیه و تحلیل سطح کاربر را به طریقی که بتوانند بهعنوان نیازهای تکامل یافته دوباره تغییر شکل داده شوند با یکدیگر ترکیب میکنند. انعطافپذیری این معماریها درنهایت باعث انتخاب گزینههای مبتنی بر فناوری میشود.
گارتنر دادههای حجیم را بر اساس سه مؤلفه تعریف میکند؛ حجم بالا، سرعت بالا و تنوع بالا در موجودی اطلاعاتی. هرچند هر سه این مؤلفهها در حال رشد هستند، اما تنوع بیشترین میزان رشد در سرمایهگذاری دادههای حجیم را داشته است
5- سرمایهگذاری روی دادههای حجیم بهسمت تنوع و نه حجم و سرعت هدایت میشود
گارتنر دادههای حجیم را بر اساس سه مؤلفه تعریف میکند؛ حجم بالا، سرعت بالا و تنوع بالا در موجودی اطلاعاتی. هرچند هر سه این مؤلفهها در حال رشد هستند، اما تنوع بیشترین میزان رشد در سرمایهگذاری دادههای حجیم را داشته است. این روند تا زمانی که شرکتها در جستوجوی یکپارچگی منابع بیشتر و تمرکز روی دادههای حجیم باشند، به رشد خود ادامه خواهد داد. از ساختارهای سادهتر مثل JSON تا انواع دیگر پایگاههای داده تا دادههای نامسطح مثل Avro, Parquet, XML همگی اهمیت بیشتری پیدا میکنند. در سال 2017، سکوهای تجزیه و تحلیل بر اساس توانایی آنها در فراهم آوردن ارتباط مستقیم با این منابع متنوع ارزیابی خواهند شد.
6- Spark و یادگیری ماشینی آینده دادههای حجیم را روشن میکنند
Apache Spark که بهعنوان بخشی از اکوسیستم هادوپ شناخته میشد، حالا به انتخاب سازمانها برای سکوی دادههای حجیم تبدیل شده است. در بررسی معماری داده توسط مدیران آیتی و تحلیلگران BI مشخص شد که تقريباً 70 درصد از پاسخدهندگان Spark را به MapReduce ترجیح میدهند.
این قابلیتهای محاسبات عظیم روی دادههای حجیم سکوهای قدرتمندی دارند که از امکانات محاسبات سریع یادگیری ماشینی، هوش مصنوعی و الگوريتمهای نموداری برخوردار هستند. به عنوان نمونه، Azure ML مایکروسافت بهلطف رابط کاربرپسند و یکپارچگی راحت با سایر سکوهای مایکروسافت گوی سبقت را از سایرین ربوده است. استفاده از ML به ایجاد مدلهای بیشتر و برنامههای کاربردی منجر خواهد شد که میتوانند دادههایی را در اندازه پتابایت مدیریت کنند. هرچه یادگیری ماشینی و سیستمها هوشمندتر میشوند، امیدها بهسمت تأمینکنندگان نرمافزارهای مستقلی خواهد رفت که میتوانند این دادهها را به کاربر نهایی برسانند.
7- همگرایی اینترنت اشیا، کلاود و دادههای حجیم فرصتهای جدیدی برای تجزیه و تحلیل خودکار فراهم میکند
به نظر میرسد از امسال رویکردی در حال شکلگیری است که اعلام میدارد همه تجهیزات و دستگاهها باید به یک حسگر مجهز شوند و اطلاعات را به واحد مرکزی ارسال کنند. اینترنت اشیا حجم بسیار زیادی از دادههای ساختیافته و بدون ساختار را توليد میکند و بهاشتراکگذاری این داده از طریق خدمات کلاود رشد چشمگيری داشته است. این دادهها اغلب ناهمگون هستند و در بین چند سیستم وابسته و غیروابسته از کلاسترهای هادوپ تا پایگاههای داده NoSQL پراکنده هستند. در حالی که نوآوری در ذخیرهسازی و خدمات مدیریت شده، فرآیند جذب را افزایش داده است، دسترسی و درک خود این اطلاعات همچنان یک چالش مهم خواهد بود. در نتیجه تقاضا برای ابزار تحلیلی که به طور یکپارچه به منابع متفاوتی از دادههای میزبانی شده در کلاود متصل هستند بیشتر خواهد شد. چنین ابزاری کسب و کارها را قادر میسازد تا به هر گونه داده ذخیره شده در هر نقطه دسترسی داشته باشند و به آنها کمک میکند فرصتهای پنهان در سرمایهگذاری اینترنت اشیا خود را کشف کنند.
Apache Atlas بهعنوان بخشی از ابتکار عمل حاکمیت دادهها ایجاد شده است و سازمانها را قادر میسازد تا طبقهبندی دادههای سازگار را درون اکوسیستم داده اعمال کنند
8- آمادهسازی خودکار دادهها به جریان اصلی آمادهسازی دادههای حجیم برای کاربران نهایی تبدیل خواهد شد
فراهم کردن امکان دسترسی به دادههای هادوپ برای کاربران تجاری یکی از بزرگترین چالشهای پیش روی زمان ما است. با گسترش سکوهای تجزیه و تحلیل مستقل و خودکار این مسیر هموارتر شده است. اما کاربران تجاری میخواهند زمان و پیچیدگی تهیه دادهها را برای تجزیه و تحلیل بیش از این کاهش دهد. این موضوع بهویژه در مواقعی بیشتر اهمیت پیدا میکند که با انواع و فرمتهای مختلفی از داده سر و کار داشته باشید. ابزارهای آمادهسازی مستقل دادههای پرسرعت نهتنها به دادههای هادوپ اجازه میدهند تا در همان منبع آماده شوند، بلکه برای بازبینی سریعتر و راحتتر امکان تهیه نمونه فوری از داده را نیز در اختیار کاربر قرار میدهد. ما قبلاً نیز شاهد چنین نوآوری در این سطح از شرکتهایی مثل Alteryx, Trifacta و Paxata که تمرکز خود را روی آمادهسازی دادههای حجیم برای کاربر نهایی گذاشتهاند بودهایم. این ابزار موانع ورود به بخشهای سازگار با هادوپ را کاهش میدهند و تا انتهای سال 2017 نیز رواج بیشتری پیدا خواهند کرد.
9- دادههای حجیم رشد میکند، هادوپ به استانداردهای سازمانی افزوده میشود
ما شاهد رشدی روزافزون از هادوپ خواهیم بود که به بخش اصلی از چشمانداز آیتی یک سازمان تبدیل میشود. در سال 2017 شاهد سرمایهگذاری بیشتر در بخشهای امنیتی و حکومتی احاطه شده در سیستمهای سازمانی خواهیم بود. Apache Sentry یک سیستم برای اعطای مجوز مبتنی بر ضوابط برای داده و فرادادههای ذخيره شده در کلاستر هادوپ فراهم کرده است. Apache Atlas بهعنوان بخشی از ابتکار عمل حاکمیت دادهها ایجاد شده است و سازمانها را قادر میسازد تا طبقهبندی دادههای سازگار را درون اکوسیستم داده اعمال کنند. Apache Ranger نیز مدیریت امنیت متمرکز را برای هادوپ فراهم میکند. مشتريان کم کم انتظار خواهند داشت تا این نوع از قابلیتها را در سکوهای RDBMS سازمان خود مشاهده کنند. چنین قابلیتهایی در حال حرکت بهسمت فناوریهای نوظهور دادههای حجیم هستند و در نتیجه آن یکی دیگر از موانع پیش روی سازمانها برداشته خواهد شد.
10- افزایش فهرستبندیهای فراداده به مردم کمک میکند تا به تجزیه و تحلیلی ارزشمند از دادههای حجیم دست پيدا کنند
برای مدت زمان زیادی شرکتها بهدلیل نیاز به پردازشهای بیش از اندازه دادههای خود را دور میریختند. آنها با هادوپ میتوانند مقدار بسیار زیادی از داده را پردازش کنند، اما این دادهها عموماً به شکلی که بتوان آن را بهراحتی پیدا کرد سازماندهی نمیشوند. فهرستبندیهای فراداده میتوانند با استفاده از ابزارهای مستقل به کاربران کمک کنند تا دادههای مرتبط مناسب تجزیه و تحلیل را شناسایی کنند. این خلأ مورد نیاز مشتريان توسط شرکتهایی مثل Informatica, Alation و Waterline پوشش داده میشود که از یادگیری ماشینی برای خودکارسازی فرآیند جستوجوی داده در هادوپ استفاده میکنند. آنها فایلها را با استفاده از تگها و کشف رابطه بین محتوای داده فهرستبندی میکنند. این کار هم به مصرفکننده و هم تولیدکننده داده کمک میکند تا مدت زمان فرآیند پردازش را کاهش دهند. در سال 2017 شاهد آگاهی و تقاضای بیشتری برای جستوجوی خودکار خواهیم بود که بهشکل افزونههایی به سیستمهای خودکار تجزیه و تحلیل داده اضافه میشوند.
ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را میتوانید از کتابخانههای عمومی سراسر کشور و نیز از دکههای روزنامهفروشی تهیه نمائید.
ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین
کتاب الکترونیک +Network راهنمای شبکهها
- برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.
کتاب الکترونیک دوره مقدماتی آموزش پایتون
- اگر قصد یادگیری برنامهنویسی را دارید ولی هیچ پیشزمینهای ندارید اینجا کلیک کنید.
نظر شما چیست؟