معماری، مزایا و موارد کاربردی یک پایگاه داده مخصوص بزرگ داده‌ها
پایگاه داده Greenplum چیست و چگونه کار می‌کند؟
مشکل امروز جهان کمبود یا فقدان اطلاعات نیست، اطلاعات به اشکال مختلف در دسترس قرار دارند. مشکل عصر جدید نگهداری و مدیریت حجم عظیم اطلاعات است. آنچه که امروز مهم است استنتاج الگوها و دانش کاربردی از منابع بی‌کران اطلاعات است. یک پایگاه‌داده قدرتمند و چند منظوره می‌تواند مشکلات زیادی را حل کند و به نیازهای مختلفی پاسخ دهد. Greenplum یک پایگاه داده SQL با ویژگی پردازش موازی انبوه (MPP) است که بر پایه PostgreSQL ساخته شده و می‌توان آن‌را بدون هیچ مشکلی برای پشتیبانی از بارکاری داده‌های چند پتابایتی گسترش داد. این معماری امکان دسترسی به یک کلاستر از سرورهای قدرتمند که درون یک رابط SQL منفرد کار می‌کنند را فراهم می‌کند. پایگاه داده فوق اجازه می‌دهد به بهترین شکل داده‌ها را مشاهده کنید. در این مقاله با پایگاه داده Greenplum، معماری به کار گرفته شده در این پایگاه داده، مزایا، کاربردها و چگونگی کار با آن آشنا می‌شوید.

1606683296_1_0.gif

Greenplum چیست؟ 

  • Greenplum یک پایگاه داده SQL با ویژگی پردازش موازی انبوه (MPP) بدون وابستگی به سخت‌افزار است که مبتنی بر PostgreSQL طراحی و توسط Pivotal (که بعدا توسط VMware خریداری شد) توسعه پیدا کرده است. معماری پایگاه داده فوق به گونه‌ خاصی طراحی شده تا بتواند انبارهای داده با مقیاس بزرگ و حجم کاری متراکم سازمان‌ها و کسب و کارهای بزرگ را مدیریت کند و این امکان را ارائه می‌کند تا داده‌های خود را بین سرورهای زیادی پخش کنید. این مجموعه قابلیت‌ها در یک پایگاه داده امکان تجزیه و تحلیل سریع و قدرتمند داده‌هایی که در حجم‌های پتابایتی گسترش پیدا کرده‌اند را فراهم می‌کند.

معماری Greenplum

  • برای درک بهتر و دقیق‌تر معماری Greenplum اجازه دهید ابتدا نگاهی به یک پایگاه داده MPP بیاندازیم.

پایگاه داده MPP چیست؟ 

  • وقتی حجم زیادی از داده‌های پیچیده یا بزرگ داده‌ها را اداره می‌کنید، این احتمال وجود دارد که ماشین اصلی شما در زمان پردازش این حجم از داده‌ها و ارائه نتایج تجزیه و تحلیل به شما از کار بایستد. برای برآورده ساختن نیاز به پردازش سریع‌تر و دسترسی سریع‌تر به نتایج، بسیاری از سازمان‌ها به سراغ یک پایگاه داده MPP می‌روند. سیستم MPP از حداکثر ظرفیت یک معماری اشتراکی برای اداره عملیات مختلف به صورت موازی استفاده می‌کند. این سیستم از چند واحد پردازشی مختلف استفاده می‌کند که هر یک با استفاده از حافظه و منابع اختصاصی خود به‌طور مستقل کار می‌کند، بنابراین بارکاری به جای تنها یک دستگاه بین چند دستگاه به‌اشتراک گذاشته می‌شود. معمولا یک سیستم MPP از یک گره هدایت‌گر و یک یا چند گره محاسباتی تشکیل شده است. گره هدایت‌گر در Greenplum تحت عنوان مستر شناخته می‌شود و به سایر گره‌ها که در Greenplum سگمنت نام دارد اعلام می‌دارد که باید چه کاری انجام دهند و پاسخ‌های آن‌ها را برای تهیه جواب نهایی با هم ادغام می‌کند.

طرح معماری Greenplum 

  • Greenplum مطابق با معماری PostgreSQL به جای یک کلاستر واحد Greenplum در هر بازه زمانی از چند پایگاه داده PostgreSQL استفاده می‌کند. کاربران Greenplum می‌توانند به سرعت با این نوع پایگاه داده و قابلیت‌ها، نحوه پیکربندی و عملکرد آن آشنا شده و از آن استفاده کنند. روش بهینه‌سازی و طراحی Greenplum برای کار با وظایف هوش تجاری (BI) و بارهای کاری شبیه به PostgreSQL است. همچنین، Greenplum قابلیت‌های زیاد دیگری را نیز از قبیل بارگیری داده موازی، مدیریت منابع، بهینه‌سازی فضای ذخيره‌سازی و محاوره‌های پیشرفته معرفی کرده که در PostgreSQL وجود ندارد. این امکانات جدید باعث شده‌اند تا Greenplum جذابیت بیشتری برای کاربران پیدا کند. 
  • Greenplum نیز مثل PostgreSQL از یک سرور مستر یا میزبان استفاده می‌کند که نقطه ورود به پایگاه داده، اتصالات پذیرفته شده و کوئری‌های SQL است. با این‌حال، جایی که PostgreSQL از گره‌های آماده به کار برای توزیع جغرافيایی استقرار خود استفاده می‌کند، Greenplum از میزبان‌های سگمنت که داده را ذخيره و پردازش می‌کند استفاده می‌کند. سگمنت‌های Greenplum مستقل هستند و هر کدام بخشی از داده‌ها را ذخيره می‌کنند. شما می‌توانید از میزبان‌های کمی‌ به اندازه دو سگمنت استفاده کنید و آن‌را به اندازه یک ظرفیت نامحدود گسترش دهید. اگر ویژگی mirroring را فعال کرده باشید باید میزبان‌های خود را به حداقل دو برابر افزایش دهید. حال پرسش این است که چگونه همه مولفه‌ها با یکدیگر هماهنگ می‌شوند؟ اتصالات داخلی Greenplum یک لایه شبکه تعریف می‌کنند و ارتباطات بین سگمنت‌های Greenplum و معماری شبکه میزبان مستر را مدیریت می‌کنند (شکل زیر).

طرح معماری Greenplum 

مزایای Greenplum

در ادامه با برخی از مزایای اصلی Greenplum که به شما برای بهبود عملکرد پایگاه داده کمک می‌کند آشنا خواهید شد.

عملکرد بالا 

  • Greenplum از یک طراحی خط لوله (pipeline) داده منحصر به فرد برخوردار است که می‌تواند به‌طور موثری داده‌ها را از دیسک به پردازنده مرکزی ارسال کند، بدون این که به قرارگیری داده‌ها در حافظه اصلی متکی باشد. این ویژگی باعث می‌شود پیاده‌سازی Greenplum نسبت به سیستم‌های درون حافظه‌ای که برای ذخیره‌سازی داده‌ها به حافظه کافی نیاز دارند یا سیستم‌های غیر RDBMS که موتورهای پردازشی درون حافظه دارند و برای هر محاوره حافظه اصلی جداگانه اختصاص می‌دهند از عملکرد بالاتری برخوردار باشد. از آن‌جایی که Greenplum از قابلیت گسترش‌پذیری خطی برای پردازش کارآمدتر داده برخوردار است با چالش اغلب RDBMS-ها در گسترش به سطح داده‌های پتابایتی مواجه نخواهد بود.

بهینه‌سازی کوئری گیری 

  • Greenplum از یک سیستم بهینه‌سازی کوئری برای بارهای کاری در مقیاس بزرگ و بزرگ داده‌ها بهره می‌برد. Greenplum می‌تواند بدون آن‌که راندمان اجرای محاوره‌ها را کاهش دهد، وظایف تجزیه و تحلیل را در مقیاس پتابایتی انجام دهد.
  • این ویژگی به Greenplum اجازه می‌دهد بار کاری را بین سگمنت‌های مختلف خود توزیع کند و برای پردازش یک کوئری از تمام منابع سیستم به‌طور موازی استفاده کند. علاوه بر این با بهینه‌سازی بارکاری (OLTP) سرنام Online Transactional Processing در Greenplum 6 فرآیند کوئری‌گیری به نسبت نسخه 5 بهبود پیدا کرده است. با این به‌روزرسانی Greenplum  می‌تواند به شکل بهینه 90 درصد توان پردازنده مرکزی را به خدمت بگیرد تا محاوره‌ها به دقیق‌ترین شکل ممکن اجرا شوند. در این حالت با بهینه‌سازی عملکرد سخت‌افزار گره مستر وضعیت عملکرد کوئری‌گیری هم بهبود می‌یابد.

منبع باز 

  • پایگاه داده Greenplum یک پروژه انبار داده منبع باز مبتنی بر هسته منبع باز PostgreSQL است که به کاربران اجازه می‌دهد از مزایای چند سال تجربه توسعه PostgreSQL همراه با شخصی‌سازی هدفمند Greenplum برای اپلیکیشن‌های بزرگ داده بهره‌مند شوند. Greenplum می‌تواند روی هر نوع سرور لینوکس (میزبانی روی کلاود یا استقرار درون سازمانی) اجرا شود.
  • از آن‌جایی که Greenplum توسط یک گروه از توسعه‌دهندگان متعهد به مخزن اصلی نگهداری می‌شود، آن‌ها مشتاقانه از همکاران جدیدی که تجربه کار با این پایگاه داده را دارند در جهت پیشرفت Greenplum استقبال می‌کنند.
  • برای کسب اطلاعات بیشتر می‌توانید به صفحه گیت‌هاب Greenplum به نشانی (https://github.com/greenplum-db/gpdb) مراجعه کنید.

ذخیره داده‌های چند‌وجهی 

  • ذخیره داده‌های چند وجهی Greenplum به شما امکان می‌دهد پیکربندی جدول و پارتيشن‌بندی فضای ذخيره‌سازی را با آزادی عمل برای اجرا و فشرده‌سازی فایل‌های درون آن کنترل کنید. به این شكل می‌توانید جداول خود را بر اساس نوع خاص داده و سلسله مراتب ذخیره‌سازی ردیف‌ها و ستون‌ها طراحی کنید. 

وقتی در Greenplum یک جدول ایجاد می‌کنید، می‌توانید با انتخاب column-oriented  یا   row-oriented  وضعیت آن‌را کنترل کنید. برای اسکن‌های کامل معمولا تکنیک column-oriented عملکرد بهتری ارائه می‌کند. 

اصلی‌ترین کاربرد استفاده این بانک اطلاعاتی 

  • Greenplum ترکیبی قدرتمند از پایگاه‌های داده پردازش موازی و تحلیل داده پیشرفته را فراهم می‌کند که به دانشمندان و معماران داده اجازه می‌دهد تصمیمات تجاری را بر اساس داده‌های جمع‌آوری شده توسط هوش مصنوعی و یادگیری ماشین اتخاذ کنند. اصلی‌ترین موارد استفاده Greenplum به شرح زیر است.

تحلیل‌گری

  • تحلیل‌گری‌های پیشرفته فراهم شده توسط Greenplum شامل حل مسائل مربوط به امور مالی، ساخت، خودرو، خدمات دولتی، انرژی، آموزش، خرده‌فروشی و غیره است. 

برخی از امکانات تجزیه و تحلیل پایگاه داده Greenplum شامل توانایی تجزیه و تحلیل انواع مختلف داده‌ها، به‌کارگیری دانش SQL موجود و آموزش مدل‌های بیشتر در زمان کمتر با استفاده از معماری MPP است. همچنین Greenplum با قابلیت تحلیلگری داخل پایگاه داده این امکان را فراهم می‌کند تا به جای خارج کردن و اجرای داده در یک موتور تحلیل خارجی مستقیما آن‌را در خود پایگاه داده 
تحلیل کنید.

یادگیری ماشین 

  • Greenplum یک پایگاه داده ایده‌ال برای یادگیری ماشین و مطالعه الگوريتم‌های کامپیوتری است که به‌طور خودکار از طریق کسب تجربه بهبود می‌یابد. Apache MADlib  یک کتابخانه یادگیری ماشین مبتنی بر SQL منبع باز است که در Greenplum و همین‌طور درPostgreSQL  اجرا می‌شود. این ترکیب به شما کمک می‌کند موازی‌سازی، مقیاس‌پذیری و دقت پیش‌بینی استقرار یادگیری ماشین Greenplum خود را بهبود بخشید. یادگیری ماشین از طریق MADlib شامل آمار توصیفی و استنباطی، پیوت‌شناسی (Pivotal) و کدگذاری متغیرهای طبقه‌بندی شده است.

هوش مصنوعی 

  • هوش مصنوعی اگر چه شبیه به یادگیری ماشین است، اما به ایده‌های گسترده‌تری اشاره دارد که در آن ماشین‌ها می‌توانند وظایف هوشمندانه‌تری انجام دهند. Greenplum یک انتخاب پایگاه داده عالی برای کاربردهایی است که به دنبال تقلید توانایی‌های انسانی از طریق ماشین‌های هوشمند هستند. با توانایی Greenplum در مدیریت حجم عظیمی‌ از داده‌ها در سرعت بالا، پایگاه داده فوق به یک ابزار قدرتمند برای اپلیکیشن‌های هوشمند تبدیل شده است. به‌طور مثال، شرکت تلکام از توانایی‌های هوش مصنوعی پایگاه داده Greenplum برای سنسورهای هوشمند سیستم گزارش‌گیری اینترنت اشیا استفاده می‌کند. مشتريان حال حاضر Greenplum شامل American Express، Walmart، Asurian،Bank of America، خدمات بانکداری، رسانه، بیمه، مراقب‌های بهداشتی و خرده‌فروشی‌ها هستند. 

از کجا شروع کنیم

  • همان‌گونه که اشاره شد، Greenplum یک پایگاه داده منبع باز است، بنابراین دانلود و استفاده از نسخه عمومی‌ آن کاملا رایگان است. جامعه کوچک، اما فعال Greenplum از مشارکت‌کنندگان جدید استقبال و بازخوردها را به گرمی می‌پذیرد.
  • برای دانلود Greenplum به آدرس https://greenplum.org/download/ مراجعه کنید. برای کسب اطلاعات بیشتر و مشارکت در اجتماع Greenplum به آدرس https://greenplum.org/community/ مراجعه کنید.

ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را می‌توانید از کتابخانه‌های عمومی سراسر کشور و نیز از دکه‌های روزنامه‌فروشی تهیه نمائید.

ثبت اشتراک نسخه کاغذی ماهنامه شبکه     
ثبت اشتراک نسخه آنلاین

 

کتاب الکترونیک +Network راهنمای شبکه‌ها

  • برای دانلود تنها کتاب کامل ترجمه فارسی +Network  اینجا  کلیک کنید.

کتاب الکترونیک دوره مقدماتی آموزش پایتون

  • اگر قصد یادگیری برنامه‌نویسی را دارید ولی هیچ پیش‌زمینه‌ای ندارید اینجا کلیک کنید.

ایسوس

نظر شما چیست؟