امروزه نقشهبرداری دادهای یکی از فرآیندهای بسیار مهم است که تمامی صنایع بزرگ همچون بانکها، بورسها، سازمانهای بیمهگر، صرافیها و واحدهای تولید نیاز مبرمی به آن دارند. اجازه دهید با نگاهی کلی به بررسی این موضوع بپردازیم. شرکتهای بزرگ و سازمانها با حجم عظیمی از دادهها سر و کار دارند و هر ماه به حجم، پیچیدگی و سودمندی این دادهها افزوده میشود. بهطور مثال، طبق گزارش TechJury، شرکت نتفلیکس با اشراف دقیق اطلاعاتی روی عملکرد مشتریان خود و تحلیل موشکافانه دادههای بهدست آمده از آنها سالانه یک میلیارد دلار صرفه جویی میکند.
نقشهبرداری از داده چیست و چرا اهمیت دارد؟
نقشهبرداری از دادهها زیرساخت اطلاعاتی کسب و کارها را بهگونهای توانمند میسازد تا بتوانند به درک همه مسائل و جوانب تجاری پرداخته و کنترل دقیقی روی تراکنشها آنلاین داشته باشند. در این روش اطلاعات از یک یا چند مجموعه دادهای استخراج میشود تا برای نقشهبرداری از آنها استفاده شود.
اجازه دهید کار را با یک مثال عملی ادامه دهیم. برای درک نقشهبرداری از دادهها، تصور کنید سه پایگاه داده با دادههایی از فیلمها و بازیگران معروف در اختیار داریم. هر کدام از آنها اطلاعات را درون ستونها و فیلدهایی سازماندهی کردهاند و هر یک استراتژی سازماندهی متفاوتی دارند. در شکل یک این سه پایگاه داده را مشاهده میکنید(شکل 1).
هر پایگاه داده اطلاعات یکسان یا متناقض مختلفی را در خود جای داده است. بهطور مثال:
- ستون id در پایگاه داده Movie و ستون movieid در پایگاه داده Casting اطلاعات یکسانی را در خود ذخیره کردهاند.
- تنها پایگاه داده Movie است که اطلاعات درآمد ناخالص (gross) را در خود نگهداری میکند.
- پایگاه داده Actor تنها اطلاعات نام (name) را در خود جای داده است.
ترکیب این سه پایگاه داده در یک انبار داده اجازه میدهد از آنها مثل یک پایگاه داده منفرد کوئری بگیرید یا اطلاعات درون آنها را جستوجو کنید. رویکرد فوق برای شرکتی که به یک چشم تیزبین و دقیق برای نظارت به تمام دادههای موجود احتیاج دارد بسیار ارزشمند است. یکپارچهسازی این پایگاههای داده با یکدیگر به یک نقشه داده نیاز دارد تا مکانهایی که اطلاعات وجه اشتراک دارند مشخص شود. همچنین در موارد تکراری بودن دادهها باید مشخص شود کدامیک از دادههای درون پایگاههای داده باید استفاده شود و چگونه با اطلاعات جدید رفتار شود. شکل دو نقشه داده مقدماتی پایگاههای داده فیلمها و بازیگران را نشان داده است. خطوط اتصال نشان میدهند که چگونه منابع دادهای را به شکل الگوی هدف نقشهبرداری کردهایم (شکل 2).
بهطور خلاصه، نقشهبرداری از دادهها دستورالعملهایی را ایجاد میکند که اطلاعات از یک یا چند مجموعه داده درون یک طرح و الگوی واحد ادغام میشوند تا توسعهدهندگان بتوانند از آن کوئری گرفته و اشراف کاملتری روی دادهها داشته باشند. از منظر فنی، نقشهبرداری از دادهها فیلدهای مرتبط را از یک یا تعداد بیشتری منبع با فیلدهای مرتبط در یک فایل محدود (مثل یک فایل متنی که الگوی مقصد یا انبار داده را مشخص میکند) مطابقت میدهد. مثال بالا یک نمونه ساده از ساختار نقشهبرداری از دادهها بود، اما بسته به عوامل زیر نقشهبرداری از دادهها میتواند فرآیند پیچیدهتری داشته باشد:
- اندازه مجموعه دادهها
- تعداد منابع اطلاعاتی که باید از آنها نقشهبرداری شود
- طرحها، کلیدهای اصلی و کلیدهای خارجی موجود در منابع دادهای
- تفاوتهای بین منبع ساختار دادهای و ساختار هدف
- سلسله مراتب دادهها
در نهایت، نقشهبرداری از دادهها با هدف عادیسازی مجموعه دادههای متنوع و ناهماهنگ است، به گونهای که سیستمهای هوش تجاری بتوانند به شکل یکپارچه به اطلاعات دسترسی داشته و آنها را تجزیه و تحلیل کنند.
چه زمانی نقشهبرداری از دادهها ضروری است؟
کارشناسان پایگاه داده و متخصصان دادهها بر این باور هستند که نقشهبرداری از دادهها روی سه حوزه اصلی زیر تاثیر چشمگیری دارند:
- یکپارچهسازی دادهها با هدف انبار کردن آنها
- تبدیل دادهها
- انتقال داده ها
یکپارچهسازی دادهها با هدف انبار کردن آنها
هنگام ادغام دادهها در انبار داده، نقشهبرداری از دادهها اتصالات بین منابع داده و جداول هدف انبار داده را مشخص میکند. نقشهبرداری از دادهها در ارتباط با انبار دادهها با تجزیه و تحلیل اطلاعات منبع آغاز میشود. بهطور مثال، پایگاههای داده با اطلاعات یکسان در کدام قسمتها وجع اشتراک دارند؟ در مرحله بعد این فرآيند با تعریف قواعدی برای نقشهبرداری و یکپارچهسازی ادامه پیدا میکند. بهطور مثال، اگر دادههای تکراری در دو پایگاه داده مختلف باشند، کدامیک از دادهها باید در سیستم استفاده شوند؟ سازمانهای بزرگ برای ترسیم نقشه راهی که اشاره به طرح استراتژیک و کلان تجاری دارد از فناوری نقشهبرداری خودکار از دادهها استفاده میکنند. بهطور مثال، پلتفرمهایی مثل Xplenty امکان نقشهبرداری از منابع دادهای نامحدود همچون انبار دادهها را فراهم میکنند و به کسبوکارها اجازه میدهند فرآیند نقشهبرداری را خودکارسازی کنند تا هر زمان انبار دادهها با دادههای جدید و فایلهای مختلف بهروزرسانی شد، نقشهبرداری از دادهها متناسب با تغییرات آماده شود.
تبدیل دادهها
تبدیل دادهها شامل دریافت دادهها در یک ساختار یا فرمت خاص و تبدیل آن به ساختار یا فرمت دیگر است. چنین کاری میتواند هنگام آمادهسازی اطلاعات نقش مهمی ایفا کند و به این شكل میتوان آنرا با یک انبار داده ادغام کرد یا از آن در اپلیکیشنهای مختلف استفاده کرد. یکپارچهسازی دادهها شامل موارد زیر است:
- تبدیل نوع داده
- حذف دادههای null و اطلاعات تکراری (پاکسازی داده)
- غنیسازی دادهها
- انجام تجمیعات
در مراحل اولیه تبدیل دادهها، نقشهبرداری از دادهها تعیین میکند که چگونه باید فیلدهای داده را مطابق با نیازها اصلاح، ادغام، فیلتر یا تجمیع کرد تا نقشهبرداری به شکل دقیقی انجام شود.
انتقال دادهها
انتقال دادهها به معنای جابجا کردن اطلاعات از یک مخزن به مخزن دیگر است و نقشهبرداری دادهها یکی از مراحل این فرآيند است. قبل از نقشهبرداری خودکار دادهها، ترسیم دستی نقشه از دادهها یکی از چالشبرانگیزترین جنبههای انتقال داده بود. چنین کاری مستعد خطا بود و زمان زیادی میطلبیدف اما ابزارهای خودکارسازی نقشهبرداری دادهها مثل Xplenty ضمن جلوگیری از بروز خطا، زمان مورد نیاز را نیز کاهش میداد.
متداولترین فنون نقشهبرداری دادهها کدامند؟
سه شیوه اصلی برای نقشهبرداری از دادهها به شرح زیر وجود دارد:
- نقشهبرداری دستی از داده
- نقشهبرداری الگویی
- نقشهبرداری تمام خودکار
نقشهبرداری دستی
در نقشهبرداری دستی توسعهدهندگان باید اتصالات بین منبع داده با الگوی هدف را به صورت دستی کدنویسی کنند. آنها معمولا کدها را در XSLT مینویسند که یک زبان برنامهنویسی است که اسناد XML را به فرمتهای دیگر تبدیل میکند. در نهایت، با گسترش و پیچیدگی سامانههای دادهای، کدنویسی دستی قادر نیست به نیازهای تجاری در سطح کلان پاسخ دهد. به همین دلیل سازمانها به سراغ نقشهبرای الگویی و تمام خودکار رفتند.
نقشهبرداری الگویی
نقشهبرداری الگویی یک راهکار نیمه خودکار است که برای نقشهبرداری از الگوهای نرمافزارمحوری استفاده میکند که تقریبا بدون دخالت عامل انسانی آماده میشود. نرمافزار برای ساخت ارتباطات، منابع دادهای و الگوی هدف را ارزیابی میکند و در مرحله بعد توسعهدهنده نقشه را بررسی میکند و هر جا لازم باشد تنظیمات و تغییرات را اعمال میکند. بعد از نهایی شدن نقشه داده، نرمافزار بهطور خودکار کدها (معمولا به زبان C++، C# یا Java ) را برای بارگیری داده توليد میکند تا نقشهبرداری کامل شود. فرآیند تولید خودکار کد با نرمافزارهایی شبیه به Xplenty مشابه آن چیزی است که در شکل 3 مشاهده میکنیم.
نقشهبرداری تمام خودکار
ابزارهای نقشهبرداری تمام خودکار یک رابط گرافیکی با ویژگی کشیدن و رها کردن اشیا (drag-and-drop) در توسعهدهندگان قرار میدهند تا فرآيند نقشهبرداری به دقیقتر شکل ممکن انجام شود. ابزارهای این گروه به قابلیتهایی مجهز هستند که امکان میدهند نقشهبرداری خودکار صدها قالب مختلف از قبیل Google Sheets،Hubspot ، Salesforce و غیره را مدیریت کنید. مزیت پلتفرمهای نقشهبرداری تمام خودکار این است که افراد تازهکار و ناآشنا با کدنویسی به راحتی قادر به استفاده از آنها هستند. شکل 4 نمونهای از یک رابط کاربری متعلق به ابزار Xplenty را نشان میدهد.
در یک ابزار نقشهبرداری داده باید به دنبال چه قابلیتهایی باشیم؟
انتخاب درست یک ابزار نقشهبرداری داده به الزامات پروژه بستگی دارد، اما اپلیکیشن نقشهبرداری داده باید حداقل این سه ویژگی را داشته باشد.
1. قابلیت نقشهبرداری داده بدون کدنویسی
کدنویسی دستی زمانی قابل انجام است که تازه کار را آغاز کردهاید و مجموعه دادهها هنوز کوچک هستند، اما با بزرگتر و پیچیدهتر شدن مجموعه دادهها انجام این کار دشوارتر میشود. علاوه بر این، نقشهبرداری دستی داده به سطح بالایی از تخصص فنی احتیاج دارد، زمانبر و پر هزینه است. با انتخاب یک پلتفرم نقشهبرداری که به کدنویسی نیاز نداشته باشد به مزایای زیر دست پيدا میکنید:
- کاربران بدون دانش برنامهنویسی میتوانند کارهای نقشهبرداری دادهای را انجام دهند.
- یک رابط کاربری گرافیکی با امکانات کشیدن و رها کردن اشیا گرافیکی مراحل انجام کار به صورت بصری را فراهم میکند.
- فرآیندهای خودکار احتمال خطای انسانی که میتواند بر دقت دادهها تاثیر منفی داشته باشد را از بین میبرد یا بهطور محسوسی کاهش میدهد.
2. ادغام و تبدیل خودکار دادهها
قبل از نقشهبرداری از دادهها ممکن است به تبدیل دادهها از فرمتی به فرمت دیگر نیاز پیدا کنید. این کار ممکن است زمان زیادی احتیاج داشته باشد، اما ابزارهای نقشهبرداری از داده به یک کتابخانه داخلی از ادغامهای از پیش تعریف شده مجهز هستند. بهطور مثال، شکل 5 توابع تغییر و دستکاری دادههای متعلق به ابزار Xplenty را نشان میدهند.
3. پشتیبانی از انواع مختلف دادههای ساختیافته و بدون ساختار
ابزارهای نقشهبرداری داده باید طیف گستردهای از فرمتهای ساختیافته مثل فرمتهای RDBMS، JSON،XML ،CSV ، IDOC و EDI را پشتیبانی کنند. همچنین به دلیل اینکه اغلب کسبوکارها نیاز دارند تا دادههای ساختیافته را با منابع داده بدون ساختار ادغام کنند، نرمافزار نقشهبرداری داده باید بتواند از فرمتهایی مثل RTF،PDF، weblogs و سایر فرمتهای غیر رابطهای پشتیبانی کند. علاوه بر این، اگر کسبوکاری از یک اپلیکیشن مدیریت ارتباط با مشتری ابرمحور مثل Salesforce یا Microsoft Dynamics CRM استفاده میکند، باید به دنبال یک ابزار نقشهبرداری دادهای باشد که بتواند به تمام اپلیکیشنهای سازمانی که استفاده میکند متصل شود.
دقت کنید پلتفرمهای نقشهبرداری دادهای قدرتمند زیادی وجود دارد که به شما در یکپارچهسازی دادهها کمک فراوانی میکنند که از آن جمله میتوان به ابزار قدرتمند Xplenty به نشانی (https://www.xplenty.com/) اشاره کرد که تمام ویژگیهای عنوان شده در این مقاله را در اختیارتان میگذارد.
ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را میتوانید از کتابخانههای عمومی سراسر کشور و نیز از دکههای روزنامهفروشی تهیه نمائید.
ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین
کتاب الکترونیک +Network راهنمای شبکهها
- برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.
کتاب الکترونیک دوره مقدماتی آموزش پایتون
- اگر قصد یادگیری برنامهنویسی را دارید ولی هیچ پیشزمینهای ندارید اینجا کلیک کنید.
نظر شما چیست؟