ذخیره‌سازی اطلاعات به روش علوم زیستی
چرا سازندگان هارددیسک روی ذخیره‌سازی داده‌ها در DNA سرمایه‌گذاری می‌کنند؟
تقاضا برای ذخیره‌سازی داده‌های دیجیتالی تولید‌شده در اینترنت به‌طور تصاعدی افزایش یافته است. این در حالی است که رسانه‌های ذخیره‌ساز سنتی، توانایی محدودی برای ذخیره‌سازی این حجم از اطلاعات دارند. همین مسئله باعث شده تا کارشناسان به سراغ راه‌حل‌ ذخیره‌سازی دی‌ان‌ای‌محور بروند. راهکاری که اجازه می‌دهد حجم انبوهی از داده‌ها روی فضای بسیار کوچکی ذخیره‌سازی شوند. سایت آرس‌تکنیکا که در زمینه پوشش اخبار روز دنیای فناوری مشهور است، برای آن که بفهمیم فناوری شرکت «کاتالوگ» چقدر به کاربردی‌ شدن نزدیک است، با هیونجون پارک، مدیر عامل این شرکت گفت‌وگویی انجام داده است. پارک در گفت‌وگوی خود به این نکته اشاره دارد که رویکرد کاتالوگ در این زمینه متفاوت از تصور مردم است. به‌طوری که داده‌ها را آن‌طور که همگان انتظار دارند، ذخیره نمی‌کند.

1606683296_1_0.gif

جامعه تحقیقاتی از این بابت که دی‌ان‌ای ظرفیتی دارد که می‌توان از آن به‌عنوان ابزاری برای ذخیره‌سازی و آرشیو طولانی‌مدت اطلاعات استفاده کرد، هیجان‌زده است؛ به‌دلیل این‌که دی‌ان‌ای بسیار متراکم است و ازنظر شیمیایی برای ده‌ها هزار سال پایدار می‌ماند و الگویی دارد که اجازه بازیابی و نوشتن اطلاعات را به‌شکل نسبتا ساده‌ای ارائه می‌دهد. درحالی‌که پیشرفت‌های جالبی در این زمینه انجام شده، اما به‌علت هزینه بالا و سرعت بسیار پایین خواندن و نوشتن، عمده تلاش‌ها در همان چارچوب تحقیقاتی علمی باقی مانده است. این‌ها مشکلاتی هستند که باید پیش از عملی‌ شدن ذخیره‌سازی در دی‌ان‌ای حل شوند. بنابراین، شنیدن این خبر که سیگیت، غول ذخیره‌سازی داده‌ها با یک شرکت ذخیره‌سازی مبتنی‌بر دی‌ان‌ای به‌نام کاتالوگ(Catalog)  وارد همکاری شده، شگفتی کارشناسان را برانگیخته است.

ذخیره‌سازی داده‌های دی‌ان‌ای چگونه کار می‌کند؟

دی‌ان‌ای مخفف دئوکسی ریبونوکلئیک اسید است، یک مولکول آلی پیچیده که شامل اطلاعات ژنتیکی یک موجود زنده است. دی‌ان‌دی در همه موجودات وجود دارد و اطلاعاتی مانند رنگ پوست، رنگ چشم، قد و سایر ویژگی‌های فیزیکی و بیولوژیکی را ذخیره می‌کند.

یک توالی مارپیچی DNA دارای جفت‌های متعدد و متناوبی است که از چهار باز (Base) منحصر‌به‌فرد ساخته شده است. این بازها، آدنین (A)، گوانین (G)، سیتوزین (C) و تیمین (T) هستند و به‌صورت جفت به مارپیچ DNA متصل می‌شوند که جفت باز نامیده می‌شوند. این بازها به‌شکل دو جفت آدنین - تیمین و گوانین – سیتوزین هستند. در مکانیزم‌های ذخیره‌سازی امروزی، داده‌ها به‌صورت ارقام دودویی (1 و 0) ذخیره‌سازی می‌شوند. در ذخیره‌سازی داده‌های دی‌ان‌ای، چهار باز نوکلئوتیدی (A، C، G، T) داده‌ها را ذخیره و رمزگذاری می‌کنند. اطلاعات در جایگشت‌های سه بازی نوکلئوتیدی به‌نام کدون ذخیره می‌شوند.

ذخیره‌سازی دی‌ان‌ای شامل سه فرآیند کدگذاری داده‌ها، سنتز و ذخیره‌سازی و رمزگشایی آن‌ها است. کدهای دودویی شامل اطلاعاتی هستند که با استفاده از یک الگوریتم به کدهای دی‌ان‌ای یا کدون ترجمه می‌شوند. در ادامه، آن‌ها در محفظه‌ای در یک محیط خنک قرار داده می‌شوند. در این حالت، اطلاعات دی‌ان‌ای را می‌توان در محلول منجمد کرد و به‌صورت قطرات یا روی تراشه‌های سیلیکونی ذخیره کرد. 

مشکلی که در این زمینه وجود دارد، سرعت پایین این فرآیند است. همین مسئله باعث شده تا دانشمندان به دنبال راهکاری سریع و کم‌هزینه برای خواندن اطلاعاتی باشند که روی دی‌ان‌ای ذخیره‌سازی شده‌اند. در حال حاضر، داده‌های ذخیره‌شده در دی‌ان‌ای باید به آزمایشگاه برده شوند تا به‌صورت اطلاعات دودویی بدون خطا رمزگشایی شوند. این فرآیند کاملا زمان‌بر است. به این ترتیب، ممکن است مدتی طول بکشد تا دستگاه‌های ذخیره‌سازی داده‌های دی‌ان‌ای تبدیل به دستگاه‌های ارزان‌قیمتی شوند که عموم مردم بتوانند از آن استفاده کنند.

تحقیقات بیشتری در حال انجام روی فناوری ذخیره‌سازی دی‌ان‌ای است، در نتیجه قرار نیست در آینده نزدیک روش‌های ذخیره‌سازی فعلی منسوخ شده و جای خود را به روش‌های زیستی بدهند. با این‌حال، در چند سال گذشته، پیشرفت‌های تحقیقاتی خوبی در مورد نحوه ذخیره‌سازی داده‌ها در دی‌ان‌ای انجام شده تا مشکلات مربوط به فضای ذخیره‌سازی، پایداری و حذف دقیق داده‌ها حل شود. 

ذخیره‌سازی متفاوت

دی‌ان‌ای مولکولی است که می‌توان آن‌را یک آرایه خطی درنظر گرفت که چهار ماده شیمیایی متمایز است  A، T،C  و G دارد. ما می‌توانیم از دی‌ان‌ای برای نگه‌داری دو بیت اطلاعات استفاده کنیم. به‌طوری‌که A رمزکننده 00، T رمزکننده 01، C رمزکننده 10 و G رمزکننده 11 باشد. با این رمزگذاری، مولکول AA می‌تواند 0000 را ذخیره کند، AC مقدار 0010 را ذخیره کند و این فرآیند به همین منوال ادامه پیدا می‌کند. 

ما می‌توانیم مولکول‌های دی‌ان‌ای با طول‌های زیاد را با عملکرد بالا سنتز کنیم و توالی‌های جانبی را که چیزی معادل اطلاعات سیستم فایلی هستند به آن‌ها اضافه کنیم. این توالی‌ها به ما می‌گویند که یک قطعه‌ واحد دی‌ان‌ای، کدام بخش از داده‌‌های دودویی را نشان می‌دهد. 

مشکل روش فوق این است که هرچه رشته بیت‌هایی که می‌خواهید ذخیره کنید، طولانی‌تر باشد، زمان و هزینه بیشتری می‌برد. سخت‌افزار رباتیک، واکنش‌های سنتر را انجام می‌دهد و هر واحد سخت‌افزاری می‌تواند در هر لحظه فقط یک مولکول دی‌ان‌ای را سنتز کند. علاوه بر این، مواد خامی که سخت‌افزار از آن برای سنتز استفاده می‌کند، هزینه‌ تمام‌شده هر مولکولی که اطلاعات را ذخیره‌سازی می‌کند، افزایش می‌دهد. در شرایطی که مسئله هزینه در مورد پروژه‌های کوچک مشکل خاصی به‌‌وجود نمی‌آورد، اما اگر بخواهیم ذخیره‌سازی را در مقیاس گسترده‌ای انجام دهیم، هزینه‌ها به‌سرعت بالا خواهند رفت. پارک می‌گوید: «با فرض این‌که هزینه هر بار ذخیره‌سازی برابر با 0.03 سنت باشد، اگر بخواهیم حجمی در حد گیگابایت را نگه‌داری کنیم، این هزینه به چند میلیون دلار خواهد رسید که رقم بسیار زیادی است».

پارک می‌گوید: «شرکت کاتالوگ با هدف حل مشکل رمزگذاری اطلاعات و کاهش هزینه‌ها پایه‌گذاری شد». فرایند رمزگذاری این شرکت با کتاب‌خانه‌ای از ده‌ها تا صدها تکه کوتاه از دی‌ان‌ای به‌نام اولیگو (اولیگونوکلئوتید) انجام می‌شود. سپس، به هر بیت از داده‌ها، ترکیب منحصربه‌فردی از اولیگوها اختصاص داده می‌شود. شما می‌توانید آن‌را مانند یک پردازنده سیلیکونی درنظر بگیرید که به یک بیت در حافظه، یک آدرس منحصربه‌فرد ۶۴ بیتی اختصاص می‌دهد. اگر آن بیت 1 باشد، یک ربات می‌تواند نمونه‌های کوچکی از محلول‌های شامل هر یک از اولیگوهای مورد نیاز را جمع‌آوری و آن‌ها را با آنزیمی ترکیب کند که می‌تواند همه اولیگوها را به هم پیوند دهد. 

این آنزیم، اولیگوها را به‌شکل یک مولکول دی‌ان‌ای مجزا و طولانی‌تر ادغام می‌کند که حاوی امضای منحصر‌به‌فرد آن بیت است. درمقابل، اگر بیت صفر باشد، دی‌ان‌ای مربوط به آدرس آن سنتز نمی‌شود.

سپس، تمام مولکول‌هایی را که تولید می‌شوند می‌توان با هم در یک محلول واحد که برای نگه‌داری طولانی‌مدت می‌توان آن را خشک کرد، ترکیب کرد. برای خواندن آن داده‌ها، مولکول‌های دی‌ان‌ای باید توالی‌یابی شوند تا یک الگوریتم ترکیبی منحصربه‌فرد، اولیگوهای موجود در هر مولکول را تشخیص دهد. به آدرس‌های شناسایی‌شده عدد 1 اختصاص داده می‌شود و به بقیه عدد 0. این فرآیند، داده‌های رمزگذاری‌شده را به‌شکل دیجیتالی بازیابی می‌کند. در روش فوق، اندازه مولکول‌ها کوچک باقی می‌ماند تا محیط ذخیره‌سازی همچنان پایدار و فشرده‌ باشد. این سیستم به‌دلیل عدم تقارن بنیادین، به‌طور قابل‌توجهی در زمان و هزینه  صرفه‌جویی می‌کند. به‌طوری‌که سنتز تعداد زیادی از یک توالی خاص دی‌ان‌ای بسیار ارزان‌تر از سنتز مقادیر کمی از توالی مختلف دی‌ان‌ای است. 

مونتاژ دی‌ان‌ای بر مبنای مقادیر اندکی از دی‌ان‌ای‌های از‌پیش‌ساخته‌شده، هزینه سنتز را  به‌طور چشمگیری کاهش می‌دهد. در چنین شرایطی، هر واکنش مونتاژی می‌تواند به‌صورت موازی اجرا شود. البته، مشکلی که روش فوق دارد این است که در مدت زمان سنتز توالی‌ها به‌شکل انفرادی، دستگاه تا زمان کامل شدن فرآیند سنتز درگیر است و قادر به انجام همزمان کار دیگری نیست. 

عدم تمایل به آرشیو کردن

پارک می‌گوید: «در جدیدترین طرح مفهومی، شرکت کاتالوگ دستگاهی به‌نام شانون برگرفته از نام کلود شانون، نظریه‌پرداز اطلاعات را براساس فناوری جوهرافشان ساخته است. هر جت (فشانه) می‌تواند یک اولیگو را درون یک قطره روی صفحه پیوسته‌ فیلم چاپ کند. اولیگوهای مختلف در یک نقطه واکنشی مشابه فرود می‌آیند و ما با قطره کوچکی از آنزیم آن‌را دوباره پرینت می‌کنیم و آن فیلم به انکوباتور می‌رود. در ادامه، آنزیم، آن‌ها را در قالب یک مولکول‌ دی‌ان‌ای مونتاژ می‌کند. وقتی واکنش‌ها کامل شد، قطرات می‌توانند با هم در یک محلول واحد که شامل کل داده‌های رمزگذاری‌شده است، ترکیب شوند».

بخشی از مشارکت شرکت کاتالوگ با سیگیت شامل بررسی این موضوع است که آیا برخی از سخت‌افزارهای تجهیزات سیال که این شرکت‌ سازنده هارد‌دیسک‌‌ها توسعه داده، این قابلیت را دارند تا به کوچک‌شدن و خودکار‌سازی بیشتر این فرایند کمک کنند و استفاده از انرژی و منابع را کاهش دهند؟ پارک می‌گوید: «اندازه شانون در حد یک آشپزخانه معمولی است».

خروجی شانون برای آرشیو تنظیم شده است، در حالی‌که بررسی‌های انجام‌شده توسط کاتالوگ، نشان می‌دهد مشتریان کمی علاقه‌مند به آرشیوسازی اطلاعات هستند. پارک می‌گوید: «ما با شرکت‌هایی مثل سیگیت و شرکت‌های فعال در زمینه سرگرمی، انرژی و فناوری صحبت کرده‌ایم. شرکت‌هایی که در زمینه ذخیره‌سازی و نگه‌‌داری از حجم عظیمی از اطلاعات با مشکلات زیادی روبه‌رو هستند. بررسی‌های ما نشان داد که این فقط جنبه ذخیره‌سازی سرد (Cold Storage) این کار نیست که برای آن‌ها جالب است، آن‌ها به دنبال فناوری‌ای هستند که اجازه خواندن و نوشتن اطلاعات را با سرعت مطلوبی ارائه دهد. ما متوجه شدیم که مردم به این مسئله علاقه‌مند هستند که آیا دی‌ان‌ای می‌تواند امکان انجام عملیات موازی گسترده‌ را روی داده‌های ذخیره‌شده بدون نیاز به تبدیل آن‌ها به اشکال دیجیتالی به‌وجود آورد یا خیر. ما اکنون به دنبال آن هستیم تا فناوری جدیدی در زمینه ذخیره‌سازی محاسباتی ابداع کنیم که از حجم عظیمی از داده‌ها پشتیبانی کند، اما جست‌وجو‌پذیر و محاسبه‌‌پذیر باشد».

پارک می‌گوید: «این طرح رمزگذاری می‌تواند قابلیت بزرگی برای انجام برخی عملیات‌ روی دی‌ان‌دی در اختیار ما قرار دهد، زیرا اکنون اطلاعات دقیق‌تری درباره نحوه ذخیره‌سازی داده‌ها و ساختار مولکول‌ها در اختیار داریم. موضوعی که در طرح‌های رمزگذاری که در آن‌ها توالی مولکول‌ها براساس داده‌های ذخیره‌شده متفاوت است، امکان‌پذیر نیست. همچنین، عدم وجود توالی‌های خاص در این طرح رمزگذاری، می‌تواند مفید باشد. با‌این‌حال، در این مرحله، کاتالوگ هنوز درحال بررسی نحوه اجرای برخی از ایده‌ها است. دستیابی به برخی از مزیت‌های محاسباتی ممکن است به این زودی‌ها امکان‌پذیر نباشد، زیرا خروجی برخی از ایده‌ها تنها در صورت تجاری شدن مقرون‌به‌صرفه خواهند بود». 

پارک می‌گوید: «‌قبل از این‌که محاسبات پایه دی‌ان‌ای قابل درک و معنادار باشد، باید امکان ذخیره‌سازی حجم زیادی از اطلاعات در دی‌ان‌ای به‌وجود آید. پیش‌بینی من این است که ذخیره‌سازی دی‌ان‌ای در نهایت جایگاه خود را به‌دست می‌آورد، زیرا در زمینه محاسبات موازی عظیم عملکرد قابل قبولی دارد».

درحالی‌که استارتاپی مانند کاتالوگ آشکارا به سراغ شرکت‌های بزرگ دنیای فناوری اطلاعات رفته و با شرکت‌های مختلفی در حال مذاکره است، اما این امکان وجود دارد که اولین دستاوردهای ملموس در این زمینه از جامعه دانشگاهی به دنیای فناوری معرفی شوند. پارک به حجم عظیم داده‌های تولیدشده توسط برخورددهنده هادرونی بزرگ (Large Hadron Collider) به‌عنوان یک هدف بالقوه اشاره می‌کند و می‌گوید شرکت کاتالوگ چارچوب توسعه فناوری Open Labs را که توسط سازمان اروپایی پژوهش‌های هسته‌ای اجرا می‌شود، پذیرفته است. پارک می‌گوید: «فکر می‌کنم دی‌ان‌ای راهی عالی برای ذخیره‌سازی حجم عظیمی از داده‌ها است. وقتی تئوری جدیدی ارائه می‌شود، به احتمال زیاد می‌خواهید تمام آزمایش‌های انجام‌شده قبلی را به‌شکل کارآمد جست‌وجو و بررسی کنید. درحال ‌حاضر راهی برای انجام این کار وجود ندارد و به نظرم یک سیستم مبتنی ‌بر دی‌ان‌ای می‌تواند یک راه‌حل عالی  برای این مسئله باشد».

ظرفیت ذخیره‌سازی داده‌های دی‌ان‌ای چقدر است؟

ذخیره‌سازی داده‌های دی‌ان‌ای، راه‌حلی است که برای حل مشکل کمبود ذخیره‌سازی در اولویت قرار دارد، زیرا می‌تواند حجم زیادی از داده‌ها را در فضای بسیار کمی ذخیره کند. یک گرم دی‌ان‌ای می‌تواند 215 پتابایت داده را ذخیره کند. یک پتابایت معادل 1024 ترابایت است. بنابراین یک گرم دی‌ان‌ای می‌تواند تقریبا 220160 ترابایت اطلاعات را ذخیره کند. اگر آن‌را با فناوری فعلی مقایسه کنید، یک هارددیسک یک ترابایتی تقریبا 400 گرم وزن دارد. بنابراین، برای ذخیره داده‌‌ای معادل آن‌چه در یک گرم دی‌ان‌ای نگه می‌داشته می‌شود، به بیش از 88 میلیون گرم هارد‌دیسک نیاز داریم!

با توجه به این اطلاعات، محققان می‌گویند با استفاده از مکانیزم ذخیره‌سازی داده‌های مبتنی بر دی‌ان‌ای می‌توان تمام داده‌های موجود در جهان را در یک جعبه کفش نگه‌داری کرد. 

مزایای ذخیره‌سازی در دی‌ان ای چیست؟

استفاده از مکانیزم ذخیره‌سازی مبتنی بر دی‌ان‌ای به‌عنوان یک راهکار ذخیره‌سازی، مزایای زیادی در مقایسه با ذخیره‌سازی دیجیتالی دارد. این مزایا شامل ظرفیت بالا در ذخیره‌سازی داده‌ها، طول عمر بیشتر نسبت به فناوری‌های ذخیره‌سازی امروزی، فشردگی، حساسیت کمتر نسبت به خرابی‌های فنی و الکتریکی و قابلیت تکرار است.

چگالی ذخیره‌سازی

مزیت اصلی ذخیره‌سازی دی‌ان‌ای نسبت به سایر وسایل ذخیره‌سازی، چگالی ذخیره‌سازی است. اگر داده‌های خود را از راه دور بر روی ابر یا NAS ذخیره کنید، این داده‌ها همچنان در مراکز داده و سرورهای بزرگ ذخیره می‌شوند. این دیتاسنترها به بزرگی استادیوم‌های فوتبال هستند و میلیاردها دلار برای ساخت و نگه‌داری آن‌ها هزینه می‌شود. در مورد ذخیره‌سازی داده‌های مبتنی بر دی‌ان‌ای وضعیت به این صورت نیست. ذخیره‌سازی داده‌ها از طریق دی‌ان‌ای به شما امکان می‌دهد حجم عظیمی از داده‌ها را در یک فضای بسیار فشرده ذخیره کنید. از این رو مشکلات فضا، هزینه نگه‌داری و کمبود تجهیزات ذخیره‌سازی کاهش می‌یابد.

ماندگاری

تجهیزات ذخیره‌سازی دیجیتالی که امروزه در دسترس هستند، به هیچ وجه ماندگاری و دوام بالایی ندارند. همه آن‌ها مستعد خرابی و آسیب هستند. خرابی دیجیتال، به‌معنی تجزیه تدریجی داده‌های ذخیره‌شده در رایانه است که خسارت‌های زیادی به افراد و شرکت‌ها وارد می‌کند. این در حالی است که دی‌ان‌ای دست‌کم تا 500 سال عمر مفید دارد. داده‌های ذخیره‌شده در دی‌ان‌ای، هنگامی که در یک محیط بهینه نگه‌داری شوند برای صدها سال قابل استفاده و در دسترس هستند. این در حالی است که مراکز داده از ترس تخریب داده‌ها مجبور هستند در بازه‌های زمانی مختلف از اطلاعات نسخه‌های پشتیبان تهیه کرده و روی سخت‌افزارهای مختلفی نگه‌داری کنند. فرآیندی که سخت و هزینه‌بر است. داده‌های ذخیره‌شده در دی‌ان‌ای به‌راحتی قابل تکثیر هستند. یکی از روش‌های شناسایی‌شده در این زمینه، وارد کردن دی‌ان‌ای با اطلاعات ذخیره‌شده در یک باکتری است. در ادامه، این باکتری – به‌تنهایی - نسل دیگری از باکتری‌ها را که دارای همان اطلاعات ذخیره‌شده در دی‌ان‌ای اول است، بدون هیچ‌گونه خطا یا ازدست‌رفتن داده‌ها، تکثیر می‌کند.

آیا ذخیره‌سازی اطلاعات در دی‌ان‌ای، آینده‌ای است که برای ذخیره‌سازی داده‌ها تصور می‌شود؟

صادقانه باید بگوییم، بله. ذخیره‌سازی داده‌ها در دی‌ان‌ای تمام مشکلات مربوط به ذخیره‌سازی را برطرف می‌کند. در حال حاضر، ذخیره‌سازی اطلاعات در دی‌ان‌ای، در شرکت‌هایی استفاده می‌شود که می‌خواهند آرشیوهای گسترده‌ای از اطلاعات را که نیازی به دسترسی منظم ندارند، حفظ کنند.

متاسفانه، مدت‌زمان زیادی طول می‌کشد تا ذخیره‌سازی در دی‌ان‌ای به‌عنوان یک گزینه ذخیره‌سازی معمولی و مقرون‌به‌صرفه در دسترس عموم قرار بگیرد. در این مدت، باید بادقت بهترین فرمت ذخیره‌سازی را برای ذخیره‌سازی طولانی‌مدت داده‌ها انتخاب کنیم.

ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را می‌توانید از کتابخانه‌های عمومی سراسر کشور و نیز از دکه‌های روزنامه‌فروشی تهیه نمائید.

ثبت اشتراک نسخه کاغذی ماهنامه شبکه     
ثبت اشتراک نسخه آنلاین

 

کتاب الکترونیک +Network راهنمای شبکه‌ها

  • برای دانلود تنها کتاب کامل ترجمه فارسی +Network  اینجا  کلیک کنید.

کتاب الکترونیک دوره مقدماتی آموزش پایتون

  • اگر قصد یادگیری برنامه‌نویسی را دارید ولی هیچ پیش‌زمینه‌ای ندارید اینجا کلیک کنید.

ایسوس

نظر شما چیست؟