یادگیری ماشین در دنیای بینایی
ما همیشه علاقمند هستیم ماشین‌هایی بسازیم تا بتوانند ببینند و دنیای اطراف خود را درک کنند. این روزها استفاده از یادگیری ماشین در حوزه بینایی کامپیوتری محبوبیت زیادی پیداکرده‌ و محققان به‌طورجدی روی استفاده از روش‌های یادگیری ماشینی در حوزه تصویرگری و تحلیل تصاویر کار می‌کنند. فیس‌بوک قصد دارد با تحلیل انبوه تصاویری که کاربرانش با کمال میل در اختیارش قرار می‌دهند، مدل‌های سه‌بعدی استخراج کند.

در اوایل سال جاری میلادی، محققان هوش‌مصنوعی فیس‌بوک سامانه یادگیری عمیقی را معرفی کردند که قادر بود از عکس‌ها و تصاویر ویدیویی دوبعدی، مدل سه‌بعدی متحرک افراد را استخراج کند. مدتی بعد فیس‌بوک، کد این فناوری موسوم به DensePose را منتشر کرد. اگرچه در دسترس بودن این فناوری برای فیلم‌سازان و بازی‌سازان خبر خوبی است اما نگرانی‌هایی هم از امکان سو‌ءاستفاده‌های احتمالی مطرح‌شده است. 


این سامانه هوشمند علاوه بر توانایی شناسایی افراد در تصاویر، از طریق تخمین زدن موقعیت نیم‌تنه و اندام‌ها و حرکات آن‌ها قادر است مدل‌های سه‌بعدی از افراد بسازد و حرکات آن‌ها را به‌طور زنده و سه‌بعدی بازسازی کند. به عقیده این محققان، چنین دستاوردی در حوزه‌هایی نظیر گرافیک، واقعیت افزوده یا تعامل انسان ـ کامپیوتر مفید بوده و یک گام اساسی در حوزه درک سه‌بعدی اشیا خواهد بود. اما جک کلارک (Jack Clark)، مدیر بخش استراتژی و ارتباطات مؤسسه غیرانتفاعی OpenAI معتقد است: «این فناوری، پیامدهای منفی نیز دارد که امکان پایش (به بیان بهتر جاسوسی) بلادرنگ را فراهم می‌کند.» کلارک معتقد است: «‌چنین سامانه‌ای به‌طور بالقوه به اپراتورها امکان می‌دهد که رفتار گروه‌های بزرگی از افراد را با اهدافی نظیر کشف رفتارهای غیرعادی و مشکوک تجزیه‌وتحلیل کنند.»

یادگیری ماشین در دنیای بینایی سامانه هوش مصنوعی فیس‌بوک، قادر است با تجزیه‌وتحلیل تصاویر دوبعدی، مدلی سه‌بعدی از افراد بسازد.

محققان برای تهیه محتوای آموزشی این سامانه، از تعدادی داوطلب کمک گرفتند و در ۵۰ هزار عکس بدن انسان، نقاط خاصی را (حدود 100 تا ۱۵۰ نقطه در هر تصویر) به‌طور دستی برچسب‌گذاری کردند؛ به‌منظور ساده‌تر شدن کار برای داوطلب‌ها و افزایش دقت، آن‌ها روی بخش‌هایی از بدن نظیر سر، دست، پا و نیم‌تنه متمرکز می‌شدند و آن‌ها را برچسب می‌زدند. به‌منظور تقویت این داده‌های آموزشی، محققان فیس‌بوک از الگوریتمی استفاده کردند که به‌طور خودکار نقاطی را که توسط داوطلبان برچسب‌گذاری نشده بود، نیز برچسب می‌زد. بنا بر ادعای فیس‌بوک، DensePose قادر است تبدیل دوبعدی به سه‌بعدی را با نرخ ۲۰ تا ۲۶ فریم در ثانیه برای یک عکس ۲۴۰ در ۳۲۰ یا ۴ تا ۵ فریم در ثانیه برای یک عکس ۸۰۰ در ۱۱۰۰ اجرا کند. به بیان ساده‌تر، این سامانه می‌تواند با استفاده از تصاویر ویدیویی دوبعدی، بی‌درنگ مدل‌های سه‌بعدی از افراد بسازد. البته این محققان در میان کاربردهای متعددی که برای این سامانه برشمرده‌اند اشاره مشخصی به کاربردهای نظارتی نکرده‌اند اما ازآنجا‌که فیس‌بوک کد این سامانه را منتشر کرده، دور از ذهن نیست که چنین استفاده‌‌هایی نیز از DensePose به عمل آید. کلارک امیدوار است که گروه‌های تحقیقاتی نظیر گروه هوش‌مصنوعی فیس‌بوک، از معایب و خطرهای ناشی از تحقیقات خود نیز با عموم مردم سخن بگویند. 

برچسب: