AlphaZero در چهار ساعت، استاد شطرنج می‌شود!
بخش دیپ‌مایند گوگل به تازگی موفق به ارائه الگوریتم هوش مصنوعی شده که قادر است در مدت کوتاهی و بدون دخالت انسان، بازی‌هایی نظیر شطرنج را آموخته و برنامه‌های دست‌ساز بشر را به چالش بکشد.

هدف بلند مدت گروه دیپ‌مایند (DeepMind)، ارائه ماشینی است که قادر به تصمیم‌گیری در موقعیت‌های مختلف باشد. دیپ‌مایند به تازگی در مقاله‌ای توضیح داده است که چطور هوش مصنوعی در جدیدترین پروژه‌اش بازی‌های شطرنج ، شوگی ( شطرنج ژاپنی ) و Go را می‌آموزد.

هوش مصنوعی آلفازیرو ( AlphaZero ) تنها ظرف مدت ۴ ساعت در بازی شطرنج به قابلیت‌هایی فراتر از انسان دست می‌یابد. این الگوریتم بعد از یک دوره سعی و خطا و گذراندن ۳۰۰هزار گام آموزشی، موفق به غلبه بر اِستاک‌فیش (Stockfish ) بهترین برنامه بازی شطرنج جهان شده است. لازم به ذکر است الگوریتم آلفا‌زیرو دانشی از استراتژی‌های شطرنج نداشته و فقط قوانین این بازی را می‌دانسته است. الگوریتم آلفازیرو نسخه‌ای عمومی‌تر از الگوریتم AlphaGo Zero است که فقط برای بازی Go طراحی شده بود. این الگوریتم در کمتر از دو ساعت و بعد از گذراندن ۱۱۰هزار گام آموزشی در بازی شوگی و بعد از ۸ ساعت و با گذراندن ۱۶۵هزار گام آموزشی در بازی Go به مهارت دست یافت.

نمونه‌ای از دو بازی آلفازیرو در بازی شطرنج

این هوش مصنوعی ۱۰۰ بازی شطرنج با حریف نرم‌افزاری خود، اِستاک‌فیش انجام داد که در این میان، ۲۵ بازی را با مهره سفید و با استفاده از مزیت آغاز بازی برده است و با مهره سیاه نیز در سه بازی پیروز شده است. بازی در بقیه موارد هم‌ برنده‌ای نداشته است. برای آموزش الگوریتم آلفازیرو از یک سامانه پردازشی مجهز به چهار TPU استفاده شده است.

برچسب: