چرا دانشمندان علوم داده به توزیع گوسی علاقه‌مند هستند؟
از بین همه توزیع‌های احتمالاتی، توزیع گوسی برای اکثر ما آشناتر است. اما چرا توزیع گوسی تا این حد در علوم داده، یادگیری ماشین و سایر علوم اهمیت دارد؟ در این متن خلاصه‌وار به چهار دلیل اشاره خواهیم کرد.

توزیع گوسی یک توزیع احتمالاتی است که تابع آن شکلی شبیه زنگ دارد. فرمول آن نیز در در ادامه آورده شده است. در این فرمول، سیگما و مو پارامترهایی هستند که شکل کلی تابع را تعیین می‌کنند. فارغ از اینکه پارامترها چگونه تنظیم شوند، در توزیع گوسی احتمال وقوع یک پدیده در مقادیر متوسط بیشتر است. برای مثال، قد و وزن افراد جامعه توزیع گوسی دارد و در نتیجه افراد با قد و وزن میانگین تعدادشان بیشتر است. در ادامه، چهار دلیل در ارتباط با اهمیت این توزیع بیان خواهیم کرد.

 

 

 

1- منطبق با طبیعت است.

بسیاری از پدیده‌ها در طبیعت و علوم اجتماعی مبتنی بر توزیع گوسی هستند. حتی اگر مبتنی بر توزیع گوسی نباشند، این مدل از مدل‌های دیگر دقت بیش‌تری در توصیف آنها دارد. از جمله پدیده‌هایی که توزیع گوسی دارند، توزیع قد و وزن افراد یک جامعه است. خطاهای اندازه‌گیری هم توزیع گوسی دارند. همچنین انتشار ذرات سیال (شکل زیر) نیز توزیع گوسی البته از نوع دو بعدی دارد.

 

2- نطریه حد مرکزی

یک نظریه موسوم به نظریه حد مرکزی در ریاضیات هست که طبق آن، اگر تعداد زیادی متغیر تصادفی با هر نوع توزیعی داشته باشیم، مجموع نرمالیزه‌شده آن‌ها توزیع گوسی دارد. برای مثال، حتی اگر نرخ ترافیکی که یک کامپیوتر به شبکه ارسال می‌کند توزیع گوسی نداشته باشد، مجموع نرخ تعداد زیادی کامپیوتر به شبکه توزیع گوسی خواهد داشت که دانستن این موضوع برای مهندسی ترافیک می‌تواند اثربخش باشد.

 

3- یک بار گوسی، همیشه گوسی!

بر خلاف بسیاری از توزیع‌های دیگر که در صورت تبدیل ماهیت آن‌ها تغییر می‌کند، یک توزیع گوسی همیشه گوسی می‌ماند. از جمله در حالت‌های زیر توزیع گوسی تغییر ماهیت نمی‌دهد:

- ضرب دو توزیع گوسی در یکدیگر

- جمع دو متغیر با توزیع گوسی

- کانولوشن دو توزیع گوسی

- تبدیل فوریه روی یک توزیع گوسی

 

4- سادگی!

حتی اگر برای توصیف یک پدیده خاص توزیع دقیق‌تری نیز وجود داشته باشد، توزیع گوسی غالباً ارجحیت دارد، چرا که از لحاظ ریاضی ساده‌تر است. از جمله این که:

- میانگین، میانه و مد تابع توزیع گوسی همگی یک مقدار هستند.

- تمامی مدل فقط با دو پارامتر میانگین و واریانس قابل توصیف است.

 

با توجه به چهار دلیل فوق، اگر با داده‌ها سروکار دارید و با تابع توزیع گوسی به خوبی آشنا نیستید، بهتر است در این زمینه مطالعه نمایید!

برچسب: