رگرسیون و رگرسیون خطی چیست؟
یکی از موضوعات مهمی که زیاد در مورد آن می‌شنویم، به ویژه هنگامی که مقاله‌های هوش مصنوعی را مطالعه می‌کنیم، رگرسیون و به ویژه رگرسیون خطی است. در تعریف لغوی واژه رگرسیون (Regression) به معنای پسروی، برگشت و بازگشت است. با این‌حال، از دیدگاه آماری این واژه بازگشت به یک مقدار متوسط یا میانگین است. به بیان دقیق‌تر، برخی پدیده‌ها به مرور زمان از نظر کمی به سمت یک مقدار متوسط متمایل می‌شوند.

760 4_0.gif

رگرسیون چیست؟

در مدل‌های آماری، تحلیل رگرسیون یا تحلیل ارتباط یک فرایند آماری برای تخمین روابط بین متغیرها است. این روش شامل تکنیک‌های زیادی برای مدل‌سازی و تحلیل متغیرهای خاص و منحصر بفرد، با تمرکز بر رابطه بین متغیر وابسته و یک یا چند متغیر مستقل، است. تحلیل رگرسیون کمک می‌کند در فهم اینکه چگونه مقدار متغیر وابسته با تغییر هرکدام از متغیرهای مستقل و با ثابت بودن دیگر متغیرهای مستقل تغییر می‌کند. بیشترین کاربرد تحلیل رگرسیون تخمین امید ریاضی شرطی متغیر وابسته از متغیرهای مستقل معین است که معادل مقدار متوسط متغیر وابسته است وقتی که متغیرهای مستقل ثابت هستند. کمترین کاربرد آن تمرکز روی چندک یا پارامتر مکانی توزیع شرطی متغیر وابسته از متغیر مستقل معین است. در همه موارد هدف تخمین یک تابع از متغیرهای مستقل است که تابع رگرسیون نامیده شده‌است. در تحلیل رگرسیون تعیین پراکندگی متغیر وابسته اطراف تابع رگرسیون مورد توجه است که می‌تواند توسط یک توزیع احتمال توضیح داده شود. تحلیل رگرسیون به صورت گسترده برای پیش‌بینی استفاده شده‌است. تحلیل رگرسیون همچنین برای شناخت ارتباط میان متغیر مستقل و وابسته و شکل این روابط استفاده شده‌است. در شرایط خاصی این تحلیل برای استنتاج روابط عالی بین متغیرهای مستقل و وابسته می‌تواند استفاده شود. هرچند این می‌تواند موجب روابط اشتباه یا باطل شود بنابراین احتیاط قابل توصیه است.

تکنیک‌های زیادی برای انجام تحلیل رگرسیون توسعه داده شده‌است. روش‌های آشنا همچون رگرسیون خطی و حداقل مربعات که پارامتری هستند، در واقع در آن تابع رگرسیون تحت یک تعداد محدودی از پارامترهای ناشناخته از داده‌ها تخمین زده شده‌است. رگرسیون غیر پارامتری به روش‌هایی اشاره می‌کند که به توابع رگرسیون اجازه می‌دهد تا در یک مجموعه مشخص از توابع با احتمال پارامترهای نامحدود قرار گیرند.

تحلیل رگرسیونی یا تحلیل وایازشی فن و تکنیکی آماری برای بررسی و مدل‌سازی ارتباط بین متغیرها است. رگرسیون تقریباً در هر زمینه‌ای از جمله مهندسی، فیزیک، اقتصاد، مدیریت، علوم زیستی، بیولوژی و علوم اجتماعی برای برآورد و پیش‌بینی مورد نیاز است.

رگرسیون خطی چیست

رگرسیون خطی یکی از روش‌های تحلیل رگرسیون است. رگرسیون یک نوع مدل آماری ا‌ست برای پیش‌بینی یک متغیر از روی یک یا چند متغیر دیگر. رگرسیون خطی نوعی تابع پیش‌بینی‌کننده خطی است که در آن متغیر وابسته، متغیری که قرار است پیش‌بینی شود  به صورت ترکیبی خطی از متغیرهای مستقل پیش‌بینی می‌شود، بدین معنی که هر کدام از متغیرهای مستقل در ضریبی که در فرایند تخمین برای آن متغیر به‌دست آمده ضرب می‌شود؛ جواب نهائی مجموع حاصل‌ضرب‌ها به علاوه یک مقدار ثابت خواهد بود که آن هم در فرایند تخمین به‌دست آمده‌است. ساده‌ترین نوع رگرسیون خطی، رگرسیون خطی ساده است که بر خلاف رگرسیون خطی چندگانه، تنها یک متغیر مستقل دارد. نوع دیگر رگرسیون خطی رگرسیون خطی چندمتغیره است که در آن به جای پیش‌بینی یک متغیر وابسته چندین متغیر وابسته پیش‌بینی می‌شود.

فرایند تخمین سعی می‌کند ضرایبِ مدل رگرسیون خطی را به گونه‌ای انتخاب کند که با داده‌های موجود همخوانی داشته باشد، یعنی پیش‌بینی‌ها به مقادیر رؤیت شده در داده‌ها نزدیک باشند و یکی از مهم‌ترین مسائل در رگرسیون خطی، به حداقل رساندن اختلاف بین این دو است. راه‌های مختلفی برای حل این مسئله وجود دارد. در روشهای احتمالی، مدل‌های رگرسیون خطی سعی در برآورد توزیع احتمال شرطیِ متغیر وابسته (و نه توزیع احتمال توأم) دارند که از آن طریق آماره‌ای از متغیر وابسته را به عنوان پیش‌بینی نهایی به‌کار می‌برند. از متداولترین آماره‌های مورد استفاده میانگین است، اگر چه سایر آماره‌ها نظیر میانه یا چندک‌ها نیز مورد استفاده قرار می‌گیرند.

یکی دیگر از روشهای متداول تخمین، روش کمترین مربعات است که در آن مجموع مربع تفاضل پیش‌بینی‌ها و داده‌های وابسته کمینه می‌شود. این روش مستلزم پیدا کردن وارونه ضرب خارجی ماتریس تمام داده‌های مستقل با ماتریس ترانهادهٔ آن است، فرآیندی که می‌تواند به علت وارونه‌ناپذیری ماتریس نهائی و کمبود داده پرهزینه و ناکارا باشد. از این رو عموماً از روش‌های جایگزین مانند گرادیان کاهشی تصادفی استفاده می‌شود.

معمولاً چند پیش‌فرض برای استفاده از رگرسیون خطی در نظر گرفته می‌شود. اگر اختلاف بین متغیر وابسته و پیش‌بینی مدل را «خطا» یا «مانده» بنامیم، آنگاه مفروضات زیر باید در مدل‌سازی رگرسیون خطی برقرار باشند:

مانده‌ها از یک توزیع طبیعی پیروی می‌کنند. این پیش‌فرض به این معنی است که توزیع مشروط متغیرهای وابسته یک توزیع طبیعی است. این پیش‌فرض برای کمترین مربعات ضروری است ولی در رگرسیون چندک یا رگرسیون میانه می‌توان این پیش فرض را نقض کرد.

مانده‌ها از هم مستقل هستند. این پیش‌فرض متغیرهای مانده (و در نتیجه متغیرهای وابسته) را نسبت به هم مستقل می‌داند. برخی از روشها مانند کمترین مربعات تعمیم یافته قادر به کار با مانده‌های همبسته هستند، گرچه به‌طور معمول به داده‌های بیشتری برای این کار نیاز هست، مگر اینکه از تنظیم مدل استفاده شود. رگرسیون خطی بیز یک روش کلی برای حل این مشکل است.

واریانس مانده‌ها ثابت است. این پیش‌فرض مقادیر مانده‌ها (و در نتیجه متغیرهای وابسته) را دارای واریانس ثابت می‌داند. در عمل، این فرض معمولاً نامعتبر است و مانده‌ها ناهمگن هستند. در رگرسیون چندک می‌توان این فرض را نقض کرد.

بین متغیرهای مستقل هم‌خطی وجود ندارد. مفهوم این پیش‌فرض این است که ماتریس متغیرهای مستقل تمام رتبه باشد. اگر این شرط برقرار نباشد بعضی از متغیرهای مستقل ترکیبی خطی از یک یا چند متغیر خطی دیگر خواهند بود. تعداد کم داده می‌تواند این پیش‌فرض را نقض کند به خصوص زمانی که تعداد داده‌ها کمتر از تعداد پارامترهای مدل رگرسیون خطی (تعداد ضرایب رگرسیون خطی) باشد.

رابطه بین میانگین متغیر وابسته و متغیرهای مستقل خطی است. این پیش‌فرض بدان معنی است که میانگین متغیر وابسته، ترکیبی خطی از پارامترها (ضرایب رگرسیون) و متغیرهای مستقل است. این پیش‌فرض محدودیت زیادی ایجاد نمی‌کند زیرا خطی بودن فقط یک محدودیت برای پارامترها است. در رگرسیون خطی تعمیم یافته می‌توان چندین متغیر جدید را از ترکیب متغیرهای مستقل ایجاد کرد، یا در رگرسیون چند جمله‌ای ساده، متغیر وابسته را ترکیبی چند جمله‌ای از متغیر مستقل در نظر گرفت. معمولاً برای جلوگیری از بیش‌برازش و پیچیدگی مدل‌های رگرسیون خطی تعمیم یافته نیاز به تنظیم مدل هست

رگرسیون خطی به‌طور گسترده‌ای در علوم زیستی، رفتاری، اجتماعی، دارایی، اقتصاد و محیط زیست مورد استفاده قرار می‌گیرد. همچنین رگرسیون خطی و مشتقات آن یکی از ابزارهای شناخته شده و پرکاربرد در یادگیری ماشین هستند. با وجود کاربرد زیاد رگرسیون خطی در علوم مختلف، این روش محدودیت‌هایی هم دارد. بسیاری از مسائل پژوهشی در علوم اجتماعی در قالب مدلهای رگرسیون نمی‌گنجند و یک متغیر خروجی ندارند (مانند تجزیه و تحلیل خوشه‌ای برای آشکار ساختن گروه‌های منسجم در داده‌ها). همچنین رگرسیون خطی برای پیدا کردن علّیت بین متغیرهای مستقل و وابسته ابزار مناسبی نیست.

ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را می‌توانید از کتابخانه‌های عمومی سراسر کشور و نیز از دکه‌های روزنامه‌فروشی تهیه نمائید.

ثبت اشتراک نسخه کاغذی ماهنامه شبکه     
ثبت اشتراک نسخه آنلاین

 

کتاب الکترونیک +Network راهنمای شبکه‌ها

  • برای دانلود تنها کتاب کامل ترجمه فارسی +Network  اینجا  کلیک کنید.

کتاب الکترونیک دوره مقدماتی آموزش پایتون

  • اگر قصد یادگیری برنامه‌نویسی را دارید ولی هیچ پیش‌زمینه‌ای ندارید اینجا کلیک کنید.

ایسوس

نظر شما چیست؟