نرمال بودن داده ها در رگرسیون
یکی از پرکاربردترین روشهای آماری برای تجزیه و تحلیل داده ها در علوم مختلف، رگرسیون خطی ساده یا چندگانه است. در تحلیل رگرسیون نوع روابط متغیرها و این که آیا یک متغیر می تواند در متغیر دیگر تأثیرگذار باشد یا خیر، بررسی می شود. به عبارت دقیقتر بر اساس اطلاع از یک یا چند متغیر مستقل، میتوان یک معادله رگرسیونی نوشت و از آن برای پیشبینی مقادیر متغیر وابسته استفاده کرد. (برای مثال : پیشبینی وزن افراد به وسیله فشار خون، قند خون و چربی خون افراد / پیشبینی عملکرد شرکت بر اساس مسئولیت اجتماعی، اهرم مالی و ساختار مالکیت). برای استفاده از این روش آماری رگرسیون، پیش فرض هایی ذکر گردیده است که مهم ترین آن پیش فرض نرمال بودن است.
نرمال بودن داده های متغیر وابسته یا باقی مانده ها ؟
مسأله چالش برانگیز در رگرسیون خطی، پیش فرض نرمال بودن است. سؤال این است که در واقع نرمال بودن کدام یک از متغیرها باید به عنوان پیشفرض استفاده از رگرسیون خطی مد نظر قرار گیرد : نرمال بودن توزیع متغیر وابسته یا نرمال بودن توزیع مقادیر خطا (مانده ها) ؟ همانگونه که عنوان شد، در بعضی از منابع، نرمال بودن توزیع «متغیر وابسته» به عنوان پیش شرط استفاده از رگرسیون خطی بیان شده است. بسیاری از محققین نرمال بودن توزیع متغیر وابسته را «شرط لازم» برای استفاده از رگرسیون خطی ندانسته و نرمال بودن توزیع مقادیر خطا را مد نظر دانسته اند. در منابع دیگر نیز به نرمال بودن توزیع مقادیر خطا به عنوان یکی از پیش فرض های «اساسی» استفاده از رگرسیون خطی اشاره گردیده و همگی موافق هستند که در صورت عدم برقراری این پیش فرض، نمیتوان از رگرسیون استفاده نمود.
اما بحث نرمال بودن توزیع متغیر وابسته را چگونه میتوان تحلیل نمود ؟ بار دیگر باید تأکید نمود که نرمال بودن توزیع مقادیر خطا، شرط اولیه (در کنار استقلال خطاها و عدم همخطی متغیرهای مستقل) برای استفاده از رگرسیون خطی ساده یا چندگانه است. نرمال بودن توزیع متغیر وابسته به عنوان یک شرط ثانویه و در زمان نرمال نبودن توزیع مقادیر خطا مطرح میشود و هدف از طرح آن، تلاش برای دستیابی به توزیع نرمال مقادیر خطا است.
زمانی که متغیر وابسته نرمال باشد امکان استفاده از رگرسیون وجود دارد ؟
کما این که چنین ذکر شده است که: «در صورتی مقادیر خطا توزیع نرمال نداشته باشند، آنگاه ممکن است انجام تبدیل در مورد متغیر وابسته با روشهای سنتی و یا روش باکس-کاکس بتواند این مشکل را حل نماید». همانگونه که مشخص است، در اینجا از عبارات “ممکن” و “متغیر وابسته” استفاده شده است. به این ترتیب ممکن است حتی با وجود نرمال بودن توزیع متغیر وابسته (چه از ابتدا و چه از طریق استفاده از تبدیل) امکان استفاده از رگرسیون خطی (به واسطه نبود یکی از سه شرط نرمال بودن توزیع مقادیر خطا، نبود هم خطی بین متغیرهای مستقل و استقلال خطاها) فراهم نباشد. بنابراین برای استفاده از رگرسیون خطی باید توزیع مقادیر خطا نرمال باشد.
اگر این پیش شرط برقرار نباشد و متغیر وابسته از توزیع نرمال برخوردار باشد، شانس استفاده از این روش آماری کاملاً از بین میرود زیرا دیگر امکان استفاده از تبدیلها وجود ندارد. در صورت نرمال نبودن توزیع متغیر وابسته، این شانس هنوز وجود دارد که با نرمال کردن آن، احتمال نرمال شدن توزیع مقادیر خطا نیز پدید آید و بتوانیم از رگرسیون خطی استفاده نماییم. البته در صورتی که تبدیلهای مختلف موفق به نرمال کردن توزیع متغیر وابسته شوند، باز هم تضمینی برای نرمال بودن مقادیر خطا و امکان استفاده از روش آماری مدنظر وجود ندارد.
نرمال بودن توزیع متغیر وابسته؛ پیش فرض ثانویه رگرسیون
به این ترتیب میتوان گفت که نرمال بودن توزیع متغیر وابسته، یک شرط اولیه نیست و صرفا میتواند به عنوان یک شرط ثانویه و با هدف ایجاد یک شانس مجدد (با فرایند یاد شده) مدنظر قرار داشته باشد. در واقع به نظر میرسد بیان شرط نرمال بودن توزیع متغیر وابسته برای افزایش شانس نرمال بودن توزیع مقادیر خطا باشد. هر چند که بیان آن به شکل “مطلق” باعث میشود تا پژوهشگران کمتر آشنا به مباحث آماری (در صورتی که تبدیلها هم به آنها کمکی نکند) از رگرسیون خطی صرف نظر نموده و از روشهای دیگری استفاده نمایند. در حالی که میتوانستند با بررسی سه پیش شرط اصلی و در صورت برقراری آنها (حتی با وجود توزیع غیر نرمال متغیر وابسته) از رگرسیون خطی استفاده نمایند.
متأسفانه بعضی از اساتید آمار و اپیدمیولوژی نیز نرمال بودن توزیع متغیر وابسته را شرط لازم برای استفاده از رگرسیون خطی و مدل سازی از این طریق میدانند؛ حال آن که همان طور که توضیح داده شد، این یک برداشت اشتباه و گمراه کننده است و بحث نرمال بودن، صرفا برای توزیع مقادیر خطا “لازم” است.
بررسی پیشفرض نرمال بودن ماندهها
اجازه دهید با ارائه مثالی مفهوم این که چرا باید باقی مانده های بدست آمده از مدل رگرسیون دارای توزیع نرمال باشند را برایتان توضیح دهم. فرض کنید نمرات ریاضی و آیکیو تعداد 10 نفر از دانش آموزان را به صورت فرضی داشته باشیم. این نمرات به شرح زیر هستند :
جدول (1) داده های فرضی دانش آموزان
به وسیلهی این دادهها مدل رگرسیونی برای پیش بینی نمرات آی کیو به توسط نمرات ریاضی دانش آموزان به وسیله مدل زیر برآورد میشود :
حال از طریق جای گذاری نمرات ریاضی دانش آموزان در فرمول فوق مقادیر پیش بینی شده نمرات آی کیو در جدول (1) بدست میآید. از تفریق مقادیر واقعی آی کیو از مقادیر پیش بینی شده، مانده ها یافت می شود (ستون آخر جدول (1)). حال مسئله اساسی این است که چرا این اعداد باید نرمال باشند ؟
شکل (1) تابع چگالی نرمال
شکل (1) تابع چگالی توزیع نرمال را نشان میدهد. منحنی توزیع نرمال، زنگوله شکل است، نسبت به محور عمودی خود متقارن است و بیشتر دادهها را حول میانگین جای میدهد. با توجه به نمودار ملاحظه میشود میانگین برابر صفر است (وسط نمودار). همانطور که ملاحظه میکنید 95 دادهها حول صفر قرار دارند و فقط 5 درصد دادهها نسبت به میانگین اعدادی پرت هستند. حال اگر به ماندههای جدول (1) نگاه کنیم میبینیم که همگی حول عدد صفر (میانگین) قرار دارند (اگر ماندهای عدد صفر اختیار کند بدین معناست که مقدار پیشبینی شده با مقدار واقعی برابر است.) بنابراین وقتی میگوییم یکی از پیش فرضهای رگرسیون نرمال بودن ماندهها است بدین معنی است که اکثر ماندهها (95 درصد) نزدیک به صفر بوده و فقط اندکی از آنها (5 درصد) از صفر دور باشند. به عبارت دیگر اکثر مقادیر پیش بینی شده نزدیک به مقادیر واقعی بوده و فقط اندکی از مقادیر پیش بینی شده با مقادیر واقعی تفاوت زیادی داشته باشد (بدین معنی که دقت پیش بینی بالا باشد).
نرمال بودن داده های متغیرهای مستقل ؟
در اینجا ذکر دو نکته کوتاه ولی مهم دیگر برای محققین عزیز که تمایل به استفاده از رگرسیون خطی و مدل یابی از این طریق را دارند، خالی از لطف نیست. اول این که، در سراسر این نوشته به نرمال بودن توزیع متغیرهای مستقل اشاره نشد. زیرا این امر، پیش شرط و لازمه رگرسیون خطی نیست.
دوم این که، باید توجه داشت که بین رگرسیون خطی چندگانه و رگرسیون چند متغیره تفاوت وجود دارد. حال آن که به اشتباه در بسیاری از کتب و مقالات به جای استفاده از رگرسیون خطی چندگانه از رگرسیون خطی چند متغیره استفاده میشود. “در بحث تخصصی، موقعی از رگرسیون چند متغیره صحبت میکنیم که چند متغیر وابسته داشته باشیم. به عبارت دیگر میخواهیم بین یک یا چند متغیر مستقل با چند متغیر وابسته رابطهای توأم برقرار کنیم”.
در حالی که در رگرسیون خطی چندگانه، تأثیر یا رابطه چند متغیر مستقل و یک متغیر وابسته بررسی میشود. برای بررسی استقلال خطاها از آزمون دوربین واتسون استفاده میگردد. چنانچه مقدار آن در بازه 1.5 تا 2.5 قرار بگیرد به معنای عدم همبستگی بین خطاها است.
برای بررسی هم خطی (که نشاندهنده آن است که یک متغیر مستقل تابعی خطی از سایر متغیرهای مستقل است)، میتوان عامل تورم واریانس و تولرانس را محاسبه نمود. به عنوان یک قاعده کلی، تولرانس کمتر از 1/0 و عامل تورم واریانس بزرگتر از 10 نشاندهنده مشکل ساز بودن هم خطی هستند. به طور خلاصه، استفاده از رگرسیون خطی منوط به نرمال بودن توزیع خطا است.
چه زمانی از تبدیل برای نرمال کردن استفاده کنیم ؟
در صورتی که توزیع مقادیر خطا نرمال نباشد، حتی با وجود نرمال بودن توزیع متغیر وابسته، امکان استفاده از رگرسیون خطی وجود ندارد. زمانی که هم توزیع مقادیر خطا و هم توزیع متغیر وابسته نرمال نباشد، با استفاده از تبدیلهای مختلف برای توزیع متغیر وابسته، سعی در ایجاد شانس برای نرمال کردن توزیع مقادیر خطا داریم. در واقع در این شرایط، هدف اصلی از نرمال کردن توزیع متغیر وابسته، نرمال کردن توزیع خطا است.
در پایان نویسندگان از دریافت نظرات صاحبنظران در این زمینه استقبال نموده و امیدوارند تا این نوشتار کوتاه و نظرات احتمالی سایر نویسندگان در روشن شدن نکات مبهم استفاده از رگرسیون خطی گره گشا باشند. به هرحال، تفاسیر مبهم یا نادرست سبب میشوند تا طیف گستردهای از پژوهشگران نتوانند از روشهای آماری مورد نظر خود استفاده نمایند.
با سلام و احترام توضیحات تون عالی و معلم گونه بود
سلام من در یک مقاله برای به دست آوردن رابطه از رگرسیون غیرخطی با استفاده از نرم افزار Spss استفاده کرده ام داور نتایج توزیع p-value و f-value را خواسته که اصلا در خروجی نرم افزار وجود ندارد مگر برای حالت خطی، بنظرتون در تحلیل غیرخطی این دو تا توزیع مطرح هست؟
سلام از چه مدل غیر خطی استفاده کردید لطفا ذکر کنید.
رگرسیون غیرخطی که خودمان ضرایب رو به دست می آوریم مثلا عبارت به توان اعشار هم داریم
سلام و خسته نباشید
با این فرض که فرضیه ما رابطی علی بین یک متغیر مستقل با متغیر وابسته را بررسی می کند آیا می توان گفت در رگرسیون خطی اگر شرط نرمال بودن باقی مانده ها از روی نمودار پی پی پلات و کیوکیو پلات برقرار نباشد، (باقی مانده ها نرمال نباشند)، بگوییم از مدل رگرسیونی نمی توان استفاده کرد پس فرضیه ما رد می شود؟
ممنونم
سلام وقت بخیر عرض ادب خیر نمی توان این نتیجه را گرفت. می توانید برای نتیجه گیری از مدل های رگرسیونی دیگری مثل رگرسیون های غیر خطی و یا رگرسیون ناپارامتری استفاده کنید.
عالیییییییی به سوالایی که داشتم رسیدم
سلام. وقتتون بخیر. پایان نامه من به روش رگرسیون لجستیک باینری انجام شده و متغیرهای تعلدیگری مثل سن (بالای18 – 18 تا 30 و…)، تحصیلات (دیپلم – فوق دیپلم و…) و… داره. آیا این متغیرها باید نرمال باشند؟
سلام وقت بخیر وقتی متغیرهای شما دسته بندی شده هستند پس شما متغیرهای کیفی دارید. متغیرهای کیفی اصلا نمیتونه نرمال باشه.
چون توزیع نرمال برای داده های کمی هست. نیازی هم نیست در رگرسیون متغیرها نرمال باشند.
ممنون بابت توضیحات کامل شما
سلام وقت بخیر
من برای آزمون نرمال بودن متغیر تعدیل گر (که با استفاده از طیف لیکرت اندازه گیری شده) مقالم از چولگی و کشیدگی استفاده کردم و در مقاله گذاشتم آیا درست هست؟
باتشکر از شما
سلام وقت بخیر در صورتی که متغیر تعدیلگر شما به وسیله چند سوال پرسشنامه پرسیده شده باشد و آن را محاسبه کرده باشید می توانید این کار را انجام دهید.
اما در صورتی که متغیر تعدیلگر شما یک سوال داشته باشد و آن سوال هم لیکرت باشد. چون این متغیر یک متغیر کیفی است، قطعا نمی تواند نرمال باشد و بررسی چولگی و کشیدگی و هر آزمون آماری دیگری برای تست نرمال بودن بی معنی است.
سپاسگزارم
عالی
بسیار خوب و عالی توضیح دادید.
عالی عالی عالی