نرمال بودن داده ها

نرمال بودن داده ها در رگرسیون

یکی از پرکاربردترین روش‌های آماری برای تجزیه و تحلیل داده ها در علوم مختلف، رگرسیون خطی ساده یا چندگانه است. در تحلیل رگرسیون نوع روابط متغیرها و این که آیا یک متغیر می تواند در متغیر دیگر تأثیرگذار باشد یا خیر، بررسی می شود. به عبارت دقیق‌تر بر اساس اطلاع از یک یا چند متغیر مستقل، می‌توان یک معادله رگرسیونی نوشت و از آن برای پیش‌بینی مقادیر متغیر وابسته استفاده کرد. (برای مثال : پیش‌بینی وزن افراد به وسیله فشار خون، قند خون و چربی خون افراد / پیش‌بینی عملکرد شرکت بر اساس مسئولیت اجتماعی، اهرم مالی و ساختار مالکیت). برای استفاده از این روش آماری رگرسیون، پیش فرض هایی ذکر گردیده است که مهم ترین آن پیش فرض نرمال بودن است.

نرمال بودن داده های متغیر وابسته یا باقی مانده ها ؟

مسأله چالش برانگیز در رگرسیون خطی، پیش فرض نرمال بودن است. سؤال این است که در واقع نرمال بودن کدام یک از متغیرها باید به عنوان پیش‌فرض استفاده از رگرسیون خطی مد نظر قرار گیرد : نرمال بودن توزیع متغیر وابسته یا نرمال بودن توزیع مقادیر خطا (مانده ها) ؟ همان‌گونه که عنوان شد، در بعضی از منابع، نرمال بودن توزیع «متغیر وابسته» به عنوان پیش شرط استفاده از رگرسیون خطی بیان شده است. بسیاری از محققین نرمال بودن توزیع متغیر وابسته را «شرط لازم» برای استفاده از رگرسیون خطی ندانسته و نرمال بودن توزیع مقادیر خطا را مد نظر دانسته اند. در منابع دیگر نیز به نرمال بودن توزیع مقادیر خطا به عنوان یکی از پیش فرض های «اساسی» استفاده از رگرسیون خطی اشاره گردیده و همگی موافق هستند که در صورت عدم برقراری این پیش‌ فرض، نمی‌توان از رگرسیون استفاده نمود.

اما بحث نرمال بودن توزیع متغیر وابسته را چگونه می‌توان تحلیل نمود ؟ بار دیگر باید تأکید نمود که نرمال بودن توزیع مقادیر خطا، شرط اولیه (در کنار استقلال خطاها و عدم همخطی متغیرهای مستقل) برای استفاده از رگرسیون خطی ساده یا چندگانه است. نرمال بودن توزیع متغیر وابسته به عنوان یک شرط ثانویه و در زمان نرمال نبودن توزیع مقادیر خطا مطرح می‌شود و هدف از طرح آن، تلاش برای دستیابی به توزیع نرمال مقادیر خطا است.

زمانی که متغیر وابسته نرمال باشد امکان استفاده از رگرسیون وجود دارد ؟

کما این که چنین ذکر شده است که: «در صورتی مقادیر خطا توزیع نرمال نداشته باشند، آنگاه ممکن است انجام تبدیل در مورد متغیر وابسته با روش‌های سنتی و یا روش باکس-کاکس بتواند این مشکل را حل نماید». همان‌گونه که مشخص است، در اینجا از عبارات “ممکن” و “متغیر وابسته” استفاده شده است. به این ترتیب ممکن است حتی با وجود نرمال بودن توزیع متغیر وابسته (چه از ابتدا و چه از طریق استفاده از تبدیل) امکان استفاده از رگرسیون خطی (به واسطه نبود یکی از سه شرط نرمال بودن توزیع مقادیر خطا، نبود هم خطی بین متغیرهای مستقل و استقلال خطاها) فراهم نباشد. بنابراین برای استفاده از رگرسیون خطی باید توزیع مقادیر خطا نرمال باشد.

اگر این پیش شرط برقرار نباشد و متغیر وابسته از توزیع نرمال برخوردار باشد، شانس استفاده از این روش آماری کاملاً از بین می‌رود زیرا دیگر امکان استفاده از تبدیل‌ها وجود ندارد. در صورت نرمال نبودن توزیع متغیر وابسته، این شانس هنوز وجود دارد که با نرمال کردن آن، احتمال نرمال شدن توزیع مقادیر خطا نیز پدید آید و بتوانیم از رگرسیون خطی استفاده نماییم. البته در صورتی که تبدیل‌های مختلف موفق به نرمال کردن توزیع متغیر وابسته شوند، باز هم تضمینی برای نرمال بودن مقادیر خطا و امکان استفاده از روش آماری مدنظر وجود ندارد.

نرمال بودن توزیع متغیر وابسته؛ پیش فرض ثانویه رگرسیون

به این ترتیب می‌توان گفت که نرمال بودن توزیع متغیر وابسته، یک شرط اولیه نیست و صرفا می‌تواند به عنوان یک شرط ثانویه و با هدف ایجاد یک شانس مجدد (با فرایند یاد شده) مدنظر قرار داشته باشد. در واقع به نظر می‌رسد بیان شرط نرمال بودن توزیع متغیر وابسته برای افزایش شانس نرمال بودن توزیع مقادیر خطا باشد. هر چند که بیان آن به شکل “مطلق” باعث می‌شود تا پژوهشگران کمتر آشنا به مباحث آماری (در صورتی که تبدیل‌ها هم به آنها کمکی نکند) از رگرسیون خطی صرف نظر نموده و از روش‌های دیگری استفاده نمایند. در حالی که می‌توانستند با بررسی سه پیش شرط اصلی و در صورت برقراری آنها (حتی با وجود توزیع غیر نرمال متغیر وابسته) از رگرسیون خطی استفاده نمایند.

متأسفانه بعضی از اساتید آمار و اپیدمیولوژی نیز نرمال بودن توزیع متغیر وابسته را شرط لازم برای استفاده از رگرسیون خطی و مدل سازی از این طریق می‌دانند؛ حال آن که همان طور که توضیح داده شد، این یک برداشت اشتباه و گمراه کننده است و بحث نرمال بودن، صرفا برای توزیع مقادیر خطا “لازم” است.

بررسی پیشفرض نرمال بودن مانده‌ها

اجازه دهید با ارائه مثالی مفهوم این که چرا باید باقی مانده های بدست آمده از مدل رگرسیون دارای توزیع نرمال باشند را برایتان توضیح دهم. فرض کنید نمرات ریاضی و آی‌کیو تعداد 10 نفر از دانش آموزان را به صورت فرضی داشته باشیم. این نمرات به شرح زیر هستند :

جدول (1) داده های فرضی دانش آموزان

به وسیله‌ی این داده‌ها مدل رگرسیونی برای پیش بینی نمرات آی کیو به توسط نمرات ریاضی دانش آموزان به وسیله مدل زیر برآورد می‌شود :

حال از طریق جای گذاری نمرات ریاضی دانش آموزان در فرمول فوق مقادیر پیش بینی شده نمرات آی کیو در جدول (1) بدست می‌آید. از تفریق مقادیر واقعی آی کیو از مقادیر پیش بینی شده، مانده ها یافت می شود (ستون آخر جدول (1)). حال مسئله اساسی این است که چرا این اعداد باید نرمال باشند ؟

شکل (1) تابع چگالی نرمال

شکل (1) تابع چگالی توزیع نرمال را نشان می‌دهد. منحنی توزیع نرمال، زنگوله شکل است، نسبت به محور عمودی خود متقارن است و بیشتر داده‌ها را حول میانگین جای می‌دهد. با توجه به نمودار ملاحظه می‌شود میانگین برابر صفر است (وسط نمودار). همانطور که ملاحظه می‌کنید 95 داده‌ها حول صفر قرار دارند و فقط 5 درصد داده‌ها نسبت به میانگین اعدادی پرت هستند. حال اگر به مانده‌های جدول (1) نگاه کنیم می‌بینیم که همگی حول عدد صفر (میانگین) قرار دارند (اگر مانده‌ای عدد صفر اختیار کند بدین معناست که مقدار پیش‌بینی شده با مقدار واقعی برابر است.) بنابراین وقتی می‌گوییم یکی از پیش فرض‌های رگرسیون نرمال بودن مانده‌ها است بدین معنی است که اکثر مانده‌ها (95 درصد) نزدیک به صفر بوده و فقط اندکی از آن‌ها (5 درصد) از صفر دور باشند. به عبارت دیگر اکثر مقادیر پیش بینی شده نزدیک به مقادیر واقعی بوده و فقط اندکی از مقادیر پیش بینی شده با مقادیر واقعی تفاوت زیادی داشته باشد (بدین معنی که دقت پیش بینی بالا باشد).

نرمال بودن داده های متغیرهای مستقل ؟

در اینجا ذکر دو نکته کوتاه ولی مهم دیگر برای محققین عزیز که تمایل به استفاده از رگرسیون خطی و مدل یابی از این طریق را دارند، خالی از لطف نیست. اول این که، در سراسر این نوشته به نرمال بودن توزیع متغیرهای مستقل اشاره نشد. زیرا این امر، پیش شرط و لازمه رگرسیون خطی نیست.

دوم این که، باید توجه داشت که بین رگرسیون خطی چندگانه و رگرسیون چند متغیره تفاوت وجود دارد. حال آن که به اشتباه در بسیاری از کتب و مقالات به جای استفاده از رگرسیون خطی چندگانه از رگرسیون خطی چند متغیره استفاده می‌شود. “در بحث تخصصی، موقعی از رگرسیون چند متغیره صحبت می‌کنیم که چند متغیر وابسته داشته باشیم. به عبارت دیگر می‌خواهیم بین یک یا چند متغیر مستقل با چند متغیر وابسته رابطه‌ای توأم برقرار کنیم”.

در حالی که در رگرسیون خطی چندگانه، تأثیر یا رابطه چند متغیر مستقل و یک متغیر وابسته بررسی می‌شود. برای بررسی استقلال خطاها از آزمون دوربین واتسون استفاده می‌گردد. چنانچه مقدار آن در بازه 1.5 تا 2.5 قرار بگیرد به معنای عدم همبستگی بین خطاها است.

برای بررسی هم خطی (که نشان‌دهنده آن است که یک متغیر مستقل تابعی خطی از سایر متغیرهای مستقل است)، می‌توان عامل تورم واریانس و تولرانس را محاسبه نمود. به عنوان یک قاعده کلی، تولرانس کم‌تر از 1/0 و عامل تورم واریانس بزرگ‌تر از 10 نشان‌دهنده مشکل ساز بودن هم خطی هستند. به طور خلاصه، استفاده از رگرسیون خطی منوط به نرمال بودن توزیع خطا است.

چه زمانی از تبدیل برای نرمال کردن استفاده کنیم ؟

در صورتی که توزیع مقادیر خطا نرمال نباشد، حتی با وجود نرمال بودن توزیع متغیر وابسته، امکان استفاده از رگرسیون خطی وجود ندارد. زمانی که هم توزیع مقادیر خطا و هم توزیع متغیر وابسته نرمال نباشد، با استفاده از تبدیل‌های مختلف برای توزیع متغیر وابسته، سعی در ایجاد شانس برای نرمال کردن توزیع مقادیر خطا داریم. در واقع در این شرایط، هدف اصلی از نرمال کردن توزیع متغیر وابسته، نرمال کردن توزیع خطا است.

در پایان نویسندگان از دریافت نظرات صاحب‌نظران در این زمینه استقبال نموده و امیدوارند تا این نوشتار کوتاه و نظرات احتمالی سایر نویسندگان در روشن شدن نکات مبهم استفاده از رگرسیون خطی گره گشا باشند. به هرحال، تفاسیر مبهم یا نادرست سبب می‌شوند تا طیف گسترده‌ای از پژوهشگران نتوانند از روش‌های آماری مورد نظر خود استفاده نمایند.