پالایش داده ها قبل از تحلیل آماری

Data Cleaning : Prepare Data for Analysis

امتیاز ۴.۸۸ از ۵ – ۵ رای
spinner در حال ثبت رای
پالایش داده
تعداد مطالعه این درس : 769

Data Cleaning در فارسی به پاکسازی داده یا پالایش داده ترجمه میشه. همانطوری که می دونیم قبل از تحلیل نتایج داده های پرسشنامه ای، پالایش داده ها (کلین کردن دیتا) لازمه. این کار کمک میکنه داده هایی با بهترین کیفیت ممکن داشته باشید و نتایج دقیق تری استخراج کنید. در اینجا نحوه این کار توضیح داده شده.

قبل از شروع تحلیل آماری داده های پرسشنامه ای چکار باید کرد ؟

پاسخ : آماده سازی یا پالایش داده ها – پالایش داده ها به معنی حذف پاسخ های غیرعادی، نادرست یا عجیب است که می تواند نتایج تحلیل را منحرف کند. در ادامه چند مثال از این داده ها رو آوردم :

پاسخ دهنده بدون توجه به سؤال، یک گزینه را برای هر سؤال انتخاب می کند (مثلا به همه سوالات گزینه 1 یا 5 را پاسخ می دهد). یا پاسخ دهنده طبق الگوی تصویری خاصی به سوالات پاسخ داده باشه، مثلا پاسخ ها رو به شکل قلب و تیرکمون و درخت تیک زده باشه.. منظورم مثل چیزیه که تو پاسخنامه کنکورها انجام میشه…

چطوری داده ها را پالایش و آماده برای تحلیل آماری کنیم ؟

چند روش برای پالایش داده ها وجود دارد که در ادامه به آن پرداخته می شود :

Data Cleaning

1- داده های ناقص

اگر پاسخ دهنده تمام بخش های پرسشنامه را پاسخ نداده باشد (مثلا نصف سوالات). باید تصمیم گیری کنید که بقیه پاسخ های او در دیتا باید گنجانده شود یا خیر. وجود چنین چیزی علاوه بر اینکه نتایج را منحرف می کند، می‌تواند نشان‌دهنده پاسخگویی تصادفی یا عدم توجه کافی به سؤالات باشد.

2- حذف پاسخ های تکراری

یکی دیگر از مراحل پالایش داده حذف پاسخ های تکراری است. ممکن است فردی بیشتر از یک بار پرسشنامه را پر کرده باشد. (این مشکل بیشتر در پرسشنامه های الکترونیکی اتفاق میفته و فرد ممکنه چند بار پرسشنامه رو پر کنه و خودش متوجه نشه). همچنین ممکن است در هنگام مدیریت و جا به جایی و ترکیب داده ها از منابع مختلف پاسخ های تکراری در داده ها به وجود بیاید. این موارد را بایستی برطرف نمایید. با استفاده از دستور Identify Duplicate Cases در SPSS می توان سطرهای تکراری را شناسایی و حذف کرد.

پالایش دیتا

3- اطمینان از کدبندی صحیح پاسخ ها

داده‌های خام ممکن است در کدهای مختلفی در دسترس باشند. برای مثال در پاسخ به سوال تحصیلات، ممکن است افرادی را داشته باشیم که تحصیلات خود را “کارشناسی” و افراد دیگر از واژه “لیسانس” برای این کار استفاده کنند. با توجه به این که هر دو پاسخ یک مفهوم را می رسانند باید یک کد واحد برای این دو پاسخ در نظر گرفته شود. با استفاده از دستور فراوانی در SPSS می توان این موارد را چک نمود.

4- سرعت پاسخ دهی فرد به پرسشنامه

در اکثر پلتفرم هایی که مخصوص طراحی پرسشنامه آنلاین هست، زمان شروع و پایان پاسخ دهی هر فرد ثبت می شود. این زمان را می توانید چک کنید. افرادی را که در زمان نامعقولی (معمولا خیلی سریع) به سوالات پاسخ داده اند، شناسایی و حذف کنید (مثلا زمان یک دقیقه برای پاسخ به 30 سوال زمان کمی هست)

5- حذف داده پرت یا غیر منطقی

داده های پرت، پاسخ هایی هستند که از نظر عددی، با بقیه داده های شما فاصله دارند. یا منطقی به نظر نمی رسند. برای مثال : انتخاب عدد بالاتر از 16 برای سوال “چند ساعت در روز صرف تماشای تلویزیون می کنید ؟” با عقل جور در نمی آید. ممکن است این نتیجه به دلیل اشتباه کاربر یا عدم فهم صحیح از سوال باشد. برای شناسایی داده های پرت می توانید از نمودار جعبه ای در SPSS استفاده کنید.

6- پاسخ های متناقض

در مرحله ششم پالایش داده اگر پاسخ های فرد، متناقض به نظر برسند، می‌تواند به این معنی باشد که بدون مطالعه دقیق پرسشنامه، پاسخ داده شده است. به عنوان مثال، در یک سوال ممکن است پاسخ بدهند که گیاهخوار هستند و در سوال دیگر برگر را به عنوان غذای مورد علاقه خود انتخاب کنند.

نگران حذف این اطلاعات کم ارزش نباشید. به این فکر کنید که پالایش داده ها مثل چیدن علف های هرز هستش. اینطوری گیاهان شما فضای بیشتری برای رشد پیدا می کنند.

اگر برای پالایش داده ها مرحله دیگه ای باقی مونده داخل کامنت ها اعلام کنید …

مسعود علی مردی

مسعود علی مردی
بیش از 10 ساله که تحلیل گر آماری هستم. جای خالی یک مرجع تخصصی آماری را به شدت حس می کردم و تصمیم گرفتم مرجعی کامل برای هموطنان عزیزم ایجاد کنم. برای مشاوره و راهنمایی در اینستاگرام هم در خدمت هستم ..