آموزش آمار: آموزش SPSS و آموزش SAS و آموزش STATA و آموزش نرم افزار R


روش خوشه بندی دو مرحله ای(Two‐Step Clustering) در SPSS

نویسنده: هیئت تحریریه ژورنال الکترونیکی آمار آکادمی

به طور کلی روش کلاسترینگ یا خوشه بندی روشی آماری برای گروهبندی مشاهدات در قالب زیر گروه های مشابه به هم و بر اساس یک یا چند ویژگی می باشد. خوشه بندی شامل خانواده بزرگی از روش ها و الگوریتم ها است که روش دو مرحله ای در مطالعات بازار یابی، رسانه ها و مخاطب شناسی و ...کاربرد فراوانی دارد. به دیگر سخن مطالعه و بخش بندی و کسب یک پروفایل کلی از نمونه مورد مطالعه هدف اصلی این روش شناسی است.

روش دو مرحله ای در مورد داده های بزرگ و استفاده توام از داده های ترتیبی و کمی کاربرد دارد و تفاوت آن با تمام روش های دیگر خوشه بندی همین مورد است. به واقع تنها الگوریتمی است که می تواند استفاده توام از داده های کمی و کیفی را فراهم سازد. در گام اول مشاهدات در قالب خوشه های اولیه قرار می گیرند. و این پیش خوشه ها به عنوان یک هسته اولیه و به عنوان یک مشاهده قرار می گیرد. در گام دوم از روش سلسله مراتبی برای طبقه بندی این هسته ها که خروجی گام قبل هستند و مشاهدات مشابه را در یک هسته قرار داده اند، استفاده می شود. 

به عنوان مثال با داشتن اطلاعات جنسیت، فراوانی تعداد استفاده از روزنامه در روز، آخرین مقطع تحصیلی به عنوان متغیر های طبقه ای و سن به عنوان متغیر پیوسته می خواهیم خوشه های موجود در بین استفاده کنندگان از این رسانه را بر اساس اطلاعات دموگرافیک به دست آوریم.

به این منظور باید طبق مراحل زیر در SPSS اقدام نمود:

متغیر های کمی و کیفی مورد مطالعه خود را به بخش های مشخص شده وارد کرده و تنظیمات را مانند موارد زیر انجام می دهیم. محاسبه فاصله در این روش حداکثر درستنمایی برای داده های ترتیبی و فاصله اقلیدوسی برای داده های کمی است و BIC و AIC به عنوان دو معیار انتخاب تعداد خوشه ها به صورت الگوریتم خود کار است در غیر این صورت محقق در قسمت fixedباید خود این تعداد را مشخص نماید.


در این مرحله باید پلات را انتخاب و موارد را مانند تصویر زیر تنظیم نمود.


در قسمت output هم مانند زیر تنظیم می کنیم و سپس Ok را برای انجام تحلیل انتخاب می کنیم.


اولین خروجی به شکل زیر خواهد بود.


با توجه به اینکه تعیین تعداد خوشه بر اساس خود الگوریتم بود این خروجی دیده می شود. با توجه به مقدار Ratio Distance measure که باید حداکثر فاصله را ایجاد نماید مشخص می شود که در تعداد خوشه 5 در ستون مربوطه این عدد بیشترین مقدار را دارد. لذا تعیین تعداد خوشه با توجه به بیشترین مقدار در این ستون مشخص می شود. در مقادیر برابر مقدار کمینه BIC ملاک است.


تعداد افراد قرار گرفته در هر خوشه مشخص می شود. 494 نفر نیز برای متغیر روزنامه مقداری را ثبت نکرده بودند که در اینجا از تحلیل خارج شده اند.

در این جدول میانگین و انحراف استاندارد برای خوشه ها بر اساس متغیر های کمی موجود است. چون سن تنها متغیر در این تحیق بود که کمی است لذا برای آن فقط محاسبه شده است. 


افزایش نسبی سن در بین خوشه ها بر اساس این دیاگرام مشهود است.

بررسی وضعیت خوشه ها بر اساس اطلاعات متغیر های ترتیبی: عبور ستون ها از مقدار بحرانی کای اسکویر به معنای معنی دار بودن و متفاوت بودن آن خوشه از سایر خوشه هاست. به عنوان مثال در یکی از خروجی ها دیده می شود که در خوشه اول جنسیت و تعداد مطالعه روزنامه آنرا از سایر خوشه ها به شکل معنی داری متمایز می سازد. یا به عنوان مثال در خوشه سوم جنسیت، درجه تحصیلی و تعداد مطالعه روزنامه آنرا از سایر خوشه ها به شکل معنی داری متمایز می سازد.برای الباقی خوشه ها نیز این روند را طی می کنیم تا به یک الگوریتم منطقی برسیم. 

لذا به طور خلاصه مشخص می شود که در هر خوشه کدام ویژگی منحصر به فرد بوده که سبب شده رفتار مشابهی را نشان دهند. مثلا اگر در خوشه سوم جنسیت، درجه تحصیلی و تعداد مطالعه روزنامه آنرا از سایر خوشه ها به شکل معنی داری متمایز می سازد. باید دید وضعیت این سه متغیر در این خوشه به چه شکلی توزیع شده است. با مراجعه به بخش توصیفی طبقات می توان این اطلاعات را به دست آورد. که جداول زیر نشان می دهد تمام آنها زن بوده و سطوح مختلفی از مطالعه روزنامه را دارند. یعنی این گروه رفتار منظمی در استفاده از رسانه از خود نشان نمی دهند و به این دلیل در این خوشه قرار گرفته اند. ترکیب درجه تحصیلی نیز از کمتر از دیپلم تا تحصیلات دانشگاهی می باشد. 


با تفسیر تمام جدول ها در کنار هم می شود نتیجه گیری های جالبی را در بافت نمونه پیدا نمود. مثلا هر چه سن افزایش یافته در خوشه ها رفتار افراد به استفاده از روزنامه منظم تر و دایمی تر شده و ترکیب مختلفی از درجه تحصیلی نیز دیده می شود یعنی افراد با داشتن ترکیب متفاوت تحصیلات در سنین بالا به مطالعه روزنامه علاقه مند تر از سایر قشر ها هستند لیکن در سطوح پایین تر سنی بیشتر باید به دنبال اهمیت درجه تحصیلی باشیم. به طور کلی در خوشه های مشابه با دیدن متغیر های مشابه نباید سریعا قضاوت نمود و اطلاعات توام خوشه های تفکیک شده حایز اهمیت است.

 

هدف از این مقاله ارائه و معرفی روش خوشه بندی دو مرحله ای و محاسبه آن در SPSS بود. نکته مهم آنکه این خروجی ها در نسخه 17 به دست آمده و در نسخه های بالاتر علیرغم بهبود چشم­گیر نمایش گرافیکی جزئیات محاسباتی کمتری به دست می آید. 



کلمات کليدي:


بازديد:
آموزش spss

نام و نام خانوادگي:

ايميل:
وبسايت:
شماره امنيتي:
پيام شما: