آموزش آمار: آموزش SPSS و آموزش SAS و آموزش STATA و آموزش نرم افزار R


تحلیل تابع تشخیصی(DFA) در نرم افزار SAS

نویسنده: هیئت تحریریه ژورنال الکترونیکی آمار آکادمی

تحلیل تشخیصی یا Discriminant Analysis که به تابع ممیزی DFA نیز شهرت دارد، یکی از روش های آماری چند متغیره است که در تفکیک و تشخیص طبقات یک متغیر بر اساس چند متغیر کمی به کار می رود. به عنوان مثال محققی علاقه مند به مطالعه روابط بین سه نوع شغل خدمات مشتریان، مسئولین فنی و تکنسین های توزیع در یک شرکت خدمات تلفن های همراه است. محقق فرضیه ای مبنی بر متفاوت بودن این سه طبقه به لحاظ تیپ های شخصیتی دارد. لذا هر کارمند به طور تصادفی در سه آزمون تحرک پذیری، جامعه پذیری و محافظه کاری شرکت نموده و شغل وی نیز در این سه حیطه ثبت می شود. یا محققی در صدد این است تا متغیر های اصلی تفکیک کننده سه گونه گیاهی را شناسایی نماید. این روش را می توان با روش هایی چون رگرسیون ترتیبی و چند جمله ای مقایسه کرد. این روش نسبت به روش های قبلی بر اساس شاخص های کمّی انجام می پذیرد. در این مقاله سعی می شود تا در مورد مثال اول و با داشتن داده ای فرضی کاربرد این روش کمّی در نرم افزار SAS توضیحات تکمیلی ارائه شود.
ابتدا دستور زیر برای ورود داده ها و بیان آماره های توصیفی را وارد پنجره دستورات می کنیم.




proc means data='d:\data\نام فایل' n mean std min max;
var outdoor social conservative;
run;
خروجی دستور به شرح زیر خواهد بود:

The MEANS Procedure
Variable          N            Mean         Std Dev         Minimum         Maximum
OUTDOOR         244      15.6393443       4.8399326               0      28.0000000
SOCIAL          244      20.6762295       5.4792621       7.0000000      35.0000000
CONSERVATIVE    244      10.5901639       3.7267890               0      20.0000000

proc means data='d:\data\نام فایل' n mean std;
class job;
var outdoor social conservative;
run;

                  N
         JOB    Obs    Variable          N            Mean         Std Dev

           1     85    OUTDOOR          85      12.5176471       4.6486346
                       SOCIAL           85      24.2235294       4.3352829
                       CONSERVATIVE     85       9.0235294       3.1433091

           2     93    OUTDOOR          93      18.5376344       3.5648012
                       SOCIAL           93      21.1397849       4.5506602
                       CONSERVATIVE     93      10.1397849       3.2423535

           3     66    OUTDOOR          66      15.5757576       4.1102521
                       SOCIAL           66      15.4545455       3.7669895
                       CONSERVATIVE     66      13.2424242       3.6922397
 

 

حال دستور زیر را برای بیان همبستگی ها وارد می کنیم:

proc corr data='d:\data\discrim';
var outdoor social conservative;
run;

        Pearson Correlation Coefficients, N = 244
                Prob > |r| under H0: Rho=0

                   OUTDOOR        SOCIAL      CONSERVATIVE

OUTDOOR            1.00000      -0.07130           0.07938
                                  0.2672            0.2166

SOCIAL            -0.07130       1.00000          -0.23586
                    0.2672                          0.0002

CONSERVATIVE       0.07938      -0.23586           1.00000
                    0.2166        0.0002

proc freq data='d:\data\نام فایل';
tables job;
run;

The FREQ Procedure
                                Cumulative    Cumulative
JOB    Frequency     Percent     Frequency      Percent

  1          85       34.84            85        34.84
  2          93       38.11           178        72.95
  3          66       27.05           244       100.00


دستور proc discrim را برای تحلیل تشخیصی وارد می کنیم.

proc candisc data='d:\data\نام فایل' out=discrim_out ;
class job;
var outdoor social conservative;
run;

نتیجه خروجی به شرح زیر خواهد بود.

The CANDISC Procedure

                 Multivariate Statistics and F Approximations

                             S=2    M=0    N=118.5

Statistic                        Value    F Value    Num DF    Den DF    Pr > F

Wilks' Lambda               0.36398797      52.38         6       478    <.0001
Pillai's Trace              0.76206574      49.25         6       480    <.0001
Hotelling-Lawley Trace      1.40103067      55.69         6     316.9    <.0001
Roy's Greatest Root         1.08052702      86.44         3       240    <.0001

         NOTE: F Statistic for Roy's Greatest Root is an upper bound.
                 NOTE: F Statistic for Wilks' Lambda is exact.


                           Adjusted    Approximate        Squared
           Canonical      Canonical       Standard      Canonical
         Correlation    Correlation          Error    Correlation

       1    0.720661       0.716099       0.030834       0.519353
       2    0.492659        .             0.048580       0.242713

                                                     Test of H0: The canonical correlations in the
                   Eigenvalues of Inv(E)*H              current row and all that follow are zero
                     = CanRsq/(1-CanRsq)
                                                     Likelihood Approximate
         Eigenvalue Difference Proportion Cumulative      Ratio     F Value Num DF Den DF Pr > F

       1     1.0805     0.7600     0.7712     0.7712 0.36398797       52.38      6    478 <.0001
       2     0.3205                0.2288     1.0000 0.75728681       38.46      2    240 <.0001

دو تابع تشخیصی در این رابطه استخراج می شود که ضریب اولیه 72/0 و ضریب ثانویه 49/0 محاسبه شده است.


Standardized canonical discriminant function coefficients

Pooled Within-Class Standardized Canonical Coefficients

Variable                  Can1              Can2

OUTDOOR           -.3785725108      0.9261103825
SOCIAL            0.8306986150      0.2128592590
CONSERVATIVE      -.5171682475      -.2914406390

       Pooled Within Canonical Structure

Variable                  Can1              Can2

OUTDOOR              -0.323098          0.937215
SOCIAL                0.765391          0.266030
CONSERVATIVE         -0.467691         -0.258743

این ضرایب استاندارد شده را می توان مشابه ضرایب بتای رگرسیون دانست. به عنوان مثال با افزایش یک واحد انحراف استاندارد در متغیر تحرک پذیری 32/0 کاهش انحراف استاندارد در تابع اولیه ممیزی دارد. بار تشخیصی و بار کانونی را می توان به عنوان ضرایب جایگرین این تابع دانست. این روش به لحاظ نوع برخورد با متغیر های پنهان با روش تحلیل عاملی قابل قیاس است. در مورد سایر ضرایب نیز تفسیری مشابه وجود دارد.


    Class Means on Canonical Variables

   JOB              Can1              Can2

     1       1.219100186      -0.389003864
     2      -0.106724637       0.714570441
     3      -1.419668555      -0.505904888

  Number of Observations and Percent Classified into JOB

  From
   JOB            1            2            3        Total

     1           69           12            4           85
              81.18        14.12         4.71       100.00

     2           17           64           12           93
              18.28        68.82        12.90       100.00

     3            3           10           53           66
               4.55        15.15        80.30       100.00

 Total           89           86           69          244
              36.48        35.25        28.28       100.00


در این قسمت خروجی میانگین توابع تشخیصی برای هر یک از گروه های سه گانه آورده شده است. مقادیر مندرج در قطر این خروجی به معنای طبقه بندی صحیح هر یک از افراد در گروه های مربوطه است.

برای دیدن چارت مربوطه از ماکروی زیر استفاده می شود.

proc format;
value jobname
1='C '
2='M '
3='D ';
run;

data discrimplot;
set discrim_out;
format job jobname.;
run;

symbol1 interpol=none font='Times-Roman' pointlabel=("#job") height=1;

proc gplot data=discrimplot;
plot Can2*Can1=job / haxis=axis1;
run;

همانطور که دیده می شود کارمندانی که در بخش خدمات کار می کنند گرایش بیشتری به جامعه پذیری طبق تابع اول دارند. مسئولین توزیع در انتهای این طیف و مسئولین فنی در ارتباط با این متغیر در حد وسط قرار دارند. در تابع دوم نتایج به شفافی تابع اول نیست و مسئولین فنی بیشتر گرایش به بعد تحرک پذیری دارند و مسئولین توزیع و خدمات در این متغیر و این تابع ضعیف هستند.
نکته بسیار مهم در رابطه با این روش این است که این روش برای نمونه های بزرگ و در شرایط توزیع نرمال قابل انجام است. در این مقاله سعی بر نحوه محاسبه این روش در نرم افزار SAS بود. برای کسب اطلاعات بیشتر در ارتباط با مبانی نظری این روش اماری به کتاب روش های پیشرفته آماری دکتر منصور فر از انتشارات دانشگاه تهران مراجعه نمائید.



کلمات کليدي:


بازديد:
آموزش spss

نام و نام خانوادگي:

ايميل:
وبسايت:
شماره امنيتي:
پيام شما:


16/2/1391 - ساعت -443/1/-613 iman | ايميل
mec