การวิเคราะห์การถดถอยพหุคูณ ตัวอย่าง

            ẺἹ����Ԩ�� (research design) �繡�á�˹��ٻẺ �ͺࢵ ����Ƿҧ����Ԩ�� ���������ӵͺ���͢�ͤ���������ѭ�ҡ���Ԩ�����ҧ�ջ���Է���Ҿ ����Ǥ�� ��ӵͺ����դ����ç���� (internal validity) �����ç��¹͡ (external validity) ��л����Ѵ��Ѿ�ҡ� ͧ���Сͺ�Ӥѭ�ͧẺἹ����Ԩ���� 3 ��ǹ ���� ����͡Ẻ����Ѵ����� (measurement design) ����͡Ẻ�������������ҧ (sampling design) ��С���͡Ẻ���������������� (analysis design)  ��á�˹�ẺἹ����Ԩ�·��� �з�������Ԩ���շ�ȷҧ�������ö��������¹����º�Ը��Ԩ����ç����Ԩ�������ҧ�ջ���Է���Ҿ

���Ѵ���(English) The objective of this research is to compare thepredicted values of dependent variable using modelsselected by Bayesian variable selection (BS), Backwardelimination (BE) and Stepwise regression (SW) withHierachical polynomial regression. Under considerationin this research are the following: The highest numbersof independent variables for dependent variablegenerating (MB) and initial model building (MI) are 1,2, 3, 4, 5 and 6. The highest exponent of hierachicalpolynomial term is 2nd. Random error distributions arenormal with mean zero and standard deviations 5, 10, 20and 25. Sample sizes are 25, 50, 75 and 100.Significant levels are 0.01 and 0.05. Bayesianhyperparameters ((...)Beta/t,c) are (1,5), (1,10),(10,100) and (10,500). The criterion of comparison isaverage mean square error (AMSE). The data are obtainedthrough simulation using a Monte Carlo technique andrepeating 200 times for each case. The results of this research are as follows: Whenusing optimal model, MI - MB = 0, or overfitted model,MI - MB > 0, BS gives consistent predicted values ofdependent variable and minimum AMSE. When usingunderfitted model, MI - MB < 0, BS gives minimum AMSEin cases where the standard deviation of the randomerror is small and the sample size is large. Highersignificant level, supports SW and BE to give minimumAMSE. Lower hyperparameters of BS are ((...)Beta/t,c)which support BS gives minimum AMSE Standard deviation of random error, number ofvariables in MB and the difference in the number ofvariables in MI and MB (MI - MB) affected AMSE,respectively. AMSE is decreased when sample sizeincreased. The higher significant level decreasedaffected the AMSE of BE and SW decreased but did notaffect the AMSE of BS.
���Ѵ���(English) The purpose of this research was to identify :1. Marketing communication factors on credit cardselection of new generation in Bangkok, 2. And3. The correlations between marketing communication mixfactors, the exposure of marketing information and newgeneration's credit card selecting behaviours.Questionaires for interview were used to collect datafrom 400 Bangkok new generation between the age of25-30 years old. Chi-square, Pearson' Product MomentCorrelation, Anova, T-test and Multiple Regressionstatistical methods were used to analyze data throughSPSS computer program. The results of this research areas folloes : Individual, social and marketingcommunication mix factors do not correlate with thenumber of new generation credit card holders inBangkok. However, the exposure of marketinginformation on special media which are direct mail andbillboard have correlation with number of credit cardholders at the significant level of .05 and .01. Individual factors do not correlate with types ofcredit card selection, however, social factors whichare father and friends have the influences on holders'sopinions for selection. In addition, father is the onlyfactor which has the influence on type of credit cardselection at the significant correlation level of .05."Product" is the only variable of marketingcommunication mix factor which has correlation withtype of credit card selection at significantcorrelation level of .05. Exposure of interpersonalcommunication which are friends and credit card officerand marketing media which are direct mail, billboardand bus shelther advertisement has significantcorrelation with type of credit card selection.The four variables of marketing communication mixfactors which are firstly owner's photograph on creditdard, the second is supplementary card, the third isadvertisement on magazines/journals and the last one isholder's leadership image can consequently explain theselecting behaviours of credit card holders.

เมื่อทำการหาตัวแบบเชิงเส้นด้วยการวิเคราะห์การถดดอย  ANOVA และ การออกแบบการทดลอง เราจะต้องมี การประเมินตัวแบบนั้นด้วยว่ามีความเหมาะสมในการนำไปใช้งานหรื่อไม่ ซึ่งใน Minitab มีตัวสถิติที่ใช้ทดสอบความ สมรูปของตัวแบบ (Goodness of fit statistics) ให้เลือกนำมาใช้ในการประเมินตัวแบบอยู่หลากหลายตัว แต่ในที่นี้จะพูดถึง ตัวสถิติ ค่า R2 (R-Squared) โดยพูดถึงข้อจำกัดและความหมายอื่นๆ ซึ่งในบางครั้งการที่ค่า R2  มีค่าต่ำ อาจไม่ได้หมายความ ว่าไม่ดีทุกครั้งไป และเช่นกันค่า R2 ที่มีค่าสูงก็ไม่ได้มีความหมายในเชิงบวกเสมอไป

ตัวแบบเชิงเส้นที่มีความสมรูปคือ (What is Goodness-of-Fit for a Linear Model)

ตัวแบบการถดถอยเชิงเส้น (Linear Regression Model) ได้มาจากการคำนวณระยะห่างระหว่างเส้นตรง ที่มาจากข้อมูลค่าสังเกต และ ค่าที่คำนวณได้จากสมการเส้นตรง (Fitted) และสมการเส้นตรงที่ได้จะให้เกิดค่าระยะห่าง ของจุดข้อมูลกับเส้นตรงโดยรวมน้อยที่สุด

ทางเทคนิคจะใช้ค่า OSL (Ordinary Least Square) เพื่อทำให้เกิดค่าผลรวมของค่าเศษเหลือกำลังสอง (sum of the square residual) ให้น้อยที่สุด

โดยทั่วไปแล้วตัวแบบที่เหมาะสม จะมีความแตกต่างของค่าที่สังเกตได้กับค่าที่คำนวณตามสมการน้อย และเป็นค่าที่ไม่เอนเอียง (unbiased)

ก่อนที่จะทำการวิเคราะห์ความสมรูปทางสถิติ คุณควรที่จะทำการตรวจสอบแผนภาพเศษเหลือ (Residual plots) ร่วมด้วยเสมอ   ซึ่งจากแผนภาพเศษเหลือนี้ จะทำให้เห็นรูปแบบของค่าเศษเหลือที่ไม่มีคุณภาพ ซึ่งบ่งบอกถึงความเอนเอียง ได้ดีกว่าการวิเคราะห์ด้วยตัวเลข ถ้าแผนภาพเศษเหลือนี้แสดงให้เห็นว่าไม่มีความผิดปกติใดๆ การวิเคราะห์ด้วยตัวเลขก็ทำให้ น่าเชื่อถือได้ดีขึ้นแล้วจึงไปทำการวิเคราะห์ความสมรูปของตัวแบบอีกทีหนึ่ง

ค่า R-Squared คืออะไร (What is R-Squared)

ค่า R-Squared คือตัวสถิติที่ใช้วัดว่าตัวแบบคณิตศาสตร์ที่ได้นี้มีความสมรูปกับข้อมูลมากน้อยอย่างไร หรือรู้จักกัน ในอีกความหมายหนึ่งว่าเป็น ค่าสัมประสิทธิ์แสดงการตัดสินใจ (Coefficient of Determination) หรือ ค่าสัมประสิทธิ์แสดง การตัดสินใจเชิงซ้อน (Coefficient of Multiple Determination) สำหรับการวิเคราะห์การถดถอยแบบพหุคูณ (Multiple Regression)

นิยามของค่า R-Squared คือ ค่าความผันแปรของตัวแปรตอบสนองที่สามารถอธิบายได้มีอยู่ในตัวแบบเชิงเส้นนี้ กี่เปอร์เซ็นต์ หรือ

R-Squared = ความผันแปรที่สามารถอธิบายได้ / ความผันแปรทั้งหมด (Explained variation / Total Variation)

ค่า R-Squared จะมีค่าอยู่ระหว่าง  0%  - 100%

- 0% แสดงให้เห็นว่า ตัวแบบคณิตศาสาตร์ที่ได้มานั้นไม่สามารถอธิบายความผันแปรของค่าตัวแปรตอบสนอง ต่างที่กระจายรอบค่าเฉลี่ยได้เลย

- 100% แสดงให้เห็นว่า ตัวแบบคณิตศาสาตร์ที่ได้มานั้นสามารถอธิบายความผันแปรของค่าตัวแปรตอบสนอง ต่างที่กระจายรอบค่าเฉลี่ยได้เป็นอย่างดี

โดยทั่วไปแล้ว ค่า R-Squared สูงๆ หมายความว่า ตัวแบบคณิตศาสตร์นั้นดี (เหมาะสมกับข้อมูล) แต่อย่างไรก็ตาม ยังมีเงื่อนไขบางอย่างที่ต้องมีพร้อมกับค่า R-Squared สูงๆนี้ด้วย

แผนภาพที่แสดงถึงค่า R-Squared

ในแผนภาพนี้เป็นการพลอตค่าข้อมูลที่สังเกตได้และค่าข้อมูลที่คำนวณได้จากตัวแบบคณิตศาสตร์  ซึ่งทั้งสอง แผนภาพนี้มีค่า R-Squared แตกต่างกัน

ตัวแบบด้านซ้าย มีค่า 38% ของความแปรปรวน ส่วนของตัวแบบด้านขวามีค่า 87.4% ของความแปรปรวน ซึ่งถ้า ค่าเปอร์เซนต์ยิ่งมีค่ามาก หมายความว่าตัวแบบสามารถคำนวณค่าได้ใกล้เคียงกับค่าสังเกตมาก (หรือ ค่าสังเกตจะอยู่บน เส้นตรงของตัวแบบ) ในทางทฤษฎีถ้าตัวแบบสามารถอธิบายความแปรปรวนได้ 100% หมายความว่า ค่าที่คำนวณได้จะ มีค่าเท่ากับค่าที่สังเกตได้ ดังนั้นค่าข้อมูลที่สังเกตได้จะอยู่บนเส้นตรงของตัวแบบคณิตศาสาตร์ทุกจุด

ข้อจำกัดของค่า R-Squared

ค่า R-Squared ไม่สามารถบอกได้ว่าค่าที่คำนวณได้นั้นมีความเอนเอียงหรือไม่ ซึ่งจำเป็นต้องใช้การวิเคราะห์ แผนภาพเศษเหลือมาเป็นตัวช่วย

ค่า R-Squared ไม่สามารถบอกได้ว่า ตัวแบบคณิตศาสตร์นี้มีความเหมาะสมดีแล้วหรือไม่ ซึ่งบางครั้งตัวแบบ คณิตศาสตร์ที่ดีอาจให้ค่า R-Squared ต่ำ และบางกรณีที่มีค่า R-Squared สูงตัวแบบก็ไม่เหมาะสมกับข้อมูล

ค่า R-Squared ต่ำ ย่อมมีความหมายไม่ดีเสมอไปหรือไม่

คำตอบคือ ไม่ ด้วยเหตุผล 2 ข้อ คือ

ในบางสาขา เรารู้อยู่แล้วว่าค่า R-Squared ที่จะได้มาจะมีค่าต่ำ เช่น การทำนายพฤติกรรมมนุษย์ ในสาขาจิตวิทยา โดยทั่วไปค่า R-Squared ที่ได้จะมีค่าต่ำกว่า 50% เนื่องด้วย มนุษย์เป็นสิ่งที่ยากจะคาดเดาได้ เมื่อเทียบกับกระบวนการทาง กายภาพ

ถ้าในกรณีที่ R-Squared มีค่าต่ำ แต่ค่าตัวทำนายมีนัยสำคัญทางสถิติ คุณยังสามารถใช้ผลสรุปว่า เมื่อทำการ เปลี่ยนแปลงค่าตัวทำนายนี้เป็นแบบไหน จะทำให้ค่าตัวแปรตอบสนองเป็นอย่างไร

และไม่ว่า ค่า R-Squared จะเป็นอย่างไร ค่าสัมประสิทธิ์ในตัวแบบตัวใดที่มีนัยสำคัญ ก็ยังคงใช้เพื่ออธิบายการ เปลี่ยนแปลงของตัวแปรตอบสนองว่ามีจำนวนเท่าไหร่ เมื่อมีการเปลี่ยนแปลงค่าตัวทำนาย (predictor) 1 หน่วย (โดยที่ให้ค่า ตัวทำนายที่เหลือมีค่าคงที่) ซึ่งถือว่าข้อมูลตรงนี้มีคุณค่าที่ต้องคำนึงถึงเป็นอย่างมาก

ส่วนค่า R-Squared ที่มีค่าต่ำ จะเป็นปัญหาอย่างมากเมื่อต้องการทำนายค่าตัวแปรตอบสนองให้มีความแม่นยำ ของค่าที่มากขึ้น (ช่วงของการทำนาย (prediction interval) มีค่าช่วงไม่กว้างมากนัก)

ดังนั้นเพื่อให้การทำนายได้ผลอย่างเหมาะสม ค่า R-Squared ควรมีค่าประมาณเท่าไหร่ ? คำตอบก็ขึ้นอยู่กับว่า ความต้องการของคุณที่อยากจะได้ช่วงของความกว้างของค่าที่ทำนายนั้นมีขนาดช่วงเท่าไหร่ และความผันแปรที่จะมีในข้อมูล มีค่าเป็นเท่าไหร่ เพราะค่า R-Squared ที่มีค่าสูงย่อมให้การทำนายค่าตัวแปรตอบสนองที่มีความแม่นยำสูงกว่า แต่เท่านี้อาจไม่ เพียงพอ ซึ่งเราจะมาดูกันในหัวข้อต่อไป

ค่า R-Squared สูง ย่อมมีความหมายดีเสมอไปหรือไม่

คำตอบคือ ไม่ ค่า R-Squared ที่มีค่าสูง อาจไม่ได้หมายความว่าตัวแบบที่ได้นั้นมีความสมรูปกับข้อมูลเป็นอย่างดี ซึ่งมีคำตอบที่ซ่อนอยู่ ดูจากแผนภาพเศษเหลือและแผนภาพของเส้นตัวแบบ ด้านล่างทั้ง 2 แผนภาพนี้

แผนภาพของเส้นตัวแบบ (Fitted Line Plot) เป็นแผนภาพที่แสดงความสัมพันธ์ระหว่าง ค่า Mobility ของอิเลคตรอนใน ชิ้นส่วน semiconductor และค่า  natural log (ln) ของ density ที่เกิดขึ้นในการทดลอง

จากแผนภาพจะเห็นได้ว่า ตัวแบบมีความเหมาะสมดีกับข้อมูล (ข้อมูลเรียงตัวอยู่บนเส้นสมการในแผนภาพ) และค่า R-Squared สูงถึง 98.5% ซึ่งถือว่าเป็นผลที่ดีมากแต่ถ้าดูไปที่เส้นสมการถดถอยจะเห็นได้ว่าในแต่ละช่วงของเส้นโค้งจะมีความ เบี่ยงเบน (bias) ของข้อมูลอยู่ทั้งเหนือ และ ใต้เส้นโค้งตลอดช่วง

ซึ่งเมื่อมาพิจารณาที่แผนภาพเศษเหลือ (Residual plot) จะเห็นได้ว่าในแผนภาพเศษเหลือไม่แสดงรูปแบบ random ของข้อมูล ซึ่งเป็นตัวบ่งบอกว่าตัวแบบนั้นไม่ดี ดังนั้นทุกครั้งในการวิเคราะห์ความเหมาะสมของตัวแบบ จะต้องมีการวิเคราะห์แผนภาพเศษเหลือด้วยเสมอ

จากตัวอย่างนี้ จะเห็นได้ว่าการต้องเลือกระหว่างสมการถดถอยเชิงเส้นและสมการถดถอยแบบไม่เป็นเชิงเส้น ถ้าจะต้องนำมาพิจารณา คำตอบสำหรับตัวอย่างกรณีนี้คือ จะต้องมีการใช้ตัวแบบสมการถดถอยแบบไม่เป็นเชิงเส้น เพราะว่าข้อมูลไม่สมรูปกับตัวแบบเชิงเส้นนั่นเอง

บทสรุปเกี่ยวกับค่า R-Squared

ค่า R-Squared ถือเป็นค่าที่นำมาใช้วัดว่าตัวแบบสมการเชิงเส้นที่ได้มานั้นมีความเหมาะสมกับข้อมูลหรือไม่ แต่อย่างไรก็ตาม การมองเฉพาะค่า R-Squared อย่างเดียวอาจไม่สามารถตอบได้ว่าตัวแบบสมการนั้นเหมาะสมหรือไม่ แต่ต้องมีการพิจารณาค่า R-Squared ร่วมกับการวิเคราะห์แผนภาพเศษเหลือ และตัวสถิติอื่นๆ

ในเรื่องถัดไป จะยังพูดถึงค่า R-Squared ต่อ ซึ่งยังมีค่า R-Squared อีก 2 ค่าคือ ค่า Adjusted R-Squared และ ค่า Predicted R-Squared ซึ่งค่าวัดทั้ง 2 ค่านี้จะสามารถตอบคำถามที่ ค่า R-Squared ยังไม่สามารถให้คำตอบได้


บทความนี้ ต้นฉบับนำมาจาก Click


บทความนี้เกิดจากการเขียนและส่งขึ้นมาสู่ระบบแบบอัตโนมัติ สมาคมฯไม่รับผิดชอบต่อบทความหรือข้อความใดๆ ทั้งสิ้น เพราะไม่สามารถระบุได้ว่าเป็นความจริงหรือไม่ ผู้อ่านจึงควรใช้วิจารณญาณในการกลั่นกรอง และหากท่านพบเห็นข้อความใดที่ขัดต่อกฎหมายและศีลธรรม หรือทำให้เกิดความเสียหาย หรือละเมิดสิทธิใดๆ กรุณาแจ้งมาที่ ht.ro.apt@ecivres-bew เพื่อทีมงานจะได้ดำเนินการลบออกจากระบบในทันที