ปัญหาสหสัมพันธ์ของตัวคลาดเคลื่อน (Autocorrelation)

นงนุช อินทรวิเศษ

ปัญหาสหสัมพันธ์ของตัวคลาดเคลื่อน (Autocorrelation) คือ ปัญหาที่เกิดจากตัวคลาดเคลื่อน (residual) ในเทอมปัจจุบัน มีความสัมพันธ์กับตัวคลาดเคลื่อนของเทอมก่อนหน้านี้ ซึ่งสาเหตุมาจากหลายสาเหตุ หรือการกำหนดสมการผิดพลาด หรือเกิดจากการสร้างรูปฟังก์ชั่นผิด เช่น ฟังก์ชั่นเส้นโค้งเป็นฟังก์ชั่นเส้นตรง (model specification) หรือเกิดจากปัญหา Cob-Web Phenomenon

การเกิด autocoorelation เป็น correlation อย่างหนึ่งซึ่งไม่ได้เป็นการแสดงความสัมพันธ์ระหว่าง 2 ตัวแปร แต่แสดงความสัมพันธ์ของค่าต่างๆ ของตัวแปรเดียวกัน มักพบได้บ่อยในข้อมูลประเภท time series ซึ่งทำให้ค่าคลาดเคลื่อนในเวลา t และ t-1 มีความสัมพันธ์กัน

การเกิดสหสัมพันธ์ของตัวคลาดเคลื่อนมักเกิดขึ้นกับข้อมูลอนุกรมเวลาที่เราเรียกว่า serial correlation ซึ่งต่างจากปัญหาความแปรปรวนไม่คงที่ (heteroscedesticity) ซึ่งมักเกิดกับข้อมูลที่เป็นภาคตัดขวาง (cross-section) อย่างไรก็ตามการเกิดสหสัมพันธ์ในตัวยังอาจเกิดได้กับข้อมูลภาคตัดขวางด้วยเช่นกัน ซึ่งเรียกว่า spatial correlation

ในข้อสมมติของ classic ในเรื่องกำลังสองน้อยสุด (OLS) นั้นข้อกำหนดประการหนึ่งคือ ตัวคลาดเคลื่อนต้องไม่มีความสัมพันธ์กันในช่วงเวลาที่ต่างกัน หรือ

E (ui, uj 0 เมื่อ i j

ตัวอย่างเช่น ฟังก์ชั่นการผลิตที่ขึ้นอยู่กับ แรงงานและทุน ถ้าไตรมาสแรกแรงงานเกิดนัดหยุดงาน ก็ไม่ได้หมายความว่าจะส่งผลไปถึงไตรมาสที่ 2 ด้วย หรือกล่าวอีกอย่างว่า ผลผลิตที่ลดลงในไตรมาสแรก ไม่ได้หมายความว่าไตรมาส 2 ผลผลิตจะต้องตกต่ำด้วย สำหรับตัวอย่างกรณีข้อมูลที่เป็น cross-section เช่น การบริโภคที่ขึ้นอยู่กับรายได้ของครัวเรือน ถ้ารายได้ของเราเพิ่มขึ้นเขาก็จะใช้จ่ายเพื่อการบริโภคเพิ่มขึ้น แต่ไม่ได้หมายความว่า ครัวเรือนอื่นที่รายได้ไม่เพิ่มจะต้องใช้จ่ายเพื่อการบริโภคเพิ่มตามไปด้วย

หากข้อสมมตินี้ไม่ถูกต้องจะเกิด

1. ตัวประมาณค่ายังคง linear และ unbiased อยู่ แต่ไม่มี efficient (เช่น variance ไม่น้อยที่สุด) ซึ่งทำให้การใช้ OLS ในหาประมาณค่าไม่มีคุณสมบัติ BLUE
2. variances ของตัวประมาณจาก OLS จะ biased บางครั้งอาจ underestimate ต่ำกว่าค่า variance หรือ standard error จริง ซึ่งทำให้ค่า t-value ที่คำนวณได้เกินจริง ทำให้การสรุปผลผิดพลาด

จาก = =

3. ค่า R2 ผิดพลาด

 

การทดสอบปัญหาสหสัมพันธ์ในตัว

1. Run test

เป็นการทดสอบโดยสถิติ nonparametric test โดยดูเครื่องหมายของ residual ว่าเป็นบวก หรือลบ อย่างมีรูปแบบหรือมีแนวโน้มอย่างไร โดยมีเกณฑ์ในการตัดสินใจ โดยใช้ Swed-Eisenhart critical* ซึ่งค่านี้ใช้การเปิดตาราง Critical value of runs วิธีการ

H0 : ลำดับของ residual เป็น radom (ไม่มี autocorrelation)
โดย N = จำนวนค่าของ residual ที่มีทั้งหมด
N1 = จำนวน residual ที่เป็น บวก
N2 = จำนวน residual ที่เป็น ลบ

ตัวอย่าง (+++++++)(-)(+++)(-----)(++++)

จำนวนตัวอย่าง N = 20 มีจำนวน run = 5 เครื่องหมายบวก (N1) = 14 เครื่องหมายลบ (N2) = 6 พิจารณาว่า จำนวน run มากหรือน้อยเกินไปหรือไม่ ถ้าจำนวน runมากเกินไปจะเกิด negative autocorrelation ถ้า จำนวน run น้อยเกินไปอาจเกิด positive autocorrelation กรณีในตัวอย่างนี้ runcompute < runtable : 5 < 5 ดังนั้นจะ Reject Ho นั่นคือ มีปัญหา autocorrelation

2. Durbin -Watson test

วิธีการทดสอบของ Durbin-Watson เป็นวิธีที่ง่าย เหมาะสมกับข้อมูลที่มีขนาดตัวอย่างเล็ก แต่วิธีนี้เหมาะเฉพาะกับสหสัมพันธ์ของตัวคลาดเคลื่อนแบบ first-order regressive เท่านั้น

สมมติฐาน H0 : r = 0 : ไม่เกิดปัญหา autocorrelation

ตัวสถิติที่ใช้ทดสอบ Durbin - d โดยที่ d = หรือ d 2 (1 - )

=

ฉะนั้น d จึงมีค่าอยู่ระหว่าง 0 ถึง 4
r = -1 perfect negative correlation d = 4
r = 0 no autocorrelation d = 2
r = +1 perfect positive correlation d = 0
Durbin-Watson ได้สร้างการแจกแจงของค่าสถิติ d ให้อยู่ระหว่าง dL กับ dU

การสรุปผลดังนี้

ถ้า

สมมติฐานหลัก (Null hypothesis)

การตัดสินใจ

ผล

0 < d < dL No positive autocorrelation Reject

auto +

dL < d < dU No Positive autocorrelation ไม่สามารสรุปได้

-

4-dL < d < 4 No negative autocorrelation Reject

auto -

4- dU < d < 4- dL No negatice autocorrelation ไม่สามารสรุปได้

-

dU < d < 4- dL No positive or negative auto.. accept

no auto

ในการทดสอบ autocorrelation ด้วย ค่าสถิติ d ของ Durbin-Watson นี้ จะมีเงื่อนไขดังนี้

1. แบบจำลองสมการถดถอยต้องมีเทอมของ intercept รวมอยู่ด้วย
2. ตัวแปรอิสระต้องมีลักษณะ nonstochastic
3. ตัวรบกวน ut = r ut-1 + vt โดย -1 < r < 1
เรียก r ว่าเป็น coefficient of autocorrelation กลไกการหาค่านี้รู้จักกันในชื่อ Markov first-order autoregressive หรือ first-order autoregressive ที่ใช้กันว่า AR(1) เพราะสมการตัวคลาดเคลื่อนนี้มีความสัมพันธ์กับตัวมันเองในอีกช่วงเวลาหนึ่ง (lag 1 time)
4. สมการถดถอยต้องไม่มี lag ของตัวแปรตาม ดังนี้

Yt = b1 + b2X2 + b3Yt-1 + ut

นั่นคือ ต้องไม่มีรูปแบบเป็น autoregressive model*

จากตัวอย่างในบทที่ 1 ค่า Durebin-Watson test ที่คำนวนได้ = 0.402005 โดยมีตัวแปรอธิบาย (ไม่รวม constant) 2 ตัว 16 observation เมื่อเปิดตาราง durbin ได้ค่า dL = 0.982, dU = 1.539 ค่า d ที่คำนวนได้ตกอยู่ในช่วงต่ำกว่า dL ซึ่งเป็นช่วงที่เกิด positive autocorrelation (ปฎิเสธสมมติฐานหลัก (Ho))

การทดสอบการเกิด autocorrelation ด้วยวิธีอื่น

นอกจากจะใช้ค่าสถิติ Durbin Watson (d) ในการทดสอบการเกิด autocorrelation แล้วยังมีการทดสอบ serial correlation ด้วยวิธีอื่นๆ อีก เช่น Q-statistic และ Breusch-Godfrey LM test ฯลฯ ซึ่งโปรแกรม Evies มีให้เลือกใช้ในเมนู Residual Test ค่าสถิติเหล่านี้จะช่วยในการทดสอบแบบจำลองที่มีปัญหา autocorrelation และแก้ปัญหาข้อจำกัดของ Durbin-Watson เช่น แบบจำลองที่มีตัวแปรอิสระเป็น lag ของตัวแปรตาม , autocorrelaton ที่เกิดในลำดับที่สูงกว่าลำดับ 1 (first order autocorrelation) , เมื่อค่า d ที่คำนวนได้ตกอยู่ในช่วงที่ไม่สามารถสรุปได้ (และที่สำคัญนะหนู เมื่อไม่มีตาราง durbin watson นะจ๊ะ) ดังนี้

Q-statistics

ใช้ทดสอบค่า residual ว่ามี autocorrelation หรือไม่ โดยค่า Q-statistic นี้ใช้ได้กับสมการที่มี lag ของตัวแปรตามหรือทดสอบ autocorrelation โดยมีสมมติฐานหลักคือ Ho : ไม่มี serial correlation

วิธีการเริ่มจาก

ที่แถบเครื่องมือ เลือก View / Residual Test / Correlogram-Q-Statistic

โปรแกรมจะถามถึงจำนวน lag ข้อมูล ซึ่งปกติเราก็จะ enter ตามที่โปรแกรมกำหนดมาให้ จากนั้นโปรแกรมจะแสดงค่า autocorrelation และ partial autocorrelation ของ residuals และ Q-statstic ในลำดับที่สูงขึ้น (high-order serial correlation)

 

ในการทดสอบสมมติฐานหลัก โดยพิจารณาจากค่า Prob คล้ายกับการพิจารณาค่า Prob ของ t-test ถ้าค่า Prob นี้น้อยกว่าค่า a ที่กำหนด (เช่น Prob < 0.05) จะต้องปฎิเสธสมมติฐานหลัก (Ho) นั่นหมายความว่า เกิด serial correlation ของตัวคลาดเคลื่อน

Serial Correlation LM-Test (หรือ B-G test ดูรายละเอียดในภาคผนวก)

การทดสอบ autocorrelation ด้วยวิธีนี้ ไม่ต้องเปิดตาราง ไม่ต้องคำนวนค่า dL และ dU วิธีการใช้โดยเลือก

Veiw / Residual Test / Serial Correlation LM Test ….

ระบุ lag ที่จะทดสอบสุดท้าย เช่น 2 โดยมีสมมติฐานหลักคือ

Ho : no serial correlation จนถึง order ที่ระบุ (2)

หรือ Ho : r 1 = r 2 = 0 (non-autocorrelation)

ผลของการ run

ในการทดสอบสมมติฐานให้พิจารณาจากค่า Probability ของ F-statisitc และ R-square ในตารางแรก และการพิจารณา ยอมรับสมมติฐานหรือไม่ใช้หลักเดียวกับการดู Prob ของค่า t-test ซึ่งจากตัวอย่างนี้ค่า Probability < .05 นั้นคือ สรุปได้ว่า ต้อง reject สมมติฐานหลัก และยอมรับสมมติฐานรอง  นั้นคือ เกิดปัญหา autocorrelation นั่นเอง (ง่ายไหมล่ะ ?)

การแก้ปัญหาการเกิด autocorrelation

เนื่องจากปัญหานี้เกิดจากหลายสาเหตุ ฉะนั้นการแก้ปัญหาจึงแตกต่างไป เช่น ถ้าเกิดจากการละทิ้งตัวแปรบางตัวในแบบจำลอง วิธีแก้ไขคือ การให้ตัวแปรนั้นอยู่ในแบบจำลอง หรือตัวปัญหาเกิดจากรูปสมการผิด ก็แก้ไขโดยเปลี่ยนรูปสมการ แต่ถ้าได้ทดสอบแล้วว่ามีปัญหาสหสัมพันธ์เกิดขึ้นจริง และไม่สามารถแก้ไขโดยวิธีการข้างต้น ดังนั้นวิธีการที่เหมาะสมที่สุดคือการแปลงข้อมูล (Tranform) ดังนี้ (Gujarati, Damodar, 1999)

จากสมการเดิม

Yt =

b1 + b2Xt + ut (1)

ut =

r ut-1 + vt (2)
เมื่อ vt เป็น white noise จากสมการที่ เอา r คุณทั้ง 2 ข้างจะได้

r Yt-1 =

r b1 + r b2Xt-1 + r ut-1 (3)
สมการ (1) - (3)

(Yt- r Yt-1) =

b1(1- r ) + b2(Xt- r Xt-1) +vt (4)
หรือ

Y* =

b1* + b2Xt* + vt

OLS ของสมการที่ถูกแปลงรูปแล้ว (Transform) จะมีคุณสมบัติเป็น BLUE*

โอ้ย .. หนูๆ ไม่ต้องปวดหัว โปรแกรม Eviews ง่ายนิดเดียว (ง่ายอีกแล้ว..) เพียงแต่หนูๆ กลับไป estimate สมการใหม่อีกครั้ง คราวนี้นะ หนูๆ ต้องใส่อีกตัวแปรหนึ่งเข้าไป คือ AR(1) ซึ่งก็คือ autoregressive ลำดับที่ 1(รูปแบบในสมการที่ 2 ซึ่ง lag 1 time เรียกว่า first order autoregressive) แค่นี้เองสมการของหนูๆ จะมีค่า durbin-d ที่ดีขึ้น แต่ถ้ายังไม่ดีขึ้น อาจจะเกิด auto ในลำดับที่สูงขึ้นอีก คราวนี้ หนูๆ ก็ใส่ AR(2) เพื่อหาค่า r ลำดับที่สองต่อไป

ถึงตอนนี้หนูๆ ลองทดสอบการเกิด autoโดยใช้ View/Residual test/Correlation LM ดูซิว่าไม่เกิด auto แล้วจริงๆ

Breusch-Godfrey Serial Correlation LM Test:
F-statistic

0.299633

Probability

0.750140

Obs*R-squared

1.104018

Probability

0.575792

หมายเหตุ   รูปแบบสมการที่ได้ใหม่ก็สามารถนำค่า สัมประสิทธินั้นไปใช้ได้เลย เพราะเป็นรูปสมการที่เป็น BULE แล้ว ไม่ต้องขยันไป Transform กลับอีกทีนะจ๊ะ

ภาคผนวก
วิธีการหาค่าประมาณของ r

1. First Difference Method :

วิธีนี้สมมติให้ r = 1 สมการจะเป็น

(Yt- Yt-1) = b2(Xt- Xt-1) +vt

หรือ D Yt = b2D Xt + vt

นั่นคือ run OLSค่า difference ของตัวแปรตามและตัวแปรอิสระ โดยไม่มีเทอม intercept และสำหรับค่า b1 =

2. หา r จาก durbin-Watson d statistic

จาก d 2 (1 - )

1 - d/2

การหาค่า ด้วยวิธีนี้ค่อนข้างง่าย แต่จะใช้ได้ผลดี ถ้าขนนาดตัวอย่างใหญ่ แต่ถ้าประชากรขนาดเล็ก การหาค่า โดยใช้ d จะสร้งใหม่โดย Theil และ Nagar (ดูการหาค่า ด้วยวิธีของ theil-Nagar)

3. ประมาณค่า จากสมการ OLS ของ Residual

ut = r ut-1 + vt

โดยที่วิธีนี้จะเหมาะกับขนาดตัวอย่างขนาดใหญ่ เพราะถ้าขนาดตัวอย่างเล็กจะยังคง bias อยู่ วิธีประมาณ ด้วยวิธีนี้เรียกว่า Cochrance - Orcutt method

4. Theil - Nagar

เป็นวิธีหา จาก d-stat อีกตัวอย่าง โดย

=

โดยที่ n = sample size

d = Durbin - d

k = จำนวนสัมประสิทธิ (รวม intercept ในสมการด้วย) ที่ถูกประมาณ

ถ้า n มีขนาดใหญ่ จะเท่ากับ 1 หรือจะเป็น = 1 - d/2

5. วิธี Durbin two- step method

เขียนสมการในรูป generalized difference equation

Yt = b1(1-r ) + b2Xt - r b2Xt-1 + r Yt-1 + vt

ขั้นที่ 1 ประมาณสมการ regression ข้างต้น โดยค่าสัมประสิทธิของ Yt-1 จะเป็นค่าประมาณของ r (consistent estimator) ถ้าตัวอย่างมีขนาดใหญ่จะประมาณ r ได้ใกล้เคียงประชากร

ขั้นที่ 2 นำค่า r มา transform ข้อมูลในสมการ different

6. วิธีอื่นๆ

- The Cochrance - Orcutt iterative procedure
- The Cochrance - Orcutt two-step method
- Durbin two-step method
- Hildreth-Lu search procedure
- Maximum Likelihood method

Note: ข้อต้องคำนึงสำหรับ DW คือ จำนวน observation 50 หรือมากกว่า และมีตัวแปรอิสระไม่มาก


เรียบเรียงโดย นงนุช อินทรวิเศษ