(以下書中筆記心得摘錄內容及例題來自為:發行時間於民國75年一月,由中興管理顧問公司發行,書名:品質管制與工廠統計一書,譯者:陳文哲(現任國立交通大學管理科學研究所專任教授),黃清連(中國鋼鐵股份有限公司技術開發處長)。原著者為中井重行(早稻田大學工業經營科主任),池澤辰夫(早稻田大學工學教授)。
迴歸不管如何總回於平均值左右,迴歸(Regression)由1880年生物學家哥爾頓研究雙親與子女身高遺傳關係時,觀察到假設身高高的雙親生下的子女,比雙親高,那其子女又生下子女又比雙親高,則世上必有許多巨人,反之則世上必有許多矮人,但事實上,人的身高皆在其平均值左右。
依前篇相關係數r分析所述,除了能依相關係數r分析,兩變量是否有關連性外,如何知曉兩變量,當以橫軸變量推導縱軸變量,或相反。
表示橫軸與縱軸的直線關係方程式,先假設以一次方程式(斜率)評估,若有需要,可再自行推演。
直線斜率一次方程式,a=截距,b=直線之斜率,則y(縱軸)=a+bx(橫軸)。
若將數據的變異趨勢,視為某種程度變異之直線,此即為迴歸直線。
求迴歸直線時,必須考慮工程判斷上的需求,是要以x橫軸變量推導y縱軸變量,或以y縱軸變量推導x橫軸變量。實務上直接將x軸設置成「成因」,y軸設置成「結果」。
======
b為迴歸係數
以x橫軸變量推導y縱軸變量:b=S(x,y)/S(x)。
y縱軸變量-樣品 y ̄=b (x橫軸變量-樣品 x ̄),y- y ̄=b (x- x ̄),會形成一次方程式,例如 y=0.435 x + 1.695,這樣子的可畫出迴歸直線的一次方程式,
相關係數r分析: r = S(x,y) / √S(x) * √S(y),再加乘以 √S(y) /√S(x)時, r = S(y)/S(x) ,再S各除以√n 使其成為標準差,r‧ [ √S(y)/n / S(x)/n ] = r‧sy/sx。
最後推導:迴歸直線方程式,在以x推導y之迴歸直線時,以:y- y ̄=b (x- x ̄) = y- y ̄= r‧sy/sx‧ (x- x ̄)。(b=r‧sy/sx(標準差))
======
或以y縱軸變量推導x橫軸變量:b'=S(x,y)/S(y)。
x橫軸變量-樣品 x ̄=b' (y縱軸變量-樣品 y ̄),x- x ̄=b' (y- y ̄),會形成一次方程式,例如 y=0.435 x + 1.695,這樣子的可畫出迴歸直線的一次方程式,
同上x堆導y,當以y推導x時,以:x- x ̄=b' (y- y ̄) = x- x ̄= r‧sx/sy‧ (y- y ̄)。(b=r‧sx/sy(標準差))
若r=0,表示無相關時:以x推y之迴歸直線:y - y ̄=0,y= y ̄。以y推x之迴歸直線:x - x ̄=0,x= x ̄。
若r=1,表示完全相關時:以x推y之迴歸直線:y - y ̄= sy/sx‧(x - x ̄)。以y推x之迴歸直線:x - x ̄= sy/sx‧(y - y ̄)。
======
以前篇相關與迴歸分析:相關係數r分析-排列組合機率80-相關係數r分析例題為例:
例題:
有二組數組,一組稱為x,一組稱為y。先依前章檢定假說所述計算S(偏差平方和)= ΣX^2 - (ΣX )^2 } / n 。
雙側α= |
0.01 |
雙側α= |
0.01 |
|||||
no. |
x |
X |
X ^2 |
no. |
y |
Y |
Y ^2 |
XY |
1 |
74 |
0.5 |
0.25 |
1 |
17 |
0.2 |
0.04 |
0.1 |
2 |
67 |
-6.5 |
42.25 |
2 |
16 |
-0.8 |
0.64 |
5.2 |
3 |
59 |
-14.5 |
210.25 |
3 |
15 |
-1.8 |
3.24 |
26.1 |
4 |
60 |
-13.5 |
182.25 |
4 |
15 |
-1.8 |
3.24 |
24.3 |
5 |
51 |
-22.5 |
506.25 |
5 |
14 |
-2.8 |
7.84 |
63 |
6 |
98 |
24.5 |
600.25 |
6 |
20 |
3.2 |
10.24 |
78.4 |
7 |
89 |
15.5 |
240.25 |
7 |
18 |
1.2 |
1.44 |
18.6 |
8 |
77 |
3.5 |
12.25 |
8 |
17 |
0.2 |
0.04 |
0.7 |
9 |
83 |
9.5 |
90.25 |
9 |
19 |
2.2 |
4.84 |
20.9 |
10 |
77 |
3.5 |
12.25 |
10 |
17 |
0.2 |
0.04 |
0.7 |
樣品平均 |
73.5 |
|
|
樣品平均 |
16.8 |
|
|
|
標準差 |
14.5 |
|
|
標準差 |
1.9 |
|
|
|
加總 |
311.00 |
0 |
1896.50 |
加總 |
77 |
-7.11E-15 |
31.6 |
238 |
S(偏差平方和)= ΣX^2 - (ΣX )^2 } / n |
Sy(偏差平方和)= ΣY^2 - (ΣY )^2 } / n |
||||
Sx= |
1896.5 |
Sy= |
31.6 |
||
σe=√V =√ Sx(偏差平方和) / n-1 |
σye=√V =√ Sy(偏差平方和) / n-1 |
||||
σe= |
14.51627 |
σye= |
1.873796 |
||
tφ(α冒險率)=使用EXCEL的=T.INV.2T(α,φ) |
tyφ(α冒險率)=使用EXCEL的=T.INV.2T(α,φ) |
||||
tφ(α) |
3.249836 |
tyφ(α) |
3.249836 |
||
故信賴區間1%=x ̄±( tφ(α)* (σe / √n) |
故信賴區間1%=x ̄±( tφ(α)* (σe / √n) |
||||
即:pU= |
88.42 |
即:ypU= |
18.73 |
||
即:PL= |
58.58 |
即:yPL= |
14.87 |
我們來計算:
r = S(x,y) / √S(x) * √S(y)
S(x,y) =Σ XY - ( (ΣX)(ΣY) / n)
S(x,y) =238(因為剛好此例題ΣX=0)
r = 0.972203
因相關係數 r=0.97,故x數組與y數之間,有極密切的相關關係。
若以一般:以x橫軸變量推導y縱軸變量:
推算y- y ̄=b (x- x ̄) 這個迴歸方程式。
斜率: b=S(x,y)/S(x)
b=S(x,y)/S(x)=238/1896.5=0.125494332
在以x推導y之迴歸直線時:y- y ̄=b (x- x ̄),用excel來計算:y=bx + ((-1 * x ̄)+y ̄)
則會得到:y=0.1254943x+7.5761666。
=======
在相關係數 r,若無EXCEL的人可以用整數減整數的方法計算,
r= S(x,y) / √S(x) * √S(y),X=(x-70(真實平均73.5用假定平均70))倍數g,Y=(y-16(真實平均16.8用假定平均16)))倍數h,
使用由原數值減去假定平均的方式而得到相關係數 r=266-((35*8)/10) / √1896.5*31.6 =0.972203的同樣解答。
但是在此計算迴歸係數b時,必須再轉換為原來的數據方可:此時數據之變換 X(假定平均)=(x-A)g,Y(假定平均)=(x-A)h,也就是:X=(x-70)1,Y=(x-16)1
即是:以x橫軸變量推導y縱軸變量:b=S(x,y)/S(x) =因變換數據故再需轉換
= (S(x,y)/gh) / (S(x)/g^2) = (S(x,y) / (S(x) ) / g^2 / gh = (S(x,y) / (S(x) ) ‧ g / h 。
======
以下是:在你已確認完基礎概念都已經學完後:
你可學著用EXCEL這個工具來快速評估:
(1)
你可以使用EXCEL相關係數函數 CORREL(y範圍,x範圍)計算相關係數r=CORREL(B51:B60,F51:F60)=0.9722030791。
以快速算出你的計算是沒有錯誤的。
======
(2)或是用Excel的圖表來觀察:
記得不要用折線圖,要用散布圖,看是要選x,y來做還是要選X,Y(X是xi=x-x ̄,Y是yi=y-y ̄))
折線圖中X值即使是數字,都會被視為類別資料 因此要帶入的X值不可以用原來的數字,而要用1,2,3,4。
散布圖選好X跟Y後:
然後打開圖表設計,新增圖表選項趨勢線,選擇線性,圖表上顯示公式,圖表上顯示R平方值。
https://learn.microsoft.com/zh-tw/office/troubleshoot/excel/inaccurate-chart-trendline-formula
趨勢線方程式 是一種公式,可尋找最適合資料點的線條。 R 平方值 會測量趨勢線可靠性 - R2 越接近 1,趨勢線就越適合資料。
注意 趨勢線公式用於 XY 散佈圖。此圖表會將 X 軸與 Y 軸繪製為值。
折線圖、直條圖與橫條圖只會將 Y 軸繪製為值。
在這些圖表類型中,不論標籤實際是什麼,X 軸只會繪製為線性數列。因此,如果趨勢線顯示在這些類型的圖表上,則該趨勢線將會不正確,產生此錯誤是系統刻意為之。
首先務必查看圖表。如果發現這些點非常接近趨勢線,則表示關係可能非常穩定。但是,如果點的分佈非常隨機,並且通常狀況下遠離趨勢線,那麼要小心了:相關性較弱,不應盲目相信估計出來的關係。
趨勢線選項:
線性:y=0.1255 x+ 7.5762,R2=0.9452。
多項次:冪次2,y=-5E-0.5x^2+ 0.1333x +7.2957,R2=0.9452。
指數:y=9.6388 e^0.0075x,R2=0.9417。
對數:y=8.9832 ln(x)- 21.642,R2=0.9369。
另外使用公式和使用EXCEL圖表趨勢線,圖表趨勢線常會有小數點造成的誤差,
【趨勢線種類】https://dotblogs.com.tw/eason/2010/10/26/18589
線性:線性趨勢線是適用於簡單線性資料集的擬合直線。如果資料點的散佈形狀近似直線,則資料為線性。線性趨勢線通常表示事物以穩定的速度增加或減少。
多項式:多項式趨勢線是一種曲線,適合擺動不定的資料使用,例如這種線便非常適合用來分析大量資料的損益。多項式的冪次可由資料波動的次數或曲線彎曲點 (波峰和波谷) 的個數決定。二階多項式趨勢線通常僅有一個波峰或波谷。三階多項式趨勢線通常有一個或兩個波峰或波谷。四階多項式趨勢線則通常多達三個。
對數:如果資料的增減速率一開始非常快,後來又趨於平緩,這種資料最適合使用針對曲線擬合的對數趨勢線。對數趨勢線可以使用正值和負值。
乘冪:指數趨勢線是一條曲線,最適合表示以特定比率增加的比較測量值所組成的資料集 (例如,賽車一秒內的加速度)。如果資料中包含零或負數值,就無法建立乘冪趨勢線。
指數:指數趨勢線是一種曲線,最適合驟增或驟減的資料值,但若資料值中有零或負數,就不能使用指數趨勢線。
移動平均:移動平均趨勢線可將資料中的微小波動平滑化,以便清楚顯示資料的範圍和趨勢。移動平均趨勢線使用特定數目的資料點 (由 [週期] 選項設定),取其平均值,然後以該平均值作為趨勢線中的一個點。例如,如果 [週期] 設定為 2,則前兩個資料點的平均值就是移動平均趨勢線中的第一個點。第二個和第三個資料點的平均值就是趨勢線的第二個點,依此類推。
======
(3)
最後是:使用內建分析工具:
EXCEL 功能表,開發人員,資料分析,迴歸,選Y跟X範圍,輸出新範圍。
摘要輸出
摘要 |
||||||||
迴歸 |
||||||||
R 的 |
0.972203 |
|||||||
R 平方 |
0.945179 |
|||||||
調整的 |
0.938326 |
|||||||
標準誤 |
0.465342 |
|||||||
觀察值 |
10 |
|||||||
ANOVA |
||||||||
|
自由度 |
SS |
MS |
F |
顯著值 |
|||
迴歸 |
1 |
29.86765 |
29.86765 |
137.929 |
2.53E-06 |
|||
殘差 |
8 |
1.732349 |
0.216544 |
|||||
總和 |
9 |
31.6 |
|
|
|
|||
|
係數 |
標準誤 |
t 統計 |
P-值 |
下限 |
上限 |
下限 |
上限 |
截距 |
7.576167 |
0.799054 |
9.481423 |
1.26E-05 |
5.733545 |
9.418788 |
4.895032 |
10.2573 |
X 變數 |
0.125494 |
0.010686 |
11.74432 |
2.53E-06 |
0.100853 |
0.150135 |
0.08964 |
0.161348 |
殘差 |
機率 |
|||||||
觀察值 |
預測 |
殘差 |
百分比 |
Y |
||||
1 |
16.86275 |
0.137253 |
5 |
14 |
||||
2 |
15.98429 |
0.015713 |
15 |
15 |
||||
3 |
14.98033 |
0.019668 |
25 |
15 |
||||
4 |
15.10583 |
-0.10583 |
35 |
16 |
||||
5 |
13.97638 |
0.023622 |
45 |
17 |
||||
6 |
19.87461 |
0.125389 |
55 |
17 |
||||
7 |
18.74516 |
-0.74516 |
65 |
17 |
||||
8 |
17.23923 |
-0.23923 |
75 |
18 |
||||
9 |
17.9922 |
1.007804 |
85 |
19 |
||||
10 |
17.23923 |
-0.23923 |
95 |
20 |
||||