(以下書中筆記心得摘錄內容及例題來自為:發行時間於民國75年一月,由中興管理顧問公司發行,書名:品質管制與工廠統計一書,譯者:陳文哲(現任國立交通大學管理科學研究所專任教授),黃清連(中國鋼鐵股份有限公司技術開發處長)。原著者為中井重行(早稻田大學工業經營科主任),池澤辰夫(早稻田大學工學教授)。
相關與迴歸分析:相關係數r分析
使用圖「表」來將事件A與事件B與事件C的密切關係,以數「量」化表示出來。
與先前所評估的不同在於,先前兩組或多組資料同樣假設本源是常態分析理論(如先前剛開始學習常態分析理論的源頭時所理解,於諸萬事中,凡各個變因皆會互相影響,而形成某種趨勢(以數學函數)來顯示於現實中,我們倒推於實際中可互相比對函數近似於實際發生的事。
(但是,必須了解的是,它的論證的數據的始終的本源是機率,在其所處環境,所處當下社會歷史文化思想下,就算有數據,也不一定能使人接受。
更何況,有些事物就算有數據也只能代表某一部份的接近真實趨勢,而另一部份才是隱藏在符合某種階級的某種觀念的期望狀態的期望。)
評估其相關與迴歸分析時,須使一特性為獨立變量(可單獨控制已知),而另一特性為任意變量(從屬變量)。
評估兩者間相對之關係常用:散佈圖:通常縱軸標示結果,橫軸標示原因,從觀察圖形具體分布狀態,預估趨勢將來會如何演變,兩者間是正相關嗎?相關聯關係影響大嗎?與實際對照時有哪些部分可能是無相關關係的?與實際對照時有哪些部分可能是遵循某變數而被引導產生的?
為了瞭解某事物發生的原因,對某事物評估某兩個變因導致發生次數多寡的表常用:分組次數分配相關表:縱向變因次數總和和橫向變因次數總和,其兩者加總後為:某事物發生的總和。這樣就可以去觀察某事物發生的總和,比較偏向受縱向變因次數影響還是橫向變因次數影響。
======
同樣是散佈圖,不過將原點設置為兩者之平均值,稱為:相關係數圖:此時圖上的新數值須變成原數值就減去平均值,那麼就可以看出對平均值來講,其兩者相對關係是趨向哪個象限之內。
一樣用之前的統計計算原理思路:全象限的總和S=(各象限加總)Σx'y'(第Ⅰ象限正正得正) +Σx'y'(第Ⅱ象限負正得負) +Σx'y'(第Ⅲ象限負負得正) +Σx'y'(第Ⅳ象限正負得負) 。
再對此S除以樣本數據n得到:S=Σx'y' / n,很孰悉這是平均值的基本思路,有了平均值,如果還需要繼續評估其他統計量,可以繼續往下推導。
https://zh.wikipedia.org/zh-tw/%E7%9A%AE%E5%B0%94%E9%80%8A%E7%A7%AF%E7%9F%A9%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0
在統計學中,皮爾森積動差相關係數(英語:Pearson product-moment correlation coefficient,縮寫:PPMCC,或PCCs,有時簡稱相關係數r)
用於度量兩組數據的變數X和Y之間的線性相關的程度。它是兩個變數的共變異數與其標準差的乘積之比;
======
相關係數r=。若考慮到各個象限的標準差(變異程度)不同,我們可以以各個分配之標準差(sx,sy)除之,得相關係數r=1/n [nΣi=1](X'/sx)(y'/sy)。
又x'跟y'的源頭是新數值減去平均值(xi-x ̄)跟(yi-y ̄),代入r=1/n [nΣi=1](X'/sx)(y'/sy)中。
來導入樣本的偏差平方和概念:推導公式後得 r=1/n [nΣi=1] ((xi-x ̄)/sx)((yi-y ̄/sy)= r= [nΣi=1] (xi-x ̄)*(yi-y ̄) / √[nΣi=1] (xi-x ̄)^2 * √[nΣi=1] (yi-y ̄)^2 = S(x,y)x,y之偏差平方和 / √S(x)(√x之S(偏差平方和)) * √S(y)(√y之S(偏差平方和))=s^2xy(x、y之共變異數)/√Sx^2*√Sy^2(2變異數之幾和平均)。r = S(x,y) / √S(x) * √S(y)= S(x,y) =Σ XY - ( (ΣX)(ΣY) / n)
======
若絕對值|r|愈接近1.00,代表兩組變數相關程度愈密切。
r>0,r愈接近1.00時,表示有正相關。若r<0,r愈接近-1.00時,表示有負相關。
例如:假若依此ˊ製成產品的風險評估及工程判斷,將之大致上區分四個等級(自己分等級)的話(0-0.1,0.1-0.39,0.40-0.69,0.70-1.00):
絕對值|r|介於0.40~0.69 代表 兩組變數中度相關,若絕對值|r|介於0.10~0.39 代表 兩組變數低度相關。
例題:
有二組數組,一組稱為x,一組稱為y。先依前章檢定假說所述計算S(偏差平方和)= ΣX^2 - (ΣX )^2 } / n 。
雙側α= |
0.01 |
雙側α= |
0.01 |
|||||
no. |
x |
X |
X ^2 |
no. |
y |
Y |
Y ^2 |
XY |
1 |
74 |
0.5 |
0.25 |
1 |
17 |
0.2 |
0.04 |
0.1 |
2 |
67 |
-6.5 |
42.25 |
2 |
16 |
-0.8 |
0.64 |
5.2 |
3 |
59 |
-14.5 |
210.25 |
3 |
15 |
-1.8 |
3.24 |
26.1 |
4 |
60 |
-13.5 |
182.25 |
4 |
15 |
-1.8 |
3.24 |
24.3 |
5 |
51 |
-22.5 |
506.25 |
5 |
14 |
-2.8 |
7.84 |
63 |
6 |
98 |
24.5 |
600.25 |
6 |
20 |
3.2 |
10.24 |
78.4 |
7 |
89 |
15.5 |
240.25 |
7 |
18 |
1.2 |
1.44 |
18.6 |
8 |
77 |
3.5 |
12.25 |
8 |
17 |
0.2 |
0.04 |
0.7 |
9 |
83 |
9.5 |
90.25 |
9 |
19 |
2.2 |
4.84 |
20.9 |
10 |
77 |
3.5 |
12.25 |
10 |
17 |
0.2 |
0.04 |
0.7 |
樣品平均 |
73.5 |
|
|
樣品平均 |
16.8 |
|
|
|
標準差 |
14.5 |
|
|
標準差 |
1.9 |
|
|
|
加總 |
311.00 |
0 |
1896.50 |
加總 |
77 |
-7.11E-15 |
31.6 |
238 |
S(偏差平方和)= ΣX^2 - (ΣX )^2 } / n |
Sy(偏差平方和)= ΣY^2 - (ΣY )^2 } / n |
||||
Sx= |
1896.5 |
Sy= |
31.6 |
||
σe=√V =√ Sx(偏差平方和) / n-1 |
σye=√V =√ Sy(偏差平方和) / n-1 |
||||
σe= |
14.51627 |
σye= |
1.873796 |
||
tφ(α冒險率)=使用EXCEL的=T.INV.2T(α,φ) |
tyφ(α冒險率)=使用EXCEL的=T.INV.2T(α,φ) |
||||
tφ(α) |
3.249836 |
tyφ(α) |
3.249836 |
||
故信賴區間1%=x ̄±( tφ(α)* (σe / √n) |
故信賴區間1%=x ̄±( tφ(α)* (σe / √n) |
||||
即:pU= |
88.42 |
即:ypU= |
18.73 |
||
即:PL= |
58.58 |
即:yPL= |
14.87 |
我們來計算:
r = S(x,y) / √S(x) * √S(y)
S(x,y) =Σ XY - ( (ΣX)(ΣY) / n)
S(x,y) =238(因為剛好此例題ΣX=0)
r = 0.972203
因相關係數 r=0.97,故x數組與y數之間,有極密切的相關關係。
======
在相關係數 r,若無EXCEL的人可以用整數減整數的方法計算,X=x-70(真實平均73.5用假定平均70),Y=y-16(真實平均16.8用假定平均16),使用由原數值減去假定平均的方式而得到相關係數 r=266-((35*8)/10) / √1896.5*31.6 =0.972203的同樣解答。
但是:
用原真實平均值計算的x的pU=88.42,pL=58.58,而用假定平均計算的x的pU=85.39,pL=54.61。
用原真實平均值計算的y的pU=18.73,pL=14.87,而用假定平均計算的x的pU=18.11,pL=13.89。
對當須要用平均值介於上限與下限間的判斷會有些差距。
留言列表