相關與迴歸分析：相關係數r分析-排列組合機率80－銘記星辰之下

(以下書中筆記心得摘錄內容及例題來自為：發行時間於民國75年一月，由中興管理顧問公司發行，書名：品質管制與工廠統計一書，譯者：陳文哲(現任國立交通大學管理科學研究所專任教授)，黃清連(中國鋼鐵股份有限公司技術開發處長)。原著者為中井重行(早稻田大學工業經營科主任)，池澤辰夫(早稻田大學工學教授)。

相關與迴歸分析：相關係數r分析

使用圖「表」來將事件A與事件B與事件C的密切關係，以數「量」化表示出來。

與先前所評估的不同在於，先前兩組或多組資料同樣假設本源是常態分析理論(如先前剛開始學習常態分析理論的源頭時所理解，於諸萬事中，凡各個變因皆會互相影響，而形成某種趨勢(以數學函數)來顯示於現實中，我們倒推於實際中可互相比對函數近似於實際發生的事。

(但是，必須了解的是，它的論證的數據的始終的本源是機率，在其所處環境，所處當下社會歷史文化思想下，就算有數據，也不一定能使人接受。

更何況，有些事物就算有數據也只能代表某一部份的接近真實趨勢，而另一部份才是隱藏在符合某種階級的某種觀念的期望狀態的期望。)

評估其相關與迴歸分析時，須使一特性為獨立變量(可單獨控制已知)，而另一特性為任意變量(從屬變量)。

評估兩者間相對之關係常用：散佈圖：通常縱軸標示結果，橫軸標示原因，從觀察圖形具體分布狀態，預估趨勢將來會如何演變，兩者間是正相關嗎？相關聯關係影響大嗎？與實際對照時有哪些部分可能是無相關關係的？與實際對照時有哪些部分可能是遵循某變數而被引導產生的？

為了瞭解某事物發生的原因，對某事物評估某兩個變因導致發生次數多寡的表常用：分組次數分配相關表：縱向變因次數總和和橫向變因次數總和，其兩者加總後為：某事物發生的總和。這樣就可以去觀察某事物發生的總和，比較偏向受縱向變因次數影響還是橫向變因次數影響。

======

同樣是散佈圖，不過將原點設置為兩者之平均值，稱為：相關係數圖：此時圖上的新數值須變成原數值就減去平均值，那麼就可以看出對平均值來講，其兩者相對關係是趨向哪個象限之內。

一樣用之前的統計計算原理思路：全象限的總和S=(各象限加總)Σx'y'(第Ⅰ象限正正得正) +Σx'y'(第Ⅱ象限負正得負) +Σx'y'(第Ⅲ象限負負得正) +Σx'y'(第Ⅳ象限正負得負) 。

再對此S除以樣本數據n得到：S=Σx'y' / n，很孰悉這是平均值的基本思路，有了平均值，如果還需要繼續評估其他統計量，可以繼續往下推導。

https://zh.wikipedia.org/zh-tw/%E7%9A%AE%E5%B0%94%E9%80%8A%E7%A7%AF%E7%9F%A9%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0
在統計學中，皮爾森積動差相關係數（英語：Pearson product-moment correlation coefficient，縮寫：PPMCC，或PCCs，有時簡稱相關係數r）
用於度量兩組數據的變數X和Y之間的線性相關的程度。它是兩個變數的共變異數與其標準差的乘積之比；

======

相關係數r=。若考慮到各個象限的標準差(變異程度)不同，我們可以以各個分配之標準差(sx，sy)除之，得相關係數r=1/n [nΣi=1](X'/sx)(y'/sy)。

又x'跟y'的源頭是新數值減去平均值(xi-x￣)跟(yi-y￣)，代入r=1/n [nΣi=1](X'/sx)(y'/sy)中。

來導入樣本的偏差平方和概念：推導公式後得 r=1/n [nΣi=1] ((xi-x￣)/sx)((yi-y￣/sy)= r= [nΣi=1] (xi-x￣)*(yi-y￣) / √[nΣi=1] (xi-x￣)^2 * √[nΣi=1] (yi-y￣)^2 = S(x,y)x,y之偏差平方和 / √S(x)(√x之S(偏差平方和)) * √S(y)(√y之S(偏差平方和))=s^2xy(x、y之共變異數)/√Sx^2*√Sy^2(2變異數之幾和平均)。r = S(x,y) / √S(x) * √S(y)= S(x,y) =Σ XY - ( (ΣX)(ΣY) / n)

======

若絕對值|r|愈接近1.00，代表兩組變數相關程度愈密切。
r>0，r愈接近1.00時，表示有正相關。若r<0，r愈接近-1.00時，表示有負相關。

例如：假若依此ˊ製成產品的風險評估及工程判斷，將之大致上區分四個等級(自己分等級)的話(0-0.1，0.1-0.39，0.40-0.69，0.70-1.00)：

絕對值|r|介於0.40~0.69 代表兩組變數中度相關，若絕對值|r|介於0.10~0.39 代表兩組變數低度相關。

例題：
有二組數組，一組稱為x，一組稱為y。先依前章檢定假說所述計算S(偏差平方和)= ΣX^2 － (ΣX )^2 } / n 。

雙側α=	0.01			雙側α=	0.01
no.	x	X	X ^2	no.	y	Y	Y ^2	XY
1	74	0.5	0.25	1	17	0.2	0.04	0.1
2	67	-6.5	42.25	2	16	-0.8	0.64	5.2
3	59	-14.5	210.25	3	15	-1.8	3.24	26.1
4	60	-13.5	182.25	4	15	-1.8	3.24	24.3
5	51	-22.5	506.25	5	14	-2.8	7.84	63
6	98	24.5	600.25	6	20	3.2	10.24	78.4
7	89	15.5	240.25	7	18	1.2	1.44	18.6
8	77	3.5	12.25	8	17	0.2	0.04	0.7
9	83	9.5	90.25	9	19	2.2	4.84	20.9
10	77	3.5	12.25	10	17	0.2	0.04	0.7
樣品平均	73.5			樣品平均	16.8
標準差	14.5			標準差	1.9
加總	311.00	0	1896.50	加總	77	-7.11E-15	31.6	238

S(偏差平方和)= ΣX^2 － (ΣX )^2 } / n		Sy(偏差平方和)= ΣY^2 － (ΣY )^2 } / n
Sx=	1896.5	Sy=	31.6
σe=√V =√ Sx(偏差平方和) / n-1		σye=√V =√ Sy(偏差平方和) / n-1
σe=	14.51627	σye=	1.873796
tφ(α冒險率)=使用EXCEL的=T.INV.2T(α,φ)		tyφ(α冒險率)=使用EXCEL的=T.INV.2T(α,φ)
tφ(α)	3.249836	tyφ(α)	3.249836
故信賴區間1%=x￣±( tφ(α)* (σe / √n)		故信賴區間1%=x￣±( tφ(α)* (σe / √n)
即：pU=	88.42	即：ypU=	18.73
即：PL=	58.58	即：yPL=	14.87

我們來計算：

r = S(x,y) / √S(x) * √S(y)

S(x,y) =Σ XY - ( (ΣX)(ΣY) / n)

S(x,y) =238(因為剛好此例題ΣX=0)

r = 0.972203

因相關係數 r=0.97，故x數組與y數之間，有極密切的相關關係。

======

在相關係數 r，若無EXCEL的人可以用整數減整數的方法計算，X=x-70(真實平均73.5用假定平均70)，Y=y-16(真實平均16.8用假定平均16)，使用由原數值減去假定平均的方式而得到相關係數 r=266-((35*8)/10) / √1896.5*31.6 =0.972203的同樣解答。

但是：

用原真實平均值計算的x的pU=88.42，pL=58.58，而用假定平均計算的x的pU=85.39，pL=54.61。

用原真實平均值計算的y的pU=18.73，pL=14.87，而用假定平均計算的x的pU=18.11，pL=13.89。

對當須要用平均值介於上限與下限間的判斷會有些差距。

人生學習社會閱讀思考企管腦科學數學品保

銘記星辰之下

銘記星辰之下發表在痞客邦留言(0) 人氣()

銘記星辰之下

願我們能明知會失敗，但仍有勇氣去堅持與反省。心中能放下後，才能再拿起。
我們的世界不一定要絢麗，但一定要有色彩，下輩子的事，這輩子就要準備好。

敬讀者，此內容僅供學習思考參考，未經追本校對依據細節。如有錯誤，請告知，感激不盡。