《SPSS統(tǒng)計(jì)分析第7章 相關(guān)分析(教學(xué)課件)》由會員分享,可在線閱讀,更多相關(guān)《SPSS統(tǒng)計(jì)分析第7章 相關(guān)分析(教學(xué)課件)(28頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
1、2021/8/23精品 PPT 模板1第七章相關(guān)分析2021/8/23精品 PPT 模板2主要內(nèi)容主要內(nèi)容7.1 相關(guān)分析簡介相關(guān)分析簡介7.2 兩變量相關(guān)分析兩變量相關(guān)分析7.3 偏相關(guān)分析偏相關(guān)分析7.4 距離分析距離分析2021/8/23精品 PPT 模板37.1相關(guān)分析簡介相關(guān)分析簡介(1)函數(shù)關(guān)系與相關(guān)關(guān)系 變量之間的關(guān)系可以分為兩種:一種是函數(shù)關(guān)系,另一種是相關(guān)關(guān)系。函數(shù)關(guān)系是一一對應(yīng)的確定性關(guān)系,比較容易分析和測度。可是在現(xiàn)實(shí)世界中,變量間的關(guān)系往往并不是簡單的確定性關(guān)系,也就是說,變量之間有著密切的關(guān)系,但又不能由一個(gè)或幾個(gè)變量的值確定另一個(gè)變量的值,即當(dāng)自變量x取某一值時(shí),因
2、變量y的值可能會有多個(gè)。這種變量之間的非一一對應(yīng)的、不確定性的關(guān)系,稱之為相關(guān)關(guān)系。(2)相關(guān)分析基本概念 衡量事物之間,或稱變量之間線性相關(guān)程度的強(qiáng)弱并用適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)表示出來,這個(gè)過程就是相關(guān)分析。相關(guān)系數(shù)是衡量變量之間相關(guān)程度的一個(gè)指標(biāo),總體的相關(guān)系數(shù)用表示,樣本的相關(guān)系數(shù)用r表示。2021/8/23精品 PPT 模板4 相關(guān)關(guān)系的種類相關(guān)關(guān)系的種類1 按涉及的變量分:簡單相關(guān)和復(fù)相關(guān)2 按表現(xiàn)形式分:線性相關(guān)和非線性相關(guān)3 按變化方向分:正相關(guān)和負(fù)相關(guān)4 按相關(guān)程度分:不相關(guān)、低度相關(guān)、顯著相關(guān)、高度相關(guān)和完全相關(guān)2021/8/23精品 PPT 模板5主要內(nèi)容主要內(nèi)容7.1 相關(guān)分析簡
3、介相關(guān)分析簡介7.2 兩變量相關(guān)分析兩變量相關(guān)分析7.3 偏相關(guān)分析偏相關(guān)分析7.4 距離分析距離分析2021/8/23精品 PPT 模板67.1二元變量相關(guān)分析二元變量相關(guān)分析(1)基本概念 二元變量的相關(guān)分析是指通過計(jì)算變量間兩兩相關(guān)的相關(guān)系數(shù),對兩個(gè)或兩個(gè)以上變量之間兩兩相關(guān)的程度進(jìn)行分析。根據(jù)所研究的變量類型不同,又可以分為二元定距變量的相關(guān)分析和二元定序變量的相關(guān)分析。(2)統(tǒng)計(jì)原理u二元定距變量的相關(guān)分析:定距變量又稱為間隔(interval)變量(即連續(xù)屬性變量),變量值之間可以比較大小,可以用加減法計(jì)算出差異的大小。Pearson簡單相關(guān)系數(shù)及t統(tǒng)計(jì)量 12211()()()(
4、)niiinniiiixxyyrxxyy221r ntr2021/8/23精品 PPT 模板77.1二元變量相關(guān)分析二元變量相關(guān)分析u定序變量的相關(guān)性分析:定序變量又稱為有序(ordinal)變量、順序變量、等級變量,它取值的大小能夠表示觀測對象的某種順序關(guān)系(等級、方位或大小等)。定序變量的相關(guān)系數(shù)用斯皮爾曼(Spearman)相關(guān)系數(shù)和肯德爾(Kendalls)相關(guān)系數(shù)來衡量。Spearman相關(guān)系數(shù)及Z統(tǒng)計(jì)量21261(1)niiDrn n 1Zr nKendalls等級相關(guān)系數(shù) 及Z統(tǒng)計(jì)量2()(1)UVn n9(1)2(25)n nZn2021/8/23精品 PPT 模板87.2 二
5、元變量相關(guān)分析二元變量相關(guān)分析(3)分析步驟第1步 計(jì)算相關(guān)系數(shù)r:利用樣本數(shù)據(jù)計(jì)算樣本相關(guān)系數(shù),樣本相關(guān)系數(shù)反映了兩變量間線性相關(guān)程度的強(qiáng)弱。相關(guān)系數(shù)的取值范圍界于-1與1之間,即-1r1 l當(dāng)0r 1,表明變量之間存在正相關(guān)關(guān)系;l當(dāng)-1 r0,表明變量之間存在負(fù)相關(guān)關(guān)系;l當(dāng)|r|=1時(shí),表示其中一個(gè)變量的取值完全取決于另一個(gè)變量,二者即為函數(shù)關(guān)系;l當(dāng)r=0時(shí),說明變量之間不存在線性相關(guān)關(guān)系,但這并不排除變量之間存在其它非線性相關(guān)的可能。根據(jù)經(jīng)驗(yàn)可將其相關(guān)程度分為幾種:當(dāng)|r|0.8時(shí)視為高度相關(guān);當(dāng)0.5|r|0.8時(shí)視為中度相關(guān);當(dāng)0.3|r|0.5時(shí)視為低度相關(guān);當(dāng)|r|0,說明
6、呈正相關(guān),而相伴概率值Sig.=0.0050.05,因此應(yīng)拒絕零假設(shè)(H0:兩變量之間不具相關(guān)性),即說明兒子身高是受父親身高顯著性正影響的。父親身高兒子身高父親身高Pearson 相關(guān)性1.703*顯著性(雙側(cè)).011平方與叉積的和84.66740.333協(xié)方差7.6973.667N1212兒子身高Pearson 相關(guān)性.703*1顯著性(雙側(cè)).011 平方與叉積的和40.33338.917協(xié)方差3.6673.538N1212*.在 0.05 水平(雙側(cè))上顯著相關(guān)。2021/8/23精品 PPT 模板13主要內(nèi)容主要內(nèi)容7.1 相關(guān)分析簡介相關(guān)分析簡介7.2 兩變量相關(guān)分析兩變量相關(guān)分
7、析7.3 偏相關(guān)分析偏相關(guān)分析7.4 距離分析距離分析2021/8/23精品 PPT 模板14(1)基本概念 偏相關(guān)分析的任務(wù)就是在研究兩個(gè)變量之間的線性相關(guān)關(guān)系時(shí)控制可能對其產(chǎn)生影響的變量,這種相關(guān)系數(shù)稱為偏相關(guān)系數(shù)。偏相關(guān)系數(shù)的數(shù)值和簡單相關(guān)系數(shù)的數(shù)值常常是不同的,在計(jì)算簡單相關(guān)系數(shù)時(shí),所有其他自變量不予考慮。(2)統(tǒng)計(jì)原理u 控制一個(gè)變量和控制兩個(gè)變量的偏相關(guān)系數(shù)分別為:7.3 偏相關(guān)分析偏相關(guān)分析,22(1)(1)xyxz yzxy zxzyzrr rrrr12211 21221,1,22,(1)(1)xy zxzzyzzxy z zxz zyzzrrrrrr2021/8/23精品 P
8、PT 模板15u檢驗(yàn)的統(tǒng)計(jì)量為:(3)(3)統(tǒng)計(jì)分析步驟統(tǒng)計(jì)分析步驟第1步 根據(jù)公式計(jì)算偏相關(guān)系數(shù);第2步 對樣本來自的兩總體是否存在顯著性相關(guān)進(jìn)行推斷。l提出零假設(shè)H0:即兩總體的偏相關(guān)系數(shù)與零無顯著性差異;l選擇檢驗(yàn)統(tǒng)計(jì)量:偏相關(guān)分析選擇的是t統(tǒng)計(jì)量;l計(jì)算t值及對應(yīng)的概率p值;l決策:如果相伴概率p值小于給定的顯著性水平,則應(yīng)拒絕零假設(shè),認(rèn)為兩總體的偏相關(guān)系數(shù)與零有顯著性差異;否則,接受原假設(shè)。7.3 偏相關(guān)分析偏相關(guān)分析22.1nkrtrr2021/8/23精品 PPT 模板16(4)SPSS實(shí)現(xiàn)舉例【例7-3】下表是四川綿陽地區(qū)3年生中山柏的數(shù)據(jù),分析月生長量與月平均氣溫、月降雨量、
9、月平均日照時(shí)數(shù)、月平均濕度4個(gè)氣候因素中哪些因素有關(guān)。7.3 偏相關(guān)分析偏相關(guān)分析月份月生長量月平均氣溫月降雨量月平均日照時(shí)數(shù)月平均濕度月份月生長量月平均氣溫月降雨量月平均日照時(shí)數(shù)月平均濕度10.014.21754.58171824.796.9101.68320.57.410.873.879819.324.5269.5164.68631.51017.484.775914.822194.881.683410.816.119.7137751010.31858.1848251321.1248.7149.67711813.14.979.381616.323.972.2109.5791216.812.6
10、66.5822021/8/23精品 PPT 模板177.3 偏相關(guān)分析偏相關(guān)分析第1步 分析:這4個(gè)氣候因素彼此均有影響,分析時(shí)應(yīng)對生長量與4個(gè)氣候因素分別求偏相關(guān),如在求生長量與氣候因素的相關(guān)時(shí)控制其他因素的影響。所以需進(jìn)行偏相關(guān)分析;第2步 數(shù)據(jù)組織:如上表定義4個(gè)變量,輸入數(shù)據(jù)即可;第3步 進(jìn)行偏相關(guān)分析:選擇菜單“分析相關(guān)雙變量”,指定分析變量和控制變量,分析變量“hgrow”和“temp”的偏相關(guān)系數(shù),并將“rain”、“hsun”、“humi”設(shè)為控制變量。如下圖所示設(shè)置。2021/8/23精品 PPT 模板18第4步 主要結(jié)果及分析。7.3 偏相關(guān)分析偏相關(guān)分析從中可以看出,月降
11、雨量、月平均日照時(shí)數(shù)和月平均濕度為控制變量,生長量與月平均氣溫關(guān)系密切,偏相關(guān)系數(shù)為0.977,雙尾檢測的相伴概率為0.000(表示趨近于0的正數(shù)),明顯小于顯著性水平0.05。故應(yīng)拒絕原假設(shè),說明中山柏的生長量與氣溫間存在顯著的相關(guān)性。控制變量生長量月平均氣溫月降雨量&月平均日照時(shí)數(shù)&月平均濕度生長量相關(guān)性1.000.977顯著性(雙側(cè)).000df07月平均氣溫相關(guān)性.9771.000顯著性(雙側(cè)).000.df702021/8/23精品 PPT 模板19主要內(nèi)容主要內(nèi)容7.1 相關(guān)分析簡介相關(guān)分析簡介7.2 兩變量相關(guān)分析兩變量相關(guān)分析7.3 偏相關(guān)分析偏相關(guān)分析7.4 距離分析距離分析
12、2021/8/23精品 PPT 模板20(1)基本概念 距離分析是對觀測量之間相似或不相似程度的一種測度,是計(jì)算一對觀測量之間的廣義距離。這些相似性或距離測度可以用于其他分析過程,例如因子分析、聚類分析或多維定標(biāo)分析,有助于分析復(fù)雜的數(shù)據(jù)集。(2)統(tǒng)計(jì)原理u不相似性測度l對定距數(shù)據(jù)的不相似性(距離)測度可以使用的統(tǒng)計(jì)量有:歐幾里得距離、平方歐氏距離、切比雪夫距離、Block距離、明可斯基距離等。l對定序數(shù)據(jù),主要使用卡方不相似測度和斐方測度。l對二值(只有兩種取值)數(shù)據(jù)變量之間的距離描述,使用歐氏距離、平方歐氏距離、尺寸差異、模式差異、方差、形或蘭斯和威廉斯等距離統(tǒng)計(jì)量。7.4 距離分析距離分
13、析2021/8/23精品 PPT 模板21u相似性測度l 對于定距數(shù)據(jù)主要使用皮爾遜相關(guān)系數(shù)和夾角余弦距離;l 對于二值數(shù)據(jù)的相似性測度主要包括簡單匹配系數(shù)、Jaccard相似性指數(shù)、Hamann相似性測度等20余種。7.4 距離分析距離分析其中的距離又分為個(gè)案(觀測記錄)之間的距離和變量之間的距離兩種。(3)(3)分析步驟分析步驟 距離分析中不存在假設(shè)檢驗(yàn)問題,主要是通過SPSS自動計(jì)算變量或個(gè)案之間的相似性或不相似性距離,根據(jù)其計(jì)算距離值的大小來確定變量或個(gè)案之間的相似性或不相似性的強(qiáng)弱。2021/8/23精品 PPT 模板22(4)SPSS實(shí)現(xiàn)舉例【例7-4】已知我國四城市2004年各月
14、的日照時(shí)數(shù)如下表所示,請分析各城市日照數(shù)是否近似。7.4 距離分析距離分析月份 北京天津 石家莊 大連 月份北京天津 石家莊 大連1194.7 161.7193.8163.57203.2 179.5185.4228.52213.5 185.2219.2195.38187.4 149.8152.11743243.6 166.8220.9223.19198.9 178.7203.4202.74248.2 214.3240.9276.910225.2 194.7220.7228.45253.3221277.9243.411201.4 172.8197.5172.96202182.5213.41901
15、2144119.197.91672021/8/23精品 PPT 模板23第1步 分析:這是考查4個(gè)城市的日照時(shí)數(shù)是否相似的問題,可用距離分析實(shí)現(xiàn)。既可以計(jì)算其相似性測度,亦可計(jì)算其不相似性測度;第2步 數(shù)據(jù)組織:分別定義的變量:month”(月份)(用字符型變量)、“Beijing”(北京)、“Tianjin”(天津)、“ShiJZ”(石家莊)、“Dalian”(大連)。7.4 距離分析距離分析2021/8/23精品 PPT 模板247.4 距離分析距離分析第3步 進(jìn)行距離分析:選擇菜單“分析相關(guān)距離”,彈出下圖所示的“距離”對話框,將4個(gè)變量(“北京”、“天津”、“石家莊”、“大連”)移入“
16、變量”框中進(jìn)行相似性度量計(jì)算;在“計(jì)算距離”組中選中“個(gè)案間”單選框,進(jìn)行變量間的距離分析;在“度量標(biāo)準(zhǔn)”單選框組中選中不相似性,求解其不相似性度量。2021/8/23精品 PPT 模板25第4步 主要結(jié)果及分析。7.4 距離分析距離分析表格的第一行(Euclidean 距離)說明采用的是歐氏距離。這是一個(gè)對稱矩陣,當(dāng)兩變量的歐氏距離越大,說明其差別越大,反之越小。從表中可看出“北京”和“大連”的日照數(shù)最接近,而“北京”和“天津”的日照數(shù)相差最大。Euclidean 距離北京天津石家莊大連北京.000122.93371.28070.542天津122.933.000111.350121.427石
17、家莊71.280111.350.000110.928大連70.542121.427110.928.000這是一個(gè)不相似性矩陣。2021/8/23精品 PPT 模板26The End2021/8/23精品 PPT 模板279、人的價(jià)值,在招收誘惑的一瞬間被決定。22.7.2022.7.20Wednesday,July 20,202210、低頭要有勇氣,抬頭要有低氣。*7/20/2022 9:26:15 PM11、人總是珍惜為得到。22.7.20*Jul-2220-Jul-2212、人亂于心,不寬余請。*Wednesday,July 20,202213、生氣是拿別人做錯的事來懲罰自己。22.7.2
18、022.7.20*July 20,202214、抱最大的希望,作最大的努力。2022年7月20日星期三*22.7.2015、一個(gè)人炫耀什么,說明他內(nèi)心缺少什么。2022年7月*22.7.20*July 20,202216、業(yè)余生活要有意義,不要越軌。*7/20/202217、一個(gè)人即使已登上頂峰,也仍要自強(qiáng)不息。*22.7.20謝謝大家謝謝大家2021/8/23289、人的價(jià)值,在招收誘惑的一瞬間被決定。22.7.2022.7.20Wednesday,July 20,202210、低頭要有勇氣,抬頭要有低氣。*7/20/2022 9:26:15 PM11、人總是珍惜為得到。22.7.20*Jul-2220-Jul-2212、人亂于心,不寬余請。*Wednesday,July 20,202213、生氣是拿別人做錯的事來懲罰自己。22.7.2022.7.20*July 20,202214、抱最大的希望,作最大的努力。2022年7月20日星期三*22.7.2015、一個(gè)人炫耀什么,說明他內(nèi)心缺少什么。2022年7月*22.7.20*July 20,202216、業(yè)余生活要有意義,不要越軌。*7/20/202217、一個(gè)人即使已登上頂峰,也仍要自強(qiáng)不息。*22.7.20謝謝大家謝謝大家