《語言統計第四章離中趨勢與差異量數》由會員分享,可在線閱讀,更多相關《語言統計第四章離中趨勢與差異量數(30頁珍藏版)》請在裝配圖網上搜索。
1、單擊此處編輯母版標題樣式,*,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,第一節 離中趨勢與差異量數,一、離中趨勢的概念,二、差異量數的作用,三.主要的差異量數分類,第二節 兩極差,一、兩極差的概念,二、兩極差的求法,第三節 四分差,一、四分差的概念,二、四分差的求法,第四節 平均差,一、平均差的概念,二、平均差的求法,第五節 標準差與方差,一、標準差與方差的概念,二、標準差與方差的求法,第六節 標準差的應用數據的標準化,一、考分比較,二、標準化與標準分,三、標準分的應用,四、標準分與正態分布
2、和百分位的關系,第四章 離中趨勢與差異量數,第一節 離中趨勢與差異量數,一、離中趨勢的概念:,離中趨勢指的是一組數據的變異或離散程度。對離中趨勢進行度量的統計量稱作差異量數。離中趨勢的度量是描述統計的一個重要方面。,二、差異量數的作用:,1.能從另一個角度了解數據的性質。,2.有助于檢驗或說明集中量數的代表性,差異量數越大,集中量數的代表性就越小;,差異量數越小,集中量數的代表性就越大;,差異量數為零,那么說明數據中各個數值之間沒有任何差異,都等于平均數,平均數的代表性最大,三.主要的差異量數分類:,1.;兩極差 2.四分差 3.平均差 4.標注差與方差,舉個例子:,我們兩組假設的分數來舉個例
3、子:,第一組:60 75 78 80 82 85 100,第二組:74 77 80 80 80 83 86,兩組分數段餓平均差都是80,然而其離散程度卻差異很大,如果每組數據中的最大值與最小值之差來表示離散程度,那么第一組為100-60=40,第二組為86-74=12。兩者離散程度的不同說明其分數分布的差異;,第二節 兩極差,一、概念,兩極差也稱全距,用符號R表示。所謂兩極差就是一組數據中最高值與最低值之差。,二、兩極差的求法,R=最大數值-最小數值,三、小結:,1.兩極差是簡單而粗略的差異量數,2.不能反映中間數值的差異情況,也受兩極,端異常數值的影響。,3.可以作為數據分布的初步統計,在一
4、定程度上反映數據的差異情況前提是分布比較對稱、沒有極端數值,第三節 四分差,一、概念,四分差指一個分布中,中間50%的次數的全距之半,用符號Q表示。,正如中數把一個次數分布分成兩半那樣,有一些點把一個次數分布分成四等份,這些點稱作四分點或四分位數。第一個四分點或稱下25分點用Q1表示,其下有全部數值的1/4或25%,其上那么有全部數值的3/4或75%,其上那么有全部數值的1/4或25%。,二.四分差的求法,要求四分差,首先要求Q1和Q3的值。對于分組數據,用以下公式求之方法同中數的求法,其實中數就是第二個四分點,式中Lb-該四分點所在組的精確下限;,fQ1,fQ3-該四分點所在組的次數;,fb
5、-該四分點所在以下的累積次數;,N-數據中的數值個數;,i-組距,:N=100,i=5;,Q1的位置為N/4=25,即在1014組,該組的精確下限為9.5/,該組以下的累積次數(Fb為8;,我們下面以表,4.1,的分組數據未說明四分差的計算過程:,Q3的位置為3N/4=75,即在2529組,改組的精確下為24.5。該組以下的累積次數Fb)為72;,三、小結,分差不受兩極端值的影響,故兩極差穩定可靠,不能反映全部數據的差異情況,而且不適于代數運算,適用于兩極端數據不清,無法計算其他差異量數;,四分差常與中數結適宜用,第四節 平均差,一、概念,平均差:是指一組數據中各個數值與平均數之差的平均實質上
6、是用數值離開平均數的距離來表示離散程度,一般用符號AD表示。,二、平均差的求法:,平均差是基于算術平均數上的一個差異量數,而根據算術平均數的一個重要性質,一組數據中每個數值與算術平均數的差即離均差之和等于零即(),因此求平均差時,要取離均差的絕對值。,對于未分組數據,首先要計算每個數值的離均差,取其絕對值,然后把所有離均差相加,再除以數值的個數。公式表示如下:,例如10學生在一次完型填空練習中的得分為總分值20分,9,11,12,12,15,15,16,16,17,18,即以每組組中點代表該組各數值。首先計算組中點與平均數之差,取其絕對值,再乘以該組次數,然后把各組的計算結果累加,最后除以總次
7、數,N.,以表,4.2,中的數據為例,.,三、小結,1.,平均差的優點,平均差優于兩極差和四分差,用數值離開平均數數的平均距離來表示數據的分散程度,符合人們的常識,易于理解和接受。,它的計算考慮了每一個數值,因而穩定可靠,不易受極端數值的影響也不易受樣本變化的影響。,2.,缺點,計算過程中需要取絕對值等原因,它不適合代數方法的運算,因而在進一步的統計分析中很少使用。,第五節 標準差與方差,一、概念,標準差是度量離中趨勢的最常用的差異量數。作為樣本統計量的標準差一般用符號S或者SD表示,而作為總體參數的標準那么用希臘字母。標準差的平方即為方差,分別用符號S2(樣本統計量和2總體參數來表示。,二、
8、標準差與方差的求法,下面就從未分組數據原始數據、次數分布數據和分組次數分布數據三個方面討論一下標準差和方差的計算方法。,1.未分組數據標準差和方差的求法,第一步:計算個數值與平均數之差離均差,第二步:求離均差的平方,第三步:把平方離均差相加,求平方和“;,第四步:把平方和除以數值的個數,求得方差;,第五步:方差的平方根即為標準差。用公式表示:,顯然,由于涉及到平均數,上述公式使用起來很不方便;我們可以在上述的公式的根底上得出一個不涉及平均數的求標準差的公式:,下面我們仍用上例中的數據說明公式的用法,三個公式計算結果一樣,但計算過程要簡便得多。,2.,次數分布數據標準差和方差的求法:,如果已有次
9、數分布表,那么標準差和方差的計算將更加簡便。計算公式為:,3.,分組次數分布數據標準差和方差的求法,從分組次數分布數據標準差和方差的公式如下:,三、小結,標準差與方差的概念易于理解,適于代數運算,能反映所有數據的差異情況,不易受抽樣變動的影響。,第六節 標準差的應用,數據的標準化,標準差的重要應用之一是對數值型數據進行標準化。在語言和語言教學研究中,標準化處理的主要用途是便于對考試分數的比較。,一、考分比較,考分在各自分數組中所處的相對位置是可以進行比較的。雖然這同樣無法保證百分之百的可比性,但這至少為比較不同考試的分數找到了一個較為可靠的途徑。,二、標準化與標準分,我們可以用公式表示這一標準
10、化過程:,該式表示:先從一個分數中減去平均分,求出該分數離開平均分的距離分數低于平均數時,差為負數;反之為正數,然后再除以標準差,即得標準分。,標準分具有以下幾個特點:,三、標準分的應用,通過把原始分數轉換為標準分,原分數不見了,而代之以一個抽象的相對位置標準分無實際單位,這樣就可以用同一把尺子來衡量和比較不同考試因而不同質的分數。,利用標準分,可以把不同質的考試分數合成求和或平均數,然后再加以比較。,四、標準分與正態分布和百分位的關系,百分位是指把一組分數從高到低排列并分為100等分,以百分位等級表示某個分數在全局部數中所在的位置,即在全部考分仲有百分之幾的分數是低于該分數的或有百分之幾的分
11、數是高于該分數的。,百分位表是在累計次數分布表的根底上編制的,標準分就是通過標準化把一個成呈正態分布的變量轉換成標準正態分布。在正態分布的情況下,分布曲線下任意兩個標準之間的面積、任一標準以上的買年紀或任一標準差以下的面積在總面積中的百分比都是一樣的。,總結,離中趨勢指的是一組數據的變異或離散程度。對離中趨勢進行度量的統計量稱作差異量數。離中趨勢的度量是描述統計的一個重要方面。,本章首先介紹了差異量數的作用:1.能從另一個角度了解數據的性質。2.有助于檢驗或說明集中量數的代表性。,其次重點介紹了差異量數的四種分類以及各種分類的求法,這四種分類分別是:1.兩極差;2.四分差;3.平均差;4.標注差與方差。,最后論述了標準差的應用數據的標準化。而數據的標準化主要是指對考試分數的比較。,