統計學是應用數學的一個分支,主要通過利用概率論建立數學模型,收集所觀察系統的數據,進行量化的分析、總結,併進而進行推斷和預測,為相關決策提供依據和參考。它被廣泛的應用在各門學科之上,從物理和社會科學到人文科學,甚至被用來工商業及政府的情報決策之上。
統計學主要又分為描述統計學和推斷統計學。給定一組數據,統計學可以摘要並且描述這份數據,這個用法稱作為描述統計學。另外,觀察者以數據的形態建立出一個用以解釋其隨機性和不確定性的數學模型,以之來推論研究中的步驟及母體,這種用法被稱做推論統計學。這兩種用法都可以被稱作為應用統計學。另外也有一個叫做數理統計學的學科專門用來討論這門科目背後的理論基礎。
統計學的英文statistics最早是源於現代拉丁文statisticum collegium (國會)以及義大利文 statista (國民或政治家)。 德文Statistik,最早是由Gottfried Achenwall(1749)所使用,代表對國家的資料進行分析的學問,也就是「研究國家的科學」。在十九世紀統計學在廣泛的數據以及資料中探究其意義,並且由John Sinclair引進到英語世界。
統計學是一門很古老的科學,一般認為其學理研究始於古希臘的亞里斯多德時代,迄今已有兩千三百多年的歷史。它起源於研究社會經濟問題,在兩千多年的發展過程中,統計學至少經歷了"城邦政情","政治算數"和"統計分析科學"三個發展階段。所謂"數理統計"並非獨立於統計學的新學科,確切地說它是統計學在第三個發展階段所形成的所有收集和分析數據的新方法的一個綜合性名詞。概率論是數理統計方法的理論基礎,但是它不屬於統計學的範疇,而屬於數學的範疇。
統計學的發展過程的三個階段
第一階段稱之為"城邦政情"(Matters of state)階段
"城邦政情"階段始於古希臘的亞里斯多德撰寫"城邦政情"或"城邦紀要"。他一共撰寫了一百五十餘種紀要,其內容包括各城邦的歷史,行政,科學,藝術,人口,資源和財富等社會和經濟情況的比較,分析,具有社會科學特點。"城邦政情"式的統計研究延續了一兩千年,直至十七世紀中葉才逐漸被"政治算數"這個名詞所替代,並且很快被演化為"統計學"(Statistics)。統計學依然保留了城邦(state)這個詞根。
第二階段稱之為"政治算數"(Politcal arthmetic)階段
與"城邦政情"階段沒有很明顯的分界點,本質的差別也不大。
"政治算數"的特點是統計方法與數學計算和推理方法開始結合。分析社會經濟問題的方式更加註重運用定量分析方法。
1690年英國威廉·配弟出版 (政治算數)一書作為這個階段的起始標誌.
威廉・配弟用數字,重量和尺度將社會經濟現象數量化的方法是近代統計學的重要特徵。因此,威廉・配弟的(政治算數)被後來的學者評價為近代統計學的來源,威廉・配弟本人也被評價為近代統計學之父。
配弟在書中使用的數字有三類:
第一類是對社會經濟現象進行統計調查和經驗觀察得到的數字.因為受歷史條件的限制,書中通過嚴格的統計調查得到的數據少,根據經驗得出的數字多;
第二類是運用某種數學方法推算出來的數字。其推算方法可分為三種:
"(1)以已知數或已知量為基礎,循著某種具體關係進行推算的方法;
(2)通過運用數字的理論性推理來進行推算的方法;
(3)以平均數為基礎進行推算的方法";
第三類是為了進行理論性推理而採用的例示性的數字.配弟把這種運用數字和符號進行的推理稱之為"代數的演算法"。從配弟使用數據的方法看,"政治算數"階段的統計學已經比較明顯地體現了"收集和分析數據的科學和藝術"特點,統計實證方法和理論分析方法渾然一體,這種方法即使是現代統計學也依然繼承。
第三階段稱之為"統計分析科學"(Science of statistical analysis)階段
在"政治算數"階段出現的統計與數學的結合趨勢逐漸發展形成了"統計分析科學"。
十九世紀末,歐洲大學開設的"國情紀要"或"政治算數"等課程名稱逐漸消失,代之而起的是"統計分析科學"課程.當時的"統計分析科學"課程的內容仍然是分析研究社會經濟問題。
"統計分析科學"課程的出現是現代統計發展階段的開端. 1908年,"學生"氏(William Sleey Gosset的筆名Student)發表了關於t分佈的論文,這是一篇在統計學發展史上劃時代的文章。它創立了小樣本代替大樣本的方法,開創了統計學的新紀元。
現代統計學的代表人物首推比利時統計學家奎特萊(Adolphe Quelet),他將統計分析科學廣泛應用於社會科學,自然科學和工程技術科學領域,因為他深信統計學是可以用於研究任何科學的一般研究方法.
現代統計學的理論基礎概率論始於研究賭博的機遇問題,大約開始於1477年。數學家為瞭解釋支配機遇的一般法則進行了長期的研究,逐漸形成了概率論理論框架。在概率論進一步發展的基礎上,到十九世紀初,數學家們逐漸建立了觀察誤差理論,正態分佈理論和最小平方法則。於是,現代統計方法便有了比較堅實的理論基礎。
為了將統計學應用到科學,工業以及社會問題上,我們由研究母體開始。這可能是一個國家的人民,石頭中的水晶,或者是某家特定工廠所生產的商品。一個母體甚至可能由許多次同樣的觀察程式所組成;由這種資料蒐集所組成的母體我們稱它叫時間序列。
為了實際的理由,我們選擇研究母體的子集代替研究母體的每一筆資料,這個子集稱做樣本。以某種經驗設計實驗所蒐集的樣本叫做資料。資料是統計分析的對象,並且被用做兩種相關的用途:描述和推論。
描述統計學處理有關敘述的問題:資料是否可以被有效的摘要,不論是以數學或是圖片表現,以用來代表母體的性質?基礎的數學描述包括了平均數和標準差。圖像的摘要則包含了許多種的表和圖。
推論統計學被用來將資料中的數據模型化,計算它的機率並且做出對於母體的推論。這個推論可能以對/錯問題的答案所呈現(假設檢定),對於數字特徵量的估計(估計),對於未來觀察的預測,關聯性的預測(相關性),或是將關係模型化(回歸)。其他的模型化技術包括變異數分析(ANOVA),時間序列,以及資料採礦。
相關的觀念特別值得被拿出來討論。對於資料集合的統計分析可能顯示兩個變數(母體中的兩種性質)傾向於一起變動,好像它們是相連的一樣。舉例來說,對於人收入和死亡年齡的研究期刊可能會發現窮人比起富人平均來說傾向擁有較短的生命。這兩個變數被稱做相關的。但是實際上,我們不能直接推論這兩個變數中有因果關係;參見相關性推論因果關係(邏輯謬誤)。
如果樣本足以代表母體的,那麼由樣本所做的推論和結論可以被引申到整個母體之上。最大的問題在於決定樣本是否足以代表 整個母體。統計學提供了許多方法來估計和修正樣本和蒐集資料過程中的隨機性(誤差),如同上面所提到的透過經驗所設計的實驗。參見實驗設計。
要瞭解隨機性或是機率必須具備基本的數學觀念。數理統計(通常又叫做統計理論)是應用數學的分支,它使用機率論來分析並且驗證統計的理論基礎。
任何統計方法是有效的只有當這個系統或是所討論的母體滿足方法論的基本假設。誤用統計學可能會導致描述面或是推論面嚴重的錯誤,這個錯誤可能會影響社會政策,醫療實踐以及橋樑或是核能發電計劃結構的可靠性。
即使統計學被正確的應用,結果對於不是專家的人來說可能會難以陳述。舉例來說,統計資料中顯著的改變可能是由樣本的隨機變數所導致,但是這個顯著性可能與大眾的直覺相悖。人們需要一些統計的技巧(或懷疑)以面對每天日常生活中透過引用統計數據所獲得的資訊。
|