卡方檢驗的基本思想如下: **一、理論基礎** 卡方檢驗是以卡方分布為基礎的一種假設檢驗方法。卡方分布是一種連續型概率分布,它與標準正態分布有密切關系,隨著自由度的增加逐漸趨于對稱。 **二、比較實際觀測值與理論期望值** 1. 建立假設: - 首先提出原假設和備擇假設。原假設通常是變量之間相互獨立,沒有關聯;備擇假設則是變量之間存在關聯。 - 例如,研究吸煙與患肺癌是否有關聯,原假設為吸煙與患肺癌相互獨立,備擇假設為吸煙與患肺癌有關聯。 2. 確定期望頻數: - 在原假設成立的情況下,根據樣本的總數以及各個類別的理論比例,計算出每個單元格的期望頻數。 - 例如,在一個研究中,總共有\(n\)個樣本,分為吸煙和不吸煙兩組,患肺癌和未患肺癌兩組。如果吸煙與患肺癌相互獨立,那么吸煙且患肺癌的期望頻數就是(吸煙的人數\(\times\)患肺癌的人數)\(/n\)。 3. 計算卡方統計量: - 比較實際觀測到的頻數與期望頻數的差異,計算卡方統計量。卡方統計量的計算公式為\(\chi^{2}=\sum\frac{(O-E)^{2}}{E}\),其中\(O\)是實際觀測頻數,\(E\)是期望頻數。 - 對每個單元格分別計算\((O-E)^{2}/E\)的值,然后將所有單元格的值相加得到卡方統計量。卡方值反映了實際觀測值與理論期望值之間的偏離程度。 4. 進行推斷: - 根據卡方統計量和自由度確定對應的概率值(\(p\)值)。自由度的計算與表格的行數和列數有關。 - 如果\(p\)值小于給定的顯著性水平(通常為\(0.05\)),則拒絕原假設,認為變量之間存在關聯;如果\(p\)值大于顯著性水平,則不拒絕原假設,即認為變量之間相互獨立。 總之,卡方檢驗通過比較實際觀測值與理論期望值之間的差異,來判斷兩個或多個分類變量之間是否存在關聯。