知识点1 回归分析
1. 相关关系
两个变量之间的关系可以分为两类: - 函数关系:确定性关系,如圆周长 C = 2πr; - 相关关系:非确定性关系,如身高与体重的关系——身高相同的人体重不一定相同。
当一个变量的取值发生变化时,另一个变量的取值也大体上以某种方式发生变化,但不存在严格的函数关系,这种关系称为相关关系。
💡 说明:相关关系是统计学研究的重要内容,回归分析是处理变量之间相关关系的一种数学方法。
2. 散点图
将成对样本数据 (x₁, y₁), (x₂, y₂), …, (xₙ, yₙ) 描在平面直角坐标系中得到的图形称为散点图。通过散点图可以初步判断两个变量之间是否具有相关关系以及相关关系的类型。
3. 回归直线方程
对于具有线性相关关系的两个变量,可以用一条直线来近似表示它们之间的关系:
其中:
简便计算公式:
其中 x̄ = (1/n)Σ xᵢ,ȳ = (1/n)Σ yᵢ。
💡 说明:回归直线方程是通过最小二乘法得到的,即选择 a, b 使所有观测点到回归直线的竖直距离的平方和最小。
这条直线一定经过样本中心点 (x̄, ȳ)。
4. 相关系数 r
对于变量 x 与 y,其样本的相关系数为:
⚠️ 注意:相关系数 r 的取值范围是 [-1, 1]。
5. 相关系数的意义
| r 的取值 | 含义 |
|---|---|
| r > 0 | 正相关(一个变量增大,另一个也增大) |
| r < 0 | 负相关(一个变量增大,另一个减小) |
| r = 0 | 无线性相关关系 |
| |r| = 1 | 完全线性相关(观测点完全在一条直线上) |
| |r| 越接近 1 | 线性相关程度越强 |
| |r| 越接近 0 | 线性相关程度越弱 |
💡 说明:通常当 |r| > 0.75 时,认为两个变量有很强的线性相关关系。但 r = 0 不代表没有其他形式的相关关系(如曲线相关)。
6. 线性回归分析的基本步骤
- 画散点图,判断是否有线性相关趋势;
- 计算回归系数 b̂ 和 â,得出回归直线方程;
- 计算相关系数 r,检验线性相关的强弱;
- 利用回归方程进行预测。
例:已知 x 与 y 的5组数据:(1,2), (2,4), (3,5), (4,5), (5,8),求 y 关于 x 的回归直线方程。
解:x̄ = 3, ȳ = 4.8, Σ xᵢ² = 55, Σ xᵢyᵢ = 85, b̂ = (85 - 5×3×4.8) / (55 - 5×9) = 13/10 = 1.3, â = 4.8 - 1.3×3 = 0.9。
故回归方程为 ŷ = 1.3x + 0.9。
知识点2 独立性检验
1. 分类变量
分类变量是一种特殊的变量,其取值是不同类别,如性别(男/女)、是否吸烟(是/否)、产品等级(优/良/中/差)等。
2. 2×2 列联表
假设有两个分类变量 X 和 Y,它们的取值分别为 {x₁, x₂} 和 {y₁, y₂},其样本频数列联表(2×2列联表)为:
| y₁ | y₂ | 总计 | |
|---|---|---|---|
| x₁ | a | b | a + b |
| x₂ | c | d | c + d |
| 总计 | a + c | b + d | n = a + b + c + d |
3. 独立性检验的基本思想
独立性检验是判断两个分类变量之间是否有关系的一种统计方法。其基本思想是基于反证法与小概率原理:
- 首先假设两个分类变量独立(没有关系)——即 H₀(原假设);
- 在此假设下,构造一个统计量 χ²(读作"卡方");
- 如果计算出的 χ² 值很大,说明实际观测值与理论期望值差异很大,有理由拒绝原假设,认为两个变量之间不独立(有关系);
- 反之,则没有充分理由拒绝原假设。
4. χ² 统计量(卡方统计量)
对于 2×2 列联表中的数据:
其中 n = a + b + c + d。
💡 说明:χ² 的值越大,说明实际观测值与理论值(独立性假设下的期望值)差异越大,越有理由拒绝原假设。
5. 独立性检验的判断标准
| 显著性水平 α | 临界值 | 判断规则 |
|---|---|---|
| 0.10 | 2.706 | χ² ≥ 2.706 → 有 90% 把握认为相关 |
| 0.05 | 3.841 | χ² ≥ 3.841 → 有 95% 把握认为相关 |
| 0.01 | 6.635 | χ² ≥ 6.635 → 有 99% 把握认为相关 |
| 0.001 | 10.828 | χ² ≥ 10.828 → 有 99.9% 把握认为相关 |
⚠️ 注意: - 若 χ² < 3.841,则没有充分理由认为两个变量有关系 - 若 χ² ≥ 3.841,则有 95% 的把握认为两个变量有关系 - "有 95% 的把握"不等于"有 95% 的概率",这是频率学派的解释
6. 独立性检验的步骤
- 提出假设:H₀:两个分类变量独立(没有关系)
- 计算 χ² 值:根据 2×2 列联表中的数据计算
- 查表比较:将 χ² 值与临界值比较
- 得出结论:做出统计推断
例:为研究吸烟与患肺癌是否有关,调查了 100 人,结果如下:
| 患肺癌 | 未患肺癌 | 总计 | |
|---|---|---|---|
| 吸烟 | 20 | 30 | 50 |
| 不吸烟 | 5 | 45 | 50 |
| 总计 | 25 | 75 | 100 |
解:χ² = 100 × (20×45 - 30×5)² / (50×50×25×75) = 100 × 750² / 4687500 ≈ 12.0
因为 12.0 > 6.635,所以有 99% 的把握认为吸烟与患肺癌有关系。
易错点提醒
- ⚠️ 相关关系 ≠ 因果关系:两个变量存在相关关系,不一定是一个变量导致了另一个变量的变化。例如冰淇淋销量和溺水人数可能正相关,但它们都是由气温这个共同因素导致的
- ⚠️ 相关系数 r = 0:只说明没有线性相关关系,不代表没有任何相关关系(可能存在非线性相关)
- ⚠️ 回归方程的预测:回归方程只适用于样本数据范围内的预测,不能随意外推
- ⚠️ 回归直线过样本中心点:回归直线一定经过点 (x̄, ȳ),可以用此性质检验计算结果
- ⚠️ χ² 的计算:列联表中 a, b, c, d 的位置要对应正确,不要搞混
- ⚠️ 独立性检验的结论表述:说"有 95% 的把握认为两个变量有关系",不能说"两个变量有 95% 的概率有关系"
- ⚠️ 最小二乘法:回归直线使纵向距离的平方和最小,不是垂直距离
方法技巧
1. 回归分析解题策略
- 先画散点图:直观判断变量间的关系类型(线性/非线性)
- 计算回归系数:利用简便公式 b̂ = (Σ xᵢyᵢ - n·x̄·ȳ) / (Σ xᵢ² - n·x̄²)
- 验证中心点:回归直线必过 (x̄, ȳ),可用此检验
- 判断相关性:计算 r 值,|r| 越接近 1,线性相关越强
2. 独立性检验解题策略
- 列 2×2 列联表:确保数据对应正确
- 计算 χ²:代入公式 χ² = n(ad - bc)² / [(a+b)(c+d)(a+c)(b+d)]
- 与临界值比较:常用 α = 0.05 对应 3.841
- 规范表述结论:用"有 ×% 的把握认为……"
3. 非线性回归的转化
对于非线性关系,可以通过变量替换转化为线性回归:
| 原始关系 | 变量替换 | 转化后的线性关系 |
|---|---|---|
| y = a · e^(bx) | 令 u = ln y | u = ln a + bx |
| y = a · x^b | 令 u = ln y, v = ln x | u = ln a + bv |
| y = a + b/x | 令 u = 1/x | y = a + bu |
本章知识框架
选择性必修三·第三章 统计案例
├── 回归分析
│ ├── 相关关系(与函数关系的区别)
│ ├── 散点图
│ ├── 回归直线方程
│ │ ├── 最小二乘法
│ │ ├── 回归系数公式
│ │ └── 样本中心点 (x̄, ȳ)
│ ├── 相关系数 r
│ │ ├── 取值范围 [-1, 1]
│ │ └── |r| 越大,线性相关越强
│ └── 线性回归分析步骤
└── 独立性检验
├── 分类变量
├── 2×2 列联表
├── χ² 统计量
│ ├── 公式
│ └── 临界值表
├── 独立性检验步骤
└── 结论表述规范
课后练习
1. 已知 x 与 y 的4组数据:(1,1), (2,3), (3,5), (4,7),求 y 关于 x 的回归直线方程。
2. 已知回归方程 ŷ = 0.5x + 3,且 x̄ = 4,求 ȳ。
3. 两个变量 x, y 的相关系数 r = 0.92,下列说法正确的是( ) - A. x 增大时 y 一定增大 - B. x 与 y 有很强的线性相关关系 - C. x 与 y 是因果关系 - D. x 与 y 没有任何关系
4. 为研究性别与是否喜欢数学的关系,调查了 200 名学生,结果如下:
| 喜欢数学 | 不喜欢数学 | 总计 | |
|---|---|---|---|
| 男生 | 60 | 40 | 100 |
| 女生 | 50 | 50 | 100 |
| 总计 | 110 | 90 | 200 |
能否有 95% 的把握认为性别与是否喜欢数学有关系?
5. 已知 Σ xᵢ = 20, Σ yᵢ = 40, Σ xᵢ² = 120, Σ xᵢyᵢ = 210, n = 5,求回归直线方程。
参考答案
1. x̄ = 2.5, ȳ = 4, Σ xᵢ² = 30, Σ xᵢyᵢ = 46,b̂ = (46 - 4×2.5×4)/(30 - 4×6.25) = 6/5 = 1.2,â = 4 - 1.2×2.5 = 1,回归方程 ŷ = 1.2x + 1。
2. 回归直线过 (x̄, ȳ),故 ȳ = 0.5×4 + 3 = 5。
3. B。(r = 0.92 接近 1,说明有很强的线性相关关系,但不是因果关系,也不能保证每次 x 增大 y 都增大)
4. χ² = 200 × (60×50 - 40×50)² / (100×100×110×90) = 200 × 1000000 / 990000000 ≈ 2.02。因为 2.02 < 3.841,所以没有 95% 的把握认为性别与是否喜欢数学有关系。
5. x̄ = 4, ȳ = 8, b̂ = (210 - 5×4×8)/(120 - 5×16) = 50/40 = 1.25,â = 8 - 1.25×4 = 3,回归方程 ŷ = 1.25x + 3。
📌 笔记区
本文档由 AI 辅助生成,仅供参考学习使用