Administrator
发布于 2026-06-05 / 9 阅读
0
0

04 - 统计


知识点一 随机抽样

1. 总体、个体、样本的概念

概念 定义
总体 所要考察对象的全体
个体 组成总体的每一个考察对象
样本 从总体中抽取的一部分个体
样本容量 样本中个体的数目
抽样 从总体中抽取样本的过程

💡 说明:统计的核心思想——用样本推断总体。


2. 简单随机抽样

(1) 定义与特点

简单随机抽样:一般地,设一个总体含有 N 个个体,从中逐个不放回地抽取 n 个个体作为样本(n ≤ N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样。

特点 说明
有限性 总体中的个体数是有限的
逐一抽取 逐一抽取,不放回
等可能性 每个个体被抽到的可能性相等

(2) 常见方法

方法 操作方式 适用场景
抽签法 将个体编号,制成签,搅拌均匀后抽取 总体容量较小
随机数法 利用随机数表或计算机生成随机数来抽取 总体容量较大

💡 抽样的公平性:简单随机抽样中,每个个体被抽入样本的概率都相等(等概率性)。


3. 分层抽样

(1) 定义

分层抽样:将总体按照某种特征分成若干互不重叠的部分(),然后从每一层中独立地按照该层个体数占总体个体数的比例进行简单随机抽样,将各层抽取的个体合在一起作为样本。

(2) 分层抽样的步骤

  1. 分层:按某种特征将总体分为互不交叉的若干层
  2. 确定比例:计算各层个体数与总体的比例
  3. 分配样本量:按比例确定各层抽样数:ni = n × (Ni)/(N)
  4. 抽取:在各层中独立进行简单随机抽样
  5. 合并:各层样本合并即为总样本

(3) 分层抽样的特点

特点 说明
代表性更强 样本结构与总体结构更接近,估计更准确
适用于差异明显的总体 层间差异大,层内差异小时效果好
各层独立 各层独立抽样,互不影响

💡 分层原则:层内差异尽可能小,层间差异尽可能大。


4. 抽样方法的比较

比较维度 简单随机抽样 分层抽样
适用条件 总体中个体差异不大 总体由差异明显的几部分组成
操作方式 直接随机抽取 先分层再按比例抽取
样本代表性 较好 更好(结构匹配总体)
共同点 抽样过程中每个个体被抽到的概率相等 抽样过程中每个个体被抽到的概率相等

知识点二 用样本估计总体

1. 频率分布直方图

(1) 制作步骤

  1. 求极差:最大数据 - 最小数据
  2. 决定组距和组数
  3. 组数 k = (极差)/(组距),适当取整
  4. 一般数据越多,组数也应越多(通常 5~12 组)
  5. 分组:确定各组分点(通常左闭右开)
  6. 列频率分布表
  7. 绘制频率分布直方图

(2) 频率分布直方图的特征

在频率分布直方图中:

纵轴表示 (频率)/(组距)
  • 小长方形的面积 = 该组的频率
  • 所有小长方形的面积之和 = 1

⚠️ 易错点:频率分布直方图中,纵坐标是 (频率)/(组距),不是频率!小长方形的高 = (频率)/(组距),面积才是频率。


2. 频率分布折线图

连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图。

随着样本容量的增加、组距的减小,频率分布折线图趋于一条光滑曲线——总体密度曲线


3. 平均数、中位数、众数

(1) 定义

数字特征 定义 特点
平均数 所有数据的和除以数据的个数 反映数据的平均水平,受极端值影响大
中位数 将数据从小到大排列,位于中间位置的数 不受极端值的影响
众数 数据中出现次数最多的数 可能有多个,不受极端值影响

(2) 计算公式

平均数(样本均值)x

x = (x1 + x2 + ·s + xn)/(n) = (1)/(n)∑i=1n xi

中位数的求法: - 数据为奇数个:中间位置的那个数 - 数据为偶数个:中间两个数的平均数


(3) 从频率分布直方图估计数字特征

数字特征 估算方法
众数 取最高矩形的中点(即最大的那组的中点)
中位数 使左右两边的面积各为 0.5 的横坐标
平均数 各组中点值 × 该组频率之和

4. 方差与标准差

(1) 定义

数字特征 定义 作用
方差 s2 = (1)/(n)∑i=1n (xi - x)2 衡量数据的波动程度
标准差 s = √(s2) 方差的正平方根,具有与原始数据相同的单位

💡 说明:方差(或标准差)越大,数据波动越大,越不稳定;方差越小,数据越集中、越稳定。


(2) 方差的性质

若数据 x1, x2, ..., xn 的方差为 s2,则:

变换 方差变化
同时加常数 a 方差不变
同时乘常数 k 方差变为 k2 s2
kx + b 变换 方差变为 k2 s2

💡 实用公式(方差简化计算):s2 = (1)/(n)∑ xi2 - x2


5. 茎叶图

茎叶图是统计中用来表示数据的一种图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数。

优点:茎叶图既能保留原始数据信息(不丢失任何数据),又能直观反映数据的分布特征。


重点例题

例题1 分层抽样的计算

题目:某校有高中学生 900 人,其中高一 400 人,高二 300 人,高三 200 人。现采用分层抽样的方法抽取容量为 45 的样本,那么高一、高二、高三各应抽取多少人?

解析: 抽样比例为 (45)/(900) = (1)/(20)

  • 高一:400 × (1)/(20) = 20(人)
  • 高二:300 × (1)/(20) = 15(人)
  • 高三:200 × (1)/(20) = 10(人)

验证:20 + 15 + 10 = 45

答案:高一 20 人,高二 15 人,高三 10 人


例题2 频率分布直方图的读取

题目:某校 100 名学生的数学测试成绩的频率分布直方图中,[80, 90) 组距为 10 的矩形高为 0.025,求成绩在 [80, 90) 内的人数。

解析[80, 90) 的频率 = 小矩形面积 = 组距 × (频率)/(组距) = 10 × 0.025 = 0.25

人数 = 100 × 0.25 = 25(人)

答案:25 人


例题3 平均数与方差的计算

题目:已知样本数据 2, 4, 6, 8, 10,求其平均数和方差。

解析

{aligned} x &= (2 + 4 + 6 + 8 + 10)/(5) = (30)/(5) = 6 \\[8pt] s2 &= (1)/(5)[(2-6)2 + (4-6)2 + (6-6)2 + (8-6)2 + (10-6)2] \\ &= (1)/(5)(16 + 4 + 0 + 4 + 16) = (40)/(5) = 8 {aligned}

答案:平均数为 6,方差为 8(标准差 s = 2√2


易错点提醒

  • ⚠️ 频率分布直方图的纵轴:纵轴是 (频率)/(组距),不是频率。面积才是频率,高不是频率!
  • ⚠️ 分层抽样中不能忘了比例:各层抽取的个体数必须与各层在总体中的占比一致
  • ⚠️ 简单随机抽样必须是"不放回"的:逐个抽取且不放回,保证每个个体等可能被抽到
  • ⚠️ 方差与平均数的关系:方差的计算必须先求平均数,为一个数据整体加上同一常数,方差不变
  • ⚠️ 中位数与平均数的区别:平均数受极端值影响,中位数不受极端值影响,要根据实际情况选择合适的统计量

方法技巧

1. 选择抽样方法的原则

场景 推荐方法
总体中个体无明显差异 简单随机抽样
总体由差异明显的几部分组成 分层抽样

💡 关键判断点:总体的内部结构是否"差异明显"。


2. 从直方图估算数字特征

  1. 众数:最高小矩形的中点横坐标
  2. 中位数:面积累计到 50% 处的横坐标(需用面积比例法插值估算)
  3. 平均数∑(各组中点 × 该组频率)

3. 数据整理与展示的方法选择

数据类型 适宜图表
连续型数据(身高、体重、成绩等) 频率分布直方图
少量数据 茎叶图(可同时保留原始数据和分布情况)
需要展示变化趋势 频率分布折线图

本章知识框架

第9章 统计
├── 随机抽样
│   ├── 基本概念(总体、个体、样本、样本容量)
│   ├── 简单随机抽样
│   │   ├── 抽签法
│   │   ├── 随机数法
│   │   └── 特点:等概率、不放回
│   ├── 分层抽样
│   │   ├── 定义与步骤
│   │   ├── 抽样比例计算
│   │   └── 适用场景:差异明显的总体
│   └── 两种抽样方法的比较
├── 用样本估计总体
│   ├── 频率分布直方图
│   │   ├── 制作步骤(求极差、分组、列频率分布表、画图)
│   │   ├── 重要特征:面积 = 频率
│   │   └── 频率分布折线图与总体密度曲线
│   ├── 数字特征
│   │   ├── 平均数(受极端值影响)
│   │   ├── 中位数(不受极端值影响)
│   │   ├── 众数(不受极端值影响)
│   │   ├── 方差与标准差(衡量波动程度)
│   │   └── 方差的性质
│   ├── 从直方图中估计数字特征
│   └── 茎叶图
└── 统计思想
    └── 用样本推断总体的核心思想

📌 笔记区


本文档由 AI 辅助生成,仅供参考学习使用

随堂测验

阅读完文章后,来检验一下掌握程度吧

随堂测验

阅读完文章后,来检验一下你的掌握程度吧

-- 道题目
-- 选择题
-- 判断题

评论