试验 E 只有两种结果:发生与不发生。这个试验独立重复做 50 次,观察这么一个大的试验最后 50 次 E 里事件发生的次数。例如:某人每天迟到的概率为 0.1,前一天迟不迟到不影响后一天,观察连续 50 天他迟到的总次数。这样的试验做 5000 次,也就是每 50 天观察一次记下结果。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
% 产生一组数据,服从参数 n=50, p=0.1 的二项分布。x 为一个尺寸为 5000x1 列向量。
x=binornd(50,0.1,5000,1);

% 归一化。
x=x/50;

%求 5000 个数据的期望。
mean(x)

% 求标准差。
std(x)

% 手动求标准差。公式应该是 sqrt(n*p*(1-p))=sqrt(50*0.1*0.9),但数据归一化了,所以标准差要再除以 50。
sqrt(50*0.1*0.9)/50

% 求中位数。
median(x)

% 求 IQR。
iqr(x)

% 求最小值和最大值。
[min(x) max(x)]

% 画两次直方图,组距分别为 51 和 31。
hist(x,51)
hist(x,31)

% 绘制统计直方图与其正态分布拟合曲线。
histfit(x,31)

% 画箱线图。
boxplot(x)

% 产生 5000x1 个服从正态分布,期望和方差与前面的二项分布数据相同的数据。
s=sqrt(0.9*0.1/50);
z=normrnd(0.1,s,5000,1);

% 把两个箱线图画在一个图上。
boxplot([x z])

% 求偏斜度。这个是什么?还没学到。
skewness(x)
skewness([x z])

这个例子说明了什么?中心极限定理有个棣莫弗–拉普拉斯定理,说由于二项分布可以看成大量独立的同分布随机变量之和,那么它们在 n 充分大的时候近似的服从与其期望和方差相同的正态分布。