数据的处理方法:标准化

0.源数据

下表给出某地区九个农业区的七项经济指标数据

区代号 人均耕地 劳均耕地 水田比重 复种指数 粮食亩产 人均粮食 稻谷占粮食比重
X1 X2 X3 X4 X5 X6 X7
G1 0.294 1.093 5.63 113.6 4510.5 1036.4 12.2
G2 0.315 0.971 0.39 95.1 2773.5 683.7 0.85
G3 0.123 0.316 5.28 148.5 6934.5 611.1 6.49
G4 0.179 0.527 0.39 111 4458 632.6 0.92
G5 0.081 0.212 72.04 217.8 12249 791.1 80.38
G6 0.082 0.211 43.78 179.6 8973 636.5 48.17
G7 0.075 0.181 65.15 194.7 10689 634.3 80.17
G8 0.293 0.666 5.35 94.9 3679.5 771.7 7.8
G9 0.167 0.414 2.9 94.8 4231.5 574.6 1.17

1.总和标准化

分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和

xij=xiji=1mxij(i=1,2,3,..,m;j=1,2,3,..,n)x'_{ij}=\frac{x_{ij}}{\sum_{i=1}^mx_{ij}}(i = 1,2,3,..,m;j = 1,2,3,..,n)

这种标准化方法所得到的新数据满足

i=1mxij=1(j=1,2,...,n)\sum_{i=1}^mx'_{ij}=1(j=1,2,...,n)

结果如下:

总和标准化 X1 X2 X3 X4 X5 X6 X7
G1 0.18 0.24 0.03 0.09 0.08 0.16 0.05
G2 0.20 0.21 0.00 0.08 0.05 0.11 0.00
G3 0.08 0.07 0.03 0.12 0.12 0.10 0.03
G4 0.11 0.11 0.00 0.09 0.08 0.10 0.00
G5 0.05 0.05 0.36 0.17 0.21 0.12 0.34
G6 0.05 0.05 0.22 0.14 0.15 0.10 0.20
G7 0.05 0.04 0.32 0.16 0.18 0.10 0.34
G8 0.18 0.15 0.03 0.08 0.06 0.12 0.03
G9 0.10 0.09 0.01 0.08 0.07 0.09 0.00

2.标准差标准化

xij=xijxjsj(i=1,2,3,..,m;j=1,2,3,..,n)x'_{ij}=\frac{x_{ij}-\overline{x}_j}{s_j}(i = 1,2,3,..,m;j = 1,2,3,..,n)

由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1,即有

xj=1mi=1mxij=0sj=1mi=1m(xijxj)2=1\overline{x}_j=\frac{1}{m}\sum_{i=1}^mx'_{ij}=0\quad s_j=\sqrt{\frac{1}{m}\sum_{i=1}^m(x'_{ij}-\overline{x'}_j)^2}=1

结果如下:

标准差标准化 X1 X2 X3 X4 X5 X6 X7
G1 1.17 1.73 -0.57 -0.53 -0.59 2.30 -0.42
G2 1.38 1.37 -0.74 -0.92 -1.10 -0.17 -0.76
G3 -0.57 -0.58 -0.58 0.20 0.13 -0.68 -0.59
G4 0.00 0.05 -0.74 -0.58 -0.60 -0.53 -0.75
G5 -0.99 -0.88 1.69 1.65 1.70 0.58 1.59
G6 -0.98 -0.89 0.73 0.85 0.73 -0.50 0.64
G7 -1.05 -0.98 1.45 1.17 1.24 -0.52 1.59
G8 1.16 0.46 -0.58 -0.92 -0.83 0.45 -0.55
G9 -0.12 -0.28 -0.66 -0.92 -0.67 -0.94 -0.75

3.极大值标准化

xij=xijmaxi{xij}(i=1,2,3,..,m;j=1,2,3,..,n)x'_{ij}=\frac{x_{ij}}{max_i\{x_{ij}\}}(i = 1,2,3,..,m;j = 1,2,3,..,n)

经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。

结果如下:

极大值标准化 X1 X2 X3 X4 X5 X6 X7
G1 0.93 1.00 0.08 0.52 0.37 1.00 0.15
G2 1.00 0.89 0.01 0.44 0.23 0.66 0.01
G3 0.39 0.29 0.07 0.68 0.57 0.59 0.08
G4 0.57 0.48 0.01 0.51 0.36 0.61 0.01
G5 0.26 0.19 1.00 1.00 1.00 0.76 1.00
G6 0.26 0.19 0.61 0.82 0.73 0.61 0.60
G7 0.24 0.17 0.90 0.89 0.87 0.61 1.00
G8 0.93 0.61 0.07 0.44 0.30 0.74 0.10
G9 0.53 0.38 0.04 0.44 0.35 0.55 0.01

4.极差的标准化

xij=xijmini{xij}maxi{xij}mini{xij}x_{ij}=\frac{x_{ij}-min_i\{x_{ij}\}}{max_i\{x_{ij}\}-min_i\{x_{ij}\}}

经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。

结果如下:

极差标准化 X1 X2 X3 X4 X5 X6 X7
G1 0.91 1.00 0.07 0.15 0.18 1.00 0.14
G2 1.00 0.87 0.00 0.00 0.00 0.24 0.00
G3 0.20 0.15 0.07 0.44 0.44 0.08 0.07
G4 0.43 0.38 0.00 0.13 0.18 0.13 0.00
G5 0.03 0.03 1.00 1.00 1.00 0.47 1.00
G6 0.03 0.03 0.61 0.69 0.65 0.13 0.59
G7 0.00 0.00 0.90 0.81 0.84 0.13 1.00
G8 0.91 0.53 0.07 0.00 0.10 0.43 0.09
G9 0.38 0.26 0.04 0.00 0.15 0.00 0.00

GISer, a novice who is learning hard
博客内容遵循 署名-非商业性使用-相同方式共享 4.0 国际 ( CC 4.0 BY-SA ) 协议
本文永久链接是: https://blog.manchan.top/post/shu-ju-de-chu-li-fang-fa-biao-zhun-hua/