数据精度

计算机如何表示和存储浮点数(小数)

在计算机的世界里是不存在小数点的概念的，所以压根没有地方存储小数点，只有0和1. 计算机是采用科学计数法(scientific notation)来存储浮点数.

其核心思想是将浮表达为移动的点.

计算公式：

(- 1)^{s} \times 1. M \times 2^{E - b i a s}

其中：

s: sign表示符号位 - 正/负

M：Mantissa表示尾数位，即小数点后面的部分。标准采用的是implicit Normalization,规定小数点前默认有一个隐含的1

E: Exponent指数位

bias:

b i a s = 2^{k - 1} - 1

Example：

以下使用5.25为例拆解计算机是如何把这个小数存进电脑里的。过程如下：

step1：二进制化

整数 5 ---> 101

小数 0.25 ---> 0.01 ( $2^{- 2} = \frac{1}{4}$ )

组合一起表示为： 101.01

step2: 归一化，变为科学计数法

小数点向左移动2位，变为1.xxxxx的形式，即，

1.0101 \times 2^{2}

step3: 填格子

符号位S：正数 ---> 0

指数位E：

2 + b i a s = 2 + (2^{8 - 1} - 1) = 129

将129转为二进制：10000001

尾数位M：0101 需要在后面用0补充够23位 ---> 01010000000000000000000

计算机表示

以float32计算机中的表示为

符号位	指数位	位数位
0	10000001	01010000000000000000000

Float32 -> float16 -> bfloat16

精度	总位数	符号位	指数位	尾数位
float32	32 bits	1	8	23
float16	16 bits	1	5	10
bfloat16	16 bits	1	8	7

Float32

可表达最大数：

(2 - 2^{- 23}) \times 2^{127} = 3.4028235 \times 10^{38}

计算流程如下:

\begin{matrix} (1) & 1. M \times 2^{E - b i a s} \end{matrix}

其中M为尾数位为23位，指数位为8位, 所以其表示范围为 $[0, 2^{8} - 1]$ 共256个数, 其中0和255表示特殊值. 0表示0, 255表示无穷大或NaN. 其他数表示正常的浮点数, 共254个, 即 $E_{t o t a l} = 254$

偏移量bias为:

\begin{matrix} (2) & b i a s = 2^{8 - 1} - 1 = 127 \end{matrix}

真实的指数位为:

\begin{matrix} (3) & E_{r e a l} = E_{t o t a l} - b i a s = 254 - 127 = 127 \end{matrix}

尾数位一共23位, 可表达的最大值为23为均为1, 最小值为只有最后一位为1, 其他为0, 即 $1. M$

\begin{matrix} (4) & 1. M = 1 + (1 - 2^{- 23}) = (2 - 2^{- 23}) \end{matrix}

按照公式1,组后公式2,3,4后为:

(2 - 2^{- 23}) \times 2^{127} = 3.4028235 \times 10^{38}

精度

尾数位23位, 可表达精度为 $2^{23}$ 约6位小数

2^{23} => l o g_{10} (2^{23}) = 23 \times l o g_{10} (2) = 6.97

Float16

可表达最大数：

(2 - 2^{- 10}) \times 2^{15} = 65504

计算流程如下:

\begin{matrix} (1) & 1. M \times 2^{E - b i a s} \end{matrix}

其中M为尾数位为10位，指数位为5位, 所以其表示范围为 $[0, 2^{5} - 1]$ 共32个数, 其中0和31表示特殊值. 0表示0, 31表示无穷大或NaN. 其他数表示正常的浮点数, 共30个, 即 $E_{t o t a l} = 30$

偏移量bias为:

\begin{matrix} (2) & b i a s = 2^{5 - 1} - 1 = 15 \end{matrix}

真实的指数位为:

\begin{matrix} (3) & E_{r e a l} = E_{t o t a l} - b i a s = 30 - 15 = 15 \end{matrix}

尾数位一共10位, 可表达的最大值为10为均为1, 最小值为只有最后一位为1, 其他为0, 即 $1. M$

\begin{matrix} (4) & 1. M = 1 + (1 - 2^{- 10}) = (2 - 2^{- 10}) \end{matrix}

按照公式1,组后公式2,3,4后为:

(2 - 2^{- 10}) \times 2^{15} = 65504

精度

尾数位10位, 可表达精度为 $2^{10}$ 约3位小数

2^{10} => l o g_{10} (2^{10}) = 10 \times l o g_{10} (2) = 3.32

BFloat16

可表达最大数：

10^{38}

BFloat16保留了Float32的表达范围，但是牺牲了精度, 其精度只有Float16的一半，即2位小数。

总结

精度	总位数	符号位	指数位	尾数位	可表达最大数	小数有效位
float32	32 bits	1	8	23	$3.402 \times 10^{38}$	6
float16	16 bits	1	5	10	65504	3
bfloat16	16 bits	1	8	7	$10^{38}$	2

数据精度 ​

计算机如何表示和存储浮点数(小数) ​

计算公式： ​

Example： ​

step1：二进制化 ​

step2: 归一化，变为科学计数法 ​

step3: 填格子 ​

计算机表示 ​

Float32 -> float16 -> bfloat16 ​

Float32 ​

可表达最大数： ​

精度 ​

Float16 ​

可表达最大数： ​

精度 ​

BFloat16 ​

可表达最大数： ​

总结 ​

数据精度

计算机如何表示和存储浮点数(小数)

计算公式：

Example：

step1：二进制化

step2: 归一化，变为科学计数法

step3: 填格子

计算机表示

Float32 -> float16 -> bfloat16

Float32

可表达最大数：

精度

Float16

可表达最大数：

精度

BFloat16

可表达最大数：

总结