浮点数在计算机中的表示

共计 1918 个字符，预计需要花费 5 分钟才能阅读完成。

#include <stdio.h>
int main()
{
    int num = 9;
    float *pFloat = &num;
    printf("num 的值为：%d\n",num);
    printf("*pFloat 的值为：%f\n",*pFloat);

    *pFloat = 9.0;
    printf("num 的值为：%d\n",num);
    printf("*pFloat 的值为：%f\n",*pFloat);

    return 0;
}

运行结果：

产生上述结果的原因：浮点数在计算机中的表示与整数在计算机中的表示存在差异

int num = 9;

上面这条语句声明并定义了一个整型 int 变量 num 为 9；在普通的 32 位计算机中，用四个字节表示 int，其二进制表示为：

00000000 00000000 00000000 00001001

根据国际标准 IEEE 754，任意一个二进制浮点数 V 可以表示为下面这种形式：

$ V = (-1)^{s} · M · 2^{E} $

s 表示符号位，s= 0 为正，s= 1 为负；

M 为有效数字，$1<= M <2$;

$2^E$ 表示指数位；

如题例，十进制的 $ 9.0 $ , 写成二进制位 $1001.0$, 相当于：$ 1.001 · 2^{3} $, 其中 $ s=0,M=1.001,E=3 $;
十进制的 $ -9.0 $, 写成二进制为 $ -1001.0 $, 相当于：$ -1.001 · 2^{3} $, 其中 $ s=1,M=1.001,E=3 $;

有效数字 M：

IEEE 745 规定，对于 32 位的浮点数，最高的一位是符号位 s，接着的 8 位是指数 E，剩下的 23 位为有效数字 M：

对于 64 位的浮点数来说，最高的一位仍为符号位 s，接着的 11 位是指数 E，剩下的 52 位为有效数字 M：

另外，前面提到，$1<= M <2$, 也就是说 M 可以写成 $1.x_1x_2x_3x_4$ 的形式，其中 $x_1x_2x_3x_4$ 表示小数部分。IEEE 754 规定，在计算机内包存 M 时，默认这个数的第一位为 1，因此可以被舍去，这样子就可以节省一位有效数字位，使得 32（64）位浮点数可以保存 24（53）位的有效数字。

指数 E 的情况稍微复杂一些：

首先，E 是一个无符号整数（unsign int）, 着意味着当 E 为 8 位时，其取值范围为 0 到 255；若 E 为 11 位其取值范围为 0 到 2047。但是我们知道，科学计数法中的 E 可以是负数，因此，E 的真实值必须减去一个中间值。对于 8 位的 E 应减去 127，对于 11 位的 E 应减去 1023；

比如说，$ 2^{9} $ 的 E 是 9，所以保存成 32 位浮点数时，必须保存为 $E = 9+127=136$, 即 $10001000$。

还原 E 的真实值时还可以分成 3 种情况：

E 不全为 0 或不全为 1:。这时可直接用 E 减去 127（1023）即可得到 E 的真实值。
E 全为 0。这时浮点数的指数 E 为 1 -127（1-1023），有效数字 M 不再加上第一位，而是还原成 $0.x_1x_2x_3x_4$ 的小数。这样做是为了表示 $\pm0$, 以及接近于 0 的很小的数字。
E 全为 1。这时如果有效数字 M 全为 0，则表示 $\pm$ 无穷大（取决于符号位 s）；如果有效数字 M 不全为 0，表示这个数是一个 $NaN$。

到此，回顾最初的问题。

为什么 $00000000 00000000 00000000 00001001$ 还原成浮点数就变成了 $0.000000$ 呢???
首先：00000000 00000000 00000000 00001001 的符号位 s 为 0 表示其为正；
再者：00000000 00000000 00000000 00001001 的指数位 E 为 00000000（全为 0），符合第 2 种情况，还原后的 E 的真实值为：$E=1-127=-126$；
最后：00000000 00000000 00000000 00001001 的有效数字位为：$000 0000 0000 0000 0000 1001$。
综上：$V = (-1)^{0} · 0.00000000000000000001001 · 2^{-126} = 1.001 · 2^{-146}$
可以看出这是一个很小的数，故用十进制表示为 0.000000.
浮点数 9.0 如何用二进制表示，还原成十进制后为何是 1092567616 呢？
首先：浮点数 9.0 的二进制表示为 1001.0，即为 $1.001 · 2^3$；符号位 s =0；
再者：有效数字 M =100 0000 0000 0000 0000 0000（共 23 位（100 后加上 20 个 0）其中最高位 1 默认被省略）。
最后：指数 E =3+127=130，即 $E = 10000010_{BIN}$。
综上：浮点数 9.0 在计算机内的表示为：$0 10000010 00100000000000000000000$，将其转化为十进制就是：1091567616