浮点数存储

格式：doc
大小：39.00 KB
文档页数：5

下载文档原格式

单精度浮点数存储格式

常用的浮点数存储格式：32-bit IEEE-754 floating-point format常用的浮点数存储格式：32-bit IEEE-754 floating-point format对于大小为32-bit的浮点数（32-bit为单精度，64-bit浮点数为双精度，80-bit为扩展精度浮点数），1、其第31 bit为符号位，为0则表示正数，反之为负数，其读数值用s表示；2、第30～23 bit为幂数，其读数值用e表示；3、第22～0 bit共23 bit作为系数，视为二进制纯小数，假定该小数的十进制值为x；十进制转浮点数的计算方法：则按照规定，十进制的值用浮点数表示为：如果十进制为正，则s = 0，否则s = 1；将十进制数表示成二进制，然后将小数点向左移动，直到这个数变为1.x的形式即尾数，移动的个数即位指数。

为了保证指数为正，将移动的个数都加上127，由于尾数的整数位始终为1，故舍去不做记忆。

对3.141592654来说，1、正数，s = 0；2、3.141592654的二进制形式为正数部分计算方法是除以二取整，即得11，小数部分的计算方法是乘以二取其整数，得0.0010 0100 0011 1111 0110 1010 1000，那么它的二进制数表示为11.0010 0100 0011 1111 0110 1010 1；3、将小数点向左移一位，那么它就变为1.1001 0010 0001 1111 1011 0101 01，所以指数为1+127=128，e = 128 = 1000 0000；4、舍掉尾数的整数部分1，尾数写成0.1001 0010 0001 1111 1011 0101 01，x = 921FB65、最后它的浮点是表示为0 1000 0000 1001 0010 0001 1111 1011 0101 = 40490FDA浮点数转十进制的计算方法：则按照规定，浮点数的值用十进制表示为：＝(-1)^s * (1 + x) * 2^(e - 127)对于49E48E68来说，1、其第31 bit为0，即s = 02、第30～23 bit依次为100 1001 1，读成十进制就是147，即e = 147。

浮点数在内存中的存储方式

浮点数在内存中的存储方式
浮点数是存储浮点计算结果的一种常见数据类型，可以用来表示介于有理数和无理数
之间的数值。

在内存中，浮点数通常以“浮点编码”形式进行存储，其表示方法有IEEE-754标准，按照该标准，浮点数可以用32位或64位表示。

IEEE-754标准，32位浮点编码的存储格式如下：首先用一位来表示有效数字的符号，即正数时为0，负数时为1，后面接8位无符号表示指数域，再接23位有符号表示尾数域。

一般来说，在当前系统中，IEEE-754标准可以分为单精度浮点数（32位）和双精度
浮点数（64位）。

单精度浮点数的存储格式如上所述：第一位为符号位，接下来的八位位指数域，然后是尾数域。

指数域是由八位“2的次幂”组合而成的，尾数域是有效数字的
连续序列。

而双精度格式（64位）的存储形式同样遵循IEEE754标准，区别在于：双精度格式符号位和指数域都是一位，而且指数域长度为11位；尾数域长度则增加到52位。

其存储格
式如下：第一位为符号位，接着是11位指数域，最后跟着52位尾数域。

指数域仍不变，根据尾数域存储了更多的有效数字，因此可以储存较大的数，这就是
双精度格式的优势。

另外，因为双精度格式能够存储更多的位数，可以更为精确地存储我
们的数据，因此，在数值计算中，双精度浮点数常常被使用。

浮点数存储方式

浮点数存储⽅式|--浮点数怎么存储在计算机中浮点型变量是由符号位+阶码位+尾数位组成。

float型数据⼆进制为32位，符号位1位，阶码8位，尾数23位 double型数据⼆进制为64位，符号位1位，阶码11位，尾数52位|--单精度32位存储 1bit 8bit 23bit|--双精度64位存储 1bit 11bit 52bit 浮点数⼆进制存储形式，是符号位+阶码位+尾数位（针对有符号数）浮点数没有⽆符号数(c语⾔)|--阶码：这⾥阶码采⽤移码表⽰，对于float型数据其规定偏置量为127,阶码有正有负，对于8位⼆进制，则其表⽰范围为-128-127，double型规定为1023，其表⽰范围为-1024-1023 ⽐如对于float型数据，若阶码的真实值为2，则加上127后为129，其阶码表⽰形式为10000010|--尾数: 有效数字位，即部分⼆进制位(⼩数点后⾯的⼆进制位)，因为规定M的整数部分恒为1(有效数字位从左边不是0的第⼀位算起)，所以这个1就不进⾏存储|--具体步骤：把浮点数先化为科学计数法表⽰形式，eg：1.1111011*2^6，然后取阶码（6）的值加上127（对于float）计算出阶码，尾数是处⼩数点后的位数（1111011），如果不够23位，则在后⾯补0⾄23位。

最后，符号位+阶码位+尾数位就是其内存中⼆进制的存储形式1 eg：2 #include <stdio.h>3 #include <stdlib.h>4 int main(int argc, char *argv[])5 {6 int x = 12;7 char *q = (char *)&x;8 float a=125.5;9 char *p=(char *)&a;1011 printf("%d\n", *q);1213 printf("%d\n",*p);14 printf("%d\n",*(p+1));15 printf("%d\n",*(p+2));16 printf("%d\n",*(p+3));17return 0;18 }1920 output：21 1222 023 024 -525 66|--对于float型: 125.5⼆进制表⽰为1111101.1，由于规定尾数的整数部分恒为1，则表⽰为1.1111011*2^6，阶码为6，加上127为133，则表⽰为10000101 ⽽对于尾数将整数部分1去掉，为1111011，在其后⾯补0使其位数达到23位，则为11110110000000000000000 内存中的表现形式为： 00000000 低地址 00000000 11111011 01000010 ⾼地址存储形式为： 00 00 fb 42 依次打印为： 0 0 -5 66 解释下-5,内存中是：11111011，因为是有符号变量所以符号位为1是负数，所以其真值为符号位不变取反加⼀，变为：10000101化为⼗进制为-5.。

浮点数的存储格式

浮点数的存储格式C语言和C#语言中，对于浮点类型的数据采用单精度类型（float）和双精度类型(double)来存储，float数据占用32bit,double数据占用64bit,我们在声明一个变量float f= 2.25f的时候，是如何分配内存的呢？如果胡乱分配，那世界岂不是乱套了么，其实不论是f loat还是double在存储方式上都是遵从IEEE的规范的，float遵从的是IEEE R32.24 ,而double 遵从的是R64.53。

无论是单精度还是双精度在存储中都分为三个部分：∙符号位(Sign) : 0代表正，1代表为负∙指数位（Exponent）:用于存储科学计数法中的指数数据，并且采用移位存储∙尾数部分（Mantissa）：尾数部分其中float的存储方式如下图所示：而双精度的存储方式为:R32.24和R64.53的存储方式都是用科学计数法来存储数据的，比如8.25用十进制的科学计数法表示就为:8.25*,而120.5可以表示为:1.205*,这些小学的知识就不用多说了吧。

而我们傻蛋计算机根本不认识十进制的数据，他只认识0，1，所以在计算机存储中，首先要将上面的数更改为二进制的科学计数法表示，8.25用二进制表示可表示为1000.01,我靠，不会连这都不会转换吧?那我估计要没辙了。

120.5用二进制表示为：1110110.1用二进制的科学计数法表示1000.01可以表示为1.0001*,1110110.1可以表示为1.1101101*,任何一个数都的科学计数法表示都为1.xxx*,尾数部分就可以表示为xxxx,第一位都是1嘛，干嘛还要表示呀？可以将小数点前面的1省略，所以2 3bit的尾数部分，可以表示的精度却变成了24bit，道理就是在这里，那24bit能精确到小数点后几位呢，我们知道9的二进制表示为1001，所以4bit能精确十进制中的1位小数点，24bit就能使float能精确到小数点后6位，而对于指数部分，因为指数可正可负，8位的指数位能表示的指数范围就应该为:-127-128了，所以指数部分的存储采用移位存储，存储的数据为元数据+127，下面就看看8.25和120.5在内存中真正的存储方式。

整数和浮点数在内存中的存储方式

整数和浮点数在内存中的存储方式内存储器的最小单位称为“位（bite）”，存放0或1，是一个二进制位。

一个“字节（byte）”由八位组成，并给每个字节分配一个地址。

若干个字节组成一个“字（word）”,用来存放一条机器指令或一个数据。

一、整数C语言中，一个int整数通常有两个字节存放，最高位存放整数的符号，正整数置0负整数置1。

1、正整数：两个字节存放的最大正整数是：0111111111111111，即十进制32767。

2、负整数：①负整数在内存中以补码形式存放，即按位取反得到反码，反码加1得到补码。

②将补码形式存放的二进制数转换成十进制的负整数的步骤☆按位取反☆转化成十进制数，并添加负号☆对所求数值减13、无符号型：此类型没有符号位，16位全部为有效位，即两个字节存放的最大正整数是：1111111111111111，即十进制65535。

二、浮点数浮点数保存的字节格式如下：地址+0 +1 +2 +3内容SEEE EEEE EMMM MMMM MMMMMMMMMMMMMMMM这里S 代表符号位，1是负，0是正E 偏移127的幂，二进制阶码=(EEEEEEEE)-127。

M 24位的尾数保存在23位中，只存储23位，最高位固定为1。

此方法用最较少的位数实现了较高的有效位数，提高了精度。

零是一个特定值，幂是0 尾数也是0。

浮点数-12.5作为一个十六进制数0xC1480000保存在存储区中，这个值如下：地址+0 +1 +2 +3内容0xC1 0x48 0x00 0x00浮点数和十六进制等效保存值之间的转换相当简单。

下面的例子说明上面的值-12.5如何转换。

浮点保存值不是一个直接的格式，要转换为一个浮点数，位必须按上面的浮点数保存格式表所列的那样分开，例如：地址+0 +1 +2 +3格式SEEE EEEE EMMM MMMM MMMMMMMMMMMMMMMM二进制11000001 01001000 00000000 00000000十六进制C1 48 00 00从这个例子可以得到下面的信息：符号位是1 表示一个负数幂是二进制10000010或十进制130，130减去127是3，就是实际的幂。

float数

float数float数，又称单精度浮点数，是一种浮点数格式，在计算机语言中常用作数据类型。

下面就float数的概念和特点进行详细介绍：一、float数的概念1. float数的定义：float数是指由浮点数格式进行存储的数据类型。

浮点数格式去描述实数，它有两个组成部分——符号位和有效系数，其中有效系数可以被表示为有效数字序列。

2. float数的特点：float数以二进制方式表示，它只能精确表示有限长度的实数值，该值保留固定长度的有效位，长度的值取决于程序设计时所定义的参数。

二、float数的存储1. 存储形式：float数通常使用二进制存储，一般以32位或 64位的二进制串的形式进行存储。

而其中的每一位都有其特定的含义，首先它的正负号位表示数的符号，之后就是它的实部了，最后则是它的小数部分。

2. 存储原理：float数通常是以浮点形式表示其内容，由实部和虚部组成，即使用以下方程来表示：float(x)=s·E·B^e，其中s为符号位，E为有效位，B^e表示由指数E和基数B决定的倍率。

三、float数的应用1. 经常使用float数来表示有理数，因为它可以使用最少的二进制位表示出有理数的值。

2. 它可以用来处理非常大的和非常小的数值，这使它成为抽象数据类型的实现非常有效的工具。

3. 同时，由float数来存储有重要的科学计算，比如天文学、物理学等，都可以更加精确地处理。

总结：float数是由浮点数格式进行表示的数据类型，其存储形式为32位或64位的二进制串，可以有效地表示有理数，并且它可以用来处理有非常大和非常小的数值，应用范围广泛，精确度高。

浮点数在内存中的存储方式

浮点数在内存中的存储⽅式1、在使⽤switch（value）时，value的类型可以是浮点吗？2、判断浮点数是否相等时，可以⽤float f1,f2; if(fi==f2){do something;}吗？都不可以。

这涉及浮点数在内存中的存储⽅式。

⼀、float型在内存中占4字节，double占8字节。

单精度float在内存中的存储格式如下图（1位符号位S，8位指数位E，23位有效数字M）：双精度double在内存中的存储格式如下图（1位符号位S，11位指数位E，52位有效数字M）：本⽂主要说单精度浮点型float，double类似。

(-1)^S * M * 2^E(-1)^S表⽰正负，S=1时为负，S=0时为正；M表⽰有效数字，1<=M<2；2^(E-127)表⽰指数位。

如⼗进制8.125，将其转化成⼆进制形式：对于整数部分8：8/2 商：4 余：04/2 商：2 余：02/2 商：1 余：01/2 商：0 余：1余数逆序，所以8的⼆进制为：1000对于⼩数部分0.125，：0.125*2 整数：0 ⼩数：0.250.25*2 整数：0 ⼩数：0.50.5*2 整数：1 ⼩数：0整数部分正序，所以0.125的⼆进制为：001所以8.125的⼆进制形式为：1000.001，即1.000001 * 2^3。

因是正数，所以，S=0；因M表⽰有效数字，1<=M<2，所以M=1.xxxxxxx，其中⼩数点前的1是固定的，可省略，则M只需要表⽰⼩数点后的数即可，故可⽤23位有效数字表⽰M部分，则8.125的M部分为 000 0010 0000 0000 0000 0000；⽽E部分8位是unsigned char，范围为0~255，但科学计数法的指数部分有正有负，故整体偏移127，⽤0~255来表⽰-127~128，所以8.125的指数E部分，实际写的是E：3+127=130=1000 0010，综上：8.125在内存中的存放bit为 0 1000 0010 000 0010 0000 0000 0000 0000 0000 ，即0x41020000程序验证⼀下：float f=8.125f;unsigned char *p = (unsigned char *)&f;printf("%x %x %x %x\n",p[0], p[1], p[2], p[3]);结果：0 0 2 41⼩端存储模式，低字节在前，⾼字节在后。

关于浮点数存储格式标准

关于浮点数存储格式标准浮点数存储标准为：IEEE754。

⼀、定义：什么是IEEE754浮点数在C/C++中对应float和double类型，我们有必要知道浮点数在计算机中实际存储的内容。

IEEE754标准中规定float单精度浮点数在机器中表⽰⽤ 1 位表⽰数字的符号，⽤ 8 位来表⽰指数，⽤23 位来表⽰尾数，即⼩数部分。

对于double双精度浮点数，⽤ 1 位表⽰符号，⽤ 11 位表⽰指数，52 位表⽰尾数，其中指数域称为阶码。

IEEE754规定：单精度浮点数字长32位，尾数长度23，指数长度8,指数偏移量127；双精度浮点数字长64位，尾数长度52，指数长度11，指数偏移量1023；约定⼩数点左边隐含有⼀位，通常这位数是1，所以上述单精度尾数长度实际为24(默认省略⼩数点左边的1则为23)，双精度尾数长度实际为53（默认省略⼩数点左边的1则问53）；下⾯讲述使⽤IEEE754标准表⽰浮点数：176.0625表⽰为单精度浮点数：解：1）.先将176.0625转换为⼆进制数⼩数点前:176 / 2 = 88 余数为 088 / 2=44 余数为 044 / 2 =22 余数为 022 / 2= 11 余数为 011 / 2 =5 余数为 15 / 2=2 余数为 12/ 2 =1 余数为 01/ 2=0 余数为 1 商为0，结束。

⼩数点前整数转换为⼆进制:10110000⼩数点后：⼩数部分乘以2，取整数部分，直⾄乘积⼩数部分为00.0625 * 2 = 0.125 整数为00.125 * 2 = 0.25 整数为00.25* 2 = 0.50 整数为00.5* 2 = 1.0 整数为1，⼩数部分为0,结束⼩数点后的⼩数位转换为⼆进制：0001故176.0625转换为⼆进制为：10110000.00012）.IEEE754约定⼩数点左边隐含有⼀位，通常这位数是1，所以10110000.0001=1.01100000001 * 2^7(⼩数点向左偏移7位);IEEE754约定单精度指数偏移量为127，所以176.0625使⽤IEEE754标准表⽰时，指数偏移量为 7+127=134 ,即:10000110IEEE754约定单精度尾数长度为23，所以176.0625使⽤IEEE754标准表⽰时，尾数为：01100000001000000000000176.0625>0,即为整数，所以符号位为0由上得出：176.0625使⽤IEEE754规格化后的表⽰为：0 10000110 01100000001000000000000。

浮点数在计算机中的存储

浮点数在计算机中的存储浮点数是在计算机中表示实数的一种方法。

它由两个部分组成：尾数和指数。

单精度浮点数和双精度浮点数是两种不同精度的浮点数表示方式。

单精度浮点数采用32位的二进制表示，其中1位表示符号位，8位表示指数位，剩下的23位表示尾数位。

符号位确定数的正负，指数位表示浮点数的指数部分，尾数位表示浮点数的尾数部分。

双精度浮点数采用64位的二进制表示，其中1位表示符号位，11位表示指数位，剩下的52位表示尾数位。

双精度浮点数的存储空间比单精度浮点数更大，因此能够表示更大范围和更高精度的数值。

在计算机中存储浮点数时，会将其转换为二进制，并按照指定的格式存储。

以单精度浮点数为例，符号位、指数位和尾数位会按照一定的规则进行编码和存储。

这种编码方式被称为IEEE754浮点数标准。

根据IEEE754浮点数标准，单精度浮点数的取值范围约为1.4×10⁻⁴⁵~3.4×10³⁸，双精度浮点数的取值范围约为4.9×10⁻³²~1.8×10³⁰⁸。

双精度浮点数相比单精度浮点数能够表示更大范围和更高精度的数值，但同时也需要更多的存储空间。

浮点数在计算机存储中的表示方式是通过将数字拆分成符号、指数和尾数三个部分，并使用二进制编码进行存储。

这种表示方式能够满足大多数实数的表示需求，但由于浮点数在计算机中的存储是近似表示，所以在进行浮点数运算时可能会存在一定的舍入误差。

因此，在高精度计算或要求精度较高的应用中，可能需要采用其他更精确的表示方法。

浮点数存储原理

浮点数存储原理浮点数是计算机科学中一个重要的概念，用于表示实数，即包括小数和整数的数。

浮点数存储原理是指计算机如何在计算中存储和操作浮点数的过程。

以下是浮点数存储原理的详细介绍。

1. 概念解释浮点数的存储方式即“浮点数格式”，它是一种用于计算机中表示实数的方式。

浮点数通常由实数尾数和指数两部分组成，使用科学计数法表示，其中，实数部分尾数为小数形式，指数部分表示10的幂。

2. 浮点数存储结构浮点数存储结构通常是由多个二进制位组成。

根据IEEE 754标准，32位浮点数包括1位符号位、8位指数位、23位尾数位。

而64位浮点数则包括1位符号位、11位指数位、52位尾数位。

3. 浮点数进制转换将一个浮点数从十进制转换为二进制格式存储时，需要考虑其指数和尾数两部分。

首先将小数部分化为二进制数，然后将指数部分二进制数加上127（32位）或1023（64位），再将指数部分和尾数部分合并存储。

4. 浮点数运算浮点数运算主要包括加减乘除四种基本运算，其中，加减运算和乘除运算有不同的实现方式。

加减运算时，需要先对两个数的指数进行比较和调整，确保它们的尾数处于相同的数量级，然后进行加减运算。

而乘除运算时，需要将两个数的尾数相乘或相除，然后将指数相加或相减得到结果。

5. 浮点数的精度问题由于浮点数使用有限的二进制位来存储实数的尾数和指数，因此在进行运算时，可能存在精度的损失。

例如，将0.1转换为二进制时，得到的是无限循环的小数，而计算机只能存储一定位数的小数，因此可能存在精度误差。

6. 浮点数应用场景浮点数主要应用于科学计算、图像处理、物理模拟、金融分析等领域。

例如，在3D游戏中，需要对物体进行位置、大小、旋转等操作，这些操作需要使用浮点数进行计算。

以上就是浮点数存储原理的详细介绍，了解浮点数存储原理对于深入理解计算机科学体系和优化算法效果具有重要作用。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

最近一段时间看到版上关于C++里浮点变量精度的讨论比较多，那么我就给对这个问题有疑惑的人详细的讲解一下intel的处理器上是如何处理浮点数的。

为了能更方便的讲解，我在这里只以float型为例，从存储结构和算法上来讲，double和float是一样的，不一样的地方仅仅是float是32位的，double是64位的，所以double能存储更高的精度。

还要说的一点是文章和程序一样，兼容性是有一定范围的，所以你想要完全读懂本文，你最好对二进制、十进制、十六进制的转换有比较深入的了解，了解数据在内存中的存储结构，并且会使用编译简单的控制台程序。

OK，下面我们开始。

大家都知道任何数据在内存中都是以二进制（1或着0）顺序存储的，每一个1或着0被称为1位，而在x86CPU上一个字节是8位。

比如一个16位（2字节）的short int型变量的值是1156，那么它的二进制表达就是：00000100 10000100。

由于Intel CPU的架构是Little Endian（请参数机算机原理相关知识），所以它是按字节倒序存储的，那么就因该是这样：10000100 00000100，这就是定点数1156在内存中的结构。

那么浮点数是如何存储的呢？目前已知的所有的C/C++编译器都是按照IEEE （国际电子电器工程师协会）制定的IEEE 浮点数表示法来进行运算的。

这种结构是一种科学表示法，用符号（正或负）、指数和尾数来表示，底数被确定为2，也就是说是把一个浮点数表示为尾数乘以2的指数次方再加上符号。

下面来看一下具体的float的规格：float共计32位，折合4字节由最高到最低位分别是第31、30、29、 031位是符号位，1表示该数为负，0反之。

30-23位，一共8位是指数位。

22-0位，一共23位是尾数位。

每8位分为一组，分成4组，分别是A组、B组、C组、D组。

每一组是一个字节，在内存中逆序存储，即：DCBA我们先不考虑逆序存储的问题，因为那样会把读者彻底搞晕，所以我先按照顺序的来讲，最后再把他们翻过来就行了。

现在让我们按照IEEE浮点数表示法，一步步的将float型浮点数123456.0f转换为十六进制代码。

在处理这种不带小数的浮点数时，直接将整数部转化为二进制表示：1 11100010 01000000也可以这样表示：11110001001000000.0然后将小数点向左移，一直移到离最高位只有1位，就是最高位的1：1.11100010010000000一共移动了16位，在布耳运算中小数点每向左移一位就等于在以2为底的科学计算法表示中指数+1，所以原数就等于这样：1.11100010010000000 * ( 2 ^ 16 )好了，现在我们要的尾数和指数都出来了。

显而易见，最高位永远是1，因为你不可能把买了16个鸡蛋说成是买了0016个鸡蛋吧？（呵呵，可别拿你买的臭鸡蛋甩我~），所以这个1我们还有必要保留他吗？（众：没有！）好的，我们删掉他。

这样尾数的二进制就变成了：11100010010000000最后在尾数的后面补0，一直到补够23位：11100010010000000000000（MD，这些个0差点没把我数的背过气去~）再回来看指数，一共8位，可以表示范围是0 - 255的无符号整数，也可以表示-128 - 127的有符号整数。

但因为指数是可以为负的，所以为了统一把十进制的整数化为二进制时，都先加上127，在这里，我们的16加上127后就变成了143，二进制表示为：1000111112345.0f这个数是正的，所以符号位是0，那么我们按照前面讲的格式把它拼起来：0 10001111 1110001001000000000000001000111 11110001 00100000 00000000再转化为16进制为：47 F1 20 00，最后把它翻过来，就成了：00 20 F1 47。

现在你自己把54321.0f转为二进制表示，自己动手练一下！有了上面的基础后，下面我再举一个带小数的例子来看一下为什么会出现精度问题。

按照IEEE浮点数表示法，将float型浮点数123.456f转换为十六进制代码。

对于这种带小数的就需要把整数部和小数部分开处理。

整数部直接化二进制：1111011。

小数部的处理比较麻烦一些，也不太好讲，可能反着讲效果好一点，比如有一个十进制纯小数0.57826，那么5是十分位，位阶是1/10；7是百分位，位阶是1/100；8是千分位，位阶是1/1000……，这些位阶分母的关系是10^1、10^2、10^3……，现假设每一位的序列是{S1、S2、S3、……、Sn}，在这里就是5、7、8、2、6，而这个纯小数就可以这样表示：n = S1 * ( 1 / ( 10 ^ 1 ) ) + S2 * ( 1 / ( 10 ^2 ) ) + S3 * ( 1 / ( 10 ^ 3 ) ) + …… + Sn * ( 1 / ( 10 ^ n ) )。

把这个公式推广到b进制纯小数中就是这样：n = S1 * ( 1 / ( b ^ 1 ) ) + S2 *( 1 / ( b ^ 2 ) ) + S3 * ( 1 / ( b ^ 3 ) ) + …… + Sn * ( 1 / ( b ^ n ) )天哪，可恶的数学，我怎么快成了数学老师了！没办法，为了广大编程爱好者的切身利益，喝口水继续！现在一个二进制纯小数比如0.100101011就应该比较好理解了，这个数的位阶序列就因该是1/(2^1)、1/(2^2)、1/(2^3)、1/(2^4)，即0.5、0.25、0.125、0.0625……。

乘以S序列中的1或着0算出每一项再相加就可以得出原数了。

现在你的基础知识因该足够了，再回过头来看0.45这个十进制纯小数，化为该如何表示呢？现在你动手算一下，最好不要先看到答案，这样对你理解有好处。

我想你已经迫不及待的想要看答案了，因为你发现这跟本算不出来！来看一下步骤：1 / 2 ^1位（为了方便，下面仅用2的指数来表示位），0.456小于位阶值0.5故为0；2位，0.456大于位阶值0.25，该位为1，并将0.45减去0.25得0.206进下一位；3位，0.206大于位阶值0.125，该位为1，并将0.206减去0.125得0.081进下一位；4位，0.081大于0.0625，为1，并将0.081减去0.0625得0.0185进下一位；5位0.0185小于0.03125，为0……问题出来了，即使超过尾数的最大长度23位也除不尽！这就是著名的浮点数精度问题了。

不过我在这里不是要给大家讲《数值计算》，用各种方法来提高计算精度，因为那太庞杂了，恐怕我讲上一年也理不清个头绪啊。

我在这里就仅把浮点数表示法讲清楚便达到目的了。

OK，我们继续。

嗯，刚说哪了？哦对对，那个数还没转完呢，反正最后一直求也求不尽，加上前面的整数部算够24位就行了：1111011.01110100101111001。

某BC问：“不是23位吗？”我：“倒，不是说过了要把第一个1去掉吗？当然要加一位喽！”现在开始向左移小数点，大家和我一起移，众：“1、2、3……”好了，一共移了6位，6加上127得131（怎么跟教小学生似的？呵呵~），二进制表示为：10000101，符号位为……再……不说了，越说越啰嗦，大家自己看吧：0 10000101 1110110111010010111100142 F6 E9 7979 E9 F6 42下面再来讲如何将纯小数转化为十六进制。

对于纯小数，比如0.0456，我们需要把他规格化，变为1.xxxx * （2 ^ n ）的型式，要求得纯小数X 对应的n可用下面的公式：n = int( 1 + log (2)X );0.0456我们可以表示为1.4592乘以以2为底的-5次方的幂，即1.4592 * ( 2 ^ -5 )。

转化为这样形式后，再按照上面第二个例子里的流程处理：1. 01110101100011100010001去掉第一个101110101100011100010001-5 + 127 = 1220 01111010 01110101100011100010001最后：11 C7 3A 3D另外不得不提到的一点是0.0f对应的十六进制是00 00 00 00，记住就可以了。

最后贴一个可以分析并输出浮点数结构的函数源代码，有兴趣的自己看看吧：// 输入4个字节的浮点数内存数据void DecodeFloat( BYTE pByte[4] ){printf( "原始（十进制）：%d %d %d %d\n" , (int)pByte[0],(int)pByte[1], (int)pByte[2], (int)pByte[3] );printf( "翻转（十进制）：%d %d %d %d\n" , (int)pByte[3],(int)pByte[2], (int)pByte[1], (int)pByte[0] );bitset<32> bitAll( *(ULONG*)pByte );string strBinary = bitAll.to_string<char, char_traits<char>, allocator<char> >();strBinary.insert( 9, " " );strBinary.insert( 1, " " );cout << "二进制：" << strBinary.c_str() << endl;cout << "符号：" << ( bitAll[31] ? "-" : "+" )<< endl;bitset<32> bitTemp;bitTemp = bitAll;bitTemp <<= 1;LONG ulExponent = 0;for ( int i = 0; i < 8; i++ ){ulExponent |= ( bitTemp[ 31 - i ] << ( 7 - i ) );}ulExponent -= 127;cout << "指数（十进制）：" << ulExponent << endl;bitTemp = bitAll;bitTemp <<= 9;float fMantissa = 1.0f;for ( int i = 0; i < 23; i++ ){bool b = bitTemp[ 31 - i ];fMantissa += ( (float)bitTemp[ 31 - i ] /(float)( 2 << i ) );}cout << "尾数（十进制）：" << fMantissa << endl;float fPow;if ( ulExponent >= 0 ){fPow = (float)( 2 << ( ulExponent - 1 ) );}else{fPow = 1.0f / (float)( 2 << ( -1 -ulExponent ) );}cout << "运算结果：" << fMantissa * fPow << endl; }累死了，我才发现这篇文章虽然短，然而确是最难写的。

浮点数存储

合集下载

单精度浮点数存储格式

浮点数在内存中的存储方式

浮点数存储方式

浮点数的存储格式

整数和浮点数在内存中的存储方式

float数

浮点数在内存中的存储方式

关于浮点数存储格式标准

浮点数在计算机中的存储

浮点数存储原理

文档推荐

最新文档