您好,登錄后才能下訂單哦!
本篇文章給大家分享的是有關C++中double浮點數出現丟失精度的原因是什么,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
在Win32下,把int, 指針地址,long等4字節整數賦給一個double后,再用該double數賦給原始類型的數,得到的結果于最初的數值一致,即不存在任何精度丟失。例如下面的結果將總是true:
long a=123456; //assign any long number here double db=a; long b=db; printf("%s\n",a==b?"true":"false");
但是對于long long或win64下的指針地址等8字節整數將存在精度丟失,于是對這方面做了一個簡單的測試:
#include<iostream> #include<stdlib.h> void showEncodeOfDouble(unsigned char* db){ const int ByteLength=8; for(int i=ByteLength-1;i>=0;i--) printf(" %.2x",db[i]); printf("\n"); } int main(){ unsigned long long maxULL=0xffffffffffffffff; //2^64-1=18446744073709551615, //max unsigned long long printf("%llu\n",maxULL); double d1=maxULL; //20bit Significant,Precision Loss printf("%f\n",d1); maxULL=d1; printf("%llu\n",maxULL); showEncodeOfDouble((unsigned char*)&d1); system("pause"); return 0; }
輸出的結果如下(visual studio,win32):
18446744073709551615
18446744073709552000.000000
9223372036854775808
43 f0 00 00 00 00 00 00
至此,有兩點疑問(暫時不理會代碼中showEncodeOfDouble的結果):
1)為什么丟失精度后得到的double數是18446744073709552000.000000?
2)為什么將double數重新轉化為unsigned long long后得到的數又和double不一致呢?
對于這兩個問題,需要對C++浮點數的規格有一定的了解。
1 IEEE浮點標準
C/C++采用的是IEEE浮點標準,它以“二進制的科學表示法”表示一個小數:
其中M是一個整數部分僅有一位的二進制小數,例如1.011,表示十進制下的1.375。E表示該小數以2為底時的階數。基于以上的表示方式,小數需要對三部分進行編碼:表示符號的s,及階碼E、尾數碼M。C++中的double類型三種編碼所占的位數如圖所示。
53位尾數碼所能達到的精度為53二進制位,約為16 個十進制位( 53 log10(2) ≈ 15.955) [1],尾數碼的編碼中還有一個隱含的開頭整數位1(或0,當11位階碼全0時)因此實際中可得15-17位十進制的精度。當有效位數最多15位的十進制數轉換成double然后重新轉換為原來的十進制類型時,數值保持一致;另一方面,將一個double數轉化為可以容納17位以上有效數字的十進制數再重新轉化為double,結果數值也保持一致。
這就解釋了為什么4字節的整數轉化為double重新轉化能保持一致(2^32=4294967296僅10個有效位),而8字節的整數卻可能丟失精度(2^64-1=18446744073709551615共20個有效位)。但第一個問題中整數丟失精度后轉化成的double數值是怎么來的呢,這需要了解C++階碼和尾數對于double數值的意義。
2 階碼編碼和尾數編碼
在階碼編碼中,有一個常數偏置量Bias=1023,假設11位階碼所代表的無符號整數值為e,
1)若e不為0(11位全為1時用于表示特殊數字,此處不討論),則double數值為
2)若e=0,則小數值為
那么,可以看函數showEncodeOfDouble了,它的作用是將一個double數的編碼按字節打印出來(左邊是高字節),按其打印結果按照上面計算,可知double編碼值表示的數值是2^64,這是合理的,當把精度較高的整數轉化為double時,C++采用向偶數舍入的方式得到最接近的值[2]。至于打印出的結果,屬于C++浮點數打印中的細節問題。
3 C++浮點數打印
許多C/C++的庫中在輸出double時,通常有意使得輸出結果簡短些(即使設置了足夠多的可見位數),以避免較大位數的輸出。直接使用C中的printf或cout打印double數時,打印顯示的結果也有可能是帶有精度丟失的結果,可使用16進制的方式打印出更精確的double:
printf("%a\n",d1);
得到的輸出結果為:
0x1.000000p+64
至此問題1實際上只是C++中,將高精度整數轉double時的偶數舍入問題。
對于問題2,從float或double轉換成int,值將會被向零舍入.例如1.999將被轉換成1而-1.999將會被轉換成-1。進一步來說,值有可能會溢出。C語言標準沒有對這種情況指出固定的結果,這種轉換行為是無定義的。
以上就是C++中double浮點數出現丟失精度的原因是什么,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。