Простыми словами о представлении форматов float32 и double64 в памяти компьютера

Форматы float32 и double64 на пальцах

Вкратце, идея довольна простая: исходное число необходимо привести к нормализованному виду 1.NNN₂ в двоичной системе счисления с помощью битового сдвига, затем записать дробную часть этого числа в мантиссу, а количество сдвигов в экспоненту. И завершающим штрихом сохранить знак исходного числа.

Формат float32 имеет такой вид: 1s8e23m, где s — количество бит под знак, e — экспонента, m — мантисса. Для формата double64 вид такой — 1s11e52m.

Первый бит кодирует знак числа. Если это ноль, число положительно, в противном случае число отрицательное.

Затем идут восемь бит экспоненты. Если совсем простыми словами, то экспонента — это количество сдвигов запятой в исходном числе, представленном в двоичном виде, для получения нормализованного числа вида 1.NNN₂. Чтобы получить количество сдвигов из этих восьми бит надо отнять 127₁₀. Отрицательная экспонента — сдвиг влево, положительная — сдвиг вправо.

После экспоненты следуют 23 бита мантиссы. Это дробная часть числа 1.NNN₂.

А теперь практическая часть!

Перевод десятичной дроби во float32

Попробуем с полученными знаниями закодировать число -2.625₁₀.

В двоичном виде это число имеет вид 10.101₂. Для получения нормализованного числа необходимо запятую сдвинуть влево на один разряд. Получим число 1.0101₂ и экспоненту равной 1.

Для сохранения экспоненты к ней надо прибавить 127₁₀. Получится 128₁₀ или 10000000₂ в двоичном виде.

Берем нормализованное число 1.0101₂ и выделяем мантиссу 0101₂. Для сохранения этого числа, которое занимает 4 бита, надо добавить нули справа до 23 бит. Получится число 01010000000000000000000₂.

Знак числа отрицательный, значит первый бит равен единице.

Итог: s=1₂ e=10000000₂ m=01010000000000000000000₂, с чем я вас и поздравляю.

Обратный перевод: из float32 в число

Разберем пример из википедии. Есть число во float32 0xC0000000₁₆. В двоичной системе это будет 11000000000000000000000000000000₂.

Разобъем его на компоненты: s=1₂ e=10000000₂ m=00000000000000000000000₂.

Мантисса равна нулю, но, как уже было сказано выше, сохраняется только дробная часть мантиссы, а единица отбрасывается для эконмии бита. Значит мантисса равна 1.00000000000000000000000₂.

Экспонента равна 10000000₂ или 128₁₀, отнимаем 127₁₀ и получается, что экспонента равна единице.

Возьмем мантиссу и сдвинем точку вправо на эту единицу, получится 10.0000000000000000000000₂, это 2₁₀ в десятичной системе счисления.

Знак числа равен единице, значит исходное число отрицательное.

Решение: -2₁₀, что и требовалось доказать.

P.S. Маленькие циферки справа от числа обозначают систему счисления, если кто не знает. Пример: два в десятичной системе — 2₁₀, один‑ноль‑один в двоичной системе — 101₂. Кстати, красным цветом выделен знак числа, зелёным — экспонента, а мантисса, соответственно, синим.

Полезные ссылки

видео «Как работают числа с плавающей точкой» с канала Alek OS (рекомендую к просмотру)
подробное описание формата IEEE754 на русском языке
онлайн калькулятор для перевода десятичных дробей в двоичные

3 комментария

написал(а) Аноним (1 октября 2018, 12:44)

Попробуем с полученными знаниями закодировать число -2.62510.

В двоичном виде это число имеет вид 10.1012. Для получения нормализованного числа необходимо запятую сдвинуть влево на один разряд. Получим число 1.01012 и экспоненту равной -1.(с)

Какая в дупло экспонента «-1» ?! Просто единица.

ответить

написал(а) eJ (11 декабря 2018, 08:40)

Согласен, моя ошибка. Фраза про дупло — явно лишняя в вашем комментарии. Не думал, что математики столь агрессивны )

ответить

написал(а) Математик (17 декабря 2018, 00:26)

За экспоненту и двор стреляю в упор

ответить

Добавить комментарий