eevg 16 авг 2024 в 12:21

Анализ информации битового блока по количеству нулей и единиц в блоке

Средний

4 мин

1.1K

Визуализация данных*Сжатие данных*

Из песочницы

Комментарии 9

vilgeforce 16 авг 2024 в 12:28

Не изобрели ли вы энтропию Шеннона?

eevg 16 авг 2024 в 17:29

Энтропия Шеннона оценивается по вероятностям, но не учитывает длину блока. Если задать конкретную длину блока и количество нулей и единиц, и посчитать варианты в логарифмической шкале, то ОЦЕНКА БУДЕТ РАСХОДИТЬСЯ С ЭНТРОПИЕЙ ШЕННОНА.

eevg 16 авг 2024 в 20:04

Например:

Для блока длинной 32 бита и количеством единиц 4: количество комбинаций будет 35960 это ~15,13 бит.

Для блока длиной 16 бита и количества единиц 2:

количество комбинаций будет 120 это ~ 6,91 бит.

И при этом вероятности равны:

p(1)(4,32)=4/32=0.125

p(1)(2,16)=2/16=0.125

eevg 16 авг 2024 в 20:07

И значит количество информации зависит не только от количества нулей и единиц (что эквивалентно вероятности появления символов), но и от длинны блока содержащего их.

AmartelRU 16 авг 2024 в 14:06

Что такое эта Ваша "плотность информации"?
Битовый блок длины n, целиком состоящий из нулей, существует в единственном экземпляре, а состоящих из нулей наполовину блоков той же длины будет C(n, n/2) (почему бы Вам тоже не использовать число сочетаний непосредственно, не расписывая все эти факториалы?). Однако, это всё разные блоки информации, в каждом информация своя - какие-то уникальные n бит. Исходя из чего Вы эти блоки агрегируете по количеству нулей\единиц, не очень понятно.

Столбцы N в таблицах - это же просто строки треугольника Паскаля для k = 16 и k = 32 соответственно, просто набор биномиальных коэффициентов.

Словарные методы сжатия НЕ являются статистическими. В статистических методах символы в строке считаются случайными и независимыми, вероятности их появления оцениваются относительными частотностями и наиболее "частым" символам назначаются наиболее короткие кодовые последовательности. В словарных методах, напротив, предполагается, что в строке встречаются не произвольные последовательности символов, а некий определённый набор этих последовательностей ("слова"). И предлагается не кодировать отдельные символы слов, а сразу целому слову назначать отдельный код. При этом никакого подсчёта количества появлений слова или учёта его длины зачастую не производится (т.е. та самая статистика не собиратся), да и назначаемые коды являются кодами фиксированной длины (хотя с ростом словаря она может иногда увеличиваться).

Ну и вообще, информацию же нельзя сжать (без потерь). Можно сжать данные, сократив избыточность кодирования содержащейся в них информации.

eevg 16 авг 2024 в 17:25

Что такое эта Ваша "плотность информации"?
Битовый блок длины n, целиком состоящий из нулей, существует в единственном экземпляре.

Оценивается не количество экземпляров, а сколько вариантов задают количество нулей и единиц в блоке. Если в блоке только нули, то количество вариантов один. А если к, примеру, в блоке 20 бит и 19 нулей и 1 единица, то эти характеристики задают 20 возможных вариантов перестановок, а это и есть количество информации. И соответственно в том варианте, где количество информации в блоке одинакового размера больше, там и выше плотность информации.

Словарные методы сжатия НЕ являются статистическими.

Словарные методы и статистические по сути не отличаются, идея в том чтобы часто повторяющиеся последовательности задать меньшим количеством бит. А приведенный в статье анализ показывает, что меньшее количество бит будет использовано ближе к случаю, когда количество единиц равно количеству нулей.

AmartelRU 17 авг 2024 в 00:13

а это и есть количество информации

К сожалению, нет. Информации в обоих вариантах по 20 бит.

Рассмотрим для простоты блок поменьше, из 2 бит. Всего существует четыре различных блока такой длины: 00, 01, 10, 11. Если Вы будете передавать какой-либо из этих блоков, то передать Вам понадобится в каждом случае одни и те же два бита - чтобы получатель знал, чему точно равен первый бит блока и чему равен второй.

Т.е. Ваш блок информации из n бит и будет содержать n бит информации, вне зависимости от того, какие конкретно значения битов в этом блоке.

eevg 17 авг 2024 в 01:05

Анализ на 2 битовом блоке не очень удобный.

Суть в том что, если в канале количество нулей и единиц приблизительно равно по количеству, то в канале передается больше информации, чем когда преимущественно нули или единицы.

eevg 17 авг 2024 в 17:27

И еще если, например, когда в блоке количество единиц и нулей равны, но этот диапазон не используется, то туда можно переложить данные из других соотношений нулей и единиц, которые в сумме с разметкой влазят в свободный диапазон.

Что может быть эквивалентно кодированию более длинных последовательностей определенной конфигурации, более короткими определенной конфигурации.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Анализ информации битового блока по количеству нулей и единиц в блоке

Комментарии 9

Публикации

Истории

zproxy.org