Комментарии 9
Не изобрели ли вы энтропию Шеннона?
Энтропия Шеннона оценивается по вероятностям, но не учитывает длину блока. Если задать конкретную длину блока и количество нулей и единиц, и посчитать варианты в логарифмической шкале, то ОЦЕНКА БУДЕТ РАСХОДИТЬСЯ С ЭНТРОПИЕЙ ШЕННОНА.
Например:
Для блока длинной 32 бита и количеством единиц 4: количество комбинаций будет 35960 это ~15,13 бит.
Для блока длиной 16 бита и количества единиц 2:
количество комбинаций будет 120 это ~ 6,91 бит.
И при этом вероятности равны:
p(1)(4,32)=4/32=0.125
p(1)(2,16)=2/16=0.125
Что такое эта Ваша "плотность информации"?
Битовый блок длины n, целиком состоящий из нулей, существует в единственном экземпляре, а состоящих из нулей наполовину блоков той же длины будет C(n, n/2) (почему бы Вам тоже не использовать число сочетаний непосредственно, не расписывая все эти факториалы?). Однако, это всё разные блоки информации, в каждом информация своя - какие-то уникальные n бит. Исходя из чего Вы эти блоки агрегируете по количеству нулей\единиц, не очень понятно.
Столбцы N в таблицах - это же просто строки треугольника Паскаля для k = 16 и k = 32 соответственно, просто набор биномиальных коэффициентов.
Словарные методы сжатия НЕ являются статистическими. В статистических методах символы в строке считаются случайными и независимыми, вероятности их появления оцениваются относительными частотностями и наиболее "частым" символам назначаются наиболее короткие кодовые последовательности. В словарных методах, напротив, предполагается, что в строке встречаются не произвольные последовательности символов, а некий определённый набор этих последовательностей ("слова"). И предлагается не кодировать отдельные символы слов, а сразу целому слову назначать отдельный код. При этом никакого подсчёта количества появлений слова или учёта его длины зачастую не производится (т.е. та самая статистика не собиратся), да и назначаемые коды являются кодами фиксированной длины (хотя с ростом словаря она может иногда увеличиваться).
Ну и вообще, информацию же нельзя сжать (без потерь). Можно сжать данные, сократив избыточность кодирования содержащейся в них информации.
/
Что такое эта Ваша "плотность информации"?
Битовый блок длины n, целиком состоящий из нулей, существует в единственном экземпляре.
Оценивается не количество экземпляров, а сколько вариантов задают количество нулей и единиц в блоке. Если в блоке только нули, то количество вариантов один. А если к, примеру, в блоке 20 бит и 19 нулей и 1 единица, то эти характеристики задают 20 возможных вариантов перестановок, а это и есть количество информации. И соответственно в том варианте, где количество информации в блоке одинакового размера больше, там и выше плотность информации.
Словарные методы сжатия НЕ являются статистическими.
Словарные методы и статистические по сути не отличаются, идея в том чтобы часто повторяющиеся последовательности задать меньшим количеством бит. А приведенный в статье анализ показывает, что меньшее количество бит будет использовано ближе к случаю, когда количество единиц равно количеству нулей.
а это и есть количество информации
К сожалению, нет. Информации в обоих вариантах по 20 бит.
Рассмотрим для простоты блок поменьше, из 2 бит. Всего существует четыре различных блока такой длины: 00, 01, 10, 11. Если Вы будете передавать какой-либо из этих блоков, то передать Вам понадобится в каждом случае одни и те же два бита - чтобы получатель знал, чему точно равен первый бит блока и чему равен второй.
Т.е. Ваш блок информации из n бит и будет содержать n бит информации, вне зависимости от того, какие конкретно значения битов в этом блоке.
Анализ на 2 битовом блоке не очень удобный.
Суть в том что, если в канале количество нулей и единиц приблизительно равно по количеству, то в канале передается больше информации, чем когда преимущественно нули или единицы.
И еще если, например, когда в блоке количество единиц и нулей равны, но этот диапазон не используется, то туда можно переложить данные из других соотношений нулей и единиц, которые в сумме с разметкой влазят в свободный диапазон.
Что может быть эквивалентно кодированию более длинных последовательностей определенной конфигурации, более короткими определенной конфигурации.
Анализ информации битового блока по количеству нулей и единиц в блоке