Принцип максимум информационной энтропии Эдвина Джейнса в статистической механике

Ранее: Рудольф Карнап: Два эссе об энтропии

Содержание: Термодинамика

Статья Эдвина Джейнса 1957 года ‘Теория информации и статистическая механика‘ (в двух частях) дала сильный толчок для интерпретаций термодинамической энтропии в духе информации и меры незнания. Лет пятнадцать назад мне рекомендовали познакомиться с этими статьями при обсуждении искусственной жизни. В то время я сломался на следующих утверждениях Джейнса из второй части статьи:

‘При такой интерпретации выражение «необратимый процесс» представляет собой семантическую путаницу; необратим не физический процесс, а скорее наша способность следовать за ним. Тогда второй закон термодинамики становится просто утверждением о том, что, хотя наша информация о состоянии системы может быть утеряна различными способами, единственный способ ее получения — это проведение дальнейших измерений.’

‘Важно понимать, что тенденция энтропии к увеличению не является следствием законов физики как таковых, … . Увеличение энтропии может происходить неизбежно из-за нашего неполного знания сил, действующих на систему, или же это может быть полностью сознательным действием с нашей стороны.’

Как оказалось, Джейнс достаточно быстро разъяснил смысла ‘субъективный’ в исходных статьях. Ниже идет описание идей Джейнса на основе доклада 1978 года ‘Каково положение с максимальной энтропией?‘ (опубликован в следующем году). В нем говорится, что вскоре после статьи 1957 года были внесены важные изменения в терминологию — было введено отличие между информационной и экспериментально измеряемой энтропией, а значение ‘субъективный’ превратилось в ‘каждый разумный человек примет такое решение’.

  • Термин информация в теории Шеннона
  • Принцип максимизации информационной энтропии Джейнса
  • Принцип Джейнса и обоснование статистической механики
  • Термодинамическая и информационная энтропия
  • Метод Джейнса в работе Д. Н. Зубарева

Термин информация в теории Шеннона

При рассмотрении идей Джейнса следует помнить, что есть немало случаев, когда одно и то же математическое уравнение используется при описании совершенно разных ситуаций. Например, в физике уравнение Пуассона для электростатического поля с точки зрения математики совпадает со стационарным уравнением теплопроводности Фурье. Этот факт нередко используется инженерами при работе с программным обеспечением, в котором программисты запрограммировали решение уравнения теплопроводности, но не сделали интерфейс для решения задач с электростатическим полем. Тем не менее, в этом примере не имеет смысла из совпадения математических выражений делать глубоко идущий вывод о внутреннем сходстве между теплопроводностью и электростатикой с точки зрения физики.

При переходе к информации ситуация осложняется тем, что термин информация имеет много значений, которые сложнее отделить друг от друга, чем температуру от электрического заряда. При этом математический формализм теории информации Шеннона достаточно гибкий и он используется также за пределами решения технических задач телекоммуникации. В этом случае следует постараться проследить более точное значение термина информация в разных случаях.

Теория Шеннона предназначалась для решения задачи эффективной передачи текста, состоящего из последовательности символов заданного алфавита, по каналу связи с шумом. В данном контексте подразумевается, что текст содержит информацию, но количество информации сопоставляется не с содержанием, а с длинной текста. Символ алфавита кодируется в двоичной системе счисления и таким образом появляется бит — единица измерения информации.

Шеннон ввел понятие информационной энтропии, величина которой связана с распределением вероятности появления символов в тексте. Информационная энтропия сыграла большую роль в решении задач телекоммуникации — выбор наиболее эффективного кодирования символа, создание помехоустойчивых кодов, а также сжатия текста для более эффективного хранения и передачи. В этой связи можно отметить неоднозначность связи между информационной энтропией, количеством информации и знанием. С одной стороны, энтропия связывается с незнанием, с другой — при сжатии максимальное количество информации в архиве достигается при максимальной энтропии.

Принцип максимизации информационной энтропии Джейнса

Джейнс активно использовал информационную энтропию Шеннона, но идеи Джейнса связаны в первую очередь со статистическим выводом (statistical inference) в теории статистических решений. Использование Джейнсом информационной энтропии формально связано с тем, что его задача также связана с распределением вероятности событий. Отличие заключается в том, что в теории телекоммуникации событие связывается с распределением вероятности нахождения символа в передаваемом тексте, которое считается заданным (задачи кодирования, помехоустойчивости и сжатия). Задача Джейнса другая — исходное распределение вероятности событий считается неизвестным и требуется его нахождение.

Значение термина событие в методе Джейнса хорошо подходит к бросанию костей, когда каждому возможному исходу (событию) сопоставляется своя вероятность. Распределение вероятности событий считается неизвестным и его требуется найти в рамках статистического анализа. Джейнс отталкивается от хорошо известного решения — принципа недостаточного основания Бернулли и Лапласа — из незнания следует априорная равновероятность всех возможных исходов.

Джейнс расширяет задачу путем включения дополнительной информации о неизвестном распределении; рассматривается случай когда среднее и/или другие моменты распределения известны. Дополнительная известная информация накладывает ограничения при поиске распределения и для решения этой задачи Джейнс выдвинул принцип максимума информационной энтропии. Начальное название — принцип максимума энтропии, но поскольку в дальнейшем Джейнс ввел четкое отличие информационной энтропии от экспериментально измеряемой, будет более правильно говорить о принципе максимума информационной энтропии.

Статистический вывод Джейнса сводится к максимизации информационной энтропии при заданных ограничениях на моменты распределения. Джейнс доказывает, что таким образом максимизируется незнание и тем самым в полученный ответ о распределении вероятности закладывается только известная информация и ничто другое. В случае отсутствия ограничений максимизация информационной энтропии приводит к равновероятному распределению, то есть, ответ совпадает с принципом недостаточного основания.

Обсуждение смысла вероятности имеет давнюю историю и спор идет относительно следующего вопроса. Относится ли вероятность к миру (вероятность объективна) или вероятность характеризует меру незнания человека (вероятность субъективна)? Первый вариант опирается на частотную интерпретацию вероятности — вероятность характеризует среднее по большому количеству испытаний. Второй вариант опирается на использование вероятности для единичных событий и в настоящее время он часто связывается с байесовской вероятностью. Джейнс решительно отстаивает позицию второго варианта; он отвергает частотную интерпретацию и приводит аргументы в пользу того, что введение вероятности представляет из себя меру незнания (в докладе 1978 года он также указывает на байесовскую революцию в статистике).

История понятия субъективной вероятности рассмотрена в статье Уффинка ‘Субъективная вероятность и статистическая физика‘, где также приведены ссылки на статьи с обсуждением использования принципа максимума информационной энтропии в математической статистике. Перед переходом к собственно статистической механики следует рассмотреть вопрос об однозначности ответа при опоре на субъективную вероятность; в противном случае статистическая механика как наука была бы невозможна. Аргумент Джейнса сводится к тому, что несмотря на связь вероятности со знанием / незнанием человека, принцип максимума информационной энтропии предлагает единственно правильный ответ на поставленный вопрос и поэтому каждый разумный человек примет такое решение. Другими словами, несмотря на субъективность вероятности найденное распределение вероятности является однозначным.

Принцип Джейнса и обоснование статистической механики

Начну с цитаты Гиббса из предисловия к книге ‘Статистическая механика‘:

‘Законы термодинамики, установленные эмпирически, выражают приблизительное и вероятное поведение систем, состоящих из большого числа частиц, или, точнее говоря, они выражают законы механики для этих систем так, как они проявляются для существ, которые не обладают достаточно тонким восприятием, позволяющим им оценивать величины порядка тех, что относятся к отдельным частицам, и которые не могут повторять свои эксперименты столь часто, чтобы получать какие-либо результаты, кроме наиболее вероятных.’

Цитата служит хорошим введением в проблематику вероятности в статистической механике. Последующее введение ансамблей соответствует частотной интерпретации вероятности и тем самым связывает ее с миром. С одной стороны есть существа с ограниченным восприятием, но с другой стороны есть мир, в котором определенные события повторяются с определенной частотой. Джейнс отвергает частотную интерпретацию и говорит, что человек вводит распределение вероятности для единичной системы — тем самым, распределение вероятности связано не с миром, а с ограничением существа, который проводит эксперименты.

Применение принципа максимума информационной энтропии Джейнса к термодинамическим ансамблям в статистической механики воспроизводит все известные равновесные распределения вероятности — для микроканонического ансамбля получается равновероятное распределение микросостояний, для канонического ансамбля распределение Максвелла-Больцмана и т. д. В то же время уравнение для информационной энтропии совпадает с выражением для энтропии Гиббса в статистической механике. Все вместе это дало повод Джейнсу для далеко идущего утверждения, что принцип максимума информационной энтропии является обоснованием статистической механики.

К моменту появления статьи Джейнса в 1957 году было хорошо известно, что равновесные распределения вероятности в статистической механики приводят к хорошим результатам, согласующимися с экспериментами. Однако вопрос обоснования, то есть, вопрос почему симметричные во времени законы механики приводят к правильным равновесным распределениям вероятности, оставался открытым. Говорилось об эргодичности, перемешиваемости, динамическом хаосе, но было невозможно провести требуемое доказательство для всех рассматриваемых системы. Это было источником головой боли для учебников по статистической механике, в которых предлагалось использовать эти распределения вероятности для решения практических задач, но обоснование правильности распределений застревало на полпути.

Джейнс предлагал разрубить гордиев узел обоснования статистической механику путем переноса внимания с частотной интерпретации на субъективность вероятности. Принцип максимума информационной энтропии максимизирует незнание при известных ограничениях на ансамбль и приводит к правильным результатам. Более того, он дает наглядную интерпретацию для равновесной энтропии в статистической механики как информационной энтропии. Поэтому следует просто принять принцип максимума информационной энтропии за обоснование построения статистической механики.

Этот призыв нашел отклик у Майрона Трайбуса (Myron Tribus, 1921-2016), который популяризировал подход Джейнса в известном учебнике ‘Термостатика и термодинамика‘ в 1961 году. Трайбус пишет, что метод Джейнса делает статистическую механику доступным для инженеров. Во введении он вначале указывает на сложность обычного преподавания статистической механики:

‘Считается, что для глубокого изучения статистической механики необходимо знакомство с такими абстрактными понятиями, как фазовое пространство, эргодическая система и ячейки фазового пространства. Прежде чем перейти к практическим расчетам, необходимым инженеру, надо в совершенстве овладеть большим количеством специальных математических методов.’

Затем он говорит, что использование метода Джейнса даже проще, чем полное формальное рассмотрение классической термодинамики:

‘Математический аппарат и абстрактные понятия, необходимые для применения метода Джейнса, менее сложны, чем, скажем, в методе макроскопической термодинамики Каратеодори, имеющем многочисленных последователей. Математические методы Джейнса более широко применимы в технике, чем современные методы макроскопической термодинамики.’

Поэтому вместо принятого обсуждения фазового пространства и эргодичности Трайбус во второй главе ‘Статистические методы‘ показывает связь вероятности и информационной энтропии Шеннона, а в третьей главе ‘Формализм статистической механики‘ вводит принцип максимума информационной энтропии Джейнса, который в дальнейшем используется для вывода распределения Максвелла-Больцмана. Последующее рассмотрение вопросов по сути дела не отличается от других учебников; разница состоит только в упрощенном обосновании равновесного распределения вероятности.

Должен сказать, что учебник Трайбуса единственный из того, что я видел, в котором метод Джейнса используется в качестве обоснования статистической механики. Похоже, что в этом качестве метод Джейнса не прижился по понятным причинам. Интерпретация существования распределения вероятности в статистической механики как следствие незнания человека вызывает много нехороших вопросов. Например, эксперименты в молекулярных пучках показали хорошее согласие между измерениями и распределением Максвелла по скоростям. Таким образом, трактовка распределения вероятности как максимального незнания приводит к извечному вопросу метафизики — существует ли распределение Максвелла по скоростям в молекулярных пучках, когда никто ничего не измеряет.

Термодинамическая и информационная энтропия

С другой стороны, трактовка термодинамической энтропии как информационной вышла далеко за пределы статистической физики и стало частью культуры. Можно нередко услышать про энтропию как меру беспорядка и это сопровождается ссылкой на то, что термодинамическая энтропия представляет ни что иное как информационную энтропию. Интересно наблюдать, как в ходе этого сопоставления максимум информации отождествляется то с минимумом энтропии, то с максимумом (см. прекрасную цитату по этому поводу из книги Рудольфа Арнхэйма ‘Энтропия и искусство’).

Теперь перейду к анализу значений терминов ‘информация’, ‘уровень знаний’ и ‘незнание’ в методе Джейнса. Математический аппарат теории Шеннона связан с распределением вероятностей нахождения символа в тексте и информационная энтропия используется для решения задач кодирования, помехоустойчивости и сжатия данных в телекоммуникации. Математический аппарат статистического вывода Джейнса отталкивается от информационной энтропии Шеннона, но невозможно говорить о том же самом значении термина информация.

Максимизация информационной энтропии по Джейнсу соответствует максимуму незнания при наличии известной информации о распределении вероятности. Найденная величина информационной энтропии задает меру незнания, однако открытым остается вопрос, как количественно охарактеризовать известную информацию, связанную с экспериментально измеренными величинами. Другими словами, у Джейнса вводимые ограничения задают уровень знаний, однако количественные характеристики в этом отношении у него отсутствуют.

Рассмотрим систему, соответствующую каноническому ансамблю. В качестве ограничения выступает температура и предполагается, что ее значение получено в ходе измерения. Теперь рассмотрим экспериментально измеряемую энтропии в этом случае — Джейнс предполагает, что она измеряется в рамках классической термодинамики. Измеренные значения температуры и энтропии представляют собой экспериментальные величины, которые получены в ходе определенных процедур. Можно сказать, что эти величины представляют из себя информацию, но непонятно, как количественно ее охарактеризовать. Таким образом неясно как значение термина информация в утверждении ‘экспериментальная температура и энтропия являются информацией’ связать с теорией Шеннона.

Джейнс далее заявляет о равенстве между информационной и экспериментально измеренной энтропии в случае равновесного распределения; именно отсюда идет интерпретация энтропии как отсутствие знания. Однако следует помнить, что такая интерпретация никак не следует из процедуры нахождения экспериментальной энтропии. Поэтому остается открытым вопрос, как интерпретировать равенства численных значений величин, которые появились из разных источников — одна из экспериментов на базе теории классической термодинамики, другая из информационной энтропии.

Более того, при неравновесном протекании процесса информационная энтропия, полученная для исходного распределения, сохраняется — она совпадает с точной энтропии Гиббса в статистической механике, которая остается постоянной из-за особенностей уравнения Лиувилля. В то же время экспериментально измеряемая энтропия меняется. Достигнуть нового согласия можно только путем проведения новых экспериментов и проведения новой процедуры максимизации информационной энтропии для новых условий. Вопрос интерпретации значения термина информации в таких условиях, по-моему, остается открытым.

Метод Джейнса в работе Д. Н. Зубарева

Как бы то ни было, метод статистического вывода Джейсна можно использовать как полезное средство решения задач в неравновесной статистической механики без далеко идущих выводов о его связи с устройством мира. Именно так поступил физик Д. Н. Зубарев. Его подход при рассмотрении неравновесных состояний был основан на использовании разных масштабов времени релаксации, а метод Джейнса применен как эвристический прием для достижения поставленной цели. Ниже цитата из книги ‘Неравновесная статистическая термодинамика‘:

‘Подобный метод вывода [Джейнса] статистических распределений не следует, однако, рассматривать как строгое обоснование статистической механики; вопросы обоснования при этом просто не рассматриваются. Но во всяком случае использование экстремальных свойств информационной энтропии — очень удобный эвристический метод для нахождения различных функций распределения. Этот метод пригоден как в классической, так и в квантовой статистической механике. Особенно он удобен для неравновесного случая, и мы будем часто им пользоваться.’

Я бы сказал, что такое отношение позволяет провести грань между физикой и философской позицией. Математическая статистика полезна, но вряд ли стоит искать в ней ключ к вопросу, как устроен мир, поскольку формализм математической статистики нейтрален в вопросе отнесения вероятности — к миру или к незнанию человека. В особенности это относится к случаю, когда предполагается, что каждый разумный человек при использовании математической статистики примет одно и то же решение.

Далее: История появления информационной физики

Информация

E. T. Jaynes, Where do we Stand on Maximum Entropy? in The Maximum Entropy Formalism, R. D. Levine and M. Tribus (eds.), 1979, p. 15 — 118.

Jos Uffink, Subjective Probability and Statistical Physics, in Probabilities in Physics, 2011, 25–50.

Майрон Трайбус, Термостатика и термодинамика, 1970.

Myron Tribus, Thermostatics and Thermodynamics: an Introduction to Energy, Information and States of Matter, 1961.

Д. Н. Зубарев, Неравновесная статистическая термодинамика, 1971.

Обсуждение

https://evgeniirudnyi.livejournal.com/392967.html


Опубликовано

в

©