Определение
Пример MDP с 3 состояниями и 2 действиями
Чтобы определить марковский процесс принятия решений нужно задать 4-кортеж, где
конечное число состояний,
конечное число действий (часто представляется в виде,конечное число действий доступных из состояния),
вероятность, что действиев состоянииво времяперейдет в состояниеко времени,
вознаграждение получаемое после перехода в состояниеиз состонияс вероятностью перехода.
Линейная частичная информация в теории игр
Общее описание
Теория линейной частичной информации(англ. Linear Partial Information — LPI), применяемая для принятия решений на основаниинечёткой логики(англ. fuzzy logic) при неполной или неаккуратной доступной информации. ШвейцарскийматематикЭдуард Кофлеризобрёл эту теорию в 1970 году.
Определение
Любая стохастическая частичная информация SPI(p)которую можно считать решением системы линейныхнеравенств, называется линейной частичной информациейLPI(p)описывающейапостериорную вероятностьp. Эту информацию считаем нечёткостью линейной частичной информации об апостериорной вероятностиp, соответствующей представлению линейной нечёткой логики.
Дилемма заключённого
Будут ли заключенныедруг друга предавать, следуя своимэгоистическиминтересам, или будут молчать, тем самым минимизируя общий срок?
Диле́мма заключённого(англ.Prisoner's dilemma, реже употребляется название «дилемма банди́та») — фундаментальная проблема втеории игр, согласно которойигрокине всегда будут сотрудничать друг с другом, даже если это в их интересах. Предполагается, что игрок («заключённый») максимизирует свой собственный выигрыш, не заботясь о выгоде других.
Суть проблемы была сформулирована Мерилом Фладом (Merrill Flood) и Мелвином Дрешером (Melvin Dresher) в 1950 году. Название дилемме дал математик Альберт Такер (Albert W. Tucker).
В дилемме заключённого предательство строго доминируетнад сотрудничеством, поэтому единственное возможное равновесие — предательство обоих участников. Проще говоря, не важно, что сделает другой игрок, каждый выиграет больше, если предаст. Поскольку в любой ситуации предать выгоднее, чем сотрудничать, все рациональные игроки выберут предательство.
Ведя себя по отдельности рационально, вместе участники приходят к нерациональному решению: если оба предадут, они получат в сумме меньший выигрыш, чем если бы сотрудничали (единственное равновесие в этой игре не ведёт кПарето-оптимальномурешению). В этом и заключается дилемма.
В повторяющейся дилемме заключённогоигра происходит периодически, и каждый игрок может «наказать» другого за несотрудничество ранее. В такой игре сотрудничество может стать равновесием, а стимул предать может перевешиваться угрозой наказания (с ростом числа итерацийравновесие Нэшастремится кПарето-оптимуму).
|
- Теория игр
- . Содержание
- История исследований по теории игр
- Представление игр
- Экстенсивная форма
- Нормальная форма
- Характеристическая функция в игре
- Применение теории игр
- Описание и моделирование
- Нормативный анализ (выявление наилучшего поведения)
- Типы игр Кооперативные и некооперативные
- Симметричные и несимметричные
- С нулевой суммой и с ненулевой суммой
- Параллельные и последовательные
- С полной или неполной информацией
- Игры с бесконечным числом шагов
- Дискретные и непрерывные игры
- Метаигры
- Стохастическая игра
- История исследований стохастических игр
- Применение стохастических игр
- Некооперативная игра
- Некооперативная игра в нормальной форме
- Некооперативная игра в развернутой форме
- Принципы оптимальности Эффективность по Парето
- Равновесие Нэша: формальное определение
- Равновесии дрожащей руки: формальное определение
- Собственное равновесие
- Определение
- Сильное равновесие
- Равновесие в доминирующих стратегиях
- Равновесие, совершенное по под-играм
- Кооперативная игра
- Математическое представление кооперативной игры
- Свойства характеристической функции
- Примеры кооперативных игр
- Решение кооперативных игр
- Свойства
- Формальное определение
- История возникновения
- Дальнейшие свойства
- Вектор Шепли
- Формальное определение
- Аксиоматика вектора Шепли
- Литература
- Антагонистическая игра
- Дифференциальные игры
- Сетевые игры
- Кооперативные стохастические игры
- Марковский процесс принятия решений
- Определение
- Классическая дилемма заключённого
- Обобщённая форма
- Примеры из реальной жизни
- Повторяющаяся дилемма заключённого
- Психология обучения и теория игр
- Восточная философия
- Генетика
- Игрок в теории игр
- Типы стратегий
- Терминология
- Формальные определения
- Доминирование и равновесие Нэша
- Последовательное исключение доминируемых стратегий
- Литература