WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


Pages:     | 1 |   ...   | 22 | 23 || 25 | 26 |   ...   | 34 |

Введем следующие предположения, которых будем придерживаться, если не оговорено особо, в ходе дальнейшего изложения материала настоящего раздела. Относительно функции затрат предположим, что она непрерывна, а затраты от выбора действия yLCA равны нулю. Также допустим, что значение вознаграждения, выплачиваемого центром агенту, неотрицательно, и что функция дохода центра непрерывна и достигает максимума при действии агента, отличном от yLCA.

Так как значение целевой функции агента зависит как от его собственной стратегии – действия, так и от функции стимулирования, то в рамках гипотезы рационального поведения агент будет выбирать действия, которые при заданной системе стимулирования максимизируют его целевую функцию. Понятно, что множество таких действий, называемое множеством реализуемых действий, зависит от используемой центром системы стимулирования. Основная идея стимулирования как раз и заключается в том, что, варьируя систему стимулирования, центр может побуждать агента выбирать те или иные действия.

Так как целевая функция центра зависит от действия, выбираемого агентом, то эффективностью системы стимулирования называется гарантированное значение целевой функции центра на множестве действий агента, реализуемых данной системой стимулирования. Следовательно, задача стимулирования заключается в том, чтобы выбрать оптимальную систему стимулирования, то есть систему стимулирования, имеющую максимальную эффективность.

Множество действий агента, доставляющих максимум его целевой функции (и, естественно, зависящее от функции стимулирования), называется множеством решений игры или множеством действий, реализуемых данной системой стимулирования:

(3) P() = Arg max {(y) – c(y)}.

yA Зная, что агент выбирает действия из множества (3), центр должен найти систему стимулирования, которая максимизировала бы его собственную целевую функцию. Следовательно, эффективность системы стимулирования M равна:

(4) K() = min) (y).

yP( Прямая задача синтеза оптимальной системы стимулирования заключается в выборе допустимой системы стимулирования, имеющей максимальную эффективность:

(5) K() max.

Перейдем к решению задачи стимулирования, практически дословно повторяя решение, описанное в [163], для рассматриваемого случая многокритериальной системы стимулирования. Предположим, что использовалась система стимулирования (), при которой агент выбирал действие x P( ()). Утверждается, что ~() если взять другую систему стимулирования, которая будет равна нулю всюду, кроме точки x, и будет равна старой системе стимулирования в точке x :

~(y) (x), y = x, = 0, y x то и при новой системе стимулирования это же действие агента будет доставлять максимум его целевой функции [163].

Так как центр стремится минимизировать выплаты агенту при условии, что последний выбирает требуемое действие, то вознаграждение в случае выполнения плана должно равняться затратам агента (точнее – превосходить их на сколь угодно малую положительную величину – для того, чтобы целевая функция агента имела единственный максиму – точку плана). Этот важный вывод для скалярных систем стимулирования получил название «принцип компенсации затрат» [164]. Он справедлив для рассматриваемой модели и в случае многокритериального стимулирования.

Следовательно, параметрическим (с параметром x A) решением задачи (5) является следующая система стимулирования c(x) +, y = x (6) K(x, y) =, 0, y x которая называется компенсаторной (K-типа).

Величина, фигурирующая в оптимальной системе стимулирования, получила название мотивационной надбавки [163].

Оптимальное реализуемое действие может быть найдено из решения следующей стандартной оптимизационной задачи (7) y* = arg max [H(x) – c(x)].

xA Утверждение 5.1. При n = 1, k 2 и отсутствии агрегирования, система стимулирования (6), (7) -оптимальна.

Отметим, что компенсаторная система стимулирования (6) не является единственной оптимальной системой стимулирования – легко показать, что в рамках гипотезы благожелательности решением задачи (5) является любая система стимулирования (), удовлетворяющая следующим условиям:

(y*) = c(y*), y y* (y) c(y).

Существенным «плюсом» компенсаторных систем стимулирования является их простота и высокая эффективность, существенным «минусом» – абсолютная неустойчивость относительно возможных возмущений параметров модели [56, 162]. Действительно, если центр неточно знает функцию затрат агента, то сколь угодно малая неточность может приводить к значительным изменениям реализуемых действий. Вопросы адекватности моделей стимулирования, устойчивости оптимальных решений и т.д. подробно исследовались в [56, 162]. Предложенная в упомянутых работах техника анализа и методы повышения гарантированной (в рамках имеющейся у центра информации) эффективности стимулирования могут быть непосредственно использованы и для моделей, рассматриваемых ниже, поэтому проблемы адекватности и устойчивости в настоящей работе не исследуются.

Выше мы рассматривали случай отсутствия агрегирования информации. Теперь предположим, что агрегирование информации имеет место, то есть доход центра h(z) зависит от наблюдаемого им результата деятельности агента z = Q(y) B m, причем m k, где Q(): A B – однозначное непрерывное отображение, такое, что Q( y) = B. Отметим, что при этом предполагается, что yA оператор агрегирования и функция затрат агента центру известны, а действия не наблюдаются.

Фиксируем произвольный результат деятельности агента z B и вычислим, во-первых, множество его действий, приводящих к данному результату:



(8) Y(z) = {y A | Q(y) = z}, и, во-вторых, минимальные затраты агента по достижению данного результата:

(9) C(z) = min) c(y).

yY ( z Рассмотрим систему стимулирования C(x), z = x (10) K(x, z) = 0, z x, x, z B.

Видно, что система стимулирования (10) в рамках гипотезы благожелательности (при прочих равных агент выберет действия, наиболее благоприятные с точки зрения центра) побуждает агента выбрать действия, приводящие к «плановому результату» x B, причем затраты центра на стимулирование при этом минимальны.

Оптимальный реализуемый результат деятельности может быть найден из решения следующей стандартной оптимизационной задачи (11) z* = arg max [h(x) – C(x)].

xB Утверждение 5.2. При n = 1, k 2 и наличии агрегирования в рамках гипотезы благожелательности система стимулирования (10), (11) оптимальна.

Таким образом, в настоящем подразделе получено решение задачи синтеза оптимальной многокритериальной системы стимулирования в одноэлементной ОС как для случая отсутствия агреги рования информации (утверждение 5.1), так и для случая агрегирования информации (утверждение 5.2).

Завершив рассмотрение механизмов стимулирования в одноэлементных ОС, перейдем к описанию механизмов многокритериального стимулирования в многоэлементных ОС.

5.2.2. Стимулирование за индивидуальные результаты Простейшим обобщением базовой одноэлементной модели является многоэлементная ОС с независимыми (невзаимодействующими) агентами. В этом случае задача стимулирования распадается на набор одноэлементных задач [163]. Если ввести общие для всех или ряда агентов ограничения на механизм стимулирования, то получается задача стимулирования в ОС со слабо связанными агентами, представляющая собой набор параметрических одноэлементных задач, для которого проблема поиска оптимальных значений параметров решается стандартными методами условной оптимизации [163].

Если агенты взаимосвязаны (в настоящей главе не рассматривается ситуация, когда существуют общие ограничения на множества допустимых состояний, планов, действий и т.д. агентов – этот случай подробно описан в [170]), то есть затраты и стимулирование агента зависят, помимо его собственных действий, от действий других агентов, то получается «полноценная» многоэлементная модель стимулирования, описываемая в настоящем подразделе.

Предположим пока, что агрегирование информации отсутствует (ситуация, когда агрегирование имеет место, рассматривается в следующем подразделе).

Пусть N = {1, 2, …, n} – множество агентов, yi Ai – действие i-го агента, ci(y) – скалярные затраты i-го агента, i(y) – скалярное стимулирование этого агента со стороны центра, i N, y = (y1, y2, …, yn) – вектор действий агентов, y A = Ai. Пред iN положим, что центр получает доход H(y) от деятельности агентов.

Обозначим y-i = (y1, y2, …, yi-1, yi+1, …, yn) A-i = Aj – об ji становка игры для i-го агента. Интересы и предпочтения участников ОС – центра и агентов – выражены их целевыми функциями.

Целевая функция центра (, y) представляет собой разность между его доходом H(y) и суммарным вознаграждением (y), n выплачиваемым агентам: (y) = (y), где i(y) – стимулироваi i=ние i-го агента, (y) = (1(y), 2(y), …, n(y)). Целевая функция i-го агента fi(i, y) – разность между стимулированием, получаемым от центра, и затратами ci(y), то есть:

n (1) (, y) = H(y) – ( y).

i i=(2) fi(i, y) = i(y) – ci(y), i N.

Отметим, что и индивидуальное вознаграждение, и индивидуальные затраты i-го агента по выбору действия yi в общем случае зависят от действий всех агентов (случай сильно связанных агентов с несепарабельными затратами).

Примем следующий порядок функционирования ОС. Центру и агентам на момент принятия решения о выбираемых стратегиях (соответственно – функциях стимулирования и действиях) известны целевые функции и допустимые множества всех участников ОС. Центр, обладая правом первого хода, выбирает функции стимулирования и сообщает их агентам, после чего агенты при известных функциях стимулирования одновременно и независимо выбирают действия, максимизирующие их целевые функции.

Обобщая предложенную в [171] модель, относительно параметров ОС введем следующие предположения:

- множество Ai допустимых действий i-го агента является комi пактом в k ;

- функции затрат агентов непрерывны, неотрицательны и yLCA i Ai, такое, что y-i A-i arg min ci(yi, y-i) = yLCA i, причем yiAi y-i A-i ci(yLCA i, y-i) = 0;

- функция дохода центра непрерывна по всем переменным и достигает максимума при векторе действий агентов, отличном от yLCA = (yLCA 1, yLCA 2,..., yLCA n).

Так как и затраты, и стимулирование каждого агента в рассматриваемой модели зависят в общем случае от действий всех агентов, то последние оказываются вовлеченными в игру, в которой выигрыш каждого зависит от действий всех. Обозначим P() – множество равновесных при системе стимулирования стратегий агентов – множество решений игры (тип равновесия пока не оговаривается; единственно предположим, что агенты выбирают свои стратегии однократно, одновременно и независимо друг от друга, не имея возможности обмениваться дополнительной информацией и полезностью). Как и в одноэлементной ОС, рассмотренной в подразделе 5.2.1, гарантированной эффективностью (далее просто «эффективностью») стимулирования является минимальное значение целевой функции центра на соответствующем множестве решений игры агентов:

(3) K() = min (, y).





yP( ) Задача синтеза оптимальной функции стимулирования заключается в поиске допустимой системы стимулирования *, имеющей максимальную эффективность:

(4) * = arg max K().

Из результатов подраздела 5.2.1 следует, что в частном случае, когда агенты независимы (вознаграждение и затраты каждого из них зависят только от его собственных действий), то оптимальной (точнее – -оптимальной, где = ) является компенсаторная i iN система стимулирования:

* ci ( yi ) + i, yi = yi* (5) i K ( yi ) =, i N, * yi yi 0, где {i}i N – сколь угодно малые строго положительные константы (мотивирующие надбавки), а оптимальное действие y*, реализуемое системой стимулирования (5) как равновесие в доминантных стратегиях (РДС) [83], является решением следующей задачи оптимального согласованного планирования:

(6) y* = arg max {H(y) – (yi) }.

ci yA iN Если стимулирование каждого агента зависит от действий всех агентов (рассматриваемый в настоящем подразделе случай коллективного стимулирования) и затраты не сепарабельны (то есть затраты каждого агента зависят в общем случае от действий всех агентов, что отражает взаимосвязь и взаимозависимость агентов), то множества равновесий Нэша [83] EN() A и РДС yd A имеют вид:

EN() = {yN A | i N yi Ai N N N i(yN) – ci( y ) i(yi, y-i ) – ci(yi, y-i )};

Действие yid Ai – доминантная стратегия i-го агента, тогда и только тогда, когда yi Ai, y-i A-i i( yid, y-i) – ci( yid, y-i) i(yi, y-i) – ci(yi, y-i).

Если при заданной системе стимулирования у всех агентов имеется доминантная стратегия, то говорят, что данная система стимулирования реализует соответствующий вектор действий как РДС.

Фиксируем произвольный вектор действий агентов y* A и рассмотрим следующую систему стимулирования:

* ci ( yi, y-i ) + i, yi = yi* (7) i(y*, y) =, i 0, i N.

0, yi y* i Полученный в [171] результат остается в силе и для рассматриваемой модели: при использовании центром системы стимулирования (7) y* – РДС. Более того, если i > 0, i N, то y* – единственное РДС.

Вектор оптимальных реализуемых действий агентов y*, фигурирующий в качестве параметра в выражении (7), определяется в результате решения следующей задачи оптимального согласованного планирования:

(8) y* = arg max {H(y) – ( y) }, ci yA iN а эффективность системы стимулирования (7), (8) равна следующей величине: K* = H(y*) – ( y*) –.

ci iN Утверждение 5.3. При n 2, k 2 и отсутствии агрегирования, система стимулирования (7), (8) -оптимальна.

Таким образом, в настоящем подразделе посредством обобщения результатов, полученных в [171], решена задача синтеза оптимальной многокритериальной системы стимулирования в многоэлементных ОС без агрегирования информации (утверждение 5.3).

Перейдем к описанию случая агрегирования информации.

5.2.3. Стимулирование за коллективные результаты Пусть в рамках модели, рассмотренной в предыдущем подразделе, имеет место агрегирование информации, то есть результат деятельности z B ОС, состоящей из n агентов, является функцией их действий: zi = Qi(y), i N. Интересы и предпочтения участников ОС – центра и агентов – выражены их целевыми функциями. Целевая функция центра представляет собой разность между его доходом h(z) и суммарным вознаграждением, выплачиваемым агентам, то есть (1) ((), z) = h(z) – (zi ), i iN где i(zi) – стимулирование i-го агента, (z) = (1(z1), 2(z2), …, n(zn)).

Целевая функция i-го агента представляет собой разность между стимулированием, получаемым им от центра, и затратами ci(y), то есть:

(2) fi(i(), y) = i(zi) – ci(y), i N.

Примем следующий порядок функционирования ОС. Центру и агентам на момент принятия решений о выбираемых стратегиях (соответственно – функциях стимулирования и действиях) известны целевые функции и допустимые множества всех участников ОС, а также функции агрегирования. Центр, обладая правом первого хода, выбирает функции стимулирования и сообщает их агентам, после чего агенты при известных функциях стимулирования выбирают действия, максимизирующие их целевые функции.

Рассмотрим случай, когда центр наблюдает только результаты деятельности агентов, от которых зависит его доход h(z), но не знает и не может восстановить индивидуальных действий агентов (в противном случае мы оказались бы в рамках модели, рассмотренной в подразделе 5.2.2 выше), то есть, имеет место агрегирование информации – центр имеет не всю информацию о векторе y A действий агентов, а ему известен лишь некоторый их агрегат z B – параметр, характеризующий результаты совместных действий агентов.

Будем считать, что отображения {Qi()} непрерывны и однозначны, причем (Q1( y), Q2( y),..., Qn ( y)) = B. Определим yA множество векторов действий агентов, приводящих к заданному вектору результатов деятельности z B:

Y(z) = {y A | Qi(y) = zi, i N} A.

Вычислим минимальные суммарные затраты агентов по достижению результата деятельности z B:

C(z) = min (y), ci yY (z) iN а также множество действий Y*(z) = Arg min (y), на котоci yY (z) iN ром этот минимум достигается.

Фиксируем произвольный результат деятельности x B и произвольный вектор y*(x) Y*(x) Y(x).

Пусть выполнено одно из следующих предположений:

А.5.1. x B множество Y*(x) состоит из одной точки.

А.5.2. Затраты агентов сепарабельны, то есть ci = ci(yi), i N.

А.5.3. i N, x B, y*(x) Y*(x), i Ai, такого, что * Q(, ) = x, i y-i (x) * выполнено ci(, ) > ci(y*(x)).

i y-i (x) По аналогии с тем, как это делается в [171], можно доказать, что:

Pages:     | 1 |   ...   | 22 | 23 || 25 | 26 |   ...   | 34 |










© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.