WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


Pages:     | 1 |   ...   | 20 | 21 || 23 | 24 |   ...   | 34 |

Если взаимодействие центра с агентами производится многократно, то он может использовать наблюдения за действиями, выбираемыми агентами, для корректировки своих представлений об их типах.

Обозначим (2) r(u, x) = {r | x EN(u, r)} – множество таких векторов типов агентов, при которых выбор ими вектора действий x A' является равновесием Нэша при использовании центром управления u U.

Рассмотрим модель «обучения» центра. Предположим, что первоначальные представления центра 0 не противоречат истине, то есть r 0. Тогда возможно использование алгоритма корректировки представлений центра:

1. Центр решает задачу (1) и сообщает агентам управление u*(0);

2. Агенты, зная управление u*(0) и вектор своих типов, выбирают действие x* EN(u*(0), r), являющееся равновесием Нэша;

3. Центр, наблюдая вектор x* действий агентов, вычисляет r(u*(0), x*) в соответствии с (2).

4. Если r(u*(0), x*) = 0, то алгоритм останавливается, если же r(u*(0), x*) 0, то центр корректирует свои представления о множестве возможных значений вектора типов агентов следующим образом:

(3) 0 := 0 r(u*(0), x*), и переходит к пункту 1.

Отметим, во-первых, что использование приведенного выше алгоритма подразумевает, что агенты выбирают действия, являющиеся равновесиями Нэша. Если бы они были дальновидны – максимизировали бы свои выигрыши в повторяющейся игре, зная об использовании центром принципа принятия решений (3), то для них было бы рациональным не выбирать на каждом шаге соответствующее равновесие Нэша, а выбирать такие действия, которые максимизировали бы их выигрыш в суперигре [160], с учетом того, что центр будет корректировать свои представления и выбирать управления в будущих периодах на основании наблюдаемых действий агентов (см. эффект обмена ролями в [167]).

Во-вторых, процедура (3) корректировки представлений центра не является единственно возможной (см. модели индикаторного поведения в [134, 178]).

В третьих, использование процедуры (3) может дать центру возможность (в ряде случаев – см. примеры 4.5 и 4.6) найти истинный вектор типов агентов за один шаг. В то же время, в ряде случаев процедура (3) может остановиться на представлениях центра, представляющих собой целое множество возможных типов агентов (см. пример 4.7).

Пример 4.5. Пусть n = 1, f(y, u, r) = u y – y2 / 2 r, = [rmin, + ), (y, u) = ( – u) y, A = [0; +), U = [0; +), 0 = [r0; +), r0 rmin, r0 r.

Тогда EN(u, r) = Arg max f(y, u, r) = {u r}. То есть x* = u r. ПоyA лучаем из (1), что u* = / 2, то есть оптимальное управление не зависит от типа агента и представлений центра об этом типе. При этом r(u*(0), x*) = r, то есть за один шаг, независимо от используемого управления, центр восстанавливает достоверную информацию о типе агента. Отметим, что в рассматриваемом примере дальновидные агенты будут вести себя таким же образом, что и недальновидные. • Пример 4.6. Пусть n = 2, fi(y, u, ri) = u yi – yi2 / 2 (ri + y3-i), (y, u) = ( – u) (y1 + y2), Ai = [0; +), i = 1, 2,U = [0; +), 0, > 0, 1. Тогда EN(u, r) = (x1*, x2*), где (4) xi*(u) = (u ri + u2 r3-i) / (1 – 2 u2), i = 1, 2.

( - u) u Из (1) следует, что (x*(u), u, r) = (r1 + r2), тогда 1- u u* = (1 – 1- ) /, то есть оптимальное управление не зависит от типов агентов и представлений центра об этих типах.

При этом r(u*(0), x*) определяется из решения системы уравнений (4) относительно r1 и r2 при известных x1* и x2*, то есть вычисляется однозначно и за один шаг, независимо от используемого управления, центр восстанавливает достоверную информацию о типах агентов:

r1(x*, u) = x1* / u – x2*, r2(x*, u) = x2* / u – x1*. • Пример 4.7. Пусть n = 1, f(y, u, r) = u y – y2 / 2 r, = [rmin, + ), (y, u) = ( – u) y, A = [0; a], U = [0; +), 0 = [r0; +), r0 rmin, r0 r.

Тогда EN(u, r) = Arg max f(y, u, r) = {min (a; u r)}. То есть yA x* = min (a; u r). Если бы тип агента был достоверно известен центру, то оптимальным было бы управление / 2, r 2a / (5) u*(, r) = a / r, r 2a /.

Если центр использует управление u 0, то, наблюдая выбираемое при этом агентом действие x, центр может восстановить r = x / u, x < a (6) r(u, x) = [a / u; + ), x = a.

Видно, что при определенных соотношениях параметров a, и r0 центр, используя оптимальное управление, не может в силу (6) получить дополнительной информации о типе агента. • В заключение настоящего раздела отметим, что в ситуации, когда приведенный выше алгоритм «зацикливается» на достаточно широком множестве, для дальновидного центра может оказаться более эффективным использовать в течение нескольких первых периодов на каждом шаге не оптимальное в каждом периоде управление, а то, которое позволило бы лучше идентифицировать тип агента. Постановка и решение подобных задач активной идентификации [47] выходит за рамки настоящей работы.

4.5.3. Задача управления В настоящем разделе рассматриваются две модели, описывающие совместную деятельность коллектива агентов. Первая модель основывается на предположении о том, что агенты выбирают равновесные по Нэшу действия, приводящие к требуемому центру результату их деятельности с минимальными затратами центра на управление. Во второй модели агенты выбирают из множества векторов действий, приводящих к требуемому результату, вектор, эффективный по Парето с точки зрения их целевых функций.

Модель 1. Пусть целевые функции агентов аддитивны по управлению (рассматривается иерархическая игра с побочными платежами [72]), которое персонифицировано (то есть u = (u1, u2, …, un), причем в целевую функцию i-го агента входит только управление ui Ui = 1, U = = n ):



+ U j + jN fi(y, u, ri) = vi(y, ri) + ui, i N.

Будем рассматривать случай, когда известно однозначное отображение Q: A' A0, и центр использует управление следующего вида:

i, z = xz (1) w0i(xz, z) = 0, z xz, где z = Q(y) – результат деятельности агентов, xz, z A0.

Предположим, что функция агрегирования строго монотонна по всем переменным, тогда (2) i N y-i A-i, yi1, yi2 Ai, yi1 yi2 Q(y-i, yi1) Q(y-i, yi2).

Содержательные интерпретации рассматриваемой модели таковы: выигрыш каждого агента зависит от его действий, от действий его оппонентов, от его типа, а также от вознаграждения, выплачиваемого центром в том случае, если результат совместной деятельности агентов принадлежит заданному множеству. При этом условие выплаты вознаграждения зависит только от значения результата деятельности (см. (1)) и не зависит явным образом от вектора действий агентов, который может быть и не наблюдаем центром.

Тогда множество равновесий Нэша игры агентов при заданном управлении (1) примет вид (3) EN(xz,, r) = {x A' | i N, yi Ai vi(x, ri) + w0i(xz, Q(x)) vi(x-i, yi, ri) + w0i(xz, Q(x-i, yi))}, где = (1, 2, …, n) – вектор вознаграждений.

Обозначим Y(z) = {y A' | Q(y) = z} A’ – множество действий агентов, приводящих к результату z A0 их деятельности.

Тогда можно записать управление (1) в следующем виде:

i, y Y (xz ) (4) wi(xz, y) = 0, y Y (xz ), i N, а множество равновесий Нэша (3) примет вид:

(5) EN(xz,, r) = {x A' | i N, yi Ai vi(x, ri) + wi(xz, x) vi(x-i, yi, ri) + wi(xz, x-i, yi)}.

Предположим, что вектор типов агентов является общим знанием среди центра и агентов. Фиксируем этот вектор типов агентов и результат z A0 деятельности агентов. Рассмотрим, какими должны быть управления со стороны центра, приводящие к тому, что агенты выбирают (как равновесие Нэша своей игры при заданном управлении) действия, приводящие к требуемому центру результату z A0. Формально это требование можно записать следующим образом:

(6) EN(xz,, r) Y(xz).

Условия (6), совместно с гипотезой благожелательности (заключающейся в том, что из множества равновесий Нэша агенты выберут наиболее предпочтительное для центра равновесие), достаточно для того, чтобы быть уверенным в реализации z A0.

Определим множество управлений, обеспечивающих выполнение (6). Для этого фиксируем произвольную точку z A0 множества A0 и рассмотрим, при каких управлениях со стороны центра выбор агентами действий, приводящих к данному результату z, будет равновесием Нэша их игры.

В силу строгой монотонности функции агрегирования x Y(z) – равновесие Нэша тогда и только тогда, когда (7) i N, yi Ai vi(x, ri) + i vi(x-i, yi, ri).

Отсюда получаем, что i i(x, ri), где (8) i(x, ri) = max vi(x-i, yi, ri) – vi(x, ri), i N.

yi Ai Значит, можно найти минимальное суммарное вознаграждение агентов, побуждающее их выбрать как равновесие действия, приводящие к результату z A0:

(9) (z, r) = min) (x, ri).

i xY ( z iN Обозначим (10) x*(z, r) = arg min) (x, ri) i xY ( z iN Утверждение 4.5. При использовании управления i(x*(xz, r), ri ), z = xz (11) w0i(xz, z, r) =, i N, z xz 0, вектор действий x*(xz, r) является равновесием Нэша игры агентов.

Суммарное вознаграждение агентов со стороны центра, равное (xz, r), является минимально возможным среди всех управлений, реализующих результат xz A0.

Доказательство утверждения 4.5. Запишем определение того, что вектор действий x*(xz) является равновесием Нэша игры агентов: i N, yi x*i(xz) vi(x*(xz), ri) + max vi(x*-i(xz), yi, ri) – vi(x*(xz), ri) vi(x*-i(xz), yi, ri).

yi Ai Данное неравенство всегда имеет место. То, что сумма (xz, r) выплат агентам со стороны центра является минимально возможной из требуемых для реализации результата xz, следует из выражений (7)-(9). • Рассмотренная в настоящем разделе модель может интерпретироваться в терминах команд (см. также введение): деятельность команды (совместная деятельность коллектива взаимосвязанных агентов) оценивается на основании некоторого агрегированного показателя, зависящего от действий всех членов команды. Члены команды поощряются, если команда в целом достигает успеха, то есть, если достигается требуемый результат ее деятельности.

В соответствии с утверждением 4.5 согласованной нормой деятельности агентов является выбор из множества Y(z) действий, приводящих к заданному результату деятельности, такого вектора действий x*(z, r), на котором достигается минимум суммарных «затрат» центра (8).

Модель 2. Как известно [83], концепция равновесия Нэша отражает устойчивость исхода взаимодействия (игры) агентов относительно индивидуальных отклонений отдельных агентов. Однако, зачастую, действия, равновесные по Нэшу, не эффективны по Парето – может существовать вектор действий, приводящий к тому же результату деятельности и обеспечивающий всем агентам не меньшие полезности, а кому-то – строго большие (при этом мы, правда, «забываем» об интересах центра – условно можно считать, что центр заинтересован в реализации того или иного результата деятельности и не различает затрат различных вариантов его достижения). Поэтому альтернативой описанной выше модели 1 является рассмотрение случая, когда агенты выбирают эффективные по Парето действия, например – максимизирующие сумму их целевых функций на множестве действий, приводящих к требуемому для центра результату.





Обозначим (12) G(z, r) = Arg max) (y, ri), z A0, r, vi yY (z iN – множество векторов действий агентов, максимизирующих сумму их целевых функций на множестве всех действий, приводящих к заданному результату деятельности. Множество агентов (команда) в данном случае описывается вектором r типов своих членов.

Нормой деятельности в рассматриваемой модели можно считать отображение : A0 A’ множества пар результатов деятельности и векторов типов агентов во множество G. Другими словами, норма предписывает агентам выбирать из множества (12) определенные действия. Какими должны быть эти действия, можно задавать аксиоматически, используя те или иные механизмы компромисса [129, 151].

Возникает вопрос, а как связаны между собой нормы деятельности в моделях 1 и 2. Ответ на этот вопрос дает следующее Утверждение 4.6. Если (13) i N, x-i A-i max vi(x-i, yi, ri) = Li, yi Ai то x*(z, r) G(z, r).

Доказательство утверждения 4.6. В соответствии с (10) x*(z, r) = arg min) { ( max vi(x-i, yi, ri) – vi(x, ri))}.

xY ( z yi Ai iN Обозначая L =, V(x, r) = (x, ri) получаем:

Li vi iN iN x*(z, r) = arg min) { L – V(x, r)} = arg max) V(x, r). • xY ( z xY ( z Условие (13) является достаточно сильным требованием (но иногда оно выполнено, например, в задачах стимулирования [163]), и в общем случае может оказаться, что равновесный по Нэшу вектор действий агентов не доставляет максимум суммы целевых функций агентов.

Завершив краткое описание второй модели, отметим, что до сих пор мы считали, что все существенные параметры (типы агентов) являются среди агентов общим знанием. Понятно, что это достаточно сильное предположение. Поэтому откажемся от него – перейдем к рассмотрению эффектов рефлексии [175] – и исследуем, как члены команды будут себя вести в отсутствии общего знания.

4.5.4. Функционирование команды В соответствии с результатами предыдущего подраздела, если выполнено условие (13) (в ходе дальнейшего изложения материала настоящего раздела будем считать выполненными условия (2) и (13) предыдущего подраздела), то агенты будут выбирать эффективные по Парето равновесия Нэша своей игры.

Обозначим множество этих равновесий (1) X(z, r) = Arg max) V(x, r).

xY ( z Предположим, что z A0, r множество X(z, r) состоит из одной точки x*(z, r). Это предположение, которое содержательно означает, что для данного набора агентов (характеризуемого вектором типов r ) существует единственный эффективный (в смысле максимума суммы целевых функций) способ достижения результата z A0 совместной деятельности, имеет место во многих практически важных случаях – см. [171], а также примеры ниже.

В рассматриваемой модели согласованной нормой деятельности i-го агента будет выбор действия xi*(z, r), то есть при условии, что r – общее знание, имеем:

(2) i(z) = xi*(z, r), i N, z A0, r.

Пусть теперь общее знание относительно вектора типов агентов отсутствует.

Обозначим ri = (ri1, ri2, …, rin) – вектор представлений i-го агента о типах оппонентов, rij = (rij1, rij2,..., rijn) – представления i-го агента о представлениях j-го агента о типах оппонентов, i, j N.

Если структура информированности имеет единичную глубину (i-ый агент считает общим знанием вектор ri), то граф соответствующей рефлексивной игры [175] имеет вид i j, i, j N. Агент i N ожидает от агента j выбора действия xj*(z, ri), i, j N. Следовательно, репутацией j-го агента в глазах i-го агента является (3) ij(z) = xj*(z, ri), i, j N.

Предположим, что каждый агент наблюдает все действия, выбранные своими оппонентами, а также, естественно, знает, какое действие выбрал он сам. Тогда репутация будет оправдываться, если взаимные представления агентов таковы, что (4) i, j N xj*(z, ri) = xj*(z, rj), то есть, если агенты будут выбирать (в соответствии со своими собственными представлениями о векторе типов – см. правую часть выражения (4)) те действия, которых от них ожидают оппоненты. Определение (4) оправданности репутации обобщается на случай, когда каждый агент наблюдает значение некоторой функции (называемой функцией наблюдения) от действий оппонентов, по аналогии с тем, как это делается в [239].

Поэтому командой в рассматриваемом случае можно назвать множество N агентов, взаимные представления которых удовлетворяют (4). Отметим, что такое понимание команды тесно связано с понятием стабильного информационного равновесия [174], в котором все агенты (реальные и фантомные) наблюдают те выборы оппонентов, которых они и ожидали.

Если структура информированности [175] имеет глубину, большую, чем единица, то условие оправданности репутации будет определяться соответствующими этой структуре информированно сти условиями стабильности информационного равновесия [174].

Приведем иллюстративный пример.

Пример 4.8. Пусть vi(y, ri) = yi – yi2 / 2 ri, i N, z = yj. То jN гда предположения (2) и (13) предыдущего раздела выполнены, и (5) xi*(z, r) = z ri /, i N.

rj jN Условия (4) примут вид:

rij rj (6) =, i, j N.

ril rjk lN kN Если n = 2, то (6) можно записать в виде:

r12 r = r1 + r12 r21 + r2, r21 r = + r21 r2 + rrчто эквивалентно следующему:

(7) r12 r21 = r1 r2. • Модель, рассмотренная в примере 4.8, может быть обобщена.

Утверждение 4.7. Если (8) vi(y, ri) = Ci – ri (yi / ri), i N, где () – возрастающая дифференцируемая выпуклая функция, то оптимальные действия агентов удовлетворяют (5), а условие оправданности репутации имеет вид (6).

Pages:     | 1 |   ...   | 20 | 21 || 23 | 24 |   ...   | 34 |










© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.