Strumenti e Teoria dei Giochi: Adaptive Heuristics

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Strumenti e Teoria dei Giochi:Adaptive Heuristics Docenti: Vincenzo Auletta Francesco Pasquale Paolo Penna Studente: Armidoro Davide

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Il nostro percorso • Breve introduzione • Classificazione dei modelli dinamici • Definizione del problema • RegretMatching • Distribuzione Congiunta di gioco • Equilibri Correlati • Teorema del RegretMatching

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Breve Introduzione (1) • Una configurazione dinamica è rappresentata da un’insieme di giocatori che interagiscono ripetutamente tra di loro. • In tale situazione le nostre regole di comportamento saranno chiamate Adaptive heuristics se sono semplici e allo stesso tempo portano i giocatori in una “buona” direzione.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Breve Introduzione (2) • Una semplice Adaptive heuristics potrebbe essere quella di scegliere sempre la best responsein base a ciò che hanno fatto i giocatori nell’immediato passato. • Possiamo subito notare una differenza con gli argomenti visti durante il corso: i giochi non saranno più one-step, ma saranno dinamici ossia i giocatori interagiranno più volte tra di loro.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Domanda… • La domanda di maggiore interesse è: • Queste semplici regole comportamentali (Adaptive heuristics), a lungo andare, possono rendere il comportamento dei giocatori razionale e altamente sofisticato?

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Classificazione delle Dinamiche • Nella teoria dei giochi e nella teoria economica è possibile suddividere i modelli dinamici in tre classi: • Learning Dynamics • Evolutionary Dynamics • Adaptive Heuristics

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Learning Dynamics • Ogni giocatore inizia con una predeterminata opinione sui dati pertinenti al gioco (“state of the world”), i quali includono il gioco che si sta giocando e le strategie che possono intraprendere gli altri giocatori. • Ad ogni fase, dopo aver osservato le azioni prese all’interno del gioco, ogni giocatore aggiorna la propria opinione e gioca la sua best respons.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Evolutionary Dynamics (1) • Ogni giocatore i viene sostituito da una serie di individui che giocano sempre la stessa azione (genotype) al posto del giocatore i. • Le relative frequenze delle azioni degli individui possono essere viste come una mixedactiondel giocatore i.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Evolutionary Dynamics (2) • Per esempio un terzo della popolazione gioca la strategia R e due terzi giocano la strategia L. Tutto ciò può essere visto come una mixedactioncon probabilità (1/3 , 2/3) sul’insieme di strategie (L , R). • Le Evolutionary Dynamics si basano su due punti di forza: • Selection • Mutation

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Evolutionary Dynamics (3) • Selection: è il processo per il quale le strategie migliori prevalgono; • Mutation:è il processo che genera azioni in maniera randomizzata (che siano esse buone o cattive). • Possiamo vedere come questi due punti di forza sono nettamente contrapposti, ma è proprio la combinazione di entrambi che permette il naturale adattamento (il “mutante” migliore sopravvive).

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Adaptive Heuristics (1) • Abbiamo già detto che un’euristica è una regola comportamentale semplice che il giocatore usa per prendere le proprie decisioni. • Chiameremo adaptivequeste euristiche se inducono il giocatore a comportarsi nel modo apparentemente migliore rispetto a come si sta svolgendo il gioco.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Adaptive Heuristics (2) • Per esempio fare sempre la stessa azione o randomizzare le scelte sono heuristic, ma non sono adaptive dato che non sappiamo se le decisioni prese convergeranno ad una buona soluzione. • Invece una buona adaptiveheuristicè quella di giocare ad ogni passo un’azione che risulta la migliore in base alla distribuzione di frequenza delle azioni fatte in passato dagli altri giocatori (fictitious play).

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Differenze tra le dinamiche (1) • Un modo per capire le differenze tra le tre dinamiche viste prima è tramite il concetto di Razionalità intesa come un processo di ottimizzazione in un ambiente interattivo.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Differenze tra le dinamiche (2) • Learning Dynamics richiedono un alto livello di razionalità infatti è molto difficile aggiornare ad ogni passo il proprio comportamento e calcolare poi la best response. • Dall’altro lato invece nelle Evolutionary Dynamics il livello di razionalità è praticamente nullo in quanto ogni individuo fa sempre la stessa azione dettata dal proprio genotype.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Differenze tra le dinamiche (3) • Nel mezzo troviamo le Adaptive Heuristics che da un lato fanno si che i giocatori eseguano dei semplici calcoli in base all’ambiente del gioco (diversamente dalle Evolutionary Dynamics) ma dall’latro lato bisogna pur dire che questi calcoli sono molto distanti dai calcoli altamente razionali fatti nei modelli Learning Dynamics.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Definizione del problema (1) • Insieme N di giocatori (i = 1 , 2 , …… , n). • Ad ogni giocatore corrisponde un insieme di azioni Si • Funzione di utilità ui: S  R • S = (S1 x S2x … x S n) è l’insieme delle azioni. • Dato che il gioco verrà ripetuto nel tempo indicheremo con (sit) l’azione giocata dal giocatore i al tempo t.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Definizione del problema (2) • Il concetto base è quello del perfectmonitoring: alla fine di ogni periodo t, tutti i giocatori osservano l’insieme st in base al quale verrà scelta la successiva azione. • st = (s1t, s2t, ……. , snt) = azioni intraprese da tutti i giocatori nel periodo t.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica RegretMatching • L’Adaptive Heuristic che prenderemo in considerazione sarà il RegretMatchingcosì definito: Passaremonella prossima fase di gioco ad una differente azione con una probabilità proporzionale al regret, dove il regret è definito come l’incremento di utilità ottenuto se avessimo utilizzato quest’azione nel passato. • Più formalmente . . . . .

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Definizione Formale (1) • . . . consideriamo il giocatore i al tempo T+1 e denotiamo con U la media dell’utilità ottenuta fino al tempo T: • Consideriamo j = siTl’azione che il giocatore i ha giocato al tempo T, e un’azione alternativa k = j. Naturalmente sia j che k devono appartenere ad Si.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Definizione Formale (2) • Calcoliamo adesso V(k) ossia la media di utilità che il giocatore i avrebbe ottenuto sostituendo l’azione k al posto di j ogni volta che i ha giocato j: • Dove:

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Definizione Formale (3) • Possiamo ora definire il regret per l’azione k: • Dove [x]+ = max{x , 0} cioè la parte positiva di x. • Cosa ce ne facciamo del parametro R(k)?

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Come usiamo R(k) • Ogni azione k differente dall’azione j viene giocata con una probabilità proporzionale al suo regretR(K), mentre con la rimanente probabilità rigiochiamo j. • Quindi la probabilità σT+1(k) di giocare l’azione k al tempo T+1 è data da :

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Come calcoliamo la costante c • c è una costante maggiore di zero che deve essere minore di 1/(2mM) dove: • m è il numero di azioni di i vale a dire m =|Si|. • M è la massima utilità ottenibile da i quindi M = maxs in S|ui(s)| • Una tale c garantisce una corretta distribuzione di probabilità sull’insieme Sie che la probabilità di j sia strettamente positiva.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Torniamo al regret R(k) • Adesso il giocatore i deve considerare se continuare ad utilizzare j come prossima azione oppure cambiare ed utilizzare k al posto di j. • Praticamente il giocatore i non deve fare altro che controllare il valore del regret R(k). Due casi possibili: • R(k) = 0 • R(k) > 0

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Caso 1 : R(k) = 0 • Questo caso avviene quando l’utilità media che avremmo ottenuto utilizzando k (V(k)) è minore o uguale dell’utilità media ottenuta utilizzando j (U), quindi non c’è regret per l’azione k. • Per questo motivo il giocatore i non sarà portato a cambiare azione dato che non avrà nessun incremento di utilità.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Caso 2 : R(k) > 0 • Questo caso, invece, avviene quando l’utilità media che avremmo ottenuto utilizzando k (V(k)) è maggiore dell’utilità media ottenuta utilizzando j (U), quindi il regret di k è maggiore di zero ed uguale proprio a V(k) - U. • A questo punto il giocatore i utilizzerà l’azione k al posto di j in base alla distribuzione di probabilità mostrata in precedenza.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Distribuzione Congiunta di gioco • Misura la frequenza relativa di ognin-upladi azioni giocata. Ad ogni fase i giocatori randomizzano le proprie scelte indipendentemente dagli altri giocatori. • Ma questo non implica che la distribuzione congiunta sia indipendente tra i giocatori o che essa potrebbe diventare indipendente a lungo andare • Questo accade perché le probabilità che i giocatori usano possono cambiare andando avanti nel tempo.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Esempio 1 (1) • Supponiamo che nei periodi dispari i giocatori 1 e 2 utilizzino un distribuzioni di probabilità: • E nei periodi pari ne utilizzino un’altra:

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Esempio 1 (2) • La distribuzione congiunta di gioco convergerà quasi sicuramente a (5/16 , 3/16, 3/16, 5/16) per TL , TR , BL e BR rispettivamente. Che non corrisponde al prodotto delle probabilità marginali (1/2, 1/2) su (T , B) e (1/2, 1/2) su (L, R). • La distribuzione congiunta è completamente determinata dalla storia del gioco che i giocatori osservano.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Esempio 1 (3) • Quindi i giocatori determinano le loro azioni basandosi sulla distribuzione congiunta (invece che sulla marginale) il che è quello che di solito avviene. • Vediamo un esempio di tutto ciò rapportandolo ad un gioco visto durante il corso:

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Esempio 2 : MatchingPennies(1) • Pensiamo al gioco del MatchingPennies • Supponiamo che metà delle volte viene giocato HH e l’altra metà TT. I giocatori se ne accorgeranno molto rapidamente e almeno un giocatore cambierà il proprio comportamento.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Esempio 2 : MatchingPennies(2) • Possiamo vedere che se il mismatching player avesse guardato solo le distribuzioni marginali, in questo caso (1/2 , 1/2) per entrambi i giocatori, non avrebbe avuto ragione di cambiare azione. • Ma il fatto che abbia cambiato azione ci porta a pensare che il mismatching player abbia osservato la distribuzione congiunta di gioco.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Per riassumere . . . . . . . un modello di gioco che si rispetti può (e dovrebbe) prendere in considerazione la distribuzione congiunta di gioco.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Equilibri Correlati (1) • È un equilibrio di Nash dove gli agenti fanno le proprie scelte in base ad un segnale ricevuto prima che il gioco inizi. • Consideriamo un gioco one-shot e assumiamo che prima di iniziare a giocare ogni agente riceva un segnale θi. • Questi segnali possono essere correlati a seconda di una distribuzione di probabilità congiunta Fconosciuta da tutti i giocatori. Notiamo che i segnali non cambieranno le utilità dei giocatori. • Può tutto ciò influenzare l’outcome?

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Equilibri correlati (2) • La risposta è SI. • Dato che i giocatori possono utilizzare questi segnali per correlare le proprie scelte. E per dimostrarlo utilizzeremo due esempi visti anche durante il corso: • BattleofSexes • Chicken Game

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Esempio: BattleofSexes(1) • Matrice dei payoff: • Introduciamo adesso un lancio della moneta per determinare i segnali. Diciamo che Θ1 = Θ2, quindi il segnale ricevuto dai due giocatori è lo stesso con probabilità (1/2 , 1/2).

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Esempio: BattleofSexes(2) • Di conseguenza la matrice degli equilibri correlati risulterà la seguente: • Così facendo i giocatori decideranno la stessa cosa e le loro utilità saranno sempre positive. • In pratica abbiamo raggiunto un equilibrio di Nash che non potevamo raggiungere prima.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Esempio: Chicken Game (1) • Matrice dei payoff: • In questo tipo di gioco possiamo raggiungere un equilibrio correlato che rende equiprobabili tutte le combinazioni tranne (Stay , Stay).

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Esempio: Chicken Game (2) • La matrice degli equilibri correlati risulterà la seguente: • Possiamo vedere che quando il giocatore riga riceve il segnaleLeave, lo stesso giocatore assegnerà una probabilità di (1/2 , 1/2) alle due combinazioni di segnali possibili (Leave , Stay) o (Leave , Leave).

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Esempio: Chicken Game (3) • Così che il giocatore riga avrà un payoff atteso uguale a 4 = (1/2)5 + (1/2)3 dalla giocataLeave, mentre il payoff atteso dalla giocata Stay sarà 3 = (1/2)6 + (1/2)0. • Mentre quando il giocatore riga riceverà il segnale Stay, potrà dedurre che la combinazione di segnali sarà sicuramente (Stay , Leave) dato che (Stay , Stay) ha probabilità zero). • Anche in questo caso si è raggiunto un equilibrio di Nash.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Teorema del RegretMatching • Lasciamo che ogni giocatore giochi in base alla teoria del RegretMatching. In questo modo la distribuzione congiunta di gioco convergerà all’insieme degli equilibri correlati.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Distribuzione congiunta di gioco • Per esempio la distribuzione congiunta per le prime T fasi di gioco è una distribuzione di probabilità zTsu S, dove per ogni s in S, • è la proporzione su T periodi nei quali la combinazione di azioni s è stata giocata

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Teorema del RegretMatching • Il Teorema del RegretMatchingdice che, per quasi tutte le storie di gioco, la sequenza di distribuzione congiunta di gioco z1 , z2 , . . . . . zT , . . . . converge ad un equilibrio correlato, 0, in modo equivalente possiamo dire che essa è un equilibrio correlato approssimato. • N.B.: converge verso l’insieme di equilibrio correlato non necessariamente ad un punto nell’insieme.

Università degli Studi di Salerno - CorsodiLaureaSpecialistica in Informatica Dimostrazione  • Per dimostrare il teorema si dovrebbe mostrare: • che tutti i regret svaniscono nel tempo; • e che questa situazione di assenza di regret corrisponde ad un equilibrio correlato approssimato. Ma noi questo non lo vedremo!!! 

Strumenti e Teoria dei Giochi: Adaptive Heuristics

Strumenti e Teoria dei Giochi: Adaptive Heuristics

Presentation Transcript

ISE 410 Heuristics in Optimization Particle Swarm Optimization http://www.particleswarm.info/ http://www.swarmintelligen

Teoria da Contingência

TEORIA GERAL DO PROCESSO (TGP)

Strumenti per la valutazione del dolore

TEORÍA GENERAL DEL PROCESO

Teoria dos Grafos

OFERTA Y DEMANDA 1. LA TEORÍA DE LA UTILIDAD Y DE LA DEMANDA

Laboratorio di grammatica

DSA tra teoria e pratica

Reti di calcolatori e principali strumenti di comunicazione in rete

Esperienze e strumenti per insegnare Italiano L2 ad apprendenti analfabeti in lingua madre

BUROCRACIA

Teoría Celular

Expectations and Macroeconomic Stabilization Policies

Faculdade Pitágoras (U. Barreiro) Curso de Ciências Contábeis Aula:1 Economia

Strumenti finanziari IAS 39: Rilevazione e valutazione IAS 32: Esposizione in bilancio

Adaptive Query Processing

TRÁFICO 2012

Sobre la teoría del vínculo en Enrique Pichón Rivière

La teoría de juegos y la estrategia competitiva

Teoria dos Grafos

TEORIA DA COMUNICAÇÃO