A Teoria dos Jogos e o Jogo da Cooperação


Apesar do nome, a Teoria dos Jogos não é sobre jogos, como loterias ou competições. Esse ramo da matemática aplicada é responsável por analisar as decisões estratégicas que as pessoas podem tomar para maximizar seus resultados positivos. Os teoremas dessa área foram e são aplicados em inúmeras situações da vida real, como em conflitos geopolíticos e na análise de fenômenos econômicos.

teoria dos jogos

O estudo dessa teoria envolve a criação de cenários fictícios que emulam cenários mais complexos da vida real. Um exemplo é o jogo do ultimato. Nele, uma banca oferece um prêmio a uma Pessoa 1 apenas se ela dividir esse prêmio com uma Pessoa 2. Porém, se a Pessoa 2 recusar a divisão (que seria uma “oferta”) feita pela Pessoa 1, os dois participantes ficarão sem nenhum valor.

Dessa forma, a Pessoa 1 precisa fazer uma oferta que não seja tão baixa que será recusada pela Pessoa 2 e que não seja tão alta que seu próprio retorno será significativamente prejudicado. De forma similar, a Pessoa 2 precisa se preocupar em não aceitar uma oferta baixa demais e em não rejeitar uma oferta razoável, pois nesse último caso os dois participantes ficariam sem nada.

Um outro problema conhecido é a chamada batalha dos sexos. Nele, um homem e uma mulher querem se encontrar à noite, mas ele prefere ir a uma luta de boxe e ela prefere uma apresentação de balé. Como estão incomunicáveis, eles não conseguem entrar em acordo sobre o destino da noite. Sabendo apenas a preferência do outro lado, para onde eles devem ir quando a noite chegar?

Se cada um for para o evento que prefere, eles não ficarão juntos. Se cada um decidir ir para o evento que o outro prefere, eles também não ficarão juntos. Para que o objetivo de ficarem juntos seja alcançado, ambos precisam escolher de forma independente o mesmo evento. Mesmo que isso ocorra, um dos “jogadores” ainda fica em desvantagem, pois teve que ir ao evento que o outro “jogador” preferia.

Mas o problema mais famoso da Teoria dos Jogos é o dilema do prisioneiro. Nele, dois bandidos que atuam juntos são presos e colocados em celas completamente separadas, ficando incomunicáveis. Em uma espécie de delação premiada, a polícia oferece a cada um deles a oportunidade de diminuir a própria pena se testemunharem contra o outro.

No geral, a ideia é: se nenhum dos dois aceitar delatar o parceiro, ambos receberão 6 meses de prisão; se os dois aceitarem delatar, ambos receberão penas de 5 anos de prisão; porém, se apenas um deles delatar, o delator sairá livre enquanto o delatado receberá uma pena de 10 anos de prisão.

Nos anos 1980, o cientista político Robert Axelrod convidou estudiosos da Teoria dos Jogos para um torneio que testaria diversas estratégias diante do dilema do prisioneiro. Cada um deles deveria submeter um pequeno programa de computador que tomaria decisões equivalentes às do dilema centenas de vezes, podendo utilizar o histórico do comportamento passado dos oponentes para definir o comportamento futuro. Os resultados e conclusões foram publicados no livro A Evolução da Cooperação.

Em um modelo de torneio de todos contra todos múltiplas vezes, a estratégia vencedora era a que acumulasse mais pontos. Em cada jogo, se os dois programas cooperassem, ambos recebiam 3 pontos. Se ambos traíssem, ambos receberiam apenas 1 ponto. Porém, se um deles cooperasse e o outro traísse, o traidor receberia 5 pontos enquanto o cooperador não receberia nada.

O vídeo abaixo detalha todo esse processo e todos os resultados alcançados. A versão dublada em português pode ser vista aqui.

No geral, a estratégia considerada a vencedora foi extremamente simples, sendo chamada de “olho por olho”. Basicamente, ela faz exatamente o que o oponente fez no jogo anterior: se o oponente cooperou, ela coopera no jogo atual; se o oponente traiu, ela trai no jogo atual.

Mas o mais importante foram as características que Axelrod identificou dentre as estratégias mais bem-sucedidas. Segundo ele, elas possuem quatro características que lhes dão muitas vantagens sobre as piores estratégias:

1. Benevolência: Estratégias como a “olho por olho” tendem a ser cooperativas, só começando a trair se o oponente começar a trair. Alguns dos pesquisadores submeteram estratégias mais “perversas”, que sempre tendiam a trair o oponente para tentar obter uma pontuação maior. No geral, essas estratégias se saíram muito pior que as benevolentes.

2. Clemência ou indulgência: Algumas estratégias benevolentes começavam cooperando mas, quando recebiam a primeira traição, passavam a apenas trair o oponente até o fim, impossibilitando qualquer chance de perdão ou reconciliação. Dessa forma, essas estratégias acabavam sendo contaminadas com a perversidade do oponente e tinham seus desempenhos prejudicados, revelando a importância de serem capazes de perdoar.

3. Retaliação: Outras estratégias eram demasiadamente misericordiosas, o que era facilmente aproveitado pelas estratégias perversas. Axelrod percebeu que as estratégias que apresentavam um comportamento retaliatório evitavam isso, já que o oponente entendia que haveria consequências para as suas traições.

4. Transparência: Por fim, as estratégias vencedoras possuíam regras claras, que podiam ser levadas em conta pelo oponente. Se a estratégia não apresentasse um padrão de comportamento no qual o oponente pudesse confiar, os dois programas não conseguiriam entrar em um ciclo de cooperação que beneficiaria a ambos.

Além das características acima, o experimento de Axelrod revelou outras conclusões. Uma das principais delas é que não existe uma estratégia única que sempre será superior independente do cenário. A performance de cada estratégia, inclusive a “olho por olho”, vai depender também do contexto no qual ela está inserida.

Na vida real, isso significa que nós sempre precisamos ter a flexibilidade cognitiva suficiente para reconhecer quando devemos adaptar as nossas estratégias de acordo com a situação. Por exemplo, um general que sempre utiliza a mesma estratégia no campo de batalha está condenando a, mais cedo ou mais tarde, ser derrotado, independente do quão boa sua estratégia seja. Se não for criativo, ele se tornará fácil de derrotar depois de algum tempo.

Porém, Axelrod também percebeu que os jogadores podem influenciar o contexto. Ele rodou campeonatos simulando a passagem de gerações, de forma que as estratégias mais bem-sucedidas produzem mais descendentes dentre uma população geral de estratégias. Dessa forma, mesmo começando com uma pequena ilha de estratégias benevolentes em meio a um mar de estratégias perversas, as estratégias benevolentes acabaram se tornando muito mais numerosas várias gerações depois.

No vídeo acima, um dos participantes diz: “No curto prazo, geralmente é o ambiente que modela o jogador. Mas no longo prazo são os jogadores que modelam o ambiente”.

No ato final do filme Batman: O Cavaleiro das Trevas, o caótico vilão Coringa (Heath Ledger) cria uma situação que se assemelha ao dilema do prisioneiro. Ele coloca bombas em duas embarcações e entrega os detonadores aos passageiros da embarcação oposta. Ou seja, os passageiros do Barco 1 possuem o detonador do Barco 2, e vice-versa. Além disso, ele informa que se um dos barcos não for detonado até meia-noite, ele mesmo irá detonar os dois barcos.

Esse último detalhe faz com que a situação não seja idêntica ao dilema do prisioneiro, pois uma cooperação entre os dois grupos de passageiros seria punida com a explosão das duas embarcações. Ainda assim, e apesar de opiniões divergentes, os passageiros dos dois barcos escolhem não detonar o outro, evidenciando que o interesse próprio não é a única variável presente nos dilemas morais da vida real.