[ Machine Learning ] Analisar e prever comportamento dos jogadores - Tomb Raider Underworld deu o pontapé inicial

se oriente doidão · 6 Janeiro 2019

Artigo Original

"Tradução"

Nesse artigo vou falar sobre Tomb Raider. Especificadamente, Tomb Raider Underworld, lançado em 2008. Você pode perguntar, por que estou falando de Underworld dez anos após seu lançamento, Bom, por trás desse jogo está é a história de uma das primeiras tentativas de analisar a performance dos jogadores em um título AAA - que foi alcançado através da coleta de dados em alta escala e um pouco de ajuda de inteligência artificial. Com uma questão chave : "Os jogadores realmente jogam os jogos que fazemos da maneira que planejamos e esperamos? "

Análise dos jogadores.

Hoje em dia é bastante comum o uso de analytics em jogos, um processo que coleta dados de como está a performance do jogo e informações sobre o comportamento dos jogadores. Permitindo jogos de grande escala como Fortnite ter a capacidade de reagir ao comportamento da sua comunidade de jogadores, liberando atualizações de forma frequente para garantir o balanceamento do gameplay baseado nos dados dos jogadores.
Tornou se uma prática comum, particularmente da categoria free-to-play - que adotada esse processo com a intenção de identificar níveis de engajamento na tentiva de gerar mais retorno financeiro por parte da sua base de jogadores ativos.

Fornite: Battle Royale by Epic Games

Está não é a primeira vez que vemos como coleta de dados em larga escala pode ser usada para modelar aspectos sobre o comportamento dos jogadores em jogos. Já comentei sobre dois projetos acadêmicos; análise de performance de jogadores em Battlefield 3, assim como, análise de status e economia de cosméticos em Team Fortress 2.

Cada um desses estudos nos mostram como dados sobre os jogadores podem nos trazer informações que talvez não esperávamos. No entanto, também pode ser usado como parte central do gameplay, um aspecto que é investigado quando explorei a ‘shadow AI’ no reboot do Killer Instinct que replica como o jogador jogam o jogo para então criar uma IA equivalente.

Análise de jogadores se tornou algo bem comum com o surgimento da computação em nuvem e IA machine learning atualmente, mas conduzir esse tipo de trabalho a 10 anos atrás era algo penoso. Além da infraestrutura inadequada e a falta de expertise de como processar e gerenciar os dados ainda não estavam padronizados.
Dessa forma vamos olhar como está trabalho foi feito em Tomb Raider, e como foi feita a coleta de dados e processamento e o que foi aprendido desse experimento.

Sobre a pesquisa

A pesquisa em questão começou em 2008 e tinha como intenção avaliar como a audiência iria jogar o título assim que ele fosse disponibilizado. Geralmente esse trabalho é feito durante o desenvolvimento do jogo com equipes de Q.A, desenvolvimento e funcionais, porém a ideia desse trabalho era entender melhor como os jogadores alvos iriam jogar e se comportar em seu ambiente natural.

Dessa forma é possível identificar se o jogo está realmente alcançando as expectativas tanto da audiência quanto dos designers através da observação do gameplay dos jogadores no lançamento.

Tomb Raider: Underworld by Crystal Dynamics

Apesar de não parecer tão óbvio, conduzir esse tipo de pesquisa em um jogo como Tomb Raider é incrivelmente valioso. Mesmo que a série já tenha sofrido vários reboots e interpretações do seu universo, a base da série em sua grande parte continua a mesma: Lara precisa passar por uma série de negligências, perigos, armadilhas e tumbas, lutar contra inimigos e resolver puzzles até encontra uma resposta ou tesouro.

Apesar disso, cada iteração da franquia e de suas versões individuais traz um rebalanceamento desses elementos em formas diferentes que talvez não tenha a resposta desejada pelos designers por parte da audiência, sendo assim ,é melhor entender o que realmente funciona ou não para os jogadores, e dessa forma capitalizar sobre esses aspectos.

O projeto começou com o pesquisador de jogos Alessandro Canossa. No inicio do projeto, Canossa trabalhava para a desenvolvedor dinamarquesa IO Interactive — criadora de Hitman — que ainda era uma subsidiaria da Eidos Interactive.

Através da Eidos, Conossa e a Crystal Dynamics - desenvolvedora no momento da franquia - poderiam utilizar uma ferramenta que é conhecida como Square Enix Europe Metrics Suite.
Um framework com sistema de logging de eventos que é utilizado por uma variedade de desenvolvedores do grupo para capturar dados sobre como os jogadores interagem com os jogos aos quais estão desenvolvendo.

No caso de Tomb Raider, está incluso relatórios sobre como e onde os jogadores morriam no jogo, quanto tempo levou para completar certas partes de cada fase. Em uma tentativa de adquirir dados sobre os jogadores em seu ambiente natural, os dados para essa pesquisa foi adquirido pela Xbox Live durante o outono de 2018, quando o jogo foi lançado. A SQE Metrics capturou dados de 1.5 milhões de jogadores, apesar de que essa quantidade não se provou como um todo útil, uma parcela esta incompleta, quebrada ou incorreta. Mas ainda sim, podemos achar uma boa quantidade de dados válidos no banco de dados.

A partir dessa base Canossa entrou em contato com o pesquisador Anders Drachen, da Universidade de TI de Copenhagen, onde um dos seus trabalho aparece no overview da IA de StarCraft.

Alguns caminhos foram aplicados para analisar os dados, como aplicar a base dados que era de 28.000 jogadores válidos e que tinha uma métrica geoespacial válida ( ou seja, suas coordenadas logadas eram compatíveis com o mapa do jogo). Dessa forma, essas métricas poderiam ser avaliadas em relação ao mapa atual do jogo e dessa forma criar visualizações da frequência de mortes, variabilidade das mortes e quanto tempo os jogadores levaram em pontos específicos do mapa.

Distribuição de mortes no mapa Valaskialf. (Canossa & Drachen 2009)
Utilising existing geographic information system technology, it allowed for visualisations such as this one of the Valaskialf map from the latter half of the game (Canossa & Drachen, 2009). This helped to identify which parts of the map were proving more challenging than others and isolate areas that may require tweaking.

Identificando o perfil dos jogadores

Canossa e Drachen junto com o pesquisador de IA Georgios Yannakakis — no momento também da Universidade de IT de Copenhagen— decidiram explorar algo mais ambicioso e detalhado.

Um algoritmo de machine learning, poderia ser treinado com esses dados para estabelecer aspectos sobre o comportamento dos jogadores ? Para isso, eles utilizaram dados de um pouco mais de 25.000 jogadores que jogaram Tomb Raider em Novembro de 2008, mais focados especificadamente em 1.365 jogadores do seu banco de dados que finalizaram o jogo por completo. .

Para realizar esse experimento, o time extraiu as principais funcionalidades do gameplay de cada jogodor, sendo elas:

Numero total de mortes
Causa da morte
Tempo para completar
Frequência de uso da funcionalidade Help o Demand

Dessa forma foi possível verificar que, no conjunto de dados de 1300 jogadores capturados, temos 520 dias de jogatina (uma média de 10 horas para cada), aos quais ocorreram mais de 190.000 mortes.

É possível também identificar a competência da base de jogadores, como por exemplo, o tempo mais rápido de término do jogo foi de 2 horas e 51 minutos e o maior número de morte de um único jogador foi de 458 vezes.

Sobre as mortes, foi possível observar que a causa mais dominante foi por quedas, com 57% das mortes relacionadas a quedas, 29% por lutas contra NPCs e o restante por conta do ambiente (afogamento, armadilhas e fogo).

O time primeiramente utilizou particionamento em K-means [um método de particionamento para dividir o conjunto de dados em um conjunto de K clusters] e hierarquia Wards [uma alternativa ao K-means mas que gera a classificação dos grupos pela observação da distância ou da similaridade ou [des]similaridade entre os pares observados] para identificar se era possível reduzir esse conjunto de dados para um contexto menor e mais gerenciável, que identificasse tendências e comportamentos.

Com o K-means e Wards foi possível identificar de 3 - 5 clusters que poderiam existir, de forma consequente uma segunda análise foi conduzida , mas dessa vez utilizando uma variante de rede neural chamada de Emergent Self Organising Map (ESOM).

O resultado por trás dessa metodologia foi bastante incrível : a ESOM foi capaz de identificar 4 clustes de jogadores que poderia existir na base de dados: classificados como :

Runners
Solvers
Veterans
Pacifists

Cada um com uma combinação de caracteristicas que nos diz como eles jogam Tomb Raider.

Breakdown of player clusters within the dataset.

Runners (grupo 4) possuem tempo rápido de jogo completo, com valores similares, além disso eles morrem muito por conta dos NPCs e do ambiente. Uma área onde existe alta variabilidade nesse grupo é no uso da funcionalidade Help on Demand onde uns usam muito e outros raramente.

Solvers (grupo 2) é o oposto de Runners: eles buscam frequentemente por ajuda e dicas para os quebra-cabeça do jogo e como resolvê-los de forma rápida. No entanto, eles possuem um tempo de finalização do jogo muito alto, apesar de terem poucas mortes por conta de NPCs e ambiente eles morrem muito por quedas, muito mesmo. Isso sugere que eles são mas reflexivos sobre suas ações no jogo.

Pacifists (grupo 4) morre muito por conta dos NPCs , mas alguns poucos possuem tempo de finalização médio e pouco uso do Help on Demand.

Veterans (grupo 1) eles possuem conhecimento suficiente sobre a série para saber o que esperar dos desafios, dessa forma terminam o jogo rápido mas não tão rápido quanto os Runners, a diferença é que morrem muito pouco e quando morrem é por conta das quedas e do ambiente

Death by falling is a significant issue across the board.

Com essa parte do trabalho completo, fica a pergunta: Poderíamos usar essas dados para predizer como um determinado jogador vai se comportar no futuro? Como podemos estabelecer a aderência de um jogo com um desses arquétipos. Ou talvez, uma informação mais útil sobre o engajamento dos jogadores: eles vão parar de jogar por que é muito frustrante para eles? Eles vão realmente finalizar o jogo e quanto tempo levaram ?

Prevendo o comportamento dos jogadores

Em sequência ao trabalho descrito acima, Tobias Mahlmann, juntamente com o Drachen, Canossa, Yannakakis e Julian Togelius, usaram o mesmo conjunto de dados para uma nova análise, mas aplicando formas expandidas e restrita do mesmo.

Primeiramente, o número total de jogadores foi aumentado em 10.000(dos quais 6.430 eram usáveis), mas os dados de cada jogadores não era mais restringido a condição de ter ou não completado o jogo.

O resultado foi 3 conjunto de dados: o primeiro com 2.561 jogadores que completaram apenas a primeira fase, o segundo com 3.517 jogadores que terminaram tanto a primeira como a segunda fase e o último com 1.732 jogadores que terminaram o jogo durante Dezembro de 2008 até Janeiro de 2009.

Tomb Raider: Underworld by Crystal Dynamics

Em adição, além de extrair o tempo de jogatina, o total de mortes ( dessa vez 961.000), causa da morte e uso do Help-on-Demand, o time também extraiu outras funcionalidades do gameplay como quanto artefatos e tesouros foram coletados, e configurações foram alterados no menu de opções. O jogo permite que o jogador customizasse a dificuldade de munições, hit-points dos inimigos, saúde de Lara e uso de saves. Foram feitas 15.317 mudanças para customizar a experiência do gameplay, mas somente por 1.740 jogadores do conjunto de dados.

Dessa fez, o time resolveu criar dois sistemas de predição. O primeiro é para prever quantas fases um jogadores iria completar e o segundo para estimar o tempo total que o jogador selecionado levaria para completar o jogo. Esses sistemas foram baseados somente nos dados sobre a performance na fase 1 ( Mar do Mediterrâneo) e a fase 2 (Costa da Tailândia).
Esse sistema foi treinado com o plataforma de machine learning WEKA, o qual contem uma variedade de algoritmos de machine learning e analise que são ideias para a proposta.

The resulting predictions from the level predictor dataset trained on a variety of algorithms (Mahlmann et al, 2010)

Apesar de longe de ser um relatório perfeito, os resultados foram bem interessante. O resultado varia de forma significativa, mas uma variedade de algoritmos possuem uma performance melhor do que a base de predição estimadas pelos autores.

Utilizando o algoritmo REPTree, foi possível prever a última fase com uma acurácia de 48;5% usando apenas a fase 1, expandido o conjunto de dados para a fase 1 e 2 a acurácia aumento para 76.7%, mas apenas considerando uma localização e o total de itens coletados na fase 2.

Isso sugere que o total de tempo que o jogador gastou nas áreas citadas e quão bem foram suas performances é o suficiente para determinar como a performance vai continuar durante o jogo e se o jogador vai finalizá-lo, a partir dessa análise eles conseguiram quebrar o gameplay em mais 55 funcionalidades.

Tomb Raider: Underworld by Crystal Dynamics

O comportamento do jogador muda com o tempo?

E por fim, a parte final desse trabalho foi publicado em 2013, por Canossa and Drachen pela Northeastern University in Bosto.

Após identificar os grupos existente na base de jogadores e quais funcionalidades do gameplay ajudavam nesse agrupamento, o experimento final é verificar se o comportamento do jogador muda com o tempo. Usando as mesmas ferramentas e ideias do segundo experimento, o projeto explorou dados de 62.000 jogadores que completaram ao menos uma parte parcial do jogo de uma coleção de 203.000 jogadores do mesmo conjunto de capturados em Dezembro/2008 e Janeiro/2009.

Dessa vez, usando uma forma de análise arquetípica, os pesquisadores analisaram dois aspectos em particular dos dados. Primeiro, como os jogadores que completaram o jogo (16% dos 62.000) gastaram o tempo de jogatina nas fases e uma segunda análise de como as funcionalidades do gameplay que foram capturadas para cada jogador mudaram conforme eles progrediam pelas fases.

Essa metodologia, resultou em 6 arquétipos onde os jogadores migram entre eles. Eles demostram um aumento no progresso do jogo assim como a sua variação está relaciona a habilidade do jogador.

Em adição, cada fase mostra uma distribuição variada entre clusters de jogadores, mostrando como alguns se tornam mais predominantes do que outros em fases especificas. Ao mesmo, alguns só existem em certas fases. Realizando uma cross conferência, em relação aos clusters originais eles identificaram 4 tipos recorrentes, que mostram forte similaridades com veterans, pacifists and solvers.

Veterans associados com Adrenalin-Reward (verde-claro): Um cluster de jogadores que terminam o jogo rápido, fazem alguns ajustes e fazem uso constante da funcionalidade de adrenalina do jogo
Death-Reward-Environment associado com (laranja) Pacifists - graças a habilidade de coletar itens pelo mapa.
Time-reward in (amarelo) apresenta similaridades com Solvers, onde os jogadores possuem performance boa, mas são bem lentos para completar o jogo e coletar as recompensas de cada mapa. Sugere que exploram bastante o ambiente em busca de tesouros e outras recompensas

Finalizando

Apesar de Tomb Raider Underworld ser bastante esquecível em relação as aventuras de Lara Croft, o impacto que esse jogo teve sobre o uso de análise no campo emergente da análise de jogos (e na pesquisa da IA também) é difícil de ignorar. Em grande parte da literatura de pesquisa contemporânea sobre análise de jogos, Tomb Raider: Underworld é celebrado como um dos trabalhos pilares na área, e o que podemos aprender até mesmo com a menor quantidade de dados, abrindo o caminho para projetos mais interessantes no futuro - alguns dos quais eu já cobri aqui no canal.

Vídeo

Vaynard · 7 Janeiro 2019

Achei o jogo uma porcaria, mas muito foda esse conceito!

toad02 · 7 Janeiro 2019

Muito bom topico.
Acho que é o tipo de conteúdo que a galera da pasta desenvolvimento apreciaria mais que o da consoles.

Metal God · 7 Janeiro 2019

Eu gostei do jogo, na época. Simplesmente é a confirmação do usuário final como como testador do jogo. Será que os novos Tomb Raider foram feitos com base na análise destes dados? Eu até acho que sim, porque as mortes por queda, nos novos Tomb Raider são beeeem menores do que os anteriores, por exemplo.

se oriente doidão · 8 Janeiro 2019

Metal God disse:
Eu gostei do jogo, na época. Simplesmente é a confirmação do usuário final como como testador do jogo. Será que os novos Tomb Raider foram feitos com base na análise destes dados? Eu até acho que sim, porque as mortes por queda, nos novos Tomb Raider são beeeem menores do que os anteriores, por exemplo.

Creio que sim, apesar da CD dizer que não se basearam tanto nos reports da suíte da SE mas sim na experiência do pessoal que entrou no estúdio na época.

PDFs sobre a pesquisa:
http://julian.togelius.com/Mahlmann2010Predicting.pdf
https://www.researchgate.net/publication/258832679_Behavior_Evolution_in_Tomb_Raider_Underworld

viagem estrelar · 8 Janeiro 2019

Google search

Google search

Google search

[ Machine Learning ] Analisar e prever comportamento dos jogadores - Tomb Raider Underworld deu o pontapé inicial

se oriente doidão

Mil pontos, LOL!

Vaynard

Lenda da internet

toad02

Lenda da internet

Metal God

Lenda da internet

se oriente doidão

Mil pontos, LOL!

viagem estrelar

Mil pontos, LOL!