A Loucura de Março, Revisitada: O Modelo de IA Funcionou Bem. Mas Coisas Loucas Ainda Acontecem.
( NOTA : Este artigo faz parte de uma série em andamento que documenta um experimento com o uso de IA para preencher as tabelas do torneio da NCAA e comparar seu desempenho com anos de experiência humana . O artigo original segue abaixo.)
Na semana passada, escrevi sobre como participar de um bolão do torneio da NCAA com um processo mais disciplinado do que o que costumo usar.
Em vez de me basear em mascotes, no clima ou em qualquer time que por acaso estivesse jogando bem no sábado à tarde, tentei pensar no chaveamento da mesma forma que um investidor ou analista pensaria: separar a previsão bruta do valor esperado, construir um chaveamento em torno da maior probabilidade de sucesso, construir outro em torno da dinâmica do grupo e tomar decisões com pelo menos alguma consciência da incerteza.
Esse processo gerou duas chaves. Uma era a chave "mais provável", projetada para maximizar as chances de uma boa pontuação caso o torneio seguisse um caminho predominantemente racional. A outra era uma chave de valor esperado (EV) para um grupo de aproximadamente 70 participantes — não uma aposta ousada e contrária à tendência, mas algo projetado para vencer uma competição real, em vez de apenas parecer sensato.
Então, como isso funcionou?
Até que bem, na verdade. Só não perfeitamente.
O modelo acertou 13 das equipes classificadas para o Sweet 16, o que é objetivamente impressionante em um torneio projetado para punir a confiança e recompensar o caos. A estrutura geral da previsão se mostrou consistente. Identificou a maioria dos favoritos. Acertou, de forma geral, as equipes com maior probabilidade de sobreviver ao primeiro fim de semana. De modo geral, entende-se que o formato do torneio…
Mas, como costuma acontecer em março, também revelou seus pontos fracos.
As ausências mais notáveis foram as de Ohio State, Wisconsin e Flórida. Ohio State perdeu por 66 a 64 para TCU com uma cesta de bandeja no final do jogo. Wisconsin foi derrotado por 83 a 82 pelo time número 12, High Point. A Flórida, atual campeã nacional e cabeça de chave número 1, perdeu por 73 a 72 para Iowa com uma cesta de três pontos decisiva nos segundos finais. Não foram colapsos lentos e óbvios. Foram derrotas por uma posse de bola, decididas nos momentos finais, exatamente o tipo de resultado que nos lembra que nenhum modelo de torneio pode ser testado em laboratório.
Isso deixa duas possíveis interpretações.
Uma delas é que o modelo estava errado.
Outra possibilidade é que o modelo estivesse praticamente correto, mas o basquetebol de eliminação simples é um ambiente péssimo para se ter certezas.
A resposta, como sempre, é ambas.
A boa notícia é que acertar 13 das 16 equipes que chegaram às oitavas de final sugere que a estrutura básica foi útil. Não foi aleatória. Não foi decorativa. Não se tratava apenas de usar palavras mais rebuscadas para chegar às mesmas conclusões intuitivas que todos os outros. No que diz respeito à identificação de qualidade, funcionou.
A notícia menos reconfortante é que as moças também eram informativas.
Olhando para trás, o processo ainda pendia um pouco demais para a ideia de que "o melhor time geralmente avança". Isso costuma ser verdade ao longo de uma temporada. É menos verdade em 40 minutos em uma quadra neutra, especialmente quando o azarão pode criar volatilidade. A derrota de Wisconsin é o exemplo mais claro disso. Um modelo de previsão de zebras mais robusto não necessariamente teria escolhido High Point como vencedor, mas provavelmente teria tratado Wisconsin como mais frágil do que eu: mais suscetível ao tipo de jogo em que um azarão acerta uma sequência de arremessos de três pontos, amplia a vantagem do favorito e transforma os últimos dois minutos em uma disputa acirrada.
A derrota da Flórida revela algo semelhante em um nível mais elevado. Um time cabeça de chave número 1 nunca deve ser considerado "provável" de perder cedo, mas há uma diferença entre ser forte e ser invulnerável. O modelo estava certo ao respeitar a Flórida. Provavelmente estava errado ao tratá-la como uma equipe segura.
Essa distinção é importante se você está tentando ganhar um bolão, e não apenas defender sua dignidade.
É aqui que o exercício fica interessante. Nos mercados, nos investimentos e nos bolões, há uma grande diferença entre estar basicamente correto e estar corretamente posicionado. Uma previsão pode ser inteligente e ainda assim não conseguir identificar onde reside a verdadeira fragilidade. O torneio não premia pontos de estilo por ter a melhor estrutura se você ainda subestimar a possibilidade de um azarão começar a acertar os arremessos.
Então, o que eu mudaria?
Essa não é a ideia central. Ainda acho que a maneira correta de abordar um torneio é separar a previsão de maior probabilidade da estratégia de valor esperado. A maioria das pessoas mistura as duas sem perceber. Elas escolhem um campeão que acham que pode vencer, mas depois fazem algumas apostas aleatórias em zebras para "apimentar as coisas", o que na verdade é apenas outra maneira de admitir que não têm um processo coerente.
O que eu melhoraria seria a camada de volatilidade.
Uma versão melhorada dessa abordagem daria mais atenção a quais favoritos são realmente sólidos e quais apenas parecem fortes em uma planilha. Ela mediria mais explicitamente a variação de arremessos de três pontos, o risco de turnovers, os problemas com faltas, a dependência de um único pontuador e a frequência com que os resultados de uma equipe oscilam drasticamente de um jogo para o outro. Ainda respeitaria os melhores colocados, apenas seria mais cautelosa em relação a eles.
Isso importa ainda mais agora porque, obviamente, os colchetes originais estão bloqueados.
Neste ponto, ninguém pode afirmar que "teria conquistado Iowa" a menos que de fato a tivesse conquistado. Essa é parte da beleza e da crueldade de toda a empreitada. Uma vez iniciado o processo, sua brilhante estrutura se transforma em um documento histórico.
Mas isso não significa que o processo deixe de ser útil.
Para começar, pode haver repescagem. Muitas competições reiniciam nas oitavas de final ou nas semifinais, o que é uma verdadeira dádiva para quem gosta de acompanhar o processo. Uma repescagem elimina a ilusão de que sabemos tudo de antemão. Agora temos novas informações, um número menor de participantes e uma nova oportunidade para separar as equipes realmente fortes daquelas que apenas sobrevivem.
Mais importante ainda, o exercício oferece a principal lição que eu esperava explorar nesta série: a previsão disciplinada não se trata de eliminar a incerteza. Trata-se de tornar a incerteza compreensível.
O modelo teve um bom desempenho. March ainda tinha outras ideias.
Isso não é uma falha. É exatamente esse o objetivo.
E se houver uma repescagem, estarei lá de novo — mais velho, mais sábio e um pouco menos disposto a confiar em um favorito vulnerável só porque a cotação indica que eu deveria.

