A falácia da comparação direta de dados provenientes de diferentes populações

Esta semana o Fabrício postou uma reportagem da Folha sobre segurança pública no FB. Para quem trabalha com estatísticas populacionais esse tipo de reportagem sempre chama a atenção, principalmente, pelas audaciosas inferências. Por isso,  resolvi, neste post, explicar sucintamente a metodologia implicada na comparação de dados  provenientes de  populações distintas ou em séries históricas de uma “mesma” população.

Sejamos filósofos, cientistas, jornalistas ou donas de casa, estamos, diariamente, construindo nosso conhecimento sobre algum assunto a partir da comparação de dados. Por exemplo, lemos o tempo todo notícias do tipo: “Porto Alegre é a cidade com a maior prevalência de mortes por HIV no Brasil”, ou ainda, “Porto Alegre é mais violenta do que o Rio de Janeiro”. Mas esse tipo de comparação direta de medidas de mortalidade pode ser feita?

Para discutir esse assunto, vamos tomar como exemplo a comparação de homicídios ocorridos na cidade do Rio de Janeiro e de Porto Alegre, em Março de 2012 (dados fictícios). Primeiramente, números absolutos, do tipo: em março houve 8 homicídios em Porto Alegre e 23 no Rio de Janeiro, jamais podem ser comparados, por motivos bastante óbvios: a população da RJ é maior do que a de POA. Para resolver esse problema o número absoluto de homicídios é dividido pela população total do município, resultando na seguinte informação: no mês de Março de 2012, houve 5,8 homicídios para cada 100 mil habitantes em POA e 3,6 homicídios para cada 100 mil habitantes no RJ. Logo, Porto Alegre é mais violento do que o Rio de Janeiro? NÃO!

Alguns estratos da população estão mais suscetíveis a homicídios, por exemplo: homens jovens têm maiores chances de morrer com uma bala no meio da testa, do que senhoras com mais de 50 anos. Portanto, de acordo com as variações na estrutura demográfica da população, teremos diferentes chances estatísticas de terminado fenômeno ocorrer, ou seja, teremos uma população maior ou menor sob o risco de ser assassinada. Não podemos comparar diretamente populações com diferentes estruturas demográficas em relação a um fenômeno que é interdependente a esta estrutura.  Voltando ao nosso exemplo, se compararmos diretamente os dados, concluímos que POA é mais violenta do que o RJ, mas não estamos levando em consideração o fato de POA possuir um percentual mais elevado homens e jovens na sua população, do que o RJ.

O que fazer, então? Bom, existem algumas formas de controlar esse tipo de erro: (i) podemos aplicar um cálculo estatístico chamado padronização, onde levamos em consideração os pesos (%) de cada faixa etária e sexo em cada uma das populações que estamos comparando, isso eliminaria os efeitos da estrutura etária ou do sexo sobre as taxas; (ii) podemos estratificar a população – eu poderia ter comparado homicídios entre homens, mulheres, nas diferentes faixas etárias; (iii) para quem apenas lê esse tipo de notícia  resta ficar atento se algum desses dois processos foi utilizado antes que as inferências tenham sido feitas.

Encontramos os mesmo problemas e a mesmas soluções em comparações por séries históricas, por exemplo, mortalidade por homicídios em POA em 2000 e 2012, visto que a estruturas etárias das populações vêm mudando consideravelmente nos últimos anos.

8 comentários

  1. “no mês de Março de 2012, houve 5,8 homicídios para cada 100 mil habitantes em POA e 3,6 homicídios para cada 100 mil habitantes no RJ. Logo, Porto Alegre é mais violento do que o Rio de Janeiro? NÃO!”

    SIM. hshs.

    Não sei se entendi bem como estratos da população têm relevância para, ao contrário dos dados, afirmar que POA NÃO É mais violenta do que o Rio (claro, considerando que os dados do Rio fossem confiáveis, o que não é o caso).

    Homicídio é homicídio, seja entre homens jovens das periferias, seja por latrocínio em bairros de milionários. E se os homicídios são cometidos com arma de fogo, tem-se um problema social ainda pior [sim, estou querendo deixa para falar mal da Maria do Rosário e lembrar, pela milionésima vez (zzz), que ela recebeu doação da Taurus: http://goo.gl/9NVv0%5D

    Claro, morar no Leblon, no Rio, ou no Moinhos, em POA, diminui drasticamente a chance de levar chumbo, mas não muda nada o fato de que em diversas partes das duas cidades tem gente se carneando.

    A cidade de São Paulo, por exemplo, conseguiu reduzir o índice de homicídios para 13 por 100 mil habitantes em 2010 devido a várias coisas, entre elas o reforço no policiamento e o fato de enjaular todo mundo (aí o troço estourou nos presídios…).

    Já POA teve 36,8 homicídios por 100 mil habitantes em 2010, sendo a 16ª capital mais violenta do país (só perde, na Região Sul, para a guerra civil de Curitiba). Os dados são do Mapa da Violência 2012 (pdf: http://goo.gl/i9vrl, p. 30).

    E a desgraça da “evolução” da taxa de POA é esta:

    2000: 39,2
    2001: 36,5
    2002: 40,5
    2003: 36,4
    2004: 40,3
    2005: 40,1
    2006: 35,5
    2007: 47,3
    2008: 46,8
    2009: 40,7
    2010: 36,8

    Ou seja, na década, variação aleatória entre 35 e 47,3 (que é quase o índice de 2010 de MACAPÁ, para fazer uma comparação meramente para apavorar… zzz).

    O motivo disso todo mundo sabe (não, porque a mentiraiada pública gaÓcha impede): o RS faliu, tem o menor piso nacional de professor e a pior relação dívida/receita (dívida equivalente a 213,77% da receita: http://goo.gl/NnUU1) entre os estados produtores.

    Resultado óbvio: matança.

    Portanto, não vejo muito como relativizar os dados considerando fatores como faixa etária e sexo.

    Tanto que eu acho totalmente pertinente comparar os índices de homicídio do Brazél aos de países em guerra. Brazél, em geral, sempre vence sem limites.

  2. Walter,

    Concordo contigo. Tratando-se de homicídio, morte é morte.
    Mas o que eu quis demonstrar, utilizando homicídios como exemplo, são as implicações matemáticas dessas comparações, (lembrando que meus dados são fictícios)

    Eu poderia ter utilizado mortes por Diabetes como exemplo, nesse caso eu não posso dizer que a população de Angola (expectativa de vida de 48 anos) e da Itália (expectativa de vida de 80 anos) são comparáveis, pois a Diabetes ocorre quase sempre depois dos 40 anos.
    O que eu tentei trazer foi o conceito de população em risco, que é o denominador das nossas taxas, matematicamente, populações onde há guerra civil vão ter mais chances de morrer com uma bala da testa.

    Essa tua série histórica tem outras questões de comparabilidade, acho que até mais importantes do que a padronização. Eu só posso dizer que essas taxas são diferentes, se eu provar, por meio de um teste estatístico ou olhando a distribuição dos dados, que elas não foram achadas ao acaso.
    Olhando rapidamente, não sei se essas taxas são diferentes.
    Mas isso é papo pra outro post.

  3. Sobre o Mapa da Violência (Instituto Sangari? WTF?):
    Não fala uma linha sobre a metodologia de análise empregada, apenas com relação a subregistros.
    Não dá pra saber o que eles fizeram.

  4. É que POA, com essa matança sem limites, não é um bom exemplo, mesmo que seja com dados fictícios. Primeiro, porque 99% dos gaÓchUs vão mentir muito, dizendo que jamais houve violência na cidade (e – um clássico – dizer que sentem mais medo em São Paulo) e, segundo, justamente porque o teu exemplo fictício tá bem próximo à realidade. Hshsh.

    Não sei quem são esses caras desse instituto. Eles têm divulgado esse “Mapa da Violência” há alguns anos e obtido divulgação. Eles dizem usar o “Sistema de Informações de Mortalidade do Ministério da Saúde”, então acho que não tem metodologia propriamente, só o uso dos dados do (des)governo. Tenho olhado outros e não há muita variação nos dados. POA sempre fica ali entre 35 e 40 homicídios por 100 mil habitantes. Pelo menos eles avisam sobre os problemas:

    “Não se pode negar que as informações do sistema de registro de óbitos ainda estão sujeitas a uma série de limitações e críticas, expostas pelo próprio SIM11, e também por outros autores que
    trabalharam com o tema (Mello Jorge 12; Ramos de Souza et al
    13). A primeira grande limitação, assumida pelo próprio SIM, é o sub-registro. Esse sub-registro se deve, por um lado, à ocorrência de inúmeros sepultamentos sem o competente registro, determinando uma redução do número de óbitos declarados.”

  5. legal rachel! as audaciosas inferências q tu fala acontecem de muitas maneiras, e esta é uma delas. para quem não domina um padrão correto de inferência, neste caso estatístico, é muito fácil se enganar. no raciocínio probabilístico isto acontece com muita facilidade. a questão toda é quais variáveis incluir no cálculo e, além disso, quais são as operações entre seus valores (por exemplo, num caso de estatística básica é preciso separar amostras por conjuntos – relação de pertença -, e estabelecer comparações com base nas mesmas operações entre diferentes valores).
    tem um exemplo de inferência enganadora na probabilidade clássica que é assim: tu pergunta para o sujeito, supostamente racional, qual é a probabilidade de x ser P, em que P é uma propriedade qualquer (‘homem’, ‘caucasiano’, ‘feliz’, etc). daí a pessoa atribui, por exemplo, probabilidade de .7 de que x seja P. então tu pergunta para o sujeito qual é a probabilidade de x ser P e Q, onde Q é outra propriedade qualquer, mas que está usualmente presente nos mesmos casos em que P está presente. tipicamente, o sujeito responde que a probabilidade de x ser P é Q é .75, ou .8, etc. ou seja, ele atribui MAIOR probabilidade a conjunção de P&Q do que ele atribui a P sozinho, o que é totalmente errado!
    de todo modo, acho importante que cientistas e lógicos deixem às claras quais padrões de inferências são enganadores e quais não, de modo que a taxa de erro no sistema de crenças dos seres humanos em geral seja minimizada.

  6. Certo! O problema dos registros é a primeira questão – o SIM é o sistema de informação mais confiável que temos no Brasil (FAIL). Mas isso seria um problema da coleta dos dados e da sua veracidade; sobre essa limitação eles escrevem muito bem.
    Minha dúvida metodológica é a respeito do tratamento estatístico dos dados (padronizações, análise de regressão), ou seja, quais inferências eu posso fazer!
    Talvez seja uma divulgação menos científica e, por isso, não esteja especificado.

  7. Bom exemplo, Luis =)

    é exatamente esse o ponto: Se nossas decisões são racionais, não podemos tomar decisões baseadas na intuição de que um caminho é melhor do que o outro. Se fizermos isso, ciência pra que?

  8. Sim, Quase Dra. Canuto, achei teu post muito pertinente, no sentido que hoje em dia recebemos “enxurradas” de informações todos os dias, e que normalmente vem de forma sintetizada. Mas nem sempre as inferencias feitas são corretas e o teu exemplo mostra exatamente isso. Acho que a moral é essa, não podemos comparar dados sem a devida discriminação da população.

Deixe uma Resposta

Preencha os seus detalhes abaixo ou clique num ícone para iniciar sessão:

Logótipo da WordPress.com

Está a comentar usando a sua conta WordPress.com Terminar Sessão / Alterar )

Imagem do Twitter

Está a comentar usando a sua conta Twitter Terminar Sessão / Alterar )

Facebook photo

Está a comentar usando a sua conta Facebook Terminar Sessão / Alterar )

Google+ photo

Está a comentar usando a sua conta Google+ Terminar Sessão / Alterar )

Connecting to %s

%d bloggers like this: