sexta-feira, 5 de outubro de 2018

Algo a mais

Em reportagem sobre o desafio do setor elétrico para o próximo presidente, o Valor publicou uma matéria com o gráfico abaixo.


Notou algo de estranho? Dica: está no eixo horizontal.

Os intervalos não são regulares. Até o penúltimo dado segue um intervalo de um ano, de repente usa-se um intervalo de 30 dias para apresentar a previsão para o final de outubro.
Só que antes de comentar as escolhas feitas no desenho do gráfico, pode-se discutir algo sobre os dados do gráfico. Por que a data de 1º de outubro como referência para o nível dos reservatórios? A única explicação que me ocorre é que era o último dado disponível para 2018 e se quis mostrar como estava na mesma data nos anos anteriores, pois não há nenhuma menção explícita na matéria à alguma peculiaridade do dia. Há menção ao final do período seco, que termina em novembro. Portanto, faria mais sentido usar essa data como referência. Todavia, na falta de previsão do ONS (Operador nacional do Sistema) para o final de novembro, poder-se-ia usar o final de outubro como uma referência, até mesmo porque não raro já há o início da recomposição dos níveis dos reservatórios da região Sudeste,(responsável pela maior parte do armazenamento, durante novembro.
Assim o gráfico foi refeito utilizando o final de outubro como referência.


Mudanças: 
  • a primeira e mais visível é que o gráfico está mais estreito. Economiza-se espaço sem perda da informação. 
  • O intervalo é constante: um ano entre cada dado. 
  • Não foi incluído o dado do nível dos reservatórios no início de outubro, último dado real. Poderia ter incluído junto com a estimativa para o final do mês, mas as diferenças são pequenas e representaria mais um acréscimo de sujeira do que de informação.
  • A ordem das regiões foi modificada, com os dois grandes blocos (Sul;Sudeste e Norte/Nordeste) juntos.
  • Utilizou-se apenas uma casa decimal para representar os valores.
  • Como já comentado, os dados se referem ao final do mês |(dia 31) em vez do início (dia 1º). Chama atenção a diferença entre os dados de um gráfico para o outro. o motivo é o  esvaziamento dos reservatórios durante o período (ou enchimento, no caso do Sul), exceto em relação aos dados do Nordeste de 2017: parece que o gráfico original utilizou um dado equivocado, pois na base de dados do ONS consta outro valor para àquela data.





terça-feira, 21 de agosto de 2018

Gráfico do dia: ordem em gráficos

O jornal Valor publicou uma matéria sobre os gastos estaduais com o Judiciário e o MP, acompanhado do gráfico abaixo. Os estados aparecem por ordem alfabética. Seria esta a melhor forma de ordená-los?


Há uma vantagem da ordem alfabética: fica fácil localizar um elemento na lista. Contudo, há a desvantagem de dificultar a identificação de quais são os maiores ou menores no quesito.
No gráfico refeito, os estados foram ordenados pela maior despesa com o Judiciário. Fica mais fácil ver que Paraíba, Tocantins e Rondônia são aqueles que aparecem com os maiores gastos (em proporção da receita corrente líquida), enquanto Amazonas, Goiás e Acre estão na situação oposta.
Como são dois itens (gastos com o pessoal do Judiciário e do MP), teve de se optar por um para a ordem. Uma alternativa seria fazer o gráfico do MP com a sua ordem, porém às custas de ficar mais difícil ver a situação de cada estado.
 
Outras modificações feitas no gráfico: ampliação da área dos dados,  as legendas de dados passaram para dentro das barras e inclusão de linhas indicando os limites prudenciais e teto de gastos, de forma a tornar visível os estados que estão em situação mais crítica.
Há uma outra coisa que chama a atenção no gráfico original: dois estados com os mesmos percentuais de gastos (Santa Catarina e Sergipe), curiosamente dois estados em sequência. É uma coincidência ou houve uma repetição na entrada dos dados? Infelizmente não consegui encontrar os dados originais para sanar a dúvida, mas apostaria na segunda hipótese.

segunda-feira, 13 de agosto de 2018

Gráfico do dia: porcentagens versus proporções

Um outro gráfico usado na matéria "Crise faz crescer diferenca salarial por anos de estudo" mostrava a diferença percentual de remuneração dos salários em comparação com aqueles de nível superior completo ao longo do tempo.




Fora a comparação dos "sem anos de estudo", as demais categorias dependem de se observar os valores para constatar se houve ou não alteração da diferença salarial.

Para responder a mesma questão, o gráfico foi refeito, só que utilizando a proporção dos salários em relação ao das pessoas com ensino superior completo (equivalente a 100%), com cada categoria ao longo do tempo.


Ao observar este gráfico, concordaria com a afirmação de que a crise fez crescer a diferença salarial por nível de escolaridade? Se compararmos o início e o final da série, isto só seria verdadeiro para aqueles com superior incompleto. Se a comparação for feita a partir de 2014, mais categorias se enquadrariam, ainda que com variações pouco expressivas.

Gráfico do dia: áreas de círculos

O site G1 publicou uma matéria com o título "Crise faz crescer diferença salarial por anos de estudo" ilustrada por vários gráficos, entre eles um com áreas de círculos para mostrar os salários por nível de escolaridade. Consegue dizer quantas vezes mais alguém com ensino superior completo recebe em comparação com alguém sem estudo só de olhar a figura?


Fez sua estimativa? E na comparação entre ensino superior incompleto e ensino superior completo? É fácil dizer que é mais; difícil dizer quantas vezes mais. O cérebro humano não é muito bom para calcular proporções de áreas visualmente, assim dificilmente terá respondido os valores corretos (5,7 e 2,2, respectivamente). 
Por isso o gráfico vinha com os valores para ajudar o leitor.

Compare com a versão abaixo, um convencional gráfico de colunas. Pode não ter o mesmo apelo estético dos círculos, mas permite que só de bater o olho se possa ter uma noção mais clara das proporções - e é para isto que um gráfico serve, transmitir informações visualmente. 




quinta-feira, 9 de agosto de 2018

Gráfico do dia: cores para quê?

As cores em um gráfico servem para adicionar informação e não meramente um capricho para deixá-lo bonitinho. É um princípio básico para sua confecção, embora nem sempre seguido.
Uma matéria do G1 sobre a violência no Brasil foi ilustrada, em sua primeira versão, pelo gráfico abaixo. Além das legenda do eixo horizontal inclinada, o que dificulta a leitura, a parcimônia de dados (apresenta apenas os três estados com maior taxa), há o uso indevido de variação de cores. O gráfico trata de apenas uma coisa - a taxa de mortes violentas - logo não há motivo para variar as cores.


Com os dados colhidos diretamente na fonte (o Anuário do Fórum Brasileira de Segurança Pública), o gráfico foi refeito, com os dados de todas unidades da federação. Além dos dados de 2017, em vermelho mais escuro, estão apresentados os dados do ano anterior, em um tom mais claro, para comparação. Na legenda dos estados foram adotadas duas cores: vermelho par aos estados que pioraram suas taxas, cinza para os estados que melhoraram. Adicionalmente a média do país para 2017 está representada pela linha vermelha pontilhada. O eixo horizontal indica os valores extremos em vermelho. Uma versão interativa poderia apresentar os dados individuais com a passagem do mouse sobre os dados. Um pouco mais de informação, sem usar mais espaço.


Como o gráfico foi feito: há uma variedade de pequenos truques utilizados para chegar neste resultado. 
1. Os dados de cada UF foram ordenados de forma crescente. 
2. Em uma nova coluna foram  atribuídos números de 1 a 27 para cada unidade. 
3. A primeira série de dados é composta por x (valores de 2016) e y (número de cada unidade, atribuído de forma crescente); a segunda série, com os valores de 2017. 
4. Cada série foi formatada com o padrão escolhido (tamanho, cor de borda e cor de preenchimento).
5. Para conectar os pontos com o eixo vertical para facilitar a identificação de cada UF, foi usada a barra de erros horizontal (valor 100% para menos).
6. Para criar as legendas das UFs em duas cores, foram cridas duas novas séries: uma para os estados que tiveram aumento na taxa, outra para diminuição, nas quais x = 0 e y = posição de cada estado no ranking decrescente. Os pontos que indicam as séries estão sem marcador.
7. A linha do Brasil foi acrescida com uma nova série, de apenas um ponto (x = dado de 2017, y = 13,5 - o ponto médio), e barra de erro vertical de 100%.
8. Por fim, o eixo horizontal foi substituído por uma nova série, com x = mínimo e máximo dos valores de 2017 e y = 0. Acrescenta-se a legenda e voilá.

Trabalhoso? Um pouco.

A matéria do G1 foi atualizada ao longo do dia e o gráfico que deu origem ao post, suprimido. Acrescentaram novos gráficos, inclusive o abaixo - que dispensa comentários. O leitor que chegou até aqui é capaz de apontar seus problemas.


quarta-feira, 8 de agosto de 2018

Gráfico do dia:cortando o eixo

O gráfico abaixo é uma reconstituição de um publicado na revista Exame de 07/2018. A única alteração foi a retirada da legenda dos dados.


Parece que houve uma queda gigantesca dos investimentos das empresas no período de 2012 a 2018.
Compare com o próximo gráfico.


Uma queda expressiva, sem dúvida, mas menos dramática que a evidenciada na figura anterior. Se são os mesmos números, por que há esta discrepância? O que mudou de um gráfico para o outro?
Simplesmente no segundo gráfico o eixo vertical não foi cortado, começando em zero, enquanto no primeiro ele foi cortado e começa em 100.
No gráfico original (abaixo), há a legenda dos dados com os valores aportados em cada ano. Só que a primeira impressão é de uma diminuição muito maior do que a da realidade, que o leitor só perceberia se atentasse aos números na figura.


Um bom gráfico não precisa repetir todos os valores para passar sua mensagem - que no caso é distorcida pelo corte da escala do eixo vertical, ponto já foi abordado em posts anteriores.
Porém, no post anterior havia um exemplo de um gráfico de linhas em que o eixo vertical estava cortado e não começava no zero. Naquele caso, a mensagem era a ultrapassagem do número de mulheres aptas a votar em relação aos homens, que ficaria pouca nítida se fosse mostrada sem o corte do eixo. Além disso, há a indicação no eixo do intervalo mostado. De qualquer forma, na dúvida não corte. 

terça-feira, 7 de agosto de 2018

Gráfico do dia: quando o autor não confia em gráficos

É curioso, mas muitas pessoas fazem gráficos sem confiar neles. Um indício é quando colocam todos os números, como se não confiassem na capacidade do observador de perceber a mensagem sem eles. Se a precisão dos números é tão importante assim é melhor usar uma tabela. A função primordial dos gráficos é consolidar muitas informações para que padrões (ou suas ausências) possam ser identificados visualmente.
Uma matéria publicada pela revista Época sobre o eleitorado feminino foi acompanhada por três gráficos. Repare que a maior parte da área dos gráficos é ocupada por legendas, com pouco espaço destinado à informação visual propriamente dita.
 Os gráficos foram refeitos (ver abaixo). O primeiro foi substituído por um gráfico de linhas, com o eixo vertical cortado para facilitar a visualização, com o eleitorado feminino ultrapassando o masculino. Nos outros dois gráficos foi mantido o padrão de barras, mas enfatizando a informação visual - e em ambos foram acrescidas barras para a categoria "não informado".
O gráfico por faixa etária tem um problema de intervalos irregulares nas categorias, que variam de um a quinze anos, sem considerar a categoria de maiores de 79 anos. Assim, a categoria que aparece com a maior proporção (45 a 59 anos) é a que abrange o maior intervalo. Isso se manteria se fosse adotada uma escala mais regular? Definitivamente não.