Porque migrar do Excel para o Python?

A alguns anos atrás, manipular e analisar dados sempre esteve associado ao uso de planilhas eletrônicas (mais especificamente ao Excel da Microsoft). Se houvesse a necessidade de cálculo de indicadores, criação de gráficos ou geração de relatórios a partir de uma base de dados, o Excel sempre foi a ferramenta mais procurada, tanto por sua facilidade de uso como pela grande variedade de funcionalidades disponíveis.

Apesar da sua interface amigável e funcionalidades atrativas, linguagens de programação como o Python sempre tiveram desempenho superior ao Excel na tarefa de processar dados. Mas, se isso é verdade, porque a maioria dos profissionais que trabalha com dados ainda utiliza exclusivamente o Excel? A alguns anos atrás, essa pergunta seria facilmente respondida: “Apesar do alto desempenho e flexibilidade, o Python não é tão amigável quanto o Excel”. 

Entretanto, nos últimos três anos, muito esforço foi gasto para tornar a linguagem Python mais acessível a usuários não habituados com programação. O desenvolvimento de plataformas interativas como o Jupyter Lab e o Google Colab, removeram o Python das telas pretas de programação e o apresentaram de uma forma mais amigável. Tais plataformas somadas aos pacotes de manipulação de dados como o Pandas, permitiram aos usuários de planilha a possibilidade de obter resultados superiores aos obtidos com o Excel sem a necessidade de dedicar muito tempo no aprendizado de programação. Mas afinal, quais seriam as vantagens do Python em relação ao Excel? Vale a pena fazer a migração de uma ferramenta para a outra?

O crescente aumento no número de informações gerado pelas empresas tornaram o uso do Excel cada vez mais complicado. Se você trabalha em uma empresa (independente do porte) que utiliza o Excel para gerenciar dados contidos na corporação, você provavelmente já se deparou com problemas como: planilhas demasiadamente lentas, erros de cálculo e bugs, dados perdidos por conta de arquivos corrompidos, dentre outros problemas.

Digamos que você esteja trabalhando com centenas de milhares de linhas ou colunas de informação espalhadas em várias tabelas. Qualquer profissional nessa situação concordaria que, com o Excel, seria um pesadelo gerenciar essa quantidade de informação com fórmulas que se relacionam entre múltiplas planilhas. Além disso, o fato das fórmulas estarem escondidas nas células das planilhas dificulta a rastreabilidade de eventuais erros cometidos nas operações. Sem falar do fato das fórmulas compartilharem o mesmo ambiente dos dados dificulta o entendimento da lógica utilizada na planilha de terceiros. Por fim, o acesso a informações externas também é uma limitação para o Excel. Apesar de existirem funcionalidades de conexão com banco de dados, existe pouca flexibilidade para essa função.

Olhando para o Python, temos uma situação bem diferente. Para ele, o número de linhas ou colunas é irrelevante pois, nesse caso, não estamos interessados em interagir com os dados de forma direta e visual. Isso nos possibilita a trabalhar com milhões de linhas sem se preocupar com o uso excessivo de memória do computador. Trabalhar com dados espalhados em múltiplos arquivos também não é um problema para o Python, uma vez que, com ele, podemos facilmente combinar e concatenar dados de diferentes fontes e formatos. Além disso, todos os cálculos estão visíveis e sistematizados, facilitando a rastreabilidade de erros e o entendimento das operações feitas por terceiros. Essa sistematização permite também a replicabilidade dos cálculos em um novo conjunto de dados, resultando na automação de tarefas.

Com o Python, temos a possibilidade de trabalhar com diversos tipos de dados, desde números, datas e textos até objetos mais complexos como imagens, por exemplo. Quanto a conectabilidade, o Python não possui limitações. Temos a possibilidade de conexão com qualquer banco de dados além de funcionalidades de web scraping, possibilitando a coleta de dados diretamente da nuvem.

Resumindo, com o Python temos a possibilidade de

  • trabalhar com qualquer tipo de dado
  • acessar informações diretamente de bancos de dados ou da web
  • automatizar cálculos repetitivos
  • lidar com volumes gigantescos de dados

Além ser fácil e rápido de  

  • entender e reproduzir o trabalho de terceiros
  • achar e corrigir erros de cálculo
  • re-utilizar cálculos em bases atualizadas (automação)

Por fim, contamos com o fato da ferramenta ser

  • open source (gratuita)
  • capaz de executar tarefas avançadas de estatística e machine learning
  • capaz de gerar gráficos sofisticados e iterativos
  • compatível com qualquer plataforma (windows, mac, linux, ios, android, web, ….)

Compartilhe esse case

OUTROS POSTS