Fala galera! Fiz mais um review de livro, mas desta vez foi o “Extending Power BI with Python and R – Second Edition”, do meu amigo Luca Zavarella, que publicou pela Packt Pub. Me senti muito feliz com o convite dele para fazer esse review e compartilhar no blog, afinal, espero que você também estenda o Power BI com Python e R após ler este livro.
Bom, o Power BI é uma ferramenta da Microsoft poderosa para visualização de dados, mas vai muito além disso. Dessa forma, vasculhando alguns posts antigos, achei esse de 2013, falando sobre as novidades de BI no SQL Server 2014 e ainda nem tinha o Power BI.
Primeiramente, nos 22 capítulos deste livro, é possível explorar desde a integração de scripts R e Python até técnicas avançadas de análise e otimização. Em segundo lugar você irá aprender a configurar o R e o Python, a trabalhar com grandes conjuntos de dados, a detectar outliers e valores ausentes, a usar expressões regulares (o que é bem trabalhoso, vamos combinar!) e até incorporar Machine Learning em seus projetos. Aliás, independente de você ser um iniciante ou um usuário experiente, este livro completo com praticamente 800 paginas irá aprimorar suas habilidades no Power BI e ampliar suas possibilidades de análise de dados. Contudo, vou compartilhar contigo minhas impressões, para que você estenda o poder do Power BI com Python e R.
Vamos aos capítulos
1 – Integração de R e Python com o Power BI: Este capítulo abrange a integração de scripts R e Python com o Power BI, destacando sua utilidade além da simples visualização de dados. Explora como adicionar scripts R ou Python no Power BI, as ferramentas específicas para essa integração e as limitações desses scripts em diferentes produtos do Power BI.
2 – Configuração do R no Power BI: Foca na configuração do R com o Power BI, incluindo instalação, configuração de kernel R e ambientes de desenvolvimento.
3 – Configuração do Python no Power BI: Explora a integração do Python com o Power BI, abordando instalação, configuração de kernel Python e uso de ambientes virtuais.
4 – Solução de problemas comuns com Python e R no Power BI: Oferece soluções para problemas frequentes ao usar Python e R no Power BI.
5 – Importação de objetos de dados não tratados: Aborda a importação de arquivos RDS e PKL no Power BI, útil para dados processados externamente.
6 – Uso de expressões regulares no Power BI: Explora o uso de regex para busca e substituição em strings no Power BI, melhorando a limpeza de dados.
7 – Anonimização e pseudo-anonimização de dados no Power BI: Técnicas para proteger a privacidade dos dados usando scripts Python e R.
8 – Registro de dados do Power BI em fontes externas: Como extrair e registrar dados do Power BI em arquivos externos ou sistemas.
9 – Carregamento de grandes conjuntos de dados no Power BI: Técnicas para trabalhar com arquivos grandes usando Python e R.
10 – Aceleração do carregamento de dados com formato Parquet: Conversão de dados do formato CSV para Parquet para otimizar o desempenho.
11 – Chamando APIs externas para enriquecer seus dados: Extensão de dados usando APIs externas.
12 – Cálculo de colunas com algoritmos complexos: Distâncias: Uso de algoritmos para cálculos de distâncias.
13 – Cálculo de colunas com algoritmos complexos: Fuzzy Match: Técnicas avançadas de fuzzy match.
14 – Cálculo de colunas com algoritmos complexos: Problemas de otimização: Abordagem de problemas de otimização usando Python e R.
15 – Inclusão de insights estatísticos: Associações: Exploração de associações entre variáveis usando estatísticas.
16 – Inclusão de insights estatísticos: Outliers e valores ausentes: Detecção de outliers e imputação de valores ausentes.
17 – Uso de aprendizado de máquina sem licença premium ou incorporada: Integração de ML no Power BI.
18 – Uso de linguagens externas do SQL Server para análise avançada e integração de ML no Power BI: Uso de motores analíticos do Python e R no SQL Server e Azure SQL Managed Instance para o Power BI.
19 – Análise Exploratória de Dados (EDA): Foca na importância de compreender profundamente as características inerentes dos dados antes de aplicar modelos de ML. Introduz técnicas de EDA que ajudam na seleção de modelos adequados e na engenharia de features. Aborda limpeza de dados, relacionamentos entre variáveis e insights significativos para construir modelos precisos.
20 – Uso da gramática de gráficos em Python com plotnine (não achei uma tradução melhor, então fiz quase que literal): Guia abrangente sobre o pacote plotnine em Python, com paralelos ao popular ggplot2 em R. Explora a análise do conjunto de dados Titanic usando técnicas do plotnine, como criação de gráficos de barras e histogramas. Também aborda a integração do plotnine com o Power BI, incluindo instruções detalhadas para uso dessas visualizações no ambiente do Power BI.
21 – Visualizações avançadas: Criação de gráficos personalizados avançados, com foco em gráficos de barras circulares. Esses gráficos são úteis para exibir dados periódicos ou cíclicos de forma clara e eficiente. O capítulo aborda seleção e implementação de gráficos de pizza no R e no Power BI, além da integração de scripts R para renderizar gráficos complexos do ggplot2.
Só lembrando que não se deve usar gráficos com nome de comida, sejam eles pizza ou rosca. rss
22 – Visualizações interativas e personalizadas em R: Aprimoramento das visualizações de dados com interatividade, explorando a transição de gráficos estáticos para melhor interpretabilidade.
Minha opinião
Pessoalmente eu considero o Power BI uma ótima ferramenta. Afinal, o capítulo 17 e 18 trazem mais proximidade ao que tenho trabalhado nos últimos anos, e gostei realmente do que li. Na minha opinião é um material sólido para quem pretende aplicar as possibilidades que o R e o Python oferecem para seus projetos de DataViz. Embora o livro ofereca uma visão ampla, prática e aplicada, de como você poderá construir e utilizar estas técnicas. Nesse sentido, as referências e leituras adicionais te ajudarão aprofundar no contexto explicado no cap´tulo. Com o propósito de ajudar a validar o que você aprendeu, todo final de capítulo tem algumas perguntinhas que ajudam a fixar o conteúdo.
Em linhas gerais recomendo sim a leitura, principalmente para quem se interessa pelo assunto de DataViz. Enquanto escrevo esse texto, a versão digital está a venda na Amazon por um pouco mais de 250 reais.
Estenda o poder do Power BI com Python e R
A atualização do Github contendo os códigos não é tão frequente, afinal, há materiais com mais de 2 anos lá no repo. O que não é um problema, já que outros códigos são mais recentes.
Bons estudos!