Review do Livro “Azure Data Factory Cookbook – 2nd edition”

Review do livro Azure Data Factory
Review do livro Azure Data Factory

Fiz mais um review de livro da Editora Packt, desta vez foi do Azure Data Factory Cookbook – 2nd edition. Um guia essencial para profissionais de dados que desejam aprofundar seus conhecimentos em integração e transformação de dados na nuvem. Domine o Azure Data Factory (ADF), primeiramente fazendo a configuração inicial e indo até a implementação de soluções complexas de Data Warehousing.

Esta segunda edição traz insights atualizados e técnicas avançadas. Com mais de 500 páginas, a princípio, o livro é uma jornada detalhada através de cada aspecto do ADF, incluindo integrações com outros serviços Azure e estratégias de migração de dados entre plataformas de nuvem.

Uma curiosidade que achei bem legal neste texto é o fato de todos subitens dos capítulos serem separados em seções de Se preparando, Como fazer, Como funciona e Tem mais… Na minha opinião isso é bacana porque você pode ir direto ao ponto que quer tirar sua duvida, seja na questão teórica, seja para entender como aquilo funciona ou buscar outros assuntos correlatos.

Vamos aos capítulos do Azure Data Factory?

Cap 1

No Capítulo 1, introduzem a plataforma de dados Azure, começando com a criação e execução do primeiro trabalho no ADF. Em seguida, apresentam a criação de pipelines, tanto utilizando a ferramenta de copiar dados quanto programando em Python. A versatilidade do ADF é demonstrada pela possibilidade de criação via PowerShell e pelo uso de modelos para agilizar o processo de criação de pipelines. Por fim, o capítulo aborda a criação usando Azure Bicep, destacando a eficiência e a modernidade da infraestrutura como código.

Cap 2

O Capítulo 2 mergulha nas funcionalidades avançadas do Azure Data Factory, começando com o uso de parâmetros e funções integradas para personalizar pipelines. Em seguida detalham a implementação de tarefas de metadados e stored procedures, essenciais para a manipulação e execução de dados. Apresentam as atividades ForEach e Filter para processamento iterativo e seleção de dados, enquanto as técnicas de encadeamento e ramificação são discutidas para otimizar o fluxo de trabalho dentro de um pipeline. O capítulo também fala sobre o uso de Lookup e Execute Pipeline, ampliando as possibilidades de integração e automação. Por fim, aborda a criação de triggeres de eventos para as esteiras, permitindo que os pipelines respondam dinamicamente a mudanças e acionamentos externos.

Cap 3

No Capítulo 3, o foco é o Azure Synapse, onde o leitor aprende a criar um espaço de trabalho e a carregar dados para o Azure Synapse Analytics, utilizando tanto o Azure Data Factory quanto o Azure Data Studio. O capítulo também ensina sobre o carregamento em massa, o que é bem eficiente para grandes volumes de dados. Além disso, comenta como pausar e reestabelecer um SQL do Azure Synapse diretamente do Azure Data Factory, uma tarefa útil para gerenciar recursos da cloud. Abordam a integração com o Azure Purview, mostrando como trabalhar com governança de dados. Por fim, o capítulo trata da movimentação de dados no Azure Synapse Integrate e do uso de um pool SQL serverless.

Cap 4

No Capítulo 4, explicam a configuração do Azure Data Lake Storage Gen2, estabelecendo uma base sólida para armazenamento de dados. Aliás, eles detalham a criação de um pool Synapse Analytics Spark, permitindo análises avançadas e processamento de dados. A integração do Azure Data Lake com o pool do Spark é explorada, demonstrando como executar trabalhos eficientemente. Por fim, o capítulo ensina a construir e orquestrar um pipeline de dados robusto que une Data Lake e Spark. Enfatiza a importância da sinergia entre armazenamento e processamento para insights valiosos.

Cap 5

O Capítulo 5 orienta sobre a configuração de um cluster HDInsight, uma ferramenta essencial para o processamento de big data. O leitor aprende a processar dados do Azure Data Lake utilizando HDInsight e Hive. O que maximiza a eficiência na análise de dados nas ferramentas de big data que a Microsoft oferece em sua nuvem. Abordam a construção de modelos de dados em Delta Lake e a execução de trabalhos de pipeline com Databricks, destacando a importância da modelagem de dados. Além disso, ensinam sobre a ingestão de dados no Delta Lake através do mapeamento de fluxos de dados, uma técnica que pode ser considerada avançada para a integração de dados. Por fim, explora as integrações externas, como Snowflake, ampliando o escopo de possibilidades para os usuários do Azure.

Cap 6

O Capítulo 6 aborda estratégias de migração de dados entre diferentes plataformas de nuvem, o que é bem importante visto que podemos evitar lock-in. Inicia com o processo de cópia de dados do Amazon S3 para o armazenamento de Blobs do Azure, seguido pela transferência de grandes conjuntos de dados do S3 para o Azure Data Lake Storage (ADLS). O capítulo prossegue explicando sobre a cópia de dados do Google Cloud Storage para o Azure Data Lake. Segue com Google BigQuery para o Azure Data Lake Storage, enfatizando a interoperabilidade entre serviços de nuvem. Além disso, discute-se a migração de dados do Google BigQuery para o Azure Synapse, ilustrando a integração de análises avançadas e armazenamento de dados. Por fim, explora-se a migração de dados do Snowflake para o Azure Data Lake Store, completando o panorama de soluções para a movimentação eficiente de dados na nuvem.

Cap 7

No Capítulo 7, introduzem o disparo de processos utilizando o Logic Apps, uma ferramenta poderosa para automação e integração de aplicativos. O capítulo explica como usar a web para invocar um logic app do Azure, demonstrando a facilidade de conectar serviços e criar fluxos de trabalho automatizados. Além disso, destaca a adição de flexibilidade aos pipelines com Azure Functions. O que permite aos usuários estender as capacidades de processamento de dados com código personalizado. Incluindo, também, as triggers baseados em eventos, otimizando assim a eficiência e adaptabilidade dos pipelines de dados.

Cap 8

No Capítulo 8, apresentam o Microsoft Fabric e o Data Factory, explorando suas capacidades e a sinergia entre eles. Sobretudo, o capítulo oferece uma análise detalhada dos pipelines do Microsoft Fabric Data Factory, enfatizando sua eficiência e escalabilidade. A seguir, discute-se o carregamento de dados utilizando fluxos de dados do Microsoft Fabric, uma abordagem poderosa para a movimentação de dados. Abordam a criação automática de modelos de Machine Learning (ML), mostrando como acelerar o desenvolvimento de soluções de ML. Por fim, o capítulo trata da análise e transformação de dados com a Inteligência Artificial (IA) do Azure e modelos pré-construídos de aprendizado de máquina, ilustrando como essas ferramentas podem ser aplicadas para extrair insights valiosos dos dados.

Cap 9

O Capítulo 9 explora o mundo do Azure DevOps dentro do ADF, começando pela configuração inicial e avançando para a publicação de alterações no Azure Data Factory. O leitor aprende a implantar os códigos na branch principal, preparando o terreno para a integração contínua (CI) e entrega contínua (CD) do ADF. O capítulo segue com a criação de um pipeline do Azure para CD, detalhando cada passo necessário. Explicam sobre a instalação e configuração do Visual Studio para trabalhar com a implantação do ADF, assim como a configuração do ADF como um projeto dentro do Visual Studio. Por fim, o capítulo conclui com a execução de Directed Acyclic Graphs (DAGs) com Airflow no ADF, mostrando como automatizar e otimizar esteiras de CI/CD para trabalho de dados complexos.

Cap 10

No Capítulo 10, o leitor é conduzido a monitorar execuções de pipeline e os tempos de integração, uma parte vital para garantir a eficiência operacional. O capítulo segue com técnicas para investigar falhas, incluindo a execução de pipelines no modo de depuração, permitindo uma análise aprofundada e resolução de problemas. Discutem a repetição de atividades, destacando como automatizar e otimizar tarefas recorrentes. Por fim, ensinam a configurar alertas para execuções do Azure Data Factory, assegurando que os usuários sejam notificados prontamente sobre o status e as ocorrências nos pipelines.

Para quem é da área de Machine Learning Operations, os capítulos 8, 9 e 10 são essenciais para que você domine o Azure Data Factory

Cap 11

O Capítulo 11 serve como uma introdução ao Azure Data Explorer, detalhando sua arquitetura e os recursos principais que o tornam uma ferramenta poderosa para exploração de dados. O capítulo oferece uma visão geral dos casos de uso comuns, integrando o Azure Data Explorer e o Azure Data Factory para maximizar a eficiência na análise de dados. Fornecem um guia passo a passo para configurar um pipeline de ingestão de dados do Azure Data Factory para o Azure Data Explorer, com foco na ingestão de dados JSON do Armazenamento do Azure. Por fim, o capítulo aborda a transformação de dados no Azure Data Explorer utilizando a atividade do Azure Data Factory, permitindo aos leitores entender como realizar transformações de dados complexas de maneira eficiente.

Cap 12

O Capítulo 12 aborda aspectos cruciais para a gestão eficaz do Azure Data Factory (ADF). Inicia-se com a configuração de funções e permissões, estabelecendo níveis de acesso adequados para diferentes usuários. Discutem o dimensionamento de projetos ADF, que destaca a importância de adaptar os recursos às necessidades do projeto. Exploram os recursos integrados de recuperação de desastres do ADF, garantindo a resiliência e a continuidade dos serviços. Abordam a captura de dados em mudança, destacando como monitorar e reagir a alterações nos dados. Por fim, o capítulo trata do gerenciamento de custos do Data Factory na visão de FinOps, uma abordagem estratégica para otimizar o gasto e o valor obtido dos recursos de nuvem.

Pra mim ficou claro que o Azure Data Factory Cookbook – 2nd edition é uma leitura obrigatória para quem busca excelência em engenharia de dados. Com exemplos práticos e orientações passo a passo, o livro capacita os leitores a implementar soluções eficazes com ADF. Te convido a explorar este livro e a aplicar o conhecimento em seus projetos. Domine o Azure Data Factory!

Bons estudos e que sua jornada de aprendizado seja tão enriquecedora quanto as soluções que você pode criar!

Sobre Diego Nogare 348 Artigos
Diego Nogare é Gerente Técnico de Engenharia de Machine Learning no Itaú-Unibanco. Também é professor em programas de pós graduação no Mackenzie e na FIAP, em São Paulo. Foi nomeado como Microsoft MVP por 11 anos seguidos, e hoje faz parte do programa Microsoft Regional Director.