Criando seu servidor de HDInsight no Azure

Fala galera, o conceito de BigData está cada vez mais próximo à realidade de todas as empresas… Inclusive aqui no blog já postei algumas coisas sobre o assunto, então não vou entrar em nada conceitual ou teórico. A idéia neste momento é mostrar como se faz para criar um servidor completo no Azure para se trabalhar com BigData através do HDInsight, que é a proposta da Microsoft para esta tendência.

A primeira coisa a se fazer é conectar ao Portal do Azure: windows.azure.com e aguardar o carregamento completo das funcionalidades. Dentro de alguns segundo, após tudo carregar no portal, você deve procurar o item HDInsight no menu da esquerda.

image

Vale lembrar que o HDInsight ainda é Preview, então pode ser que não esteja habilitado na sua conta. Caso isso aconteça, procure um botão na Home do Painel Geral do Azure onde você pode solicitar o período de avaliação do HDInsight. Após a Microsoft liberar a funcionalidade, você pode seguir com a criação do servidor. A liberação pode ser rápida, mas não sei hoje qual o tempo real de espera.

Quando o HDInsight abrir, procure no topo da tela e clique em CREATE AN HDINSIGHT CLUSTER. Vai levantar uma barra do rodapé permitindo que seja criado o serviço, já vem selecionado o HDInsight, mas você pode escolher outro serviço para criar na sua conta…

A configuração é bem intuitiva, permitindo que o ambiente seja configurado com poucos cliques. Preencha os dados como o nome do cluster e aguarde a validação para não haver conflito com outros nomes já criados. Esta senha que for inserida na criação do serviço, vai ser utilizada no futuro para se conectar ao serviço com a conta de ADMIN.

A quantidade de nós no cluster (CLUSTER SIZE) vai impactar diretamente no processamento que você terá no ambiente, quanto maior a máquina, mais processamento ela consegue fazer simultaneamente e aumenta a velocidade de resposta, consequentemente aumenta o custo que você irá pagar no final do mês. Cada nó de cluster que você cria, é um processador SixCore que será provisionado para seu ambiente. No caso de deixar um cluster com 4 nós, no Dashboard de Monitoramento você irá encontrar 24 núcleos (24 core) no serviço.

image

Por enquanto, para se trabalhar com o HDInsight, é exigido que o Storage Account seja do North Europe, os Storages nos EUA não passaram. Bom, para criar esta conta de Storage no norte europeu, vá até o item acima de HDInsight no menu, encontr o ítem de STORAGE, e clique em QUICK CREATE. Preencha os dados e não se esqueça de selecionar North Europe.

image

Volte para seu cluster, e, após preencher os dados do HDInsight e clicar no ítem CREATE HDINSIGHT CLUSTER, o processo se inicia e você pode acompanhar o andamento através da barra de evolução no rodapé da página. Para acessar esta barra, clique no ítem que parece um gráfico de barras horizontais no rodapé, do lado direito da página, ao lado do botão de dúvidas (?)

image

Clicando em DETAILS esta barra é atualizada para o contexto do andamento do serviço que você clicou, no caso, o andamento da criação e configuração do servidor.

image

Quando o Azure terminar o processo, um botão de OK aparece nesta barra de detalhes.

image

Quando o processo concluir, o servidor já está disponível para se trabalhar com BigData através do HDInsight. É possível visualizar um Dashboard do Azure clicando no nome que foi dado ao seu cluster. Este painel apresenta alguns dados de utilização do seu servidor. Repare que criando o ambiente com 4 nós no cluster, aparecerão 24 núcleos aqui.

image

Também é possível interagir através dos botões abaixo, no rodapé, seja o CONNECT e/ou MANAGE CLUSTER.

image

O botão MANAGE CLUSTER possibilita uma algumas interações através do painel web do Azure, inclusive para rodar códigos em JavaScript e/ou Hive.

image

Já com o botão CONNECT, o HDInsight lhe possibilita conectar diretamente na Máquina Virtual do serviço, através do Remote Desktop. Possibilitando criar pastas de trabalho dentro do servidor, como se faz naturalmente no Windows. Neste momento você precisa passar o user ADMIN e a senha que você inseriu na hora de criar o cluster, aquela senha segura de 10 dígitos com letras, números e caracter especial.

image

image

Simples assim, configuramos um ambiente inicial para se trabalhar com o HDInsight. Vamos, em próximos posts, mostrar como movimentar dados para lá, processar e retornar resultados.

Sobre Diego Nogare 346 Artigos
Diego Nogare é Gerente Técnico de Engenharia de Machine Learning no Itaú-Unibanco. Também é professor em programas de pós graduação no Mackenzie e na FIAP, em São Paulo. Foi nomeado como Microsoft MVP por 11 anos seguidos, e hoje faz parte do programa Microsoft Regional Director.