Fala galera, arrisco dizer que não existe aprendizado de máquinas sem dados para ensinar a máquina. A coleta ou geração dos dados pode ocorrer de algumas formas como por exemplo consumindo dados oriundos de sensores em pessoas ou veículos, telemetrias de máquinas em chão de fábrica, inseridos manualmente através de aplicativos ou até dados “fakes” gerados de forma automatizada com inteligência, entre outras… Qualquer forma dessas, entre muitas outras, é válida desde que os dados sejam úteis para o cenário que estamos desenvolvendo.
Usando o Azure Machine Learning é possível consumir dados de uma infinidade de origens, fazendo o upload da sua base de dados ou então lendo os dados de:
- Web URL via HTTP
- Hive Query
- Azure SQL Database
- Azure Table
- Azure Blob Storage
- Data Feed Provider
Neste post vou mostrar como ler os dados de um Azure Blob Storage. Para isso entendo que você já criou seu ambiente e está com o Azure Machine Learning rodando (caso ainda não tenha montado, veja como fazer aqui)…
Importante: O componente de Reader do Azure Machine Learning quando está lendo a origem do Azure Blog Storage faz a leitura de um container do mesmo storage que foi usado para criar o ambiente. Garanta isso!
Para fazer o acesso são necessários alguns dados que ficam nas configurações do storage, vá até o portal do Azure em seguida vá ao menu de storage e então selecione o seu armazenamento. Clique em Gerenciar Chaves de Acesso. Isso lhe abre
Uma nova janela se abre com a chave de acesso primária e secundária. Copie a primária que ela será usada em seguida, lá no Azure Machine Learning.
Ao abrir o StudioML , crie um novo experimento. Caso não saiba fazer isso, pode ser este post. Procure o componente Reader no menu da esquerda e arraste para o seu experimento. Ao clicar no componente, algumas opções se abrirão no menu da direita. Garanta que escolheu Azure Blob Storage na opção do Data source.
Com os dados do storage que você copiou lá do portal do Azure, preencha os campos Account name, Account Key e Path to Container. No meu caso, ficou assim:
- Account Name: blognogareml
- Account Key: A chave de acesso primária que copiei lá do storage
- Path to Container: origemblog/dadosBrutos.csv
Reparem que o ícone de esclamação desapareceu… Isso significa que os dados fornecidos para o componente são semanticamente válidos. Lembrando que os dados devem ser preenchidos exatamente como são, respeitando o case sensitive (maiúsculas e minúsculas).
Para validar se os dados estão acessíveis, clique no ícode Run na barra inferior do StudioML e aguarde a execução do pacote. Após ficar com um check verde no componente, clique no botão de saída do componente e em seguida em View Results.
Se os dados forem lidos corretamente, você terá uma nova janela com alguns dados referentes ao seu dataset, como esta abaixo. Repare que no canto superior esquerdo a janela apresenta a quantidade de linhas (rows) e colunas (columns) que você tem no seu dataset.
Pronto, com isso você consegue acessar seu dataset através de um Azure Blob Storage. Divirta-se 🙂