Arquivos big data - Diego Nogare

Fui tapeado…

Diego Nogare — Mon, 28 Sep 2020 13:25:06 +0000

Em muitas reuniões

vejo coisas desnecessárias sendo oferecidas

Já tive a sensação de que quase fui tapeado em várias reuniões. E infelizmente isso acontece aos montes! Participo de conversas de negócios/técnicas com clientes, parceiros e fornecedores há alguns anos. Essa é a minha rotina, junto com mandar e receber e-mails e ajudar o time (quando precisam) a sair do outro lado. Contudo, essa sensação de ser tapeado é algo que incomoda e acontece na maioria das vezes porque não se ter domínio sobre aquilo que está sendo discutido.

Por exemplo, já participei de reuniões onde muitos elementos ou recursos computacionais são adicionados ao projeto, e que na realidade não ajudam em nada a resolver o problema do cliente mas deixam próximo de bater meta de quem estava fazendo aquilo.

Saber que os projetos que participo vão resolver o problema do cliente com parcimônia é impagável. Por mais estranho que pareça, já houve reunião no qual convencemos o cliente de que ele não precisava de um projeto de Big Data, Inteligência Artificial ou Machine Learning. Tenho o privilégio de colocar a cabeça no travesseiro e dormir com a consciência tranquila.

Fui tapeado…

Um caminho que nos ajuda a não ser tapeado é estudar sobre o que vamos discutir. Por exemplo, quando se vai discutir sobre Inteligência Artificial é importante saber que não há magica, e que não dá para comprar promessas milagrosas. Se alguém te garante que o projeto terá uma acurácia alta em pouco tempo ou que conseguirá te entregar uma resposta precisa, desconfie! Mas você só conseguirá ter essa percepção do que está discutindo, quando estudar o assunto. E você pode extrapolar essa ação à todas as outras áreas do conhecimento, não só à Inteligência Artificial ou Machine Learning.

E como estudar?

Para todos estes assuntos que envolvem tecnologias Microsoft, você consegue se atualizar pelo site do Microsoft Learn. Você pode acessar a qualquer momento, e começar as trilhas de aprendizagens (Learning Path). Apesar de ser gratuito e com conteúdo atualizado, os assuntos não são superficiais. Por exemplo, é possível criar um sistema de automação de NLP usando Inteligência Artificial dentro do Power Platform, só estudando esta trilha de aprendizagem: https://docs.microsoft.com/en-us/learn/challenges?id=a3087e6f-e8a4-4365-b132-f8be2e5a725d

E as provas?

Apesar de eu ter escrito sobre as Top 5 certificações de IA e depois apresentar um Guia de Certificação em IA e ML da Microsoft, você não precisa ir tão fundo caso não queira. Recentemente eu fiz alguns exames em tecnologias que envolvem a área de dados da Microsoft, e fui aprovado em todos eles. São exames de nível inicial, que dão uma visão geral sobre o assunto, mas não aprofunda em detalhes técnicos. Contudo, para não ser tapeado, é uma ótima forma de se atualizar.

AI-900 pode lhe ajudar com os primeiros passos em Inteligência Artificial, mas não se surpreenda com o tanto de conteúdo que vai aprender ao estudar para esta prova. Você terá conceitos sobre aprendizado de máquina (Machine Learning) e Inteligência Artificial, sempre dentro do ambiente Azure.

AZ-900 é a certificação sobre Fundamentos do Microsoft Azure, e dá uma visão geral de como você pode contratar os serviços na plataforma da Microsoft além de ajudar a ter conhecimentos básicos sobre Cloud Computing.

DP-900 tem o foco na Plataforma de Dados e como são implementados, principalmente por meio dos serviços de nuvem. Você pode usar estes assuntos para lhe dar base sobre os serviços de armazenamento e processamento de dados.

PL-900 te ajudará a entender os elementos que envolvem a Power Platfom, que permite automatizar processos básicos de negócios, realizar análises básicas de dados, desenvolver aplicativos e bots rapidamente.

O objetivo principal é você não ser tapeado, e realizar o exame após seus estudos, te ajudará a ter uma comprovação externa sobre o assunto que você estudou e aprendeu. Desejo boa sorte na jornada, e que tenha sucesso nos exames!

O post Fui tapeado… apareceu primeiro em Diego Nogare.

O Dilema das Redes e muito mais…

Diego Nogare — Mon, 21 Sep 2020 12:00:34 +0000

O Dilema das Redes na Netflix

não é a única produção que você PRECISA conhecer sobre tecnologia

Buscando expandir a mente sobre o tema e trazendo outras produções relacionadas à tecnologia, elaboramos uma lista de produções como O Dilema das Redes, e muito mais. Muito se fala sobre como tecnologias que envolvem Inteligência Artificial e Machine Learning podem ser usadas, e este tópico vem aumentando nas ultimas semanas. Contudo, grande parte destas discussões estão direcionadas à parte ruim da tecnologia. Isso acontece com recortes que direcionam a conversa para o lado negativo como a falta de privacidade ou como somos influenciados por estas ferramentas.

Podemos sair da bolha?

Começando com O Século do Ego, que é um documentário publicado em 2002 pela emissora BBC Two Britânica. O documentário retrata como Edward Bernays usou os estudos do seu tio, Sigmund Freud, para direcionar pessoas. Elas reagirem de forma positiva às mensagens que seus contratantes pediam. Você encontra esse documentário de 4 horas no youtube.

Outra obra que não pode faltar para o senso crítico sobre o tema, foi o livo publicado por Darrell Huff em 1954, com o título Como Mentir com Estatística. Contudo, são 10 capítulos que destacam a forma de pensar e como fomos induzidos à acreditar nas peças publicitárias.

Vale a pena ter sempre um pé atrás

Apesar de todo o barulho em volta de O Dilema das Redes (publicado pela Netflix em Janeiro/2020) nestes últimos dias, na minha opinião esta obra foca diretamente em como somos influenciados pelas informações que consumimos nas nossas redes sociais. Dá um foco nas coisas ruins que a tecnologia pode fazer. Por outro lado, ao assistir Dataland (publicado pela Amazon Prime em 2019) eu gostei da forma positiva que Helsinque está trabalhando para mapear o genoma de 10% da população e permitir que isso ajude no combate à problemas de saúde.

Mas não posso deixar de destacar também o encerramento do documentário de 1 hora falando sobre o problema que acontece na China. Com isso, lhe convido à ler o texto Guerra da IA entre China e Estados Unidos, publicado em Março/2020. Como também não se pode deixar de lembrar do documentário de 2hs chamado Privacidade Hackeada (publicado pela Netflix em 2019) que aborda os problemas de privacidade de dados. Por exemplo o processo de 5 bilhões que o Facebook está enfrentando, causado pelas atividades que a Cambridge Analytica.

Algumas outras obras

Mas não é só de forma negativa que vamos discutir, podemos ver o uso dos dados pelo lado positivo da coisa. Por exemplo, o filme O Homem que Mudou o Jogo (tem na Netflix) mostra como um time de baseball que não tinha orçamento para trazer os melhores jogadores da liga, mas que conseguiu montar o melhor time possível através da análise de dados. Como também o documentário The Code (Netflix) que em 4 capítulos e mostra como a matemática está presente no nosso dia a dia. Apesar de muitas pessoas não gostarem do Bill Gates, ele é um homem fantástico. Investe muito para que o mundo seja um lugar melhor para todos. É possível ver um pouco deste trabalho junto ao instituto Bill & Melinda Gates, no documentário O Código Bill Gates (Netflix)

E pra finalizar, deixo o convite para que assistam também A Era dos Dados (Netflix), e tirem suas próprias conclusões sobre o momento que estamos vivendo. Lembrem-se que o século XXI nos permite viver isso!

O post O Dilema das Redes e muito mais… apareceu primeiro em Diego Nogare.

Cursos livres no EaD do Mackenzie

Diego Nogare — Wed, 08 Jul 2020 12:00:58 +0000

Em tempos de crise

Capacitar-se é essencial para alavancar a carreira

Durante a pandemia, com o intuito de diminuir o impacto que está rolando no país, mais uma das iniciativas que participei foi da criação de cursos livres no EaD do Mackenzie. São diversos cursos gratuitos, todos com emissão de certificado de participação constando a carga horária. Este certificado pode ser utilizado por quem precisar, para comprovar hora de participação em atividades complementares. O link de todos os cursos estão em https://eadcursoslivres.mackenzie.br

Tomada de decisões guiadas por dados

O curso que desenvolvi tem o título Tomada de decisões guiadas por dados, e falo sobre a jornada da tomada de decisão nas empresas com o uso de dados. Contudo, para entender a importância do uso de dados para tomar decisões, sejam eles estruturados ou não estruturados, é interessante entender o que é Big Data. Por exemplo, pode-se usar tanto Hadoop quanto Spark para isso, Mas no exemplo, que usamos neste curso livre enfatizaremos o Spark.

Após entender as possibilidades de tecnologias de Big Data, falamos sobre a parte de ingestão com fluxo contínuo de dados, em um processo de streaming. Trabalharemos com a arquitetura Lambda e suas aplicações, e por fim, é possível observar o processo de tomada de decisão a partir dos dados coletados e a maneira como isso pode impactar positivamente nossas escolhas.

Cursos livres no EaD do Mackenzie

Estes são os cursos livres que o Mackenzie está oferecendo. É só acessar o link acima e se inscrever gratuitamente.

Inovação na era digital
Inteligência Artificial e ferramentas avançadas de ciência de dados
Tomada de decisões guiadas por dados
Agile Project Management: Um novo modelo de gestão nas organizações
Contrato de Confidencialidade
Como fazer a análise para a compra de um imóvel
Gestão de equipes remotas
Estratégia corporativa e gestão de projetos
Cultura Digital na Educação
Metodologias ativas e educação híbrida
Building Devops pipeline – Beginners
Gestão de tesouraria e uso de derivativos: Mercado a termo de dólar
Estratégia empresarial
Jornada do candidato

Aproveitem a oportunidade e se capacitem. Mas não deixe essa oportunidade só contigo, avise seus amigos. Faça sua parte, mesmo que seja, por exemplo, encaminhar esse material à mais pessoas.

O post Cursos livres no EaD do Mackenzie apareceu primeiro em Diego Nogare.

Como escolher uma ótima solução

Diego Nogare — Fri, 08 May 2020 13:30:53 +0000

Tantas ferramentas e fornecedores

como escolher o mais apropriado?

Esta semana, durante a preparação de uma aula para a pós-graduação, me deparei com a situação de como escolher uma ótima solução. Isso porque, para resolver problemas envolvendo Big Data, Machine Learning, Data Science e Inteligência Artificial, existem muitas soluções incríveis no mercado. Mas e ai, qual é a que melhor resolve meu problema?

Pensando nisso, montei a aula trazendo a experiência que uso no meu trabalho. Quando há a necessidade de recomendar uma solução aos clientes, em situações nas quais eles não tem uma exigência específica, tento me basear esta abordagem.

É importante deixar registrado aqui, que essa forma de ação, dá um caminho para montar a proposta. Você não deveria se guiar unica e exclusivamente por este caminho. Mas pode usá-lo como um auxílio.

Conhecendo o mapa macro das ferramentas

Já faz alguns anos que Matt Turck elabora um landscape das soluções envolvendo Data & AI. É uma imagem segmentada por áreas, onde dentro de cada uma delas há indicações de ferramentas e fornecedores que ajudam a resolver aquele tipo de problema. Com grandes áreas como Infrastructure, Analytics & Machine Learning, Applications – Enterprise, Cross-Infrastructure/Analytics, Open Source, Data Source & API e Data Resources. E dentro destas grandes áreas, existem sub-grupos para ajudar a estreitar ainda mais a facilidade de chegar à solução.

Com base nisso, você poderá saber quais são as soluções mais apropriadas, segundo Matt Turck e sua equipe, para te ajudar a resolver problemas daquelas áreas. Clicando na imagem do landscape, abrirá a imagem original em tamanho que permite ler.

Mas qual escolher?

Após ver as sugestões, como escolher uma ótima solução? Eu, particularmente, gosto de usar análises de organizações independentes. Uma destas consultorias é o Gartner. Eles possuem vários relatórios e análises sobre tecnologia da informação. Um destes relatórios é chamado de Quadrante Mágico. Anualmente o Gartner analisa diversos aspectos de ferramentas, agrupadas por áreas de atuação, e apresentam um relatório bem completo com pontos fortes de cada uma delas, e pontos que devem ser analisados com mais cautela por quem for usar aquela solução.

Veja um exemplo de como é o Quadrante Mágico para Data Science e Plataformas de Machine Learning, em 2020.

Este relatório é pago, e o Gartner vende seu acesso para qualquer empresa. Contudo, o quadrante mágico tem uma área que destaca os líderes de mercado naquela segmentação. Estes líderes compram o relatório com licença de compartilhamento, para usar a seu favor em questões de marketing e comparação com outros concorrentes. Para nós, que estamos buscando entender os pontos analisados pelo Gartner sobre estas soluções, podemos nos beneficiar destes relatórios comprados pelos líderes.

Por exemplo, o quadrante mágico de 2020 sobre plataformas de Data Science e Machine Learning pode ser acessado gratuitamente através de um cadastro simples no site da Alteryx. A mesma coisa acontece para o relatório de 2020 sobre plataformas de Analytics e Business Intelligence que a Microsoft pagou e fornece gratuitamente. Ou então o de Cloud Infrastructure as a Service de 2019 que a Amazon pagou e fornece para os interessados.

E isso resolve?

Este caminho é um guia que vai te ajudar, mas não faz milagres. Existe um universo de situações que você pode enfrentar no seu dia a dia, e entender o que pode ser usado para resolver aquele problema é fundamental. Use estas sugestões e adapte para sua realidade, unindo estas idéias com o que já faz no seu trabalho.

O post Como escolher uma ótima solução apareceu primeiro em Diego Nogare.

Mini-Curso de Introdução à Big Data e Data Science

Diego Nogare — Wed, 15 Apr 2020 12:00:53 +0000

Mini-Curso grátis

com 12 aulas de aproximadamente 30 minutos cada

Quando gravei este mini-Curso de Introdução à Big Data e Data Science, a proposta era compartilhar um pouco da minha visão da área. Este mini-curso foi gravado em 2016, mas ainda continua sendo um conjunto de assunto bastante relevante.

Todas as 12 aulas estão disponíveis no Youtube, contudo, o áudio não está dos melhores. Mesmo assim, o conteúdo é relevante e a baixa qualidade do áudio pode ser ignorada (espero que façam isso!). rss

Lista de aulas e seus conteúdos

1 – O que é Big Data (44 minutos)

2 – Onde usamos Big Data (33 minutos)

3 – Ferramentas para trabalhar com Big Data (33 minutos)

4 – O que é Data Science (27 minutos)

5 – Onde usamos Data Science (29 minutos)

6 – Ferramentas para Data Science (34 minutos)

7 – Introdução à Linguagem R (43 minutos)

8 – Introdução ao Azure Machine Learning (35 minutos)

9 – Introdução ao Power BI (30 minutos)

10 – Introdução ao HDInsight (24 minutos)

11 – SQL 2016 + Big Data e Data Science (30 minutos)

12 – Sessão de perguntas e respostas (26 minutos)

Este mini-curso é apenas uma Introdução à Big Data e Data Science, mas mesmo assim, permite que a ideia dos assuntos fique mais clara. Para quem está confuso com os assuntos, minha sugestão é que assista ao mini-curso e veja a área que mais te agrada. Assim, pode procurar outros treinamentos nesta área e aprofundar seu conhecimento.

Para complementar este mini-curso, em formato de texto, recomendo a leitura de Desmistificando termos de Inteligência Artificial e também Como adicionar Inteligência Artificial a seu projeto.

O post Mini-Curso de Introdução à Big Data e Data Science apareceu primeiro em Diego Nogare.

Meus livros estão gratuitos

Diego Nogare — Fri, 03 Apr 2020 03:36:05 +0000

Deixei meus livros gratuitos

acesse e baixe todos sem gastar nenhum centavo

Não é de hoje que acredito que a educação pode fazer do mundo um lugar melhor, e pensando nisso, há alguns meses tomei a decisão: meus livros estão gratuitos! Fiz isso para tentar democratizar o que conheço e estudo há anos.

De forma rápida, mas útil para vocês me conhecerem: Trabalho há mais de 20 anos, meu primeiro deploy foi em 1998. Contudo, desde 2002/2003 venho me aventurando na área de dados, mais especificamente com SQL Server. Porém, em 2012/2013 comecei a entregar projetos com Big Data e Machine Learning. E finalmente, em 2020 concluí o meu mestrado na área de Inteligência Artificial (e com um pé na astrofísica). Recebi alguns títulos internacionais como o título de Microsoft MVP por 11 anos seguidos e Microsoft Regional Director, em 2019. Fui diretor do PASS por 2 anos, entre 2018 e 2019, ajudando a organização a cuidar de mais de 350 mil membros ao redor do mundo. Também leciono em programas de pós graduação na FIAP e no Mackenzie.

Livros gratuitos

Estes são os títulos publicados até agora:

Do Banco de Dados Relacional à Tomada de Decisão

É um livro focado em Business Intelligence utilizando SQL Server. Passa por tópicos envolvendo a criação de Data Warehouse, Movimentação de Dados com SSIS, criação de cubos multidimensionais com SSAS e por fim geração de relatórios com SSRS.

SQL Server Além do Conceito: Blog Post Collection

Nossa comunidade de SQL Server sempre foi muito unida, contudo, tínhamos blogs separados. Mas isso não foi um problema para nós consolidarmos posts individuais e arriscar essa publicação. Foi um projeto rápido e colaborativo que envolveu muitos profissionais da área de Banco de Dados do Brasil.

SQL Server Além do Conceito: Volume 2

A primeira versão deu certo, então decidimos fazer uma segunda versão. Porém, desta vez, com conteúdos originais para o livro. Reunimos novamente diversos profissionais da área de banco de dados e fizemos a publicação.

Análise preditiva com Azure Machine Learning e R

Em conjunto com o Thiago Zavaschi, engenheiro de campo da Microsoft e principalmente um grande amigo de longa data, escrevi esse livro com foco em análise preditiva utilizando Azure Machine Learning. Foi a primeira publicação em português sobre o tema. Cobrimos tópicos que envolviam o dia a dia de um cientista de dados, como resolver problemas envolvendo classificação e regressão no paradigma de aprendizado supervisionado, e clustering no paradigma de aprendizado não supervisionado.

I Jornada Latino Americana de Atualização em Informática

Este livro foi o resultado de um workshop entregue em uma conferência internacional, onde diversos pesquisadores apresentaram seus trabalhos. O capítulo 12 deste livro é sobre Big Data com Spark e escrevi em conjunto com outros dois professores do Mackenzie. O Prof. Dr. Ismar Frango e o Prof. Dr. Leandro Augusto. Mas não é só da área de Big Data que tem publicação neste livro, é possível encontrar também assuntos em diversas outras áreas da Ciência da Computação.

Não quero gerar ansiedade, nem cobrança desnecessária, mas em breve teremos atualizações aqui nesta lista. Fiquem ligados!

O post Meus livros estão gratuitos apareceu primeiro em Diego Nogare.

Desmistificando termos de Inteligência Artificial

Diego Nogare — Fri, 27 Mar 2020 12:00:44 +0000

A sopa de letrinhas é grande

e as vezes é difícil de entender o que significam

Quando se lê publicações sobre IA é comum ter um monte de terminologia complexa, mas quando se escreve algo desmistificando os termos da Inteligência Artificial, é esperado que as dúvidas e confusão sejam minimizadas. Estamos passando por um hype muito grande com a IA, como já tivemos em 2003/2004 com o SAP e em 2012/2013 com Big Data. Faz parte, e vamos superar este também. Até lá, contudo, precisamos diminuir as cofusões causadas por algumas terminologias.

Podemos começar entendendo a diferença entre Inteligência Artificial, Machine Learning, Ciência de Dados e Big Data. Apesar de serem termos comuns de aparecerem juntos, há uma linha tênue de complemento entre si.

Desmistificando termos de Inteligência Artificial

Inteligência Artificial

Muita gente pode ter começado a ouvir sobre IA nos ultimos anos ou meses, mas essa linha de pesquisa da Ciência da Computação já tem muitas décadas de estrada. Esta é uma área que busca solucionar problemas de natureza biológica, através de soluções matemáticas. A observação do comportamento de um enxame de abelhas, os padrões de fala e entendimento de conversa, o funcionamento do cérebro. Estes são alguns exemplos de comportamento biológico que são representados computacionalmente que a Inteligência Artificial procura reproduzir. No livro A Revolução do Aprendizado Profundo que li recentemente o autor comenta que se alguma pesquisa está acontecendo na área de IA, é porque ela foi observada na natureza e está tentando ser reproduzida.

Diversas técnicas mais genéricas podem ser aceleradas em projetos, para se complementarem e resolver um problema específico do seu negócio. Imagine a situação onde é necessário reconhecer o rosto de um profissional, por exemplo, que faz limpeza externa de prédio. O rosto não muda, todos os seres humanos possuem as mesmas características nos rostos. Você não precisa desenvolver do zero a sua aplicação que fará o reconhecimento do rosto, você pode usar uma solução mais genérica que faz o reconhecimento da face e então você trabalha no problema do seu negócio, que é saber se aquele profissional está capacitado ou não para realizar a tarefa.

Machine Learning

A área de Aprendizagem de Máquina é gigante por si só e está caminhando lado a lado da Inteligência Artificial. O principal destaque da área de Machine Learning é o fato de aprender com exemplos. Não existe aprendizagem de máquina sem exemplo, e as respostas retornadas pelo seu algoritmo de Machine Learning terá uma probabilidade de acerto, não uma resposta determinística.

Para exemplificar, imagine que você está apresentando um prato de arroz a primeira vez para uma criança de 3 anos. Você apresenta o alimento e ensina que é arroz. No dia seguinte, você apresenta um belo prato de macarronada com molho vermelho. Os padrões visuais dos alimentos são bastante distintos, em termos de cor, tamanho e forma. No terceiro dia você apresenta feijão. Mas, no quarto dia você apresenta uma lazanha com molho vermelho, e pergunta qual é o nome daquele alimento. A probabilidade da criança responder que é macarronada é grande. Este é o aprendizado que mais se parece com o que ela está vendo naquele momento. Contudo, se repetir o experimento com a lentilha, terá a resposta que é feijão.

É através de exemplo como estes que a máquina aprende. São apresentados diversos exemplos de elementos, e se aplicam os algoritmos que destacam/descobrem os padrões naqueles elementos do exemplo. Porque é com isso que é desenvolvido o modelo. No futuro, ao apresentar uma nova amostra que não havia sido apresentada antes, o modelo de Machine Learning responderá o que provavelmente é aquela amostra.

Ciência de Dados

Este termo trás uma percepção de que é uma área muito recente. Realmente, o termo tem poucos anos e ganhou ainda mais relevância depois de 2010/2011. Porém, os estatísticos já trabalham com estas técnicas e algoritmos há muitas décadas. Só para um exemplo disso, o teorema de Bayes é da primeira metade dos anos 1700 e trata de probabilidade condicional. Mas a ciência de dados não é só estatística, apesar desta área ser uma das mais importante.

A área de Mineração de Dados, com foco principal em reconhecimento de padrões, também faz parte desta frente de trabalho. Em termos gerais, quando se fala de Ciência de Dados, é esperado que se aplique as técnicas científicas em cima dos dados. Porque o objetivo é cada vez mais diminuir os possíveis erros. É esperado que a pessoa seja questionadora, cética, não confie nos pares só por confiar. E principalmente, deve ter a cabeça aberta sabendo que vai errar bastante, e que isso faz parte do cotidiano de um cientista de dados.

Big Data

Talvez a área mais distante das outras três, mas mesmo assim, muito próxima. Digo distante porque não precisam trabalhar juntas, elas podem ser aplicadas de forma isolada, contudo, continuam com muito valor para o projeto. No início dos anos 2000 o termo foi apresentado a primeira vez em um artigo do Gartner que falava sobre os três Vs que formaram os pilares do Big Data: Volume, Variedade e Velocidade. Sempre pensando nestes três Vs e sua relação com os dados.

Quando se pensa no Volume, a medida analisada é o quanto de espaço os dados que precisam ser analisados ocupam. Quando se passa da casa de alguns Petabytes de dados, a relação de volume começa a considerar as tecnologias de Big Data.

Já para a variedade dos dados trabalhados em soluções de Big Data, é esperado que a solução não fique somente com dados estruturados. Espera-se que uma parcela dos dados necessários para o trabalho seja não estruturado, como arquivos de imagem, vídeo, audio, etc.

Por fim, a velocidade é pertinente ao quão rápido uma decisão é tomada. A resposta do sistema de Big Data está processando os sinais de entrada e tomando a decisão em tempo hábil para melhorar a experiência do usuário? Se envolver uma resposta rápida, que processe muitos tipos de dados necessários e que estão armazenados em um volume monstruoso, você pode dizer que está trabalhando com Big Data.

Outras terminologias

É possível derivar em muitos outros termos a conversa de Inteligência Artificial, Machine Learning, Ciência de Dados e Big Data. Mas neste momento vou deixar desta forma. Em próximas postagens fico com o compromisso de entrar mais a fundo nestas áreas e derivar as terminologias. Se inscreva na newsletter para receber as novidades.

O post Desmistificando termos de Inteligência Artificial apareceu primeiro em Diego Nogare.

A história da Inteligência Artificial

Diego Nogare — Mon, 13 Jan 2020 12:00:06 +0000

A história da Inteligência Artificial

IA da década de 40 até o Deep Learning

Muito se fala sobre a Inteligência Artificial hoje em dia, mas poucos lembram que ela começou há mais de 75 anos. Este levantamento navega por todo esse período, apresentando algumas tarefas de IA em cada período. Divirtam-se com a história da Inteligência Artificial.

Onde tudo começou

Pode-se dizer que a IA de fato começou há mais de 75 anos, com Walter Pitts e Warren McCulloch, em 1943. Eles juntaram a proposta de funcionamento do neurônio biológico do ganhador Nobel de Medicina Camillo Golgi, a lógica proposicional de Bertrand Russell e Alfred Whitehead e a Teoria da Computação, proposta por Alan Turing. Em 1943 os pesquisadores criaram um sistema neural artificial onde interpretaram sinais binários como ligado e desligado. Eles diziam que era possível representar funções matemáticas com uma certa combinação destes neurônios.

Pouco depois, em 1950, Marvin Minsk e Dean Edmonds construíram o primeiro computador neural, simulando o comportamento de 40 neurônios durante seus estudos em Harvard. Mais tarde, Minsk trocou Harvard por Princeton, onde defendeu seu doutorado.

Ainda em 1950 Alan Turing apresentou seu trabalho conhecido como Teste de Turing. O teste propunha a criação de um sistema de Inteligência Artificial capaz de responder questionamentos por escrito de um interrogador humano. O sistema de IA seria considerado satisfatório se o interrogador não conseguisse diferenciar quais respostas foram dadas pelo computador e quais foram respondidas por outro ser humano. Resultados positivos do teste começaram a aparecer só após anos 2000.

Em meados dos anos 1950 pesquisadores de diversas universidades dos EUA se juntaram e passaram por 2 meses estudando e propondo soluções para possíveis problemas. Estes pesquisadores foram fundamentais para a evolução da IA no mundo, posteriormente criando laboratórios de Inteligência Artificial em universidades como MIT, Stanford e Princeton.

Grandes avanços da Inteligência Artificial…

Em 1958, John McCarthy criou a linguagem LISP dentro do MIT. LISP foi a principal linguagem de programação para trabalhar com IA por pelo menos os 30 anos seguintes. Também em 1958 Frank Rosenblatt, que foi aluno do Minsk, propôs o Perceptron. Essa proposição gerou uma nova abordagem para se trabalhar com uma representação de redes neurais artificiais.

Em 1959 surgiram as primeiras implementações de algoritmos genéticos, que eram chamados de evolução automática naquela época. Seu propósito era implementar pequenas mutações nos sistemas e observar se havia melhora significativa. Os experimentos utilizaram mutações aleatórias e registraram os resultados pareciam úteis. Não houve muito sucesso com os experimentos realizados naquela época. Os algoritmos genéticos de hoje em dia são muito mais performáticos e funcionais.

Na década de 60 os primeiros sistemas inteligentes para tradução de texto começaram a tomar relevância. Fizeram isso, acima de tudo, para traduzirem conteúdos escritos em russo sobre o Sputnik, o Programa Espacial Russo. Mesmo assim, até aproximadamente 1966, os resultados não eram satisfatórios e os pesquisadores desacreditavam das possibilidades de tê-los funcionando.

No começo dos anos 1970 havia uma onda de pesquisa propondo o uso de elementos racionais mais simples para compor um elemento mais complexo, a abordagem ficou conhecida como Métodos Fracos ou IA Fraca. Apesar de serem gerais, contudo, não podiam se utilizar de métodos escalonáveis ou difíceis. Estas pesquisas abriram espaço para os conhecidos Sistemas Especialistas, que se propunham a resolver problemas específicos de forma muito satisfatória. Ao estender os sistemas especialistas para outras áreas do conhecimento, como por exemplo a área médica, foi percebida a necessidade de o sistema refletir também a incerteza do modelo. Foi então que se iniciaram avaliações de Fatores de Incerteza nas decisões que eram apresentadas pelo sistema de IA.

Quando as coisas começaram a se engrenar para a Inteligência Artificial

Ainda em meados da década de 70 os pesquisadores voltaram a investir tempo em sistemas de interpretação e linguagem natural, para habilitar a IA a trabalhar com tradução. Um esforço grande foi feito para entender a linguagem em si, e como era a construção da linguagem. Foram propostas algumas linguagens de programação para refletir essa ideia da representação de raciocínio e lógica, e talvez a mais famosa tenha sido a linguagem Prolog.

O início da década de 80 deu ainda mais ênfase aos sistemas especialistas, conseqüentemente grande parte das empresas dos Estados Unidos tinha um (ou algumas dezenas, podendo chegar a centenas) sistema especialista. Na segunda parte de 1980, as redes neurais voltaram a ter relevância nas pesquisas e no mercado. Existiam alguns grupos voltando a estudar a evolução do Perceptron de Múltiplas Camadas que havia sido proposto em 1969, porém desta vez com o uso de retro propagação. As coisas começaram a melhorar para essa área de pesquisa.

Em 1988 uma nova função de ativação para redes neurais foi sugerida, era uma função radial proposto por David Broomhead e David Lowe e ficou mundialmente conhecida com RBF – Radial Bases Function.

Já em 1998 um grupo de pesquisadores aplicaram técnicas de convolução em redes neurais de múltiplas camadas para extrair características de imagens. As possibilidades de uso dos dados não estruturados chegou a outro patamar! Então com a CNN (Convolutional Neural Network) foi dado início ao que é mais conhecido hoje em dia como Deep Learning.

Recomendação de leitura sobre IA

Se quiser saber mais sobre a história da Inteligência Artificial, recomendo o livro Artificial Intelligence: A Modern Approach, escrito por Peter Norvig e Stuart Russell. Uma distribuição da Microsoft, mas que tem oferta gratuita para uso, é o Azure Machine Learning.

O post A história da Inteligência Artificial apareceu primeiro em Diego Nogare.

Desenvolvendo seus projetos em R no Visual Studio 2017

Diego Nogare — Mon, 10 Jul 2017 00:22:46 +0000

Fala galera! Depois de mais 1 ano e meio sem escrever para cá por causa do projeto do livro Análise Preditiva com Azure Machine Learning e R e o foco no crescimento da NGR, hoje volto a escrever para o blog.

O direcionamento da escrita será o mesmo de sempre, olhar para tecnologias focadas em dados!

Para voltar, escolhi contar como pode-se desenvolver scripts e projetos usando Linguagem R dentro do Visual Studio, tanto 2015 quanto 2017. E o melhor, pode-se usar a versão Community do Visual Studio, que é gratuita. Esta pode ser uma alternativa ao RStudio (que também é gratuito se não for usado para fins lucrativos), caso tenha o ambiente de desenvolvimento baseado em Microsoft já configurado.

Vamos lá, a primeira coisa a se fazer é baixar os softwares necessários. Caso já tenha o .Net Framework instalado, pode pular o download. Se estiver na dúvida, baixe.

.Net Framework 4.5.2 (+ – 70MB)
Microsoft R Client (+ – 300 MB)
Visual Studio Community 2017 (+ – 4.7Gb)

Todos os links acima são de distribuições gratuitas. Lembrando que o terceiro link, o do Visual Studio, você pode manter uma versão paga caso tenha a licença do produto.

Para começar o processo, faça a instalação do .Net Framework. Provavelmente se você mantém seu Windows atualizado, você não precisará instalar o .Net Framework e terá uma mensagem de alerta como a seguir. Caso precise instalar, é só avançar até concluir.

Seguindo o processo, entendendo que o .Net Framework já está instalado e rodando no seu ambiente, é o momento de instalar o Microsoft R Client. Faça a instalação agora, já tiver o Visual Studio em seu ambiente ou não. Ao iniciar a instalação, uma imagem como a seguir é apresentada, e solicita quais são os elementos que gostaria de instalar no ambiente. Eu desmarquei o Pre-Trained Models, mas se quiser estudar por eles, pode marcar a seguir a instalação.

Ao final da instalação, a tela avisa que finalizou e é só clicar em Finish.

O passo seguinte é iniciar a instalação do Visual Studio.

Ao iniciar o instalador atual do Visual Studio, existem vários presets de ambiente configurado. Cada uma destas pré configurações agiliza o processo de setup do ambiente para aquele Workload que pretende trabalhar.

Assegure-se de marcar a opção “Data Science and Analytical applications” e, nas opções da lateral direita, verifique se está marcado o R Language Support e Microsoft R Client dentro das opções de Individual Components. Repare que neste momento o setup faz a instalação do Microsoft R Client, que foi instalado manualmente no passo anterior. A instalação manual é justamente para deixar a ultima versão da publicação no ambiente. Manualmente foi instalado o Microsoft R Client 3.3.3 e a instalação de agora coloca a versão 3.3.2

Ao avançar, a instalação do ambiente começa a trabalhar. No final,

Após alguns instantes, a instalação termina e é possível abrir o Visual Studio. Para abrir, clique em Launch.

Se for a primeira execução do Visual Studio, poderá ser solicitado o seu e-mail de conta Microsoft. É só informar e avançar.

Neste momento, se tudo ocorrer bem, você terá uma versão funcional e totalmente gratuita do Visual Studio 2017 em seu ambiente.

Ao criar um novo projeto (File >> New >> Project)) e informar que será um projeto em R. Você será lançado ao editor do R no Visual Studio.

Escrevi o código abaixo há alguns anos (para outros exemplos). O resultado é criar um gráfico com 10 barras, indo em um dégradé de cores entre vermelho e verde, passando por amarelo.

color <- colorRampPalette(c(“red”, “yellow”, “green”))

color(10)

a <- c(1:10)

barplot(a, col = color(10), main = “R no Visual Studio 2017 – Diego Nogare”)

Ao executar o script, o resultado deverá ser como o da imagem abaixo.

Simples assim você tem um ambiente funcional (e gratuito) para escrever códigos em R no seu Visual Studio.

O post Desenvolvendo seus projetos em R no Visual Studio 2017 apareceu primeiro em Diego Nogare.

Open Data Science Conference – São Francisco/2015

Diego Nogare — Mon, 16 Nov 2015 02:43:15 +0000

Fala galera, no fim de semana dos dias 14 e 15/Novembro estive em São Francisco para acompanhar o evento Open Data Science Conference. Este evento já aconteceu em Boston também em 2015 e a agenda pra 2016 é que aconteça em mais alguns lugares aqui dos Estados Unidos e também vá para Inglaterra e Japão. A localização do evento é ótima, ao lado do aeroporto de São Francisco, isso facilitou demais a logistica pra quem veio de fora.

O evento foi MUITO superior ao que esperava, a estrutura do evento foi impecável. As salas comportaram todos os participantes, workshops e palestras relevantes, interação com os patrocinadores ocorreu naturalmente por serem patrocinadores com importância pro evento e pra nós, participantes. No fim do primeiro dia tivemos um momento pra fazer network (com cerveja na faixa!) no hotel mesmo, e foi interessante conversar com alguns cientistas de dados aqui dos Estados Unidos.

Fiz algumas anotações das palestras/workshops que achei mais interessantes durante o evento, veja abaixo:

Dia 1 – Sábado

Keynote

Brian Granger – Criador do IPython e Project Jupyter

O Jupyter é um compilador/interpretador online para Python (e mais 40 outras linguagens) que permite trabalhar em soluções narrativas com outros profissionais. Parecido com o Knirt (para R), mas ao invés de só renderizar na tela no formato escolhido, ele permite que o script que é escrito seja processador pelo server através do navegador. Jupyter é uma plataforma aberta, desenvolvida pela comunidade e com um time de estrelas por trás, a facilidade do crescimento se dá pelo uso do GitHub como repositório. Empresas como Microsoft, Google, IBM e varias outras estão desenvolvendo soluções para o Jupyter Notebook ou Kernel. JupyterHub permite empresas usar o Jupyter em suas organizações (pelo que entendi, como um repositório privado do github). Num futuro próximo pode ser que mude o nome para Jupyter Workbench, e também estão trabalhando para entregar Real-Time Colaboration, e na tentativa de permitir em uma única janela do navegador ter um console, graficos interativos, e várias outras coisas de UX para os desenvolvedores ficarem só em uma janela e aumentar a produtividade.

O Brian deu um exemplo de dois jornalistas que escrevem sobre ciência no BuzzFeed, que entregam seus experimentos no github e permite que nós possamos reproduzir as pesquisas. Caso queiram ver, este é o link: https://github.com/BuzzFeedNews/everything

Palestras

Claudia Perlich – Big Data matou o click | heróis de métricas não celebrados

40% dos clicks são acidentais ou fraudes! Fraudes são fáceis de gerar através de robos (bots) em eventos de conversão, principalmente nos retargets para aumentar o CTR e o contratante pagar mais pelo serviço. O comportamento de robos são mais fáceis de prever do que humanos, nosso comportamento é quase impossível de prever. Em uma análise focada, quando se analisa um dataset atrás de padrão de comportamento, deve-se conhecer o que procura para eliminar problemas gerados por randomização. Quando se tem uma precisão/acurácia de aproximadamente 50%, isso significa uma randomização. O objetivo é conseguir um valor de limiar acima de 70 ou 80%. Uma técnica que pode ajudar, é coletar para análise alguns registros randomicamente dos 1 ou 2% mais importantes do universo que tem, e analisar o comportamento desta amostra. A chance desta técnica apresentar um padrão de comportamento diferente do comportamento geral é muito grande, e diversos estudos mostram que este comportamento pode ser mais próximo do real do que se imagina.

Richard Socher, PhD – Metamind.io – Deep Learning for Enterprise

Esta foi a palestra mais foda e que eu mais me impressionei. Richard apresentou diversos problemas do mundo e as soluções que sua empresa criou utilizando Deep Learning. Esta palestra me fez mudar a agenda e participar de um Workshop de Deep Learning no segundo dia do evento ao invés de assistir às palestras que tinha me planejado. Não sei como descrever as técnicas que ele apresentou, e não teve quase nenhuma teoria, só que o reconhecimento de voz e de imagem são complexos para se executar com algoritmos convencionais de Data Science. O uso de técnicas de Deep Learning ajuda muito nestas tarefas. Processar isso é muito custos e usa-se o CPU pra procesamento de texto e a GPU pra processar imagens.

Workshop

John Mount / Nina Zumel – Preparando dados para análise usando R: Técnicas avançadas através das básicas

Workshop de 2 horas com diversas técnicas para se trabalhar com dados, limpar e processar as análises. Foi disponibilizado um repositório no github pra gente configurar a máquina antes e acompanhar o workshop com tudo o que foi discutido (repo garfado): https://github.com/diegonogare/PreparingDataWorkshop

Dia 2 – Domingo

Workshop

Markus Beissinger – Intro to Deep Learning with Theano and OpenDeep

Deep Learning segmenta a análise em hierarquia, encontrando item a item treinado separadamente para encontrar o objeto que quer depois. Por exemplo, imagine o reconhecimento de um rosto: em Deep Learning a tecnica começa com uma camada reconhecimento elementos separados, como nariz, orelha, olho, boca, etc; na sequencia a proxima camada reconhece um pouco mais de coisas, como as posições de olhos próximos ao nariz. Boca próximo ao nariz. Orelhas ao lado dos olhos, e assim por diante. Por fim, neste exemplo, ele consegue reconhecer um rosto completo em uma terceira camada de classificação.

O processo interno usa algebra linear, porque tudo dentro de Deep Learning é calculado com matrizes e vetores. Um dos calculos mais básicos ainda é a Regressão Logistica para analisar as probabilidades.

Mesmo a Regressão Logistica sendo a estrutura mais básica, uma das mais usadas é a Rede Neural, que possibilita executar muitas Regressões Logisticas em paralelo e encontrar uma melhor solução para a análise que está fazendo com Deep Learning. Muitas outras técnicas, como Convolutional Nets, por exemplo, devem combinar com as redes neurais artificiais para conseguir fazer o reconhecimento de imagem.

Códigos usados para os exemplos, estão disponíveis nestes dois repositórios garfados https://github.com/diegonogare/odsc e https://github.com/diegonogare/OpenDeep

Fidan Boylu / Muxi Li – How to build and operationalize data science solutions with Cortana Analytics

Fidan apresentou um overview interessante de AzureML utilizando alguns modelos nativos de algoritmos existentes dentro do AzureML, avançou expandindo as possibilidades utilizando R. Um tour guiado para analisar dados que fizemos upload, com certeza todos conseguiram acompanhar. Na sequência Mixu mostrou integração entre AzureML e scripts em Python, analisando tudo nos Workbooks do Jupyter que possui integração com o AzureML. Esta segunda parte eu não acompanhei, e pelo visto, a galera que estava acompanhando também se perdeu.

PS. Não falaram nada de Cortana Analytics!

Dá pra acompanhar depois, passo a passo, com os dados que foram disponibilizados neste repositório garfado: https://github.com/diegonogare/Azure-Machine-Learning-Lab

Ted Kwartler – Introduction to text mining using R

Existem muitos problemas na interpretação de texto: O dado não é estruturado, expressões são individualistas, implicações culturais, e vários outros fatores. É possível trabalhar com Text Mining de duas formas, uma é usando validação sintatica e outra é usando “bag of words”. O foco desta sessão é trabalhar com o bag of words. A análise de sentimentos é sempre lembrada quando se fala de mineração de texto, o Ted ainda está estudando esta disciplina e mostrou algumas coisas utilizando técnicas de Score baseada em dicionários. Em resumo, várias técnicas foram apresentadas, e podem ser acompanhadas no repositório do Github que garfei, não do github do Ted, e sim de uma pasta no Amazon Drive dele: https://github.com/diegonogare/DataScience/tree/master/Text%20Mining

O post Open Data Science Conference – São Francisco/2015 apareceu primeiro em Diego Nogare.