<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Arquivos data mining - Diego Nogare</title>
	<atom:link href="https://diegonogare.net/tags/data-mining/feed/" rel="self" type="application/rss+xml" />
	<link>https://diegonogare.net/tags/data-mining/</link>
	<description>Consultor Executivo de IA &#38; ML</description>
	<lastBuildDate>Tue, 15 Apr 2025 13:52:20 +0000</lastBuildDate>
	<language>pt-BR</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://i0.wp.com/diegonogare.net/wp-content/uploads/2025/06/cropped-cropped-DN-Black-300x300-1.png?fit=32%2C32&#038;ssl=1</url>
	<title>Arquivos data mining - Diego Nogare</title>
	<link>https://diegonogare.net/tags/data-mining/</link>
	<width>32</width>
	<height>32</height>
</image> 
<site xmlns="com-wordpress:feed-additions:1">247556142</site>	<item>
		<title>Projetos com CRISP-DM e Machine Learning Canvas</title>
		<link>https://diegonogare.net/2024/05/projetos-com-crisp-dm-e-machine-learning-canvas/</link>
		
		<dc:creator><![CDATA[Diego Nogare]]></dc:creator>
		<pubDate>Mon, 13 May 2024 20:00:50 +0000</pubDate>
				<category><![CDATA[Inteligência Artificial]]></category>
		<category><![CDATA[CRISP-DM]]></category>
		<category><![CDATA[data mining]]></category>
		<category><![CDATA[Machine Learning]]></category>
		<category><![CDATA[Machine Learning Canvas]]></category>
		<category><![CDATA[Metodologia]]></category>
		<category><![CDATA[Projetos de ML]]></category>
		<guid isPermaLink="false">https://diegonogare.net/?p=3899</guid>

					<description><![CDATA[<p>Se você quer desenvolver projetos de Machine Learning, então você precisa conhecer o CRISP-DM e o Machine Learning Canvas. Ambas são metodologias bem fundadas para projetos de ML. Assim, a metodologia CRISP-DM, ou Cross-Industry Standard Process for Data Mining, é uma metodologia confiável, desenvolvida há mais de 20 anos, para criar projetos no mundo de...</p>
<p>O post <a href="https://diegonogare.net/2024/05/projetos-com-crisp-dm-e-machine-learning-canvas/">Projetos com CRISP-DM e Machine Learning Canvas</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></description>
										<content:encoded><![CDATA[<div class="content" tabindex="0" aria-description="" aria-label="Enviado por Copilot: **Título:** &quot;CRISP-DM: A Bússola para Projetos de Machine Learning&quot; **Introdução** A metodologia CRISP-DM, ou Cross-Industry Standard Process for Data Mining, é uma bússola confiável para navegar no mundo complexo dos projetos de Machine Learning. Este artigo irá guiá-lo através de cada um dos seis elementos do CRISP-DM, iluminando o caminho para o sucesso do seu projeto. **Desenvolvimento** *Entendimento do Negócio* O primeiro passo é entender o negócio. Aqui, definimos os objetivos, avaliamos a situação e criamos um plano de mineração de dados. &lt;div class=">
<p>Se você quer desenvolver projetos de Machine Learning, então você precisa conhecer o CRISP-DM e o Machine Learning Canvas. Ambas são metodologias bem fundadas para projetos de ML. Assim, a metodologia CRISP-DM, ou <em>Cross-Industry Standard Process for Data Mining</em>, é uma metodologia confiável, desenvolvida há mais de 20 anos, para criar projetos no mundo de Machine Learning. Enquanto o Machine Learning Canvas é uns 15 anos mais novo, consegue apresentar algumas estruturas mais detalhadas para criar modelos.</p>
</div>
<p>O Machine Learning é um subcampo da inteligência artificial que, primordialmente, usa algoritmos e modelos estatísticos para realizar tarefas sem programação explícita. Em contrapartida, eles dependem de padrões e inferências. A importância do ML não pode ser subestimada, ele tem o potencial de transformar quase todos os aspectos de nossas vidas, desde a saúde até as finanças, passando pela educação e <a href="https://diegonogare.net/2020/01/uso-da-inteligencia-artificial-no-cotidiano/" target="_blank" rel="noopener">muito mais</a>. Além disso, está desempenhando um papel cada vez mais importante em <a href="https://aws.amazon.com/pt/solutions/case-studies/itau-ml-case-study/" target="_blank" rel="noopener">entrega de valor nas empresas</a>, e ajuda a identificar padrões, fazer previsões e otimizar processos, tornando os projetos mais eficientes e eficazes.</p>
<p>Este artigo é o primeiro que entra em detalhes na série de <a href="https://diegonogare.net/2024/05/roadmap-mlops-2024/" target="_blank" rel="noopener">Roadmap MLOps 2014</a>, e com toda a certeza, irá lhe guiar através de cada um dos seis elementos do CRISP-DM e do Machine Learning Canvas.</p>
<div class="ac-container ac-adaptiveCard">
<h3>CRISP-DM</h3>
<p>O CRISP-DM orienta as equipes através de cada etapa do processo, desde a compreensão do problema de negócio até a implantação do modelo, garantindo que todas as considerações importantes sejam abordadas. Isso resulta em modelos mais precisos, implementações mais suaves e, finalmente, em decisões de negócios mais informadas e eficazes.</p>
</div>
<figure id="attachment_3891" aria-describedby="caption-attachment-3891" style="width: 450px" class="wp-caption aligncenter"><img data-recalc-dims="1" fetchpriority="high" decoding="async" class="wp-image-3891" src="https://i0.wp.com/diegonogare.net/wp-content/uploads/2024/05/CRISP-DM-e1715040390202.png?resize=450%2C450&#038;ssl=1" alt="CRISP-DM" width="450" height="450" /><figcaption id="caption-attachment-3891" class="wp-caption-text">CRISP-DM</figcaption></figure>
<div class="content" tabindex="0" aria-description="" aria-label="Enviado por Copilot: **Título:** &quot;CRISP-DM: A Bússola para Projetos de Machine Learning&quot; **Introdução** A metodologia CRISP-DM, ou Cross-Industry Standard Process for Data Mining, é uma bússola confiável para navegar no mundo complexo dos projetos de Machine Learning. Este artigo irá guiá-lo através de cada um dos seis elementos do CRISP-DM, iluminando o caminho para o sucesso do seu projeto. **Desenvolvimento** *Entendimento do Negócio* O primeiro passo é entender o negócio. Aqui, definimos os objetivos, avaliamos a situação e criamos um plano de mineração de dados. &lt;div class=">
<ol>
<li><strong>Entendimento do Negócio: </strong>Primeiramente, é necessário entender o negócio. Aqui, definimos os objetivos, avaliamos a situação e criamos um plano de mineração de dados. É essencial ter uma compreensão clara do problema que estamos tentando resolver.</li>
<li><strong>Entendimento dos Dados:</strong> Em seguida, precisamos entender os dados. Isso envolve coletar os dados, descrevê-los, explorá-los e verificar sua qualidade. Uma boa compreensão dos dados nos ajudará a construir modelos mais eficazes.</li>
<li><strong>Preparação dos Dados:</strong> A preparação dos dados é onde passamos a maior parte do tempo. Inclui todas as atividades necessárias para construir o conjunto de dados final, desde a limpeza dos dados até a formatação correta para modelagem.</li>
<li><strong>Modelagem:</strong> Na fase de modelagem, aplicamos várias técnicas de modelagem e calibramos seus parâmetros para a melhor solução. O objetivo é selecionar o modelo que melhor atende aos objetivos do negócio.</li>
<li><strong>Avaliação:</strong> A avaliação é o estágio em que avaliamos, de maneira completa e criteriosa, o modelo construído. São verificados se os objetivos do negócio, que foram definidos na primeira fase, foram alcançados.</li>
<li><strong>Implantação:</strong> Finalmente, chegamos à fase de implantação. Aqui, colocamos o modelo em prática, monitoramos seu desempenho e fazemos os ajustes necessários.</li>
</ol>
</div>
<p>&nbsp;</p>
<div class="content" tabindex="0" aria-description="" aria-label="Enviado por Copilot: **Título:** &quot;Machine Learning: Transformando o Mundo dos Projetos&quot; **Introdução** Machine Learning está transformando o mundo dos projetos. Neste artigo, vamos explorar os detalhes e a importância do Machine Learning em projetos no mundo de hoje. Vamos mergulhar no coração desta revolução tecnológica e descobrir como ela está moldando nosso futuro. **Desenvolvimento** *O que é Machine Learning?* Machine Learning é um subcampo da inteligência artificial que usa algoritmos e modelos estatísticos para realizar tarefas sem instruções explícitas. Em vez disso, eles dependem de padrões e inferências. *A Importância do Machine Learning* A importância do Machine Learning não pode ser subestimada. Ele tem o potencial de transformar quase todos os aspectos de nossas vidas, desde a saúde até as finanças, passando pela educação e muito mais. *Machine Learning em Projetos* Machine Learning está desempenhando um papel cada vez mais importante em projetos. Ele pode ajudar a identificar padrões, fazer previsões e otimizar processos, tornando os projetos mais eficientes e eficazes. **Conclusão** Machine Learning está aqui para ficar. À medida que continuamos a explorar seu potencial, é claro que ele desempenhará um papel cada vez mais importante em nossas vidas e em nossos projetos. O futuro é brilhante para o Machine Learning. **TAGs:** Machine Learning, Projetos, Inteligência Artificial, Tecnologia **Referências:** 1. Samuel, A. L. (1959). Some Studies in Machine Learning Using the Game of Checkers. IBM Journal of Research and Development, 3(3), 210-229. 2. Mitchell, T. M. (1997). Machine Learning. McGraw Hill. **Frase-Chave:** &quot;Machine Learning em Projetos&quot; **Meta descrição:** &quot;Descubra como o Machine Learning está transformando o mundo dos projetos e moldando nosso futuro.&quot;">
<div class="ac-container ac-adaptiveCard">
<div class="ac-textBlock">
<h3>Machine Learning Canvas</h3>
</div>
</div>
</div>
<p>Para facilitar esse trabalho, o pesquisador <strong>Louis Dorard</strong> criou um framework baseado no <em>Business Model Canvas</em>, porém voltado a Aprendizagem de Máquinas. O trabalho foi <a href="https://www.ownml.co/machine-learning-canvas" target="_blank" rel="noopener">publicado em seu site</a> e é constituído de um eBook que pode ser baixado gratuitamente, também fornece acesso a um modelo editável do canvas em PPT. Veja abaixo os detalhes para preencher o Canvas e conseguir desenvolver seus modelos de <em>Machine Learning</em> de forma mais assertiva e com menos “achismos”.</p>
<blockquote><p>Se você não conseguir baixar o canvas, nem o PPT, me mande uma mensagem e eu lhe encaminho&#8230;</p></blockquote>
<p>&nbsp;</p>
<figure id="attachment_3902" aria-describedby="caption-attachment-3902" style="width: 450px" class="wp-caption aligncenter"><img data-recalc-dims="1" decoding="async" class="wp-image-3902" src="https://i0.wp.com/diegonogare.net/wp-content/uploads/2024/05/canvas_exemplo.jpg?resize=450%2C375&#038;ssl=1" alt="Machine Learning Canvas" width="450" height="375" srcset="https://i0.wp.com/diegonogare.net/wp-content/uploads/2024/05/canvas_exemplo.jpg?w=768&amp;ssl=1 768w, https://i0.wp.com/diegonogare.net/wp-content/uploads/2024/05/canvas_exemplo.jpg?resize=300%2C250&amp;ssl=1 300w" sizes="(max-width: 450px) 100vw, 450px" /><figcaption id="caption-attachment-3902" class="wp-caption-text">Machine Learning Canvas</figcaption></figure>
<p>Para preenchimento, é importante entender o que há em cada parte do template. Vou usar um dos exemplos que existe no e-book, que fala sobre o desenvolvimento de uma priorização para cliente de e-mail.</p>
<div class="content" tabindex="0" aria-description="" aria-label="Enviado por Copilot: **Machine Learning Canvas: Etapas e Expectativas** 1. **Proposta de Valor**: Define o que estamos tentando fazer, por que é importante e quem vai usar e ser impactado. Exemplo: tornar mais fácil para os usuários de um cliente de e-mail identificar novas mensagens importantes em sua caixa de entrada. 2. **Fontes de Dados**: Identifica as fontes de dados brutas que serão trabalhadas para resolver o problema. Exemplo: Mensagens de e-mail anteriores, Livro de endereços e Calendário. 3. **Coleta de Dados**: Descreve como podemos obter novos dados para aprender (entradas e saídas). Exemplo: os usuários podem rotular manualmente os e-mails como importantes ou não. 4. **Seleção de Características**: Define quais itens das variáveis existentes nos dados brutos serão utilizadas para criar o modelo. Exemplo: Recursos de conteúdo (assunto, corpo, anexos, tamanho), Funcionalidades sociais (informações sobre o remetente, interações anteriores), Rótulos de e-mail. 5. **Construção de Modelos**: Define como serão feitas as extrações dos dados da base de origem, e quais dados serão utilizados para a construção ou atualização do modelo. Exemplo: criar um modelo por usuário, inicialmente construído com os últimos 12 meses de dados dos e-mails. 6. **Tarefa de Machine Learning**: Define a família de algoritmos que será utilizada para resolver o problema, as entradas e o resultado esperado. Exemplo: resolver problemas de Classificação Binária. 7. **Decisões**: Deixa claro como as previsões que retornam do modelo serão aproveitadas pelo usuário final. Exemplo: mover e-mails recebidos com uma pontuação de importância acima de um determinado limite, para uma seção dedicada na parte superior da caixa de entrada. 8. **Fazer Previsões**: Discute o momento no qual o modelo será acionado para responder às chamadas. Exemplo: toda vez que recebemos um e-mail endereçado ao nosso usuário, que há o inicio de uma nova thread. 9. **Avaliação Offline**: Descreve quais métodos e métricas serão utilizados para avaliar a maneira de como as previsões são feitas e utilizadas, antes de ser implantado. Exemplo: usar os últimos 3 meses de e-mails para teste e 12 meses antes para Treinamento. 10. **Avaliação e Monitoramento ao Vivo**: Mede o funcionamento do modelo e monitora se o valor de acertos continua aceitável. Exemplo: avaliar semanalmente os pontos: Ratio: Quantidade de erros explicitamente sinalizado pelo usuário dividido pela quantidade de e-mails recebidos.">
<div class="ac-container ac-adaptiveCard">
<div class="ac-textBlock">
<ol>
<li><strong>Proposta de valor (value propositions)</strong>: Primeiramente, define o que se fazer, por que é importante e quem vai usar e ter impacta. <em>Exemplo: tornar mais fácil para os usuários de um cliente de e-mail identificar novas mensagens importantes em sua caixa de entrada.</em></li>
<li><strong>Fontes de dados (data sources)</strong>: Identifica as fontes de dados brutas que irá utilizar para resolver o problema. <em>Exemplo: Mensagens de e-mail anteriores, Livro de endereços e Calendário.</em></li>
<li><strong>Coleta de dados (collecting data)</strong>: Descreve como podemos obter novos dados para aprender (entradas e saídas). <em>Exemplo: os usuários podem rotular manualmente os e-mails como importantes ou não.</em></li>
<li><strong>Seleção de características (features)</strong>: Define quais itens das variáveis existentes nos dados brutos irá utilizar para criar o modelo. <em>Exemplo: Recursos de conteúdo (assunto, corpo, anexos, tamanho), Funcionalidades sociais (informações sobre o remetente, interações anteriores), Rótulos de e-mail.</em></li>
<li><strong>Construção de modelos (building models)</strong>: Em seguida, define como serão feitas as extrações dos dados da base de origem, e quais dados serão utilizados para a construção ou atualização do modelo. <em>Exemplo: criar um modelo por usuário, inicialmente construído com os últimos 12 meses de dados dos e-mails.</em></li>
<li><strong>Tarefa de Machine Learning (ML tasks)</strong>: Define a <a href="https://diegonogare.net/2020/04/como-funciona-a-aprendizagem-de-maquina/" target="_blank" rel="noopener">família de algoritmos</a> que irá utilizar para resolver o problema, as entradas e o resultado esperado. <em>Exemplo: resolver problemas de Classificação Binária.</em></li>
<li><strong>Decisões (decisions)</strong>: Deixa claro como o usuário final irá aproveitar retorno das previsões do modelo. <em>Exemplo: mover e-mails recebidos com uma pontuação de importância acima de um determinado limite, para uma seção dedicada na parte superior da caixa de entrada.</em></li>
<li><strong>Fazer previsões (making predictions)</strong>: Discute o momento no qual o modelo será acionado para responder às chamadas. <em>Exemplo: toda vez que receber um e-mail endereçado ao usuário, que há o inicio de uma nova thread.</em></li>
<li><strong>Avaliação offline (offline evaluation)</strong>: Finalmente, descreve quais métodos e métricas serão utilizados para avaliar a maneira de como as previsões são feitas e utilizadas, antes de ser implantado. <em>Exemplo: usar os últimos 3 meses de e-mails para teste e 12 meses antes para Treinamento.</em></li>
<li><strong>Avaliação e monitoramento ao vivo (live evaluation and monitoring)</strong>: Mede o funcionamento do modelo e monitora se o valor de acertos continua aceitável. <em>Exemplo: avaliar semanalmente os pontos, como o Ratio, que seria a quantidade de erros explicitamente sinalizado pelo usuário dividido pela quantidade de e-mails recebidos.</em></li>
</ol>
</div>
</div>
</div>
<h3>CRISP-DM e Machine Learning Canvas para projetos de ML</h3>
<div class="content" tabindex="0" aria-description="" aria-label="Enviado por Copilot: **Título:** &quot;CRISP-DM: A Bússola para Projetos de Machine Learning&quot; **Introdução** A metodologia CRISP-DM, ou Cross-Industry Standard Process for Data Mining, é uma bússola confiável para navegar no mundo complexo dos projetos de Machine Learning. Este artigo irá guiá-lo através de cada um dos seis elementos do CRISP-DM, iluminando o caminho para o sucesso do seu projeto. **Desenvolvimento** *Entendimento do Negócio* O primeiro passo é entender o negócio. Aqui, definimos os objetivos, avaliamos a situação e criamos um plano de mineração de dados. &lt;div class=">
<p>Machine Learning está aqui para ficar, se bem que falo disso há bastante tempo. Contudo, a  medida que continuamos a explorar seu potencial, fica claro que ele desempenhará um papel cada vez mais importante em nossas vidas e em nossos projetos. O futuro é brilhante para o Machine Learning, e seja como for, se você estiver preparado para desenvolver projetos envolvendo essa disciplina irá lhe trazer bons frutos. Existem duas metodologias interessantes para se seguir. O CRISP-DM é uma metodologia robusta e flexível que pode se adaptar para qualquer projeto de Machine Learning. O Machine Learning Canvas também é uma metodologia, que explica com um pouco mais de passos as necessidades existentes em projetos. Seguir os passos destas metodologias irá direcionar para que seu projeto esteja no caminho certo para o sucesso. Independente do que escolher para utilizar, não deixe de considerar o CRISP-DM e Machine Learning Canvas para projetos de ML.</p>
</div>
<p>Bons projetos!</p>
<p>O post <a href="https://diegonogare.net/2024/05/projetos-com-crisp-dm-e-machine-learning-canvas/">Projetos com CRISP-DM e Machine Learning Canvas</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></content:encoded>
					
		
		
		<post-id xmlns="com-wordpress:feed-additions:1">3899</post-id>	</item>
		<item>
		<title>A história da Inteligência Artificial</title>
		<link>https://diegonogare.net/2020/01/historia-da-inteligencia-artificial/</link>
		
		<dc:creator><![CDATA[Diego Nogare]]></dc:creator>
		<pubDate>Mon, 13 Jan 2020 12:00:06 +0000</pubDate>
				<category><![CDATA[Inteligência Artificial]]></category>
		<category><![CDATA[big data]]></category>
		<category><![CDATA[ciência de dados]]></category>
		<category><![CDATA[data mining]]></category>
		<category><![CDATA[Data Science]]></category>
		<category><![CDATA[Deep Learning]]></category>
		<category><![CDATA[inteligencia artificial]]></category>
		<category><![CDATA[Machine Learning]]></category>
		<guid isPermaLink="false">http://diegonogare.net/?p=3013</guid>

					<description><![CDATA[<p>A história da Inteligência Artificial IA da década de 40 até o Deep Learning Muito se fala sobre a Inteligência Artificial hoje em dia, mas poucos lembram que ela começou há mais de 75 anos. Este levantamento navega por todo esse período, apresentando algumas tarefas de IA em cada período. Divirtam-se com a história da...</p>
<p>O post <a href="https://diegonogare.net/2020/01/historia-da-inteligencia-artificial/">A história da Inteligência Artificial</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></description>
										<content:encoded><![CDATA[<h1>A história da Inteligência Artificial</h1>
<h2>IA da década de 40 até o Deep Learning</h2>
<p>Muito se fala sobre a Inteligência Artificial hoje em dia, mas poucos lembram que ela começou há mais de 75 anos. Este levantamento navega por todo esse período, apresentando algumas tarefas de IA em cada período. Divirtam-se com a história da Inteligência Artificial.</p>
<h2>Onde tudo começou</h2>
<p>Pode-se dizer que a IA de fato começou há mais de 75 anos, com Walter Pitts e Warren McCulloch, em 1943. Eles juntaram a proposta de funcionamento do neurônio biológico do ganhador Nobel de Medicina Camillo Golgi, a lógica proposicional de Bertrand Russell e Alfred Whitehead e a Teoria da Computação, proposta por Alan Turing. Em 1943 os pesquisadores criaram um sistema neural artificial onde interpretaram sinais binários como ligado e desligado. Eles diziam que era possível representar funções matemáticas com uma certa combinação destes neurônios.</p>
<p>Pouco depois, em 1950, Marvin Minsk e Dean Edmonds construíram o primeiro computador neural, simulando o comportamento de 40 neurônios durante seus estudos em Harvard. Mais tarde, Minsk trocou Harvard por Princeton, onde defendeu seu doutorado.</p>
<p>Ainda em 1950 Alan Turing apresentou seu trabalho conhecido como Teste de Turing. O teste propunha a criação de um sistema de Inteligência Artificial capaz de responder questionamentos por escrito de um interrogador humano. O sistema de IA seria considerado satisfatório se o interrogador não conseguisse diferenciar quais respostas foram dadas pelo computador e quais foram respondidas por outro ser humano. Resultados positivos do teste começaram a aparecer só após anos 2000.</p>
<p>Em meados dos anos 1950 pesquisadores de diversas universidades dos EUA se juntaram e passaram por 2 meses estudando e propondo soluções para possíveis problemas. Estes pesquisadores foram fundamentais para a evolução da IA no mundo, posteriormente criando laboratórios de Inteligência Artificial em universidades como MIT, Stanford e Princeton.</p>
<h2>Grandes avanços da Inteligência Artificial&#8230;</h2>
<p>Em 1958, John McCarthy criou a linguagem LISP dentro do MIT. LISP foi a principal linguagem de programação para trabalhar com IA por pelo menos os 30 anos seguintes. Também em 1958 Frank Rosenblatt, que foi aluno do Minsk, propôs o Perceptron. Essa proposição gerou uma nova abordagem para se trabalhar com uma representação de redes neurais artificiais.</p>
<p>Em 1959 surgiram as primeiras implementações de algoritmos genéticos, que eram chamados de evolução automática naquela época. Seu propósito era implementar pequenas mutações nos sistemas e observar se havia melhora significativa. Os experimentos utilizaram mutações aleatórias e registraram os resultados pareciam úteis. Não houve muito sucesso com os experimentos realizados naquela época. Os algoritmos genéticos de hoje em dia são muito mais performáticos e funcionais.</p>
<p>Na década de 60 os primeiros sistemas inteligentes para tradução de texto começaram a tomar relevância. Fizeram isso, acima de tudo, para traduzirem conteúdos escritos em russo sobre o Sputnik, o Programa Espacial Russo. Mesmo assim, até aproximadamente 1966, os resultados não eram satisfatórios e os pesquisadores desacreditavam das possibilidades de tê-los funcionando.</p>
<p>No começo dos anos 1970 havia uma onda de pesquisa propondo o uso de elementos racionais mais simples para compor um elemento mais complexo, a abordagem ficou conhecida como Métodos Fracos ou IA Fraca. Apesar de serem gerais, contudo, não podiam se utilizar de métodos escalonáveis ou difíceis. Estas pesquisas abriram espaço para os conhecidos Sistemas Especialistas, que se propunham a resolver problemas específicos de forma muito satisfatória. Ao estender os sistemas especialistas para outras áreas do conhecimento, como por exemplo a área médica, foi percebida a necessidade de o sistema refletir também a incerteza do modelo. Foi então que se iniciaram avaliações de Fatores de Incerteza nas decisões que eram apresentadas pelo sistema de IA.</p>
<h2>Quando as coisas começaram a se engrenar para a Inteligência Artificial</h2>
<p>Ainda em meados da década de 70 os pesquisadores voltaram a investir tempo em sistemas de interpretação e linguagem natural, para habilitar a IA a trabalhar com tradução. Um esforço grande foi feito para entender a linguagem em si, e como era a construção da linguagem. Foram propostas algumas linguagens de programação para refletir essa ideia da representação de raciocínio e lógica, e talvez a mais famosa tenha sido a linguagem Prolog.</p>
<p>O início da década de 80 deu ainda mais ênfase aos sistemas especialistas, conseqüentemente grande parte das empresas dos Estados Unidos tinha um (ou algumas dezenas, podendo chegar a centenas) sistema especialista. Na segunda parte de 1980, as redes neurais voltaram a ter relevância nas pesquisas e no mercado. Existiam alguns grupos voltando a estudar a evolução do Perceptron de Múltiplas Camadas que havia sido proposto em 1969, porém desta vez com o uso de retro propagação. As coisas começaram a melhorar para essa área de pesquisa.</p>
<p>Em 1988 uma nova função de ativação para redes neurais foi sugerida, era uma função radial proposto por David Broomhead e David Lowe e ficou mundialmente conhecida com RBF – Radial Bases Function.</p>
<p>Já em 1998 um grupo de pesquisadores aplicaram técnicas de convolução em redes neurais de múltiplas camadas para extrair características de imagens. As possibilidades de uso dos dados não estruturados chegou a outro patamar! Então com a CNN (Convolutional Neural Network) foi dado início ao que é mais conhecido hoje em dia como Deep Learning.</p>
<h2>Recomendação de leitura sobre IA</h2>
<p>Se quiser saber mais sobre a história da Inteligência Artificial, recomendo o livro <a href="https://books.google.com.br/books/about/Artificial_Intelligence.html?id=Na8rAAAAQBAJ" target="_blank" rel="noopener noreferrer">Artificial Intelligence: A Modern Approach</a>, escrito por Peter Norvig e Stuart Russell. Uma distribuição da Microsoft, mas que tem oferta gratuita para uso, é o <a href="https://diegonogare.net/2014/06/aprendizado-de-mquina-azure-machine-learning/" target="_blank" rel="noopener noreferrer">Azure Machine Learning</a>.</p>
<p>O post <a href="https://diegonogare.net/2020/01/historia-da-inteligencia-artificial/">A história da Inteligência Artificial</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></content:encoded>
					
		
		
		<post-id xmlns="com-wordpress:feed-additions:1">3013</post-id>	</item>
		<item>
		<title>Azure Machine Learning – Lendo um CSV com Azure Blob Storage – Parte 5</title>
		<link>https://diegonogare.net/2015/07/azure-machine-learning-lendo-um-csv-com-azure-blob-storage-parte-5/</link>
		
		<dc:creator><![CDATA[Diego Nogare]]></dc:creator>
		<pubDate>Tue, 14 Jul 2015 15:57:39 +0000</pubDate>
				<category><![CDATA[Cloud Computing]]></category>
		<category><![CDATA[azure]]></category>
		<category><![CDATA[Azure Machine Learning]]></category>
		<category><![CDATA[AzureML]]></category>
		<category><![CDATA[data mining]]></category>
		<category><![CDATA[inteligencia artificial]]></category>
		<category><![CDATA[Machine Learning]]></category>
		<guid isPermaLink="false">http://diegonogare.net/?p=1192</guid>

					<description><![CDATA[<p>Fala galera, arrisco dizer que não existe aprendizado de máquinas sem dados para ensinar a máquina. A coleta ou geração dos dados pode ocorrer de algumas formas como por exemplo consumindo dados oriundos de sensores em pessoas ou veículos, telemetrias de máquinas em chão de fábrica, inseridos manualmente através de aplicativos ou até dados &#8220;fakes&#8221;...</p>
<p>O post <a href="https://diegonogare.net/2015/07/azure-machine-learning-lendo-um-csv-com-azure-blob-storage-parte-5/">Azure Machine Learning – Lendo um CSV com Azure Blob Storage – Parte 5</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p><img data-recalc-dims="1" decoding="async" src="https://i0.wp.com/blogdiegonogare.azurewebsites.net/wp-content/uploads/2015/07/071415_1554_AzureMachin1-1.jpg?w=640" alt="" align="left" />Fala galera, arrisco dizer que não existe aprendizado de máquinas sem dados para ensinar a máquina. A coleta ou geração dos dados pode ocorrer de algumas formas como por exemplo consumindo dados oriundos de sensores em pessoas ou veículos, telemetrias de máquinas em chão de fábrica, inseridos manualmente através de aplicativos ou até dados &#8220;fakes&#8221; gerados de forma automatizada com inteligência, entre outras&#8230; Qualquer forma dessas, entre muitas outras, é válida desde que os dados sejam úteis para o cenário que estamos desenvolvendo.</p>
<p>Usando o Azure Machine Learning é possível consumir dados de uma infinidade de origens, fazendo o upload da sua base de dados ou então lendo os dados de:</p>
<ul>
<li>Web URL via HTTP</li>
<li>Hive Query</li>
<li>Azure SQL Database</li>
<li>Azure Table</li>
<li>Azure Blob Storage</li>
<li>Data Feed Provider</li>
</ul>
<p>Neste post vou mostrar como ler os dados de um Azure Blob Storage. Para isso entendo que você já criou seu ambiente e está com o Azure Machine Learning rodando (<a href="https://diegonogare.net/2014/12/azure-machine-learning-introducao-parte-3" target="_blank" rel="noopener noreferrer">caso ainda não tenha montado, veja como fazer aqui</a>)&#8230;</p>
<p>Importante: O componente de Reader do Azure Machine Learning quando está lendo a origem do Azure Blog Storage faz a leitura de um container do mesmo storage que foi usado para criar o ambiente. Garanta isso!</p>
<p>Para fazer o acesso são necessários alguns dados que ficam nas configurações do storage, vá até o portal do Azure em seguida vá ao menu de storage e então selecione o seu armazenamento. Clique em Gerenciar Chaves de Acesso. Isso lhe abre</p>
<p><img data-recalc-dims="1" decoding="async" src="https://i0.wp.com/blogdiegonogare.azurewebsites.net/wp-content/uploads/2015/07/071415_1554_AzureMachin2-1.png?w=640" alt="" /></p>
<p>&nbsp;</p>
<p>Uma nova janela se abre com a chave de acesso primária e secundária. Copie a primária que ela será usada em seguida, lá no Azure Machine Learning.</p>
<p><img data-recalc-dims="1" decoding="async" src="https://i0.wp.com/blogdiegonogare.azurewebsites.net/wp-content/uploads/2015/07/071415_1554_AzureMachin3-1.png?w=640" alt="" /></p>
<p>Ao abrir o StudioML , crie um novo experimento. <a href="https://diegonogare.net/2014/12/azure-machine-learning-introducao-parte-3" target="_blank" rel="noopener noreferrer">Caso não saiba fazer isso, pode ser este post</a>. Procure o componente Reader no menu da esquerda e arraste para o seu experimento. Ao clicar no componente, algumas opções se abrirão no menu da direita. Garanta que escolheu Azure Blob Storage na opção do Data source.</p>
<p><img data-recalc-dims="1" decoding="async" src="https://i0.wp.com/blogdiegonogare.azurewebsites.net/wp-content/uploads/2015/07/071415_1554_AzureMachin4-1.png?w=640" alt="" /></p>
<p>&nbsp;</p>
<p>Com os dados do storage que você copiou lá do portal do Azure, preencha os campos Account name, Account Key e Path to Container. No meu caso, ficou assim:</p>
<ul>
<li>Account Name: <span style="text-decoration: underline;">blognogareml</span></li>
<li>Account Key: <span style="text-decoration: underline;">A chave de acesso primária que copiei lá do storage</span></li>
<li>Path to Container: <span style="text-decoration: underline;">origemblog/dadosBrutos.csv</span></li>
</ul>
<p><img data-recalc-dims="1" decoding="async" src="https://i0.wp.com/blogdiegonogare.azurewebsites.net/wp-content/uploads/2015/07/071415_1554_AzureMachin5-1.png?w=640" alt="" /></p>
<p>Reparem que o ícone de esclamação desapareceu&#8230; Isso significa que os dados fornecidos para o componente são semanticamente válidos. Lembrando que os dados devem ser preenchidos exatamente como são, respeitando o case sensitive (maiúsculas e minúsculas).</p>
<p>Para validar se os dados estão acessíveis, clique no ícode Run na barra inferior do StudioML e aguarde a execução do pacote. Após ficar com um check verde no componente, clique no botão de saída do componente e em seguida em View Results.</p>
<p><img data-recalc-dims="1" decoding="async" src="https://i0.wp.com/blogdiegonogare.azurewebsites.net/wp-content/uploads/2015/07/071415_1554_AzureMachin6-1.png?w=640" alt="" /></p>
<p>Se os dados forem lidos corretamente, você terá uma nova janela com alguns dados referentes ao seu dataset, como esta abaixo. Repare que no canto superior esquerdo a janela apresenta a quantidade de linhas (rows) e colunas (columns) que você tem no seu dataset.</p>
<p><img data-recalc-dims="1" decoding="async" src="https://i0.wp.com/blogdiegonogare.azurewebsites.net/wp-content/uploads/2015/07/071415_1554_AzureMachin7-2.png?w=640" alt="" /></p>
<p>&nbsp;</p>
<p>Pronto, com isso você consegue acessar seu dataset através de um Azure Blob Storage. Divirta-se <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/1f642.png" alt="🙂" class="wp-smiley" style="height: 1em; max-height: 1em;" /></p>
<p>O post <a href="https://diegonogare.net/2015/07/azure-machine-learning-lendo-um-csv-com-azure-blob-storage-parte-5/">Azure Machine Learning – Lendo um CSV com Azure Blob Storage – Parte 5</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></content:encoded>
					
		
		
		<post-id xmlns="com-wordpress:feed-additions:1">1192</post-id>	</item>
		<item>
		<title>Azure Machine Learning – Matriz de Confusão – Parte 4</title>
		<link>https://diegonogare.net/2015/01/azure-machine-learning-matriz-de-confusao-parte-4/</link>
		
		<dc:creator><![CDATA[Diego Nogare]]></dc:creator>
		<pubDate>Mon, 05 Jan 2015 14:02:42 +0000</pubDate>
				<category><![CDATA[Cloud Computing]]></category>
		<category><![CDATA[azure]]></category>
		<category><![CDATA[BigData]]></category>
		<category><![CDATA[business intelligence]]></category>
		<category><![CDATA[cloud computing]]></category>
		<category><![CDATA[data mining]]></category>
		<category><![CDATA[inteligencia artificial]]></category>
		<category><![CDATA[Machine Learning]]></category>
		<category><![CDATA[mineracao de dados]]></category>
		<guid isPermaLink="false">http://diegonogare.net/?p=1130</guid>

					<description><![CDATA[<p>Fala galera, a primeira publicação do ano é realtiva à Matriz de Confusão, também chamada em algumas literaturas de tabela de contingência. Basicamente esta tabela valida o aprendizado supervisionado, comparando sua base de testes com a base treinada, e indica o quanto de acerto e erro ela teve. Este resultado é o que apresenta a...</p>
<p>O post <a href="https://diegonogare.net/2015/01/azure-machine-learning-matriz-de-confusao-parte-4/">Azure Machine Learning – Matriz de Confusão – Parte 4</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p>Fala galera, a primeira publicação do ano é realtiva à Matriz de Confusão, também chamada em algumas literaturas de tabela de contingência. Basicamente esta tabela valida o aprendizado supervisionado, comparando sua base de testes com a base treinada, e indica o quanto de acerto e erro ela teve. Este resultado é o que apresenta a acuracia do seu experimento.</p>
<p>Voltando ao exemplo que fiz para o <a href="https://www.youtube.com/watch?v=ZLrPm6K2Zww" target="_blank" rel="noopener noreferrer">Codificando Live de Edição #43</a>, onde analisamos uma base de alimentos e definimos alguns itens da amostra como misturas ou não. A matrix aparece aos 20m32s de vídeo onde é rapidamente apresentada a acuracia, logo abaixo da curva ROC, no item <em>Evaluation Model Result</em>.</p>
<p>Se reparar no vídeo, o treino do modelo é feito com 80% da base que fizemos o upload e é mantido 20% para testes (esta divisão acontece na tarefa de split). É com esta base de testes, que já temos conhecimento do resultado, que a matriz vai validar a coluna de predição informada no treino. Ela aplica o que treinou em cima desta base de teste, e compara se o resultado que ela obteve é igual ao que está nos dados originais. Resultando na seguinte estrutura:</p>
<p><img data-recalc-dims="1" decoding="async" src="https://i0.wp.com/blogdiegonogare.azurewebsites.net/wp-content/uploads/2015/01/010515_1402_AzureMachin1-2.png?w=640" alt="" /></p>
<p>Onde alguns valores são absolutos, baseados na classificação binária de erro ou acerto, que são:</p>
<h2>True Positive:</h2>
<p>Ele entende que as misturas foram analisadas e classificadas como mistura (acertou a mistura). Neste caso, é 16.</p>
<h2>False Positive:</h2>
<p>Ele entende que as misturas foram analisadas e classificadas como não mistura (errou a mistura, classificando como outro prato). Neste caso, é 5.</p>
<h2>True Negative:</h2>
<p>Ele entendeu o que não era mistura (era outro prato) e classificou como outro prato (acertou que não era uma mistura). Neste caso, é 54.</p>
<h2>False Negative:</h2>
<p>Ele entende que os outros pratos (não misturas) foram classificados como mistura (errou o outro prato). Neste caso, é 0.</p>
<p>&nbsp;</p>
<p>Já outros são baseados em cálculos matemáticos simples, como estes abaixo:</p>
<p><strong>∑ Positivos = <span style="text-decoration: underline;">Acertos</span> = True Positive + False Negative<br />
</strong></p>
<p><strong>∑ Negativos = <span style="text-decoration: underline;">Erros</span> = False Positive + True Negative<br />
</strong></p>
<h2>Acuracy (acurácia):</h2>
<p><strong>(True Positive + True Negative) / (∑ Positivos + ∑ Negativos)<br />
</strong></p>
<p>Com nossos números: (16 + 54) / ((16+0) + (5+54)) =&gt; 70 / 75 = 0.9333</p>
<h2>Precision (precisão):</h2>
<p><strong>(True Positive) / (True Positive + False Positive)<br />
</strong></p>
<p>Com nossos números: (16) / (16 + 5) =&gt; 16 / 21 = 0.7619</p>
<h2>Recall:</h2>
<p><strong>True Positive / ∑ Positivos<br />
</strong></p>
<p>Com nossos números: 16 / (16+0) =&gt; 16 / 16 = 1</p>
<h2>F1 Score:</h2>
<p><strong>(2* True Positive) / (2* True Positive + False Positive + False Negative)<br />
</strong></p>
<p>Com nossos números: (2*16) / (2*16 + 5 + 0) =&gt; 32 / 37 = 0.8648</p>
<p>&nbsp;</p>
<p>Com estes números, e mais a curva ROC e o AUC, é possível validar os valores do seu experimento e saber se está aceitável ou não. Quanto mais exemplos tiver na base de treino, mais precisa será a coluna de predição porque o computador vai aprender com mais exemplos.</p>
<p>O post <a href="https://diegonogare.net/2015/01/azure-machine-learning-matriz-de-confusao-parte-4/">Azure Machine Learning – Matriz de Confusão – Parte 4</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></content:encoded>
					
		
		
		<post-id xmlns="com-wordpress:feed-additions:1">1130</post-id>	</item>
		<item>
		<title>Azure Machine Learning – Introdução – Parte 3</title>
		<link>https://diegonogare.net/2014/12/azure-machine-learning-introducao-parte-3/</link>
		
		<dc:creator><![CDATA[Diego Nogare]]></dc:creator>
		<pubDate>Thu, 04 Dec 2014 21:00:01 +0000</pubDate>
				<category><![CDATA[Cloud Computing]]></category>
		<category><![CDATA[azure]]></category>
		<category><![CDATA[BigData]]></category>
		<category><![CDATA[business intelligence]]></category>
		<category><![CDATA[cloud computing]]></category>
		<category><![CDATA[data mining]]></category>
		<category><![CDATA[inteligencia artificial]]></category>
		<category><![CDATA[Machine Learning]]></category>
		<category><![CDATA[mineracao de dados]]></category>
		<guid isPermaLink="false">http://diegonogare.net/?p=1119</guid>

					<description><![CDATA[<p>Fala galera, esta é a terceira e última parte de introdução ao Azure Machine Learning. Fiz de propósito nesta ordem, criando o ambiente somente agora, para você saber onde está se metendo antes de sair criando as coisas e só depois descobrir que não era o que precisava. Mas agora que você já viu que...</p>
<p>O post <a href="https://diegonogare.net/2014/12/azure-machine-learning-introducao-parte-3/">Azure Machine Learning – Introdução – Parte 3</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p><img data-recalc-dims="1" decoding="async" src="https://i0.wp.com/blogdiegonogare.azurewebsites.net/wp-content/uploads/2014/12/120414_2054_AzureMachin1-2.png?w=640" alt="" /></p>
<p>Fala galera, esta é a terceira e última parte de introdução ao Azure Machine Learning. Fiz de propósito nesta ordem, criando o ambiente somente agora, para você saber onde está se metendo antes de sair criando as coisas e só depois descobrir que não era o que precisava. Mas agora que você já viu que existem algumas categorias de algoritmos para trabalhar com Data Mining e Inteligência Artificial e tem ideia de como eles podem ajudar na solução dos seus problemas, nós vamos agora criar o ambiente para trabalhar em nossos experimentos, e partir para os próximos posts que não serão mais introdutórios!</p>
<p>A primeira coisa a se fazer é acessar o Portal do Azure e criar um novo serviço pro Machine Learning. Importante garantir que o nome da Workspace e do Storage sejam válidos, isso pode ser verificado com o check verde ao lado do nome que você criou. No meu caso é BlogNogareML pro workspace e blognogareml (tudo minusculo) pro storage.</p>
<p><img data-recalc-dims="1" decoding="async" src="https://i0.wp.com/blogdiegonogare.azurewebsites.net/wp-content/uploads/2014/12/120414_2054_AzureMachin2-1.png?w=640" alt="" /></p>
<p>Depois de criado o ambiente, uma entrada do Azure Machine Learning fica disponível a partir do menu da esquerda. Acesse este menu e veja o item que você acabou de criar, no meu caso o BlogNogareML. Ao clicar neste item, vá até o Open in Studio, para chegar até a IDE web-based, onde é possível criar as bases de dados particulares e realizar os experimentos.</p>
<p><img data-recalc-dims="1" decoding="async" src="https://i0.wp.com/blogdiegonogare.azurewebsites.net/wp-content/uploads/2014/12/120414_2054_AzureMachin3-2.png?w=640" alt="" /></p>
<p>Uma nova aba no seu navegador é criada e o ML Studio é aberto. Quando for a primeira vez, um vídeo de introdução será apresentado. Após assistir e fechar o vídeo, você pode começar a criar seus experimentos. Reparem que existem duas opções no menu, uma pra criar <em>DataSet</em> e outra pra criar <em>Experiment</em>. Quando a gente quer utilizar um DataSet que precisa ser feito upload pro Machine Learning, deve-se usar a opção DataSet. Mais pra frente, em outro post, vamos mostrar como faz pra usar uma base de dados através de upload neste menu.</p>
<p><img data-recalc-dims="1" decoding="async" src="https://i0.wp.com/blogdiegonogare.azurewebsites.net/wp-content/uploads/2014/12/120414_2054_AzureMachin4-2.png?w=640" alt="" /></p>
<p>E pra criar o experimento em si, criando e conectando as tarefas em uma ordem logica de execução, você vai utilizar o Experiment.</p>
<p><img data-recalc-dims="1" decoding="async" src="https://i0.wp.com/blogdiegonogare.azurewebsites.net/wp-content/uploads/2014/12/120414_2054_AzureMachin5-2.png?w=640" alt="" /></p>
<p>Por enquanto, crie um experimento em branco clicando em <span style="text-decoration: underline;"><em>Experiment &gt;&gt; Blank Experiment</em></span>. Ao clicar neste item, a tela com o menu da esquerda contendo as tarefas padrões do Azure Machine Learning e a área central de desenvolvimento é apresentada, permitindo que seja iniciado o desenvolvimento.</p>
<p><img data-recalc-dims="1" decoding="async" src="https://i0.wp.com/blogdiegonogare.azurewebsites.net/wp-content/uploads/2014/12/120414_2054_AzureMachin6-2.png?w=640" alt="" /></p>
<p>Esta é a tela que será utilizada para trabalhar com os Experimentos, WebServices, Testes, Execuções Locais, etc. Você informa o nome, arrasta os componentes no melhor estilo Drag &#8216;n&#8217; Drop e com isso cria seus trabalhos. Vamos entender as funcionalidades e amplas possibilidades do que conseguiremos trabalhar com esta ferramenta nos próximos textos. Não deixe de acompanhar!</p>
<p>O post <a href="https://diegonogare.net/2014/12/azure-machine-learning-introducao-parte-3/">Azure Machine Learning – Introdução – Parte 3</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></content:encoded>
					
		
		
		<post-id xmlns="com-wordpress:feed-additions:1">1119</post-id>	</item>
		<item>
		<title>Azure Machine Learning – Introdução – Parte 2</title>
		<link>https://diegonogare.net/2014/11/azure-machine-learning-introducao-parte-2/</link>
		
		<dc:creator><![CDATA[Diego Nogare]]></dc:creator>
		<pubDate>Fri, 28 Nov 2014 18:21:23 +0000</pubDate>
				<category><![CDATA[Cloud Computing]]></category>
		<category><![CDATA[azure]]></category>
		<category><![CDATA[BigData]]></category>
		<category><![CDATA[business intelligence]]></category>
		<category><![CDATA[cloud computing]]></category>
		<category><![CDATA[data mining]]></category>
		<category><![CDATA[inteligencia artificial]]></category>
		<category><![CDATA[Machine Learning]]></category>
		<category><![CDATA[mineracao de dados]]></category>
		<guid isPermaLink="false">http://diegonogare.net/?p=1084</guid>

					<description><![CDATA[<p>Fala galera, os modelos algoritmos que temos hoje, 28/Nov/2014, disponíveis no Azure Machine Learning estão separados em três categorias, que podem ser encontrados no menu Machine Learning &#62;&#62; Initialize Model, conforme esta lista: Classification Multiclass Decision Forest Multiclass Decision Jungle Multiclass Logistic Regression Multiclass Neural Network One-vs-All Multiclass Two-Class Average Perceptron Two-Class Bayes Point Machine...</p>
<p>O post <a href="https://diegonogare.net/2014/11/azure-machine-learning-introducao-parte-2/">Azure Machine Learning – Introdução – Parte 2</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p>Fala galera, os modelos algoritmos que temos hoje, 28/Nov/2014, disponíveis no Azure Machine Learning estão separados em três categorias, que podem ser encontrados no menu <strong>Machine Learning &gt;&gt; Initialize Model</strong>, conforme esta lista:</p>
<p><img data-recalc-dims="1" decoding="async" src="https://i0.wp.com/blogdiegonogare.azurewebsites.net/wp-content/uploads/2014/11/112814_1817_AzureMachin1-2.png?w=640" alt="" /></p>
<h2>Classification</h2>
<ul>
<li>Multiclass Decision Forest</li>
<li>Multiclass Decision Jungle</li>
<li>Multiclass Logistic Regression</li>
<li>Multiclass Neural Network</li>
<li>One-vs-All Multiclass</li>
<li>Two-Class Average Perceptron</li>
<li>Two-Class Bayes Point Machine</li>
<li>Two-Class Boosted Decision Tree</li>
<li>Two-Class Decision Forest</li>
<li>Two-Class Decision Jungle</li>
<li>Two-Class Logistic Regression</li>
<li>Two-Class Neural Network</li>
<li>Two-Class Support Vector Machine</li>
</ul>
<p><span style="font-size: 1.5em;">Clustering</span></p>
<ul>
<li>K-Means Clustering</li>
</ul>
<p><span style="font-size: 1.5em;">Regression</span></p>
<ul>
<li>Bayesian Linear Regression</li>
<li>Boosted Decision Tree Regression</li>
<li>Decision Forest Regression</li>
<li>Linear Regression</li>
<li>Neural Network Regression</li>
<li>Ordinal Regression</li>
<li>Poisson Regression</li>
</ul>
<p>Estes modelos de algoritmos são formulações estatísticas e/ou matemáticas conhecidas e amplamente estudadas no meio acadêmico, aqui no Azure Machine Learning eles já possuem uma parametrização genérica para que funcione com a maioria dos casos. Nas nossas análises de dados, quando limpamos e disponibilizamos os dados para serem treinados pelo modelo, deve-se conectar o modelo escolhido de acordo com a necessidade de resolução daquele problema na tarefa de treino, que recebe também a origem dos dados. É importante ressaltar que cada um destes modelos de algoritmos apresentados possuem características específicas que resolvem problemas semelhantes, mas que a parametrização individual pode resolver melhor um problema através da escolha de um modelo ou de outro.</p>
<p><img data-recalc-dims="1" decoding="async" src="https://i0.wp.com/blogdiegonogare.azurewebsites.net/wp-content/uploads/2014/11/112814_1817_AzureMachin2-2.png?w=640" alt="" /></p>
<p>Para exemplificar, imagine um cenário que avalia se um cadastro pode ser fraudulento ou não. Por mais que se use um modelo da categoria <em>Classification</em> para encontrar uma resposta sobre este problema, ele pode não ser exatamente o melhor modelo para encontrar esta resposta. Isso é analisado com base no resultado da Curva ROC (<em>Receiver Operator Characteristics Curve</em>) que realiza a comparação entre a sensibilidade e a especificidade do teste quantitativo basedo nos valores contínuos que foram treinados pelo algoritmo. As vezes, comparando com outros modelos desta mesma categoria a gente descobre que para classificar o cadastro como um possível problema de fraude o modelo de algoritmo X é melhor que o Y, mesmo que o modelo Y tenha sido o melhor algoritmo para classificar os mesmos dados de treino para saber se o cadastro é um bom pagador de dívidas. Este cadastro fictício diz que ele é um cadastro passível de trazer problemas com fraudes, mas que é um bom pagador. Meio controvérsio, mas é só pra exemplificar <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/1f642.png" alt="🙂" class="wp-smiley" style="height: 1em; max-height: 1em;" /></p>
<p>Esta é a curva ROC, os melhores resultados dela são os que enquadram o maior conjunto possível de amostras (dados) na AUC (<em>Area Under the Curve</em>).</p>
<p>Veja muitos mais detalhes do <a href="http://en.wikipedia.org/wiki/Receiver_operating_characteristic">ROC na wikipedia, clicando aqui.</a></p>
<p><img data-recalc-dims="1" decoding="async" src="https://i0.wp.com/blogdiegonogare.azurewebsites.net/wp-content/uploads/2014/11/112814_1817_AzureMachin3-2.png?w=640" alt="" /></p>
<p>O terceiro e último texto sobre Introdução ao Azure Machine Learning, nós vamos acessar o ambiente e aprender a criar Experimentos e Base de Dados. Nos próximos, que já sairão da introdução, vamos explicar alguns algoritmos e trabalhar com exemplos práticos. Não deixe de acompanhar!</p>
<p>O post <a href="https://diegonogare.net/2014/11/azure-machine-learning-introducao-parte-2/">Azure Machine Learning – Introdução – Parte 2</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></content:encoded>
					
		
		
		<post-id xmlns="com-wordpress:feed-additions:1">1084</post-id>	</item>
		<item>
		<title>Azure Machine Learning – Introdução – Parte 1</title>
		<link>https://diegonogare.net/2014/11/azure-machine-learning-introducao-parte-1/</link>
		
		<dc:creator><![CDATA[Diego Nogare]]></dc:creator>
		<pubDate>Tue, 25 Nov 2014 20:00:27 +0000</pubDate>
				<category><![CDATA[Cloud Computing]]></category>
		<category><![CDATA[azure]]></category>
		<category><![CDATA[BigData]]></category>
		<category><![CDATA[business intelligence]]></category>
		<category><![CDATA[cloud computing]]></category>
		<category><![CDATA[data mining]]></category>
		<category><![CDATA[inteligencia artificial]]></category>
		<category><![CDATA[Machine Learning]]></category>
		<category><![CDATA[mineracao de dados]]></category>
		<guid isPermaLink="false">http://diegonogare.net/?p=1075</guid>

					<description><![CDATA[<p>Fala galera, uma nova feature, lançada a poucos meses em preview e que já está disponível publicamente na plataforma Azure é o Microsoft Azure Machine Learning. Uma funcionalidade para nós trabalharmos com Inteligência Artificial através de Mineração de Dados e que permite entender melhor os nossos dados e ambientes, e tomar melhores decisões pro futuro....</p>
<p>O post <a href="https://diegonogare.net/2014/11/azure-machine-learning-introducao-parte-1/">Azure Machine Learning – Introdução – Parte 1</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p><img data-recalc-dims="1" decoding="async" src="https://i0.wp.com/blogdiegonogare.azurewebsites.net/wp-content/uploads/2014/11/112514_1958_AzureMachin1-2.png?w=640" alt="" /></p>
<p>Fala galera, uma nova feature, lançada a poucos meses em <em>preview</em> e que já está disponível publicamente na plataforma Azure é o <strong>Microsoft</strong><br />
<strong>Azure Machine Learning</strong>. Uma funcionalidade para nós trabalharmos com <strong>Inteligência Artificial</strong> através de <strong>Mineração de Dados</strong> e que permite entender melhor os nossos dados e ambientes, e tomar melhores decisões pro futuro.</p>
<p>Neste momento, 25/Nov/2014, ainda é em uma versão de testes com algumas coisas faltando. Uma coisa boa desta plataforma é e que possui um <em>roadmap</em> de lançamento de novas funcionalidades que acompanha todos os outros produtos da plataforma Azure, isso significa que temos atualizações de recursos a cada 3 ou 6 meses.</p>
<p>Hoje a plataforma trabalha com 3 categorias de algoritmos nativos:</p>
<p><strong><em>Classification</em></strong>: Algoritmos de Classificação permitem que análises sejam feitas na base de treino e teste e seu valor preditivo (aquele que estamos buscando) possa ser encontrado de forma discreta. Um resultado discreto significa apresentar um item baseado em um sub-conjunto conhecido de valores possíveis. Normalmente são poucos valores. Os mais comuns de se encontrar no mercado são classificadores binários, que &#8220;predizem&#8221; se a resposta é SIM ou NÃO, e apresenta o grau do índice de acuracidade (confiança) para aquela resposta que foi apresentada.</p>
<p><strong><em>Clustering</em></strong>: Algoritmos de Clustering (ou Segmentação) fazem o processo de particionar os dados da amostra de uma população em vários sub-conjuntos, deixando as ocorrências mais parecidas umas perto das outras. Diferente dos algoritmos de classificação na qual as classes são conhecidas, em algoritmos de Segmentação as ocorrências (ou linhas, ou registros [chame como achar melhor]) são agrupados pelas suas semelhanças. Imaginando a aplicação deste algoritmo em um universo de pessoas, é possível segmentar estes indivíduos por Região que moram, Região que trabalham, Sexo, Faixa de Idade, Faixa de Renda, etc. Qualquer dado discreto conhecido pode ser usado para fazer a segmentação da população e a partir desta segmentação é possível criar várias outras análises. Inclusive mudando de algoritmo para se adequar melhor à sua necessidade. Outra aplicação pra algoritmos de Clustering é entender o comportamento sequencial dos indivíduos, analisando os passos que foram feitos para realizar uma ação em algum lugar. Com estes passos é possível agrupar os indivíduos em sub-grupos, ficando em cada segmentação os indivíduos que percorreram os mesmos passos para realizar aquela determinada ação.</p>
<p><strong><em>Regression</em></strong>: Algoritmos de Regressões permitem que as análises na base de treino e testes retornem valores contínuos para aquele resultado preditivo. Por valores contínuos entendemos que são valores &#8220;infinitos&#8221;, podendo ser qualquer valor possível. Uma aplicação deste algoritmo pode ser uma análise pra saber quanto custa uma casa baseada na metragem e região. Uma análise desta pode dar valores entre 1 Dolar (como as casas em Detroit depois do problema da bolha imobiliária [veja aqui: <a href="http://www.nydailynews.com/life-style/real-estate/1-buy-house-detroit-article-1.1415014" target="_blank" rel="noopener noreferrer">http://www.nydailynews.com/life-style/real-estate/1-buy-house-detroit-article-1.1415014</a> ]) e 380.000.000 Dolares como esta cobertura em Mônaco (<a href="http://gallivantguide.com/monaco-penthouse-387m-worlds-most-expensive/2098/" target="_blank" rel="noopener noreferrer">http://gallivantguide.com/monaco-penthouse-387m-worlds-most-expensive/2098/</a>). Este intervalo de possibilidades é bem grande, e uma aplicação que faça este tipo de análise pode ter uma carga de processamento e consumo de memória bem grande. O uso de algoritmos para estas aplicações, facilitam muito o nosso trabalho!</p>
<p>Eu particularmente senti bastante falta de algoritmos da categoria <strong><em>Association</em></strong>, geralmente utilizados para <em>Basket Market Analysis</em> e que permitem encontrar correlação entre itens ou produtos que estão recebendo alguma interação e podem ser associados uns aos outros. Interação esta que pode ser simplesmente verificar os detalhes do produto, podendo ser até a ação de adicionar o produto no carrinho de compras. Cada interação desta apresenta um, ou mais, produtos associados à aquele que esta recebendo esta interação. Esta associação é baseada em fatos do passado, onde um produto foi consumido com o outro. Isso significa que a predição pode mudar com o decorrer do tempo, quando o comportamento e a correlação entre estes produtos passam a mudar por qualquer motivo que seja.</p>
<p>Em contra partida pode-se executar scripts em R dentro do Microsoft Azure Machine Learning. Só pra contextualizar, R é uma linguagem de programação focada em análise de dados e estatística que foi criada na década de 70. Esta linguagem é amplamente utilizada por estatísticos e matemáticos ao redor do mundo, e agora, com a nova profissão de Cientista de Dados, existe muito mais gente estudando e aprendendo R. Nós podemos criar scripts em R e consumir mais de 340 pacotes de funcionalidades existentes no CRAN (<em>Comprehensive R Archive Network</em> &#8211; <a href="http://cran.r-project.org/" target="_blank" rel="noopener noreferrer">http://cran.r-project.org/</a>) diretamente no Microsoft Azure Machine Learning. Isso ampliou bastante a quantidade de tarefas que é possível fazer com o Machine Learning.</p>
<p>Está no meu pipeline escrever mais alguns posts sobre o Microsoft Azure Machine Learning, criando alguns exemplos e trabalhando com alguns algoritmos. Fiquem ligados!</p>
<p>O post <a href="https://diegonogare.net/2014/11/azure-machine-learning-introducao-parte-1/">Azure Machine Learning – Introdução – Parte 1</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></content:encoded>
					
		
		
		<post-id xmlns="com-wordpress:feed-additions:1">1075</post-id>	</item>
		<item>
		<title>Vídeo da minha palestra no CONABI – 1º Congresso Nacional Online de Business Intelligence</title>
		<link>https://diegonogare.net/2014/09/video-da-minha-palestra-no-conabi-1o-congresso-nacional-online-de-business-intelligence/</link>
		
		<dc:creator><![CDATA[Diego Nogare]]></dc:creator>
		<pubDate>Tue, 16 Sep 2014 17:50:54 +0000</pubDate>
				<category><![CDATA[Business Intelligence]]></category>
		<category><![CDATA[Eventos]]></category>
		<category><![CDATA[Informativo]]></category>
		<category><![CDATA[SQL Server]]></category>
		<category><![CDATA[Video]]></category>
		<category><![CDATA[bi]]></category>
		<category><![CDATA[business intelligence]]></category>
		<category><![CDATA[data mining]]></category>
		<category><![CDATA[Data Warehouse]]></category>
		<category><![CDATA[Palestra]]></category>
		<category><![CDATA[sql 2014]]></category>
		<category><![CDATA[sql server]]></category>
		<category><![CDATA[sql server analysis services]]></category>
		<category><![CDATA[sql server integration services]]></category>
		<category><![CDATA[sql server reporting services]]></category>
		<category><![CDATA[video]]></category>
		<guid isPermaLink="false">http://diegonogare.net/?p=981</guid>

					<description><![CDATA[<p>Fala galera, no mês passado fiz uma palestra para o CONABI – 1º Congresso Nacional Online de Business Intelligence, com o tema &#8220;5 Passos para Você Tomar Melhores Decisões Usando as Ferramentas Corretas&#8220;. Para quem interessar, segue o PPT e o vídeo da palestra: Bons estudos!</p>
<p>O post <a href="https://diegonogare.net/2014/09/video-da-minha-palestra-no-conabi-1o-congresso-nacional-online-de-business-intelligence/">Vídeo da minha palestra no CONABI – 1º Congresso Nacional Online de Business Intelligence</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p>Fala galera, no mês passado fiz uma palestra para o <strong>CONABI</strong> – <em>1º Congresso Nacional Online de Business Intelligence</em>, com o tema &#8220;<strong><em>5 Passos para Você Tomar Melhores Decisões Usando as Ferramentas Corretas</em></strong>&#8220;. Para quem interessar, segue o PPT e o vídeo da palestra:</p>
<p><iframe style="border: 1px solid #CCC; border-width: 1px; margin-bottom: 5px; max-width: 100%;" src="//www.slideshare.net/slideshow/embed_code/38625660" frameborder="0" marginwidth="0" marginheight="0" scrolling="no" width="512" height="421"></iframe></p>
<p><iframe loading="lazy" src="//www.youtube.com/embed/4rrPXktcsy8" frameborder="0" width="512" height="421"></iframe></p>
<p>Bons estudos!</p>
<p>O post <a href="https://diegonogare.net/2014/09/video-da-minha-palestra-no-conabi-1o-congresso-nacional-online-de-business-intelligence/">Vídeo da minha palestra no CONABI – 1º Congresso Nacional Online de Business Intelligence</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></content:encoded>
					
		
		
		<post-id xmlns="com-wordpress:feed-additions:1">981</post-id>	</item>
		<item>
		<title>Algoritmo de Regras Associativas (Association Rules) no Data Mining do SQL Server 2014</title>
		<link>https://diegonogare.net/2014/08/algoritmo-de-regras-associativas-association-rules-no-data-mining-do-sql-server-2014/</link>
		
		<dc:creator><![CDATA[Diego Nogare]]></dc:creator>
		<pubDate>Thu, 14 Aug 2014 13:11:45 +0000</pubDate>
				<category><![CDATA[Artigo]]></category>
		<category><![CDATA[Big Data]]></category>
		<category><![CDATA[Business Intelligence]]></category>
		<category><![CDATA[MVTech]]></category>
		<category><![CDATA[SQL Server]]></category>
		<category><![CDATA[Tech Ed Brasil]]></category>
		<category><![CDATA[Virtual PASS BR]]></category>
		<category><![CDATA[association rules]]></category>
		<category><![CDATA[bi]]></category>
		<category><![CDATA[BigData]]></category>
		<category><![CDATA[business intelligence]]></category>
		<category><![CDATA[data mining]]></category>
		<category><![CDATA[inteligencia artificial]]></category>
		<category><![CDATA[regras associativas]]></category>
		<category><![CDATA[sql server]]></category>
		<guid isPermaLink="false">http://diegonogare.net/?p=960</guid>

					<description><![CDATA[<p>Fala galera, como prometido neste post e iniciado pela Árvore de Decisão, hoje continuo a série de posts falando sobre os algoritmos de Data Mining existentes no SQL Server 2014. Este segundo algoritmo que vamos falar é de Regras Associativas. Voltando ao primeiro post, as Regras Associativas apresentam uma estrutura combinatória dentro de um DataSet a partir...</p>
<p>O post <a href="https://diegonogare.net/2014/08/algoritmo-de-regras-associativas-association-rules-no-data-mining-do-sql-server-2014/">Algoritmo de Regras Associativas (Association Rules) no Data Mining do SQL Server 2014</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p><span style="color: black;"><span style="font-family: Segoe UI; font-size: 10pt; background-color: white;">Fala galera, como <a href="https://diegonogare.net/2014/06/data-mining-com-sql-server-2014/" target="_blank" rel="noopener noreferrer">prometido </a></span>neste post<span style="font-family: Segoe UI; font-size: 10pt; background-color: white;"> e iniciado pela <a href="https://diegonogare.net/2014/08/algoritmo-de-arvore-de-decisao-decision-tree-no-data-mining-do-sql-server-2014/" target="_blank" rel="noopener noreferrer">Árvore de Decisão</a>, hoje continuo a série de posts falando sobre os algoritmos de Data Mining existentes no SQL Server 2014.<br />
</span></span></p>
<p><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;">Este segundo algoritmo que vamos falar é de Regras Associativas. Voltando ao primeiro post, as Regras Associativas apresentam uma estrutura combinatória dentro de um DataSet a partir de itens similares que estão sendo processados. A maioria dos sistemas inteligentes que utilizam este algoritmo são criados para recomendar um produto para o usuário, normalmente em e-commerce. Já reparou que quando acessa o site da Amazon e procura o livro <a href="http://www.amazon.com.br/Banco-Dados-Relacional-Tomada-Decis%C3%A3o-ebook/dp/B00JPR5NLU/" target="_blank" rel="noopener noreferrer">Do Banco de Dados Relacional à Tomada de Decisão</a>, e vários outros livros de Business Intelligence e BigData são apresentados? Então, não existe um <em>Oompa-Loompa</em> colocando isso aleatoriamente para você. Por trás, existe um sistema de recomendação completo, provavelmente utilizando a categoria &#8220;<em>Computação, Informática e Mídias Digitais</em>&#8221; como um parametro de entrada para este item. Como sempre, é importante conhecer a base e saber quais segmentações você quer aplicar para a recomendação. Neste caso, quando se coloca a categoria como um parametro de entrada, sempre serão recomendados itens similares dentro desta categoria, mas se todos os compradores do meu livro também comprassem um livro de culinária, ele não apareceria na recomendação pois está em outra categoria.<br />
</span></p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/081414_1309_Algoritmode1-2.png" alt="" /><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;"><br />
</span></p>
<p>&nbsp;</p>
<p><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;">Bom, já entendemos a aplicabilidade e como ele funciona, agora vamos criar um exemplo para o Adventure Works?<br />
</span></p>
<p><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;">Primeira coisa é necessário criar um novo projeto do tipo SSAS com Data Mining. Mais uma vez vou acreditar que você sabe criar um <strong>Data Source</strong> apontando para o <em>AdventureWorksDW2012</em> e um <strong>Data Source View</strong> apontando para a <em>vAssocSeqLineItems</em> e <em>vAssocSeqOrders</em>. Esta estrutura basicamente é um relacionamento entre pedidos e produtos. Onde uma view tem os pedidos que foram feitos, e na outra view tem a lista de produtos que estão associadas àquele pedido. Consegue ver um relacionamento entre essas views? E a aplicabilidade desse relacionamento na nossa recomendação de conteúdo? Caso não tenha conseguido descobrir essa associação, a idéia é encontrar na lista de itens os produtos que também são comprados (com base na outra view de pedido) quando ao menos um daqueles itens é o que está no meu carrinho. Ficou mais claro? Não? Ok, vamos continuar e ver se conseguimos explicar&#8230; Voltando pra Amazon, e olhando a categoria do meu livro. Diversas pessoas olham meu livro e alguns outros livros na mesma visita à pagina, não importa a ordem, pode ser que vejam outros livros e depois o meu (<em>a ordem de visualização vai importar quando estivermos falando de algoritmo de Sequence Cluster, mas isso é pra outro post</em>). O importante é que existe uma ligação entre a visita e os produtos que foram vistos, no caso estes livros. Depois de algum tempo, estes livros passam a ter um relacionamento mais preciso, pois tem mais gente visualizando os livros. Não significa que em todos os acessos os visitantes visualizam todos os livros, estes que estão recomendados são os 5 livros que mais se relacionam com o meu no momento do processamento e dentro naquela categoria que está sendo processada. Pode ser que no futuro um outro livro passe a ser visualizado sempre que alguém buscar o meu livro, isso fará com que o 5º livro da ordem, que seria representado por uma ligação mais fraca, pare de aparecer na recomendação e entre esse outro livro&#8230; Tudo isso automaticamente, sem a intervenção daquele <em>Oompa-Loompa</em> comentado lá em cima.<br />
</span></p>
<p><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;">Voltando ao exemplo, depois de incluir o <strong>Data Source View</strong>, é preciso relacionar as views, arrastando o campo <em>OrderNumber</em> da view <em>vAssocSeqLineItems</em> para cima do campo <em>vAssocSeqOrders</em>.<br />
</span></p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/081414_1309_Algoritmode2-1.png" alt="" /><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;"><br />
</span></p>
<p><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;">Próximo passo é hora de criar o Mining Model para as regras associativas, faça isso clicando com o botão dirento em <em>Mining Structure</em> e criando um novo a partir do <em>From existing relational database or data warehouse</em> e escolhendo <strong>Microsoft Association Rules</strong>.<br />
</span></p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/081414_1309_Algoritmode3-1.png" alt="" /><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;"><br />
</span></p>
<p><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;">Ao avançar para as próximas telas, deve-se informar qual view é <strong>Case</strong> e qual é <strong>Nested</strong>. Neste caso, a estrutura de CASE é onde temos a informação principal que será usada para segmentar os dados. Fazendo uma analogia ao livro, é onde se encontra a categoria de &#8220;<em>Computação, Informática e Mídias Digitais</em>&#8221; e não os livros que foram visualizados juntos. Já a tabela NESTED é onde se encontram estes livros que foram visualizados juntos. Então selecione <em>vAssocSeqOrders</em> para <strong>Case</strong> e <em>vAssocSeqLineItens</em> para <strong>Nested</strong>.<br />
</span></p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/081414_1309_Algoritmode4-1.png" alt="" /><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;"><br />
</span></p>
<p><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;">Ao avançar para a tela seguinte, é solicitado para informar quais campos serão tratados como <em>Key</em>, <em>Input</em> e <em>Predictable</em>. A seleção destas colunas é baseada na mesma explicação que foi feita no post sobre <a href="https://diegonogare.net/2014/08/algoritmo-de-arvore-de-decisao-decision-tree-no-data-mining-do-sql-server-2014/" target="_blank" rel="noopener noreferrer">Árvores de Decisão</a>, então dê um pulinho lá e veja o que é. Desmarque todas as opções que vierem marcadas, e selecione as caixas de <strong>OrderNumber</strong> como chave (coluna key) e as três colunas da <strong>Model</strong>. Sua seleção ficará assim:<br />
</span></p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/081414_1309_Algoritmode5-1.png" alt="" /><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;"><br />
</span></p>
<p><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;">Quando avançar para a próxima tela, garanta que ambas colunas selecionadas estejam marcadas como <strong>Key</strong>, no <em>Content Type</em>.<br />
</span></p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/081414_1309_Algoritmode6-1.png" alt="" /><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;"><br />
</span></p>
<p><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;">Só pra lembrar, como neste caso é importante a acertividade na recomendação dos itens similares, altere de 30 para 0 o valor do campo &#8220;<em>Percentage of Data for Testing</em>&#8220;. Avance até finalizar o processo.<br />
</span></p>
<p><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;">Se tudo ocorreu direito, seu Mining Structure ficará assim:<br />
</span></p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/081414_1309_Algoritmode7-1.png" alt="" /><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;"><br />
</span></p>
<p><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;">Antes de processar seu projeto, lembre-se de informar qual é o servidor que tem o <strong>SQL Server Analysis Services</strong> instalado e configurado. Após este pequeno detalhe, faça o processamento.<br />
</span></p>
<p><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;">Após processar, mude a aba do seu Mining para <em>Mining Model View</em>, e então, dentro desta aba, vá até o item <em>Dependency Network</em>.<br />
</span></p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/081414_1309_Algoritmode8-1.png" alt="" /><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;"><br />
</span></p>
<p><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;">Aqui dentro é possível ver os nós de associação que foram criados.<br />
</span></p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/081414_1309_Algoritmode9-1.png" alt="" /><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;"><br />
</span></p>
<p><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;">Parece pouca associação (mas por trás não é), isso acontece pela parametrização da quantidade mínima de ocorrências similares dos objetos. Para aumentar isso, volte até a aba <em>Mining Model</em>, clique com o botão direito em <em>Set Algorithm Parameters.</em><br />
</span></p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/081414_1309_Algoritmode10-1.png" alt="" /><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;"><br />
</span></p>
<p><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;">Altere os parametros de <em>Minimum_Support</em> para <strong>0.01</strong> e de <em>Minimum_Probability</em> para <strong>0.1</strong>, ao terminar esta alteração, processe novamente seu modelo e em seguida volte a visualizar as associacões (aba <em>Dependency Network</em> do seu <em>Mining Model View</em>). Veja que agora está bem mais completo e bonito de ver.<br />
</span></p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/081414_1309_Algoritmode11-1.png" alt="" /><span style="color: black; font-family: Segoe UI; font-size: 10pt; background-color: white;"><br />
</span></p>
<p><span style="color: black; font-size: 10pt;"><span style="font-family: Segoe UI; background-color: white;">Para consumir as associações, é possível escrever códigos <strong>DMX</strong> (<em>Data Mining Extentions</em>) passando como parâmetro o nome de um dos produtos, e recebendo uma lista dos outros itens que são associados à ele nas compras. Está no meu <em>pipe</em> pra escrever uma app em .Net que consuma esses dados via DMX, e claro, postar aqui como foi feito </span><span style="font-family: Wingdings; background-color: white;">J</span></span></p>
<p>O post <a href="https://diegonogare.net/2014/08/algoritmo-de-regras-associativas-association-rules-no-data-mining-do-sql-server-2014/">Algoritmo de Regras Associativas (Association Rules) no Data Mining do SQL Server 2014</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></content:encoded>
					
		
		
		<post-id xmlns="com-wordpress:feed-additions:1">2181</post-id>	</item>
		<item>
		<title>Algoritmo de Árvore de Decisão (Decision Tree) no Data Mining do SQL Server 2014</title>
		<link>https://diegonogare.net/2014/08/algoritmo-de-arvore-de-decisao-decision-tree-no-data-mining-do-sql-server-2014/</link>
		
		<dc:creator><![CDATA[Diego Nogare]]></dc:creator>
		<pubDate>Wed, 06 Aug 2014 01:34:32 +0000</pubDate>
				<category><![CDATA[Artigo]]></category>
		<category><![CDATA[Big Data]]></category>
		<category><![CDATA[Business Intelligence]]></category>
		<category><![CDATA[MVTech]]></category>
		<category><![CDATA[SQL Server]]></category>
		<category><![CDATA[Tech Ed Brasil]]></category>
		<category><![CDATA[Virtual PASS BR]]></category>
		<category><![CDATA[arvore de decisao]]></category>
		<category><![CDATA[bi]]></category>
		<category><![CDATA[BigData]]></category>
		<category><![CDATA[business intelligence]]></category>
		<category><![CDATA[data mining]]></category>
		<category><![CDATA[decision tree]]></category>
		<category><![CDATA[inteligencia artificial]]></category>
		<category><![CDATA[sql server]]></category>
		<guid isPermaLink="false">http://diegonogare.net/?p=946</guid>

					<description><![CDATA[<p>Fala galera, como prometido algumas semanas atrás vou escrever uma série de posts falando sobre os algoritmos de Data Mining existentes no SQL Server 2014. Hoje vamos cobrir o uso do algoritmo de Árvore de Decisão, que implementa o algoritmo Microsft Decision Tree. Como já foi falado no primeiro post, este algoritmo de classificação é...</p>
<p>O post <a href="https://diegonogare.net/2014/08/algoritmo-de-arvore-de-decisao-decision-tree-no-data-mining-do-sql-server-2014/">Algoritmo de Árvore de Decisão (Decision Tree) no Data Mining do SQL Server 2014</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p>Fala galera, como <a href="https://diegonogare.net/2014/06/data-mining-com-sql-server-2014/">prometido algumas semanas atrás</a> vou escrever uma série de posts falando sobre os algoritmos de Data Mining existentes no SQL Server 2014. Hoje vamos cobrir o uso do algoritmo de Árvore de Decisão, que implementa o algoritmo Microsft Decision Tree.</p>
<p>Como já foi falado no primeiro post, este algoritmo de classificação é responsável por criar uma representação visual que chamamos de árvore por contem um nó raíz, nós intermediários que são as ramificações e os últimos nós representados que são as folhas.</p>
<p>É importante conhecer os dados que serão trabalhados para poder definir o que são atributos de entrada e o que são atributos preditivos. Basicamente, os atributos de entradas são colunas do banco de dados que podem influenciar o resultado final, e o resultado final é a coluna preditiva. Imagine um cenário onde o objetivo é classificar pessoas que são possíveis compradores do livro <a href="http://www.livrariasaraiva.com.br/produto/7697935">Do Banco de Dados Relacional à Tomada de Decisão</a>. Então neste caso a coluna preditiva do banco é se o cara comprou ou não o livro. As colunas de input são as colunas que tem alguma influência sobre a compra do livro, por exemplo, o idioma, a área de atuação, interesse técnico, etc. O algoritmo, com base nestas informações de input e predição, estrutura os nós da árvore classificando o que é relevante nas ramificações e entregando um (ou mais) caminhos ideais para chegar até as folhas. Pensando por esse lado, foi constatado que das 10 vendas que o livro teve, 8 falam idioma Português, 7 trabalham na área de Banco de Dados e somente 3 tem interesse técnico. Quando estes dados são processados pelo algoritmo e apresentado através da Árvore de Decisão, é possível ver claramente qual é o melhor caminho para segmentar o público que compraria o livro. São profissionais que falam Português e que trabalham na área de Banco de Dados, mas o interesse técnico não importa. Se fizer uma campanha de marketing direcionada para este público, a chance de vender o livro é muito maior do que enviar para um grupo de pessoas que falam Inglês e trabalham na área de Nutrição.</p>
<p>Bom, depois desse exemplo para entender o funcionamento do algoritmo, vamos começar um exemplo utilizando o Adventure Works.</p>
<p>Primeira coisa é necessário criar um novo projeto do tipo SSAS com Data Mining. Vou levar em conta que você sabe criar um <strong>Data Source</strong> apontando para o <em>AdventureWorksDW2012</em> e um <strong>Data Source View</strong> apontando para a <em>vTargetMail</em>.</p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/080614_0131_Algoritmode1-1.png" alt="" /></p>
<p>O próximo passo é onde começa a mineração de dados, procure na Solution Explorer o item de Mining Structure e clique com o botão direito do mouse, em seguida, aponte para New Mining Structure.</p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/080614_0131_Algoritmode2-1.png" alt="" /></p>
<p>Neste momento uma tela de abre e permite que você informe onde estão os dados de origem. Como utilizaremos o Data Warehouse para consumir os dados, deixe marcada a opção que é apresentada.</p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/080614_0131_Algoritmode3-1.png" alt="" /></p>
<p>Ao avançar para a próxima tela, você deve escolher qual algoritmo vai utilizar para sua mineração. No caso deste exemplo, mantenha escolhido o default, que é Decision Tree.</p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/080614_0131_Algoritmode4-1.png" alt="" /></p>
<p>Na tela seguinte, você informa qual é o Data Source View que possui a conexão com sua base de dados de origem. Como foi criado somente um Data Source View, somente ele é apresentado.</p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/080614_0131_Algoritmode5-1.png" alt="" /></p>
<p>Ao avançar, o wizard pergunta quais tabelas são Case e quais são Nested. Mantenha a tabela (eu sei que é uma view!!!!) vTargetMail marcada como Case e avance.</p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/080614_0131_Algoritmode6-1.png" alt="" /></p>
<p>Neste momento é hora de selecionar quais colunas são de entrada e quais são preditivas. Ao bater o olho na tela, é intuitivo marcar as linhas definidas para cada coluna. Garanta que seu ambiente está marcado com:</p>
<p>Key <span style="font-family: Wingdings;">à</span> CustomerKey</p>
<p>Input <span style="font-family: Wingdings;">à</span> Age e CommuteDistance</p>
<p>Predictable <span style="font-family: Wingdings;">à</span> BikeBuyer</p>
<p>Como apresentado a seguir</p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/080614_0131_Algoritmode7-1.png" alt="" /></p>
<p>Avance para a próxima tela, e informe quais são valores Continuous ou então Discrete. Lembrando que valores contínuos apresentam uma grande variação de ocorrencias dentro da coluna e os discretos variam pouco. Por exemplo um campo do tipo CPF é um valor contínuo (varia muito de individuo para individuo) e uma coluna do tipo sexo é discreto (varia só um pouco). Caso não esteja a vontade, ou não conhece a base, pode clicar em Detect e o SQL Server analisa e lhe dá o resultado.</p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/080614_0131_Algoritmode8-1.png" alt="" /></p>
<p>O próximo passo é finalizar e informar o nome. Como não estou com criatividade hoje, vou deixar o nome sugerido pelo SQL Server e vou manter <strong>v Target Mail</strong>.</p>
<p>Um novo item é criado dentro da Solution Explorer, e é neste objeto que a Mineração de Dados ocorre. Para encontrar a Árvore de Decisão, é preciso processar os dados. É possível processar somente o modelo ou então o projeto como um todo. No caso, vamos processar todo o projeto. Para isso, vá na Solution Explorer, clique com o botão direito no projeto e aponte para Process. Lembrando de apontar para o <em>deploy</em> para o servidor correto.</p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/080614_0131_Algoritmode9-2.png" alt="" /></p>
<p>Se tudo ocorrer bem ao processamento, será apresenta o status Process Succeeded.</p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/080614_0131_Algoritmode10-2.png" alt="" /></p>
<p>Para encontrar a <strong>Árvore de Decisão</strong>, vá até a área central do <em>SQL Server Data Tools</em> no objeto <strong>v Target Mail</strong>, e abra a aba <em>Mining Model Viewer</em>.</p>
<p><img decoding="async" src="/wp-content/uploads/2014/08/080614_0131_Algoritmode11-2.png" alt="" /></p>
<p>Reparem que os nós Raiz [1], Ramificações [2] e Folha [3] são apresentados, e pode-se seguir o caminho da predição com base nas variáveis de entrada. Um ponto importante para seguir com a análise, é entender essa graduação de cores, na qual o item mais escuro representa o resultado mais impactante com base na predição esperada. A base do AdventureWorks é de uma empresa fictícia de venda de acessórios para bicicletas, então, olhando esta árvore, é possível predizer que os melhores clientes para realizar possíveis compras futuras seguindo o fluxo com as cores mais escuras.</p>
<p>Agora é com vocês, apliquem estas técnicas de mineração de dados em seu ambiente e façam com que seus resultados sejam mais assertivos!</p>
<p>O post <a href="https://diegonogare.net/2014/08/algoritmo-de-arvore-de-decisao-decision-tree-no-data-mining-do-sql-server-2014/">Algoritmo de Árvore de Decisão (Decision Tree) no Data Mining do SQL Server 2014</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></content:encoded>
					
		
		
		<post-id xmlns="com-wordpress:feed-additions:1">2178</post-id>	</item>
	</channel>
</rss>
