Arquivos Visão Computacional - Diego Nogare

IA Multimodal – O futuro da interação inteligente

Diego Nogare — Mon, 30 Jun 2025 03:01:42 +0000

A IA Multimodal está transformando a interação e experiência de como nos relacionamos com a tecnologia, processando informações de texto, imagens, áudio e vídeo para criar experiências verdadeiramente intuitivas criando um futuro de interação inteligente.

Antes de mais nada, é importante entender que essa capacidade de unir diferentes modalidades de dados permite que os sistemas de IA compreendam o mundo de uma maneira muito mais completa e contextualizada. Consequentemente, as aplicações se tornam mais poderosas e adaptáveis.

Estamos, meus amigos, vivendo uma revolução que promete transformar desde assistentes virtuais até sistemas complexos de análise de dados. Ah, e antes que perguntem, não precisamos criar Agentes para trabalhar com Multimodal.

Metodologias, ferramentas e frameworks para IA Multimodal

Primeiramente, para desenvolver sistemas de IA multimodal, empregamos diversas metodologias, cada uma com suas particularidades. Uma abordagem comum é a fusão de dados, onde as informações de diferentes modalidades são combinadas em diferentes estágios do processamento. Por exemplo, a fusão pode ocorrer no nível dos recursos (early fusion), onde características extraídas de cada modalidade são concatenadas/combinadas antes de serem alimentadas em um modelo. Além disso, também podemos fazer a fusão no nível da decisão (late fusion), com modelos separados processando cada modalidade e combinando suas saídas posteriormente.

Além disso, a atenção cruzada (cross-attention) tem se mostrado importante peça nesta jornada. Essa técnica permite que o modelo analise a importância de diferentes partes das entradas de múltiplas modalidades ao fazer uma previsão. Ou seja, um sistema pode, por exemplo, focar em uma palavra-chave em um áudio enquanto analisa uma imagem relacionada. Assim, essa capacidade de correlacionar informações entre modalidades aprimora significativamente a compreensão contextual.

No que diz respeito às ferramentas e frameworks, temos muitas ferramentas de IA com opções robustas. O PyTorch e o TensorFlow são, sem dúvida, os pilares. Eles fornecem as bases para a construção de modelos complexos, desde redes neurais convolucionais (CNNs) para processamento de imagens até redes neurais recorrentes (RNNs) e Transformers para texto e áudio. Além disso, bibliotecas como Hugging Face Transformers têm sido cruciais para o desenvolvimento rápido de modelos multimodais, disponibilizando arquiteturas pré-treinadas.

Da mesma forma, o OpenCV é indispensável para o processamento de vídeo e imagem, oferecendo funções para análise e manipulação de dados visuais. Portanto, a combinação dessas ferramentas permite aos desenvolvedores explorar e implementar soluções inovadoras com relativa facilidade.

Desafios no desenvolvimento de sistemas multimodais

Muitos profissionais já perceberam o avanço da IA Multimodal para suas atividades cotidianas, mas ainda assim, o desenvolvimento de sistemas de IA multimodal apresenta um monte de desafios. Um dos principais é o problema da heterogeneidade (tive que ir no Google pra conseguir escrever essa palavra direito, rss) dos dados. Isso porque dados de texto, imagem e áudio possuem estruturas e formatos diferentes. O problema está em harmonizar essas várias representações para que um modelo possa processá-las de forma coesa. Além disso, sincronizar o contexto a tempo é outro obstáculo, principalmente em cenários com áudio e vídeo, onde precisamos alinhar os eventos com precisão para uma compreensão contextual correta. Contudo, se tiver falhas na sincronização, podemos receber interpretações erradas por parte do sistema (e vamos combinar, nem vai ser culpa deles!).

Finalmente, a interpretabilidade dos modelos multimodais é um desafio que está em evidência. Compreender como um modelo chega a uma determinada decisão de resposta, especialmente quando ele está processando informações de múltiplas fontes, é importante para a confiança na IA Multimodal.

IA Multimodal – transformando interação e experiência

A IA multimodal já pode ser encontrada em diversos setores, transformando a maneira como interagimos com a tecnologia e com o mundo. Um exemplo é o Google Gemini, que representa um avanço significativo nesse campo. Ele é capaz de entender e operar através de diferentes tipos de informações como texto, código, áudio, imagem e vídeo. Isso permite que a IA execute tarefas complexas e compreenda contextos de maneira mais profunda.

Veja um exemplo de como é uma interação Multimodal utilizando o Google Gemini dentro do Google AI Studio.

Além disso, a Meta também tem feito avanços interessantes com seu trabalho em modelos multimodais. Eles estão explorando como a IA pode processar e gerar conteúdo em diversas formas para melhorar experiências em realidade virtual e aumentada. Por exemplo, a IA pode criar avatares realistas que respondem a expressões faciais e comandos de voz do usuário, gerando uma experiência imersiva e natural. Similarmente, na área da saúde, sistemas multimodais estão sendo desenvolvidos para analisar imagens médicas (raio-x, ressonância magnética, etc) em conjunto com históricos de pacientes e notas clínicas para auxiliar no diagnóstico e tratamento.

Para finalizar

A IA Multimodal representa um salto enorme na capacidade dos sistemas de IA de compreender e interagir com o mundo real. Avança a habilidade de processar e correlacionar informações de texto, imagem, áudio e vídeo abre um leque de possibilidades para aplicações mais inteligentes e contextualizadas.

Apesar dos desafios inerentes, como a heterogeneidade e a escassez de dados, as metodologias e ferramentas atuais já permitem avanços como vimos no vídeo de interação para análise dos livros. Portanto, à medida que a pesquisa e o desenvolvimento continuam, podemos esperar que a IA multimodal se torne cada vez mais presente em nosso cotidiano, tornando a tecnologia mais intuitiva, eficiente e, acima de tudo, verdadeiramente inteligente.

Não fique pra trás, bons estudos!

Imagem de capa gerada com o Gemini, com o prompt: “A close-up, ultra-realistic studio shot of a human hand interacting with a holographic interface displaying interconnected elements of text, images, audio waveforms, and video frames, symbolizing multimodal AI. The lighting is professional and dramatic, highlighting the intricate details of the hand and the glowing digital projections.“

O post IA Multimodal – O futuro da interação inteligente apareceu primeiro em Diego Nogare.

Review do livro “Transformer for natural language processing and computer vision – 3rd Edition”

Diego Nogare — Mon, 29 Apr 2024 20:00:07 +0000

Fiz mais um review de livro, como já tinha feito recentemente de MLOps, Azure Data Factory e algoritmos, mas desta vez foi “Transformer for natural language processing and computer vision – 3rd Edition“. O livro foi escrito por Denis Rothman e publicado pela Packt Pub. Neste livro você irá aprender sobre transformers para texto e visão computacional.

O livro e seus capítulos

Quero compartilhar minhas impressões iniciais, mas já sei que vou ter que ler mais vezes para realmente entender. Para mim esse assunto é novo, e achei difícil, por mais direto e didático que o Denis foi no livro, ainda sinto que é complexo e terei que estudar muito até ter confiança de sair falando de IA Generativa. O livro é uma leitura ampla, explica a arquitetura de transformers para texto e visão computacional. Em suas quase 700 páginas o livro possui 20 capítulos e está separado em três grandes grupos, sendo: Os Fundamentos dos Transformers; A Ascensão da NLP Supra-humana; Visão computacional generativa: uma nova maneira de ver o mundo.

Ao final de cada capítulo, acima de tudo, é possível ver as referências utilizadas para gerar o texto, além de algumas recomendações de leituras futuras para completar o aprendizado. FAlando em aprendizado, contudo, no final de cada capítulo você irá encontrar questões de Verdadeiro ou Falso sobre o que estudou. No final do livro tem o gabarito com as respostas, e algumas delas até tem uma explicação rápida da resposta correta.

Desde a arquitetura básica até aplicações práticas, este livro abrange:

Representações de Linguagem: Entenda como os transformers aprendem representações ricas para palavras e frases.
Tradução Automática: Discute como os transformers são usados para tradução de idiomas.
Visão Computacional: Descubra como aplicar os mesmos princípios aos dados de imagem.

Bom, vamos aos capítulos…

Capítulo 1

O que são transformer? O autor explica, de forma abrangente, o conceito de transformer e os modelos fundamentais. O texto trás a complexidade de tempo O(1) desses modelos, que, segundo o texto, revolucionou diversas áreas. Além disso, destaca como os transformers se tornaram dominantes e trouxeram avanços significativos em várias áreas de pesquisa. Transformers são importantes para texto e também para visão computacional.

Capítulo 2

Iniciando com a arquitetura do modelo transformer explora o contexto do Processamento de Linguagem Natural (NLP) e compreende como as arquiteturas de Redes Neurais Recorrentes (RNNs), Long Short-Term Memory (LSTM) e Redes Neurais Convolucionais (CNNs) foram abandonadas e abriram caminho para a arquitetura transformer. Nesse capítulo, o autor explora a arquitetura original do transformer, publicada no artigo científico Attention Is All You Need, desenvolvida por pesquisadores do Google Research e Google Brain. Além disso, descreve a teoria dos transformers e explora, na prática, como funcionam as subcamadas de múltiplas atenções em Python.

Capítulo 3

Em Tarefas emergentes vs. tarefas downstream: As profundezas invisíveis dos transformers, o autor estabelece uma conexão entre a arquitetura funcional e matemática dos transformers por meio da introdução do conceito de emergência. Em seguida, o autor aborda como medir o desempenho dos transformers antes de explorar diversas tarefas downstream, como o Standard Sentiment TreeBank (SST-2), a aceitabilidade linguística e os esquemas de Winograd.

Não sei como traduzir Downstream, então mantive com o nome original. Se você tiver uma tradução apropriada, me conte e eu atualizo o post

Capítulo 4

Já em Avanços em traduções com Google Trax, Google Translate e Gemini, o texto explora a tradução automática em três etapas. Primeiro, define o que é a tradução automática. Em seguida, explica o pré-processamento de um conjunto de dados do Workshop on
Statistical Machine Translation (WMT) de 2014. Por fim, demonstra como implementar códigos para traduções automáticas em Python.

Capítulo 5

Aprofundando no ajuste fino com BERT discute a arquitetura do transformer original. O Bidirectional Encoder Representations from Transformers (BERT) leva os transformers a uma nova e vasta maneira de perceber o mundo do NLP. Em vez de analisar uma sequência passada para prever uma sequência futura, o BERT analisa a toda a sequência! O autor explora as principais inovações da arquitetura do BERT e, em seguida, ajusta um modelo BERT passo a passo em um notebook do Google Colab.

Capítulo 6

No Pré-treinando um modelo RoBERTa do zero, o texto implementa um modelo de transformer RoBERTa a partir do zero usando PyTorch na Hugging Face. Primeiro, é treinado um tokenizador em um conjunto de dados personalizado. Em seguida, é feito um pré-treino de modelo de suporte ao cliente com IA generativa.

Capítulo 7

No capítulo de A revolução da IA Generativa com o ChatGPT, o autor explora as melhorias significativas e a disseminação dos modelos ChatGPT no cotidiano de desenvolvedores e usuários finais. Inicialmente, é apresentada a arquitetura dos modelos GPT da OpenAI. Em seguida, trabalha com a API do GPT-4 e seus hiper-parâmetros para implementar diversos exemplos de NLP em Python. Por fim, aprendemos como obter melhores resultados com Retrieval Augmented Generation (RAG). No capítulo é implementado um exemplo de RAG com o GPT-4.

Capítulo 8

Ajuste fino de modelos OpenAI GPT, é explorada a técnica de ajuste fino para aprimorar os modelos GPT disponíveis por meio da API. Com o ajuste fino é possível obter resultados de maior qualidade do que apenas com prompts. Além disso, permite treinar o modelo com mais exemplos do que caberia em um prompt e economizar tokens devido a prompts mais curtos. Essa abordagem também reduz a latência das respostas nas solicitações. Os modelos da OpenAI já foram treinados em uma grande quantidade de texto, mas o fine tuning permite adaptá-los para tarefas em áreas de negócios específicas.

Capítulo 9

Desvendando a caixa preta com ferramentas interpretáveis, o autor trás detalhes dos modelos de transformer, interpretando e visualizando suas tarefas. Apresenta o BertViz para visualizar as camadas de atenção, o Language Interpretability Tool (LIT) para rodar uma análise de componentes principais (PCA) e o LIME para visualizar os transformers por meio do aprendizado de dicionário. Além disso, os LLMs da OpenAI vão mais a fundo, permitindo visualizar a atividade de um neurônio em um transformer de forma interativa.

Capítulo 10

Em Investigando o papel dos Tokenizadores na formação de Modelos de transformadores, apresenta inicialmente as práticas recomendadas independentes de tokenizadores para avaliar a qualidade de um tokenizador. Descreve as diretrizes básicas para conjuntos de dados e tokenizadores sob a perspectiva da tokenização. O autor explora a abordagem de tokenizadores de palavras e subpalavras, e demonstra como um tokenizador pode moldar o treinamento e o desempenho de um modelo de transformers.

Capítulo 11

O capítulo com titulo Alavancando os incorporamentos de LLM como alternativa ao ajuste fino, explora por que a busca com incorporamento pode ser, às vezes, uma alternativa eficaz ao ajuste fino. São discutidas as vantagens e limitações dessa abordagem. Além disso, são explicados os fundamentos dos incorporamentos de texto. Para solidificar o aprendizado, implementa um código Python que lê um arquivo, o tokeniza e o incorpora com as bibliotecas Gensim e Word2Vec. Para concluir, você terá trabalhado desde o design de prompts até a engenharia avançada de prompts, utilizando incorporamentos para a RAG.

Capítulo 12

Rumo à rotulagem de papéis semânticos sem sintaxe com o ChatGPT e o GPT-4 explora os conceitos de modelos estocásticos sem sintaxe e não repetitivos. Utilizam o ChatGPT Plus com o GPT-4 para executar amostras de Semantic Role Labeling (SRL), com exemplos simples e complexos. Apresenta como um modelo de propósito geral reage às solicitações de SRL.

Capítulo 13

Em Sumarização com T5 e ChatGPT, o autor explica os conceitos e a arquitetura do modelo de transformer T5. Utiliza o T5 para resumir documentos com modelos da Hugging Face. Os exemplos neste capítulo estão relacionados a áreas jurídicas e médicas, buscando explorar a sumarização em domínios específicos do conhecimento. Também trás uma comparação das abordagens de sumarização entre o T5 e o ChatGPT.

Capítulo 14

Explorando os LLMs de ponta com o Vertex AI e o PaLM 2. Apresenta o Google PaLM 2, um modelo com 540 bilhões de parâmetros. O PaLM 2 é um modelo autoregressivo, com ativação densa e decodificador. Explora como o PaLM 2 pode executar diversas tarefas como chat, classificação e geração de texto. O capítulo implementa a API do PaLM 2 dontro da Vertex AI, para várias tarefas de NLP, incluindo mas não se limitando, à perguntas e respostas e sumarização. FInaliza o capítulo, inclusive, com o processo de ajuste fino no Vertex AI.

Capítulo 15

Em Protegendo os gigantes: mitigando riscos em LLMs, exploram os riscos associados aos Large Language Models (LLMs) e estratégias para tentar mitigar os riscos. Estes são alguns riscos e abordagens de mitigação:

Alucinações: LLMs podem gerar respostas falsas ou incorretas, inegavelmente, levando à desinformação;
Memorização: LLMs podem memorizar exemplos específicos de seus dados de treinamento, reproduzindo-os literalmente;
Comportamento emergente arriscado: LLMs podem exibir comportamento inesperado ou prejudicial devido à sua complexidade;
Desinformação: LLMs podem ocasionalmente gerar conteúdo que dissemina desinformação;
Operações de influência: Atacantes maliciosos podem explorar LLMs para manipular a opinião pública ou enganar os usuários;
Conteúdo prejudicial: LLMs podem produzir saídas sobretudo prejudiciais ou ofensivas, e até criminosas;
Ataques adversários (“Jailbreaks”): LLMs podem ser vulneráveis a manipulações intencional, comprometendo a integridade do conteúdo gerado.

A fim de mitigar esses riscos, empregam técnicas avançadas de engenharia de prompts. Isso inclui a implementação de um modelo de moderação, a manutenção de uma base de conhecimento, a análise de palavras-chave, o uso de pilotos de prompts, a moderação pós-processamento e a alavancagem de incorporamentos, entre outras…

Capítulo 16

O texto Além do texto: transformers de visão no amanhecer da IA revolucionária, explora os modelos de transformers que respeitam a estrutura básica do transformer original, mas fazem algumas extensões significativas. Isso gerou poderosos transformers para visão, como o ViT, CLIP, DALL-E e GPT-4V. O autor implementa transformer de visão em Python, utilizando o GPT-4V, e expande as interações de texto-para-imagem do DALL-3. É importante destacar que os transformers vão além de texto e chegam até visão computacional.

Capítulo 17

Em Transcendendo a fronteira entre imagem e texto com a Stable Difusion, o autor explora os modelos de difusão, apresentando o Stable Vision, que, aliás, criou uma onda incrível de imagens realistas que está se espalhando pelo mercado. Explica os princípios, a matemática e implementa um código de Stable Difusion no Keras. O texto analisa cada um dos principais componentes de um modelo de Stable Difusion e examina os códigos do Keras. Para finalizar, também discute um modelo de de texto-para-vídeo com a Hugging Face e um modelo de vídeo-para-texto com o TimeSformer da Meta.

Capítulo 18

Hugging Face AutoTrain: Treinando modelos de visão sem codificação explora como treinar um transformer de visão usando o AutoTrain da Hugging Face. O autor explica o processo de treinamento automatizado e o autor comenta os problemas imprevisíveis que demonstram por que até o aprendizado de máquina automatizado requer expertise humana. Este capítulo também trás uma discussão e mostra como explorar os limites de um modelo de visão computacional, independentemente de quão sofisticado ele seja.

Este desafio de re-treino automatizado está presente, inclusive, no Machine Learning tradicional. Não é algo exclusivo da IA Generativa

Capítulo 19

No caminho para a IA geral funcional com o HuggingGPT e seus pares demonstra como podemos usar modelos encadeados entre plataformas para resolver problemas complexos de classificação de imagens. O autor compara o HuggingGPT e o Google Cloud Vision no trabalho de identificação de imagens fáceis, difíceis e muito difíceis. Além disso, o capítulo comenta as abordagens clássicas e explora como encadear modelos.

Capítulo 20

Além dos prompts projetados por humanos com ideação generativa explora a ideação generativa, uma abordagem que automatiza a produção de ideias para conteúdo de texto e imagem. A fase de desenvolvimento destas ideações requer especialistas qualificados em IA. Já para o usuário final, a abordagem é uma experiência simples de point and click. O autor discute e nos faz pensar em ideias generativas éticas para empresas sem recursos de marketing, mas não se limita apenas à essa área de atuação.

Minha opinião

Na minha opinião é um material rico para conhecer e aplicar a arquitetura de transformers para texto e visão computacional, codificando com Python. O livro oferece uma visão ampla, porém prática e aplicada, de como a arquitetura funciona e vários detalhes sobre os modelo de linguagem e te visão. É uma leitura densa, e pra mim, vou ter que estudar mais porque achei o assunto complexo. Não é do meu cotidiano trabalhar com GenAI, e por isso quero estudar mais antes de sair falando besteira por ai. As referências e leituras adicionais ajudarão quando eu tiver tempo para aprofundar.

Em linhas gerais recomendo a leitura, principalmente para quem se interessa pelo assunto de Inteligência Artificial. A versão digital está na Amazon por um pouco menos de 250 reais enquanto escrevo esse texto.

Transformers para texto e visão computacional

A atualização do Github contendo os códigos é frequente, inclusive no momento que posto esse texto, a ultima atualização de código foi ontem 29/04/2024.

Bons estudos!

O post Review do livro “Transformer for natural language processing and computer vision – 3rd Edition” apareceu primeiro em Diego Nogare.

Extrair valores de seus documentos

Diego Nogare — Mon, 06 Apr 2020 12:00:08 +0000

Como utilizar seus documentos físicos

para ajudar na tomada de decisão

Que os dados são os bens mais valiosos que as empresas possuem, não temos duvidas, mas como podemos extrair valores de seus documentos antigos da mesma forma que fazemos com os dados digitais que são utilizados nas tomadas de decisões? Com o uso de técnicas de Inteligência Artificial das áreas de Visão Computacional e também de Interpratação de Linguagem Natural, combinado com o poder da Computação em Nuvem, é possível trabalhar nesta frente dentro da sua empresa.

Imagine ter uma solução similar aos sofisticados sistemas de busca web, como o Google ou Bing, para sua empresa. Sim, é possível permitir busca de um termo e analisar o retorno no formato já conhecido de textos, como também os retornos em imagens, videos, etc. Qualquer coisa que contenha aquele termo de busca será retornado. Seja de escrita em formato digital ou manual. Como também em representação de imagem, será retornado para você. E não é necessário desenvolver do zero esta solução. Você pode utilizar serviços prontos, como por exemplo, a Busca Inteligente e a Mineração de Conhecimento que é oferecido como Serviço Cognitivo.

Extrair valores de seus documentos

A oferta de Busca Inteligente e Mineração de Conhecimento, contudo, encapsula diversas técnicas separadas dos Serviços Cognitivos. Como OCR que recebe um documento que foi digitalizado e transforma em texto, visão computacional para criar legendas automáticas em imagens. A busca fonética permite que se encontre termos, mesmo que digitados errados, mas que tenha uma similaridade em sua forma. Entre outras soluções nativas dos serviços cognitivos…

Um exemplo de uso destas técnicas pode ser encontrado no projeto JFK Files, onde a Microsoft indexou os documentos publicos do caso. O vídeo abaixo explica um pouco do uso destas técnicas, contudo apresentou uma visão macro, utilizadas na construção deste projeto sobre o assassinato do presidente americano.

O post Extrair valores de seus documentos apareceu primeiro em Diego Nogare.

5 passos da Visão Computacional

Diego Nogare — Mon, 30 Mar 2020 12:00:42 +0000

Permita que o computador enxergue

transformando a imagem em um conjunto de numeros

Com o crescimento do poder da computação nos dias de hoje, e o entendimento cada vez maior das possibilidades do uso da Inteligência Artificial nas empresas, listei os 5 passos para Visão Computacional, que é uma das áreas de maior percepção do uso da IA. Não porque está em evidência, mas porque é próxima ao comportamento humano, assim como a questão de interpretação de linguagem natural. Com isso, as pessoas conseguem ter uma percepção melhor da Inteligência Artificial na resolução de problemas.

As técnicas de Visão Computacional procuram simular a visão natural, seja de um humano ou de um outro animal. O mais comum é simular a visão humana, com aplicações em projetos de reconhecimento de objetos em cena, análise de sentimentos em faces, reconhecimento de faces, entre outros. A análise de vídeo também entra nesta categoria, pois os vídeos são uma sequência de várias fotos passadas uma após a outra em um conjunto muito pequeno de tempo.

Recomendo a leitura do livro A Revolução do Aprendizado Profundo, para ter uma ideia mais ampla do uso das soluções de Deep Learning, além da Visão Computacional.

5 passos da Visão Computacional

Amostras de imagens

Como todo sistema de Machine Learning, o seu projeto de Visão Computacional deve saber o que procurar na imagem. Para isso, ele precisa ser ensinado! Existem muitas bases de dados de imagens que são possíveis de se utilizar para ensinar a máquina. Algumas são bastante famosas, como por exemplo a Imagenet. Outras mais específicas para um domínio de assunto, como o SDO – Solar Dynamics Observatory.

É importante definir como você pretende ensinar a máquina, e apresentar os exemplos reais que quer buscar e também os contra-exemplos. Esta necessidade é justamente para ensinar a máquina a encontrar os padrões do que realmente quer encontrar e divergir do que é parecido mas não é o que precisa. Imagine que está ensinando a máquina a reconhecer ovelhas que estão prontas para ter a lã retirada. É importante ter uma grande quantidade (e esse numero diverge bastante na literatura, então é difícil dizer uma quantidade mínima de amostras) de ovelhas, mas também apresentar diversas imagens de nuvens no céu para que sirvam de contra-exemplos.

Redimensionar os tamanhos

Para facilitar a aprendizagem de máquina, é interessante que todas as imagens trabalhadas sigam um padrão de tamanho. Isso porque quanto maior for a imagem, mais detalhes e informação ela pode conter. Pense em uma imagem como uma matriz de números, onde cada pixel da imagem é um conjunto combinado de cores. Em uma imagem de 500 pixels de largura por 500 pixels de altura, existe no total 250.000 pixels naquela matriz. É bastante coisa, não é?! Agora imagine que as imagens sejam de tamanhos variados, algumas contendo 2000 x 2000 pixels de tamanho. São 4 milhões de pontos, isso só em uma imagem.

Redimensionar as imagens, para manter um padrão de tamanho aceitável é importante. Assim pode-se diminuir o processamento, mas sem perder a qualidade da imagem.

Aplicar os filtros

Lembra da imagem de 500×500 que comentei acima, agora aprofunde esse número para que cada um destes 250 mil pontos sejam representados por uma combinação de três canais de cores. O R representa a cor vermelha (Red), o G representa a cor verde (Green) e o B representa a cor azul (Blue). Imagine o tanto de processamento que é necessário para trabalhar com uma imagem desta, em todos os seus pixels e cores RGB. Com o objetivo de salvar um pouco de processamento mas sem perder qualidade da resposta, alguns filtros podem ser aplicados.

Uma técnica bastante utilizada é de transformar tudo em tons de cinza. Com isso, ao invés de ter a profundidade de 3 camadas de cores do RGB, é só uma camada que varia entre o preto e o branco, com um intervalo de 255 possibilidades sendo o valor 0 o preto absoluto e o valor 255 o branco absoluto. Todo o intervalo é um degradê saindo do preto e chegando ao branco, passando por vários tons de cinza. Se seu problema não precisa de cores, essa técnica pode ajudar.

Outra técnica que pode estender esse processamento, é a binarização para valores de branco e preto. É possível definir um valor de corte, que seria o tom de cinza escolhido. Com isso, qualquer valor de cor do pixel é comparado com esse numero de corte. Se o valor do pixel for inferior ao corte, ele passará a ser preto, se o valor for superior ao de corte, ele passará a ser branco. Isso transforma a imagem exclusivamente em preto e branco.

Filtro de bordas podem ser utilizados para dar realce à áreas de interpolação de objetos, destacando os objetos de acordo com a variação dos pixels à sua volta.

Limpar os ruídos

Mesmo após aplicar os filtros para deixar as imagens mais fáceis de se trabalhar, é possível aplicar mais alguns filtros que ajudarão a tirar algumas impurezas da imagem. Estas impurezas são chamadas de ruído e não trazem benefícios reais.

Talvez um dos mais comuns seja o processo de convolução de imagem. Que por padrão faz uma média aritmética dos valores dos pixels à sua volta, e substitui o valor daquele pixel caso ele esteja fora do valor da média com o acréscimo de um desvio padrão.

Para ilustrar, mas sem ficar muito complexo, imagine que foi definido um valor de 9 pixels para acontecer a convolução da imagem. Este processo faz uma segmentação em janela com 3×3 pixels, totalizando os 9 definidos. É analisado o pixel central, comparado com o valor da média aritmética de todos os outros 8 pixels à sua volta, incluindo os diagonais. Então o valor do pixel é comparado com o resultado do calculo acrescido do desvio padrão definido. Se o valor estiver fora daquele intervalo, então o algoritmo fará a substituição do valor do pixel pelo novo valor. E andará a janela de 9 pixels para a próxima combinação de valores. Seguirá fazendo isso até o fim da imagem. Com todas as imagens.

Treinar o modelo

Depois de padronizar e limpar todas as imagens, é necessário criar o modelo que fará o reconhecimento do objeto que você deseja. Existem muitas bibliotecas e frameworks disponíveis para você utilizar em seus projetos. Uma das bibliotecas mais famosas é o OpenCV, que é da Intel e tem distribuição gratuita. Um framework bastante utilizado para treinar a máquina a reconhecer objetos em tempo real é o Yolo – You Only Look Once. Mas será que vale fazer meu modelo do zero ou usar um framework já pronto? Na minha visão, a resposta é depende. Isso porque cada caso é um caso, e se você precisa de algo muito rápido para testar, usar as ferramentas prontas que permitem ajuste é uma boa saída. Contudo, se você precisa de algo muito específico, ai provavelmente terá que fazer do zero.

Acredito que com essa leitura você terá entendido os 5 passos da Visão Computacional, e poderá adicionar a habilidade humana de enxergar aos seus projetos. Agora é estudar as formas de fazer isso, e colocar a mão na massa!

O post 5 passos da Visão Computacional apareceu primeiro em Diego Nogare.

Como adicionar Inteligência Artificial ao seu projeto

Diego Nogare — Mon, 09 Mar 2020 12:00:48 +0000

Projetos envolvendo Inteligência Artificial estão na moda

mas você sabe como adicionar IA ao seu projeto?

Observando todo o hype gerado pelas tecnologias de IA nos últimos anos, a guerra de tomar a liderança entre Estados Unidos e China, e a forma como os gestores enxergam isso, você sabe como adicionar Inteligência Artificial ao seu projeto? Entenda como consumir serviços prontos de IA, que podem ajudar a resolver problemas do seu negócio. Estas ferramentas de IA são oferecidas por diversos fornecedores como Microsoft, Google, Amazon, IBM… E são técnicas conhecidas como serviços cognitivos, ou suas variabilidades semânticas, cobrindo cinco pilares:

1. Visão Computacional;
2. Interpretação e/ou geração de fala;
3. Interpretação de linguagem natural;
4. Pesquisa e indexação de documentos;
5. Extração de conhecimento coletivo.

A grande vantagem de uso é que você consegue adicionar IA em seus projetos, contudo, não precisa saber a fundo o que são e como funcionam estes processos. Você consome estas ferramentas através de chamadas de APIs, uso de SDKs ou serviços na nuvem que permitem baixar o resultado treinado e acoplá-lo no seu ambiente. Apesar de não precisar, é sempre bom conhecer as técnicas e processos que está utilizando.

Se você não tem as habilidades necessárias em Inteligência Artificial ou Machine Learning, mas precisa desenvolver produtos que utilizam estas técnicas, é recomendado contratar alguém que conheça do assunto para lhe ajudar. Por outro lado, se sua necessidade é algo que os serviços cognitivos já resolvem, usá-lo é uma grande saída! Em primeiro lugar porque você não precisa se preocupar em construir do zero do seu modelo, você vai consumir o serviço do fornecedor e terá os resultados funcionando no seu projeto. Em segundo lugar, os dados e modelos dos serviços são atualizados com frequência pelos fornecedores, fazendo com que você sempre tenha um resultado mais completo.

Visão Computacional

As ferramentas de Visão Computacional simulam o comportamento da visão biológica, mais especificamente a visão humana, pelo computador. É possível trabalhar com elementos para reconhecimento de objetos em imagens ou vídeos. Reconhecer faces em imagens. Comparar rostos e ver se são as mesmas pessoas… Analisar sentimentos em rostos, como também estimar idade e gênero da pessoa.

Interpretação e/ou geração de fala

Alguns pesquisadores dizem que as interações desta geração serão feitas através de voz, e não exclusivamente com cliques do mouse ou toques na tela. E para isso, é importante que o sistema consiga interagir com o usuário desta nova forma. Quando você ativa algum assistente pessoal como a Alexa, Google Home, Siri ou Cortana, e dá um comando de voz. O assistente interpreta o que você pediu, sintetiza aquilo para texto e dispara o comando internamente nos diversos sistemas que integram esse ambiente. O comando é processado, e algum retorno é feito. Esse retorno é então sintetizado de texto para voz e é reproduzido pelo alto-falante do assistente.

Interpretação de linguagem natural

Quando um texto é enviado para uma análise, é importante conseguir entender o que ele significa e extrair a ação que se espera dali. Mas esse texto pode vir escrito de diversas formas diferentes, e como podemos interpretá-los e entender o que eles significam? É ai que entra o papel da interpretação de linguagem natural (ou processamento de linguagem natural). Esta prática avançada de Inteligência Artificial auxilia a entender as intenções de cada texto e extrair possíveis entidades. O resultado desta técnica permite que as ações sejam pedidas de diversas formas diferentes, contudo, conseguem responder da mesma forma.

Pesquisa e indexação de documentos

Você já se deu conta que sistemas de buscas, como o Google, possuem a característica de fazer as buscas em diversas formas? Se você faz uma busca de um termo qualquer são retornados resultados envolvendo textos, imagens, localizações, videos. Qualquer coisa que contenha aquele termo de busca, e que está indexado nos servidores do Google, são retornados para você. Imagine agora ter essa mesma capacidade em seus documentos! Sim, as pesquisas e indexações de documentos permitem que você faça isso sem expor seus dados publicamente.

Extração de conhecimento coletivo

Quando desenvolvemos modelos de Machine Learning para resolver um problema da nossa empresa, é comum este problema ser específico e condizer com a nossa forma de trabalhar. Contudo, alguns problemas são genéricos, como por exemplo reconhecer um rosto. Independente de ser um rosto das pessoas da nossa empresa, ou do nosso maior concorrente, continuam sendo rostos e seguem (na maioria das vezes) o mesmo padrão. Mas não é necessário criar um modelo de Inteligência Artificial exclusivo para a nossa empresa, para reconhecer um rosto. Podemos usar estes serviços de forma coletiva.

Conheço como funciona a Microsoft, e os serviços cognitivos que eles oferecem são processados com frequência e estão com conjuntos de dados atualizados. Esse conhecimento coletivo que é fornecido para nós, oferece um modelo cada vez mais assertivo e atualizado. E o melhor é que a gente não precisa processar nada para ter isso, somente chamar a API e pronto!

E agora, como eu faço para adicionar Inteligência Artificial ao meu projeto?

Continue acompanhando os textos que vou publicar mais detalhes, de formas específicas, sobre cada uma destas áreas de atuação com serviços cognitivos. Recentemente fiz o exame AI-100 da Microsoft e fui aprovado, este exame está na lista dos Top 5 certificações de IA, e ele cobra bastante coisa sobre arquitetura e serviços cognitivos. Vou usar alguns assuntos exigidos para ser aprovado no exame, para explicar as funcionalidades para vocês!

O post Como adicionar Inteligência Artificial ao seu projeto apareceu primeiro em Diego Nogare.