Arquivos NLP - Diego Nogare

Review do livro “Transformer for natural language processing and computer vision – 3rd Edition”

Diego Nogare — Mon, 29 Apr 2024 20:00:07 +0000

Fiz mais um review de livro, como já tinha feito recentemente de MLOps, Azure Data Factory e algoritmos, mas desta vez foi “Transformer for natural language processing and computer vision – 3rd Edition“. O livro foi escrito por Denis Rothman e publicado pela Packt Pub. Neste livro você irá aprender sobre transformers para texto e visão computacional.

O livro e seus capítulos

Quero compartilhar minhas impressões iniciais, mas já sei que vou ter que ler mais vezes para realmente entender. Para mim esse assunto é novo, e achei difícil, por mais direto e didático que o Denis foi no livro, ainda sinto que é complexo e terei que estudar muito até ter confiança de sair falando de IA Generativa. O livro é uma leitura ampla, explica a arquitetura de transformers para texto e visão computacional. Em suas quase 700 páginas o livro possui 20 capítulos e está separado em três grandes grupos, sendo: Os Fundamentos dos Transformers; A Ascensão da NLP Supra-humana; Visão computacional generativa: uma nova maneira de ver o mundo.

Ao final de cada capítulo, acima de tudo, é possível ver as referências utilizadas para gerar o texto, além de algumas recomendações de leituras futuras para completar o aprendizado. FAlando em aprendizado, contudo, no final de cada capítulo você irá encontrar questões de Verdadeiro ou Falso sobre o que estudou. No final do livro tem o gabarito com as respostas, e algumas delas até tem uma explicação rápida da resposta correta.

Desde a arquitetura básica até aplicações práticas, este livro abrange:

Representações de Linguagem: Entenda como os transformers aprendem representações ricas para palavras e frases.
Tradução Automática: Discute como os transformers são usados para tradução de idiomas.
Visão Computacional: Descubra como aplicar os mesmos princípios aos dados de imagem.

Bom, vamos aos capítulos…

Capítulo 1

O que são transformer? O autor explica, de forma abrangente, o conceito de transformer e os modelos fundamentais. O texto trás a complexidade de tempo O(1) desses modelos, que, segundo o texto, revolucionou diversas áreas. Além disso, destaca como os transformers se tornaram dominantes e trouxeram avanços significativos em várias áreas de pesquisa. Transformers são importantes para texto e também para visão computacional.

Capítulo 2

Iniciando com a arquitetura do modelo transformer explora o contexto do Processamento de Linguagem Natural (NLP) e compreende como as arquiteturas de Redes Neurais Recorrentes (RNNs), Long Short-Term Memory (LSTM) e Redes Neurais Convolucionais (CNNs) foram abandonadas e abriram caminho para a arquitetura transformer. Nesse capítulo, o autor explora a arquitetura original do transformer, publicada no artigo científico Attention Is All You Need, desenvolvida por pesquisadores do Google Research e Google Brain. Além disso, descreve a teoria dos transformers e explora, na prática, como funcionam as subcamadas de múltiplas atenções em Python.

Capítulo 3

Em Tarefas emergentes vs. tarefas downstream: As profundezas invisíveis dos transformers, o autor estabelece uma conexão entre a arquitetura funcional e matemática dos transformers por meio da introdução do conceito de emergência. Em seguida, o autor aborda como medir o desempenho dos transformers antes de explorar diversas tarefas downstream, como o Standard Sentiment TreeBank (SST-2), a aceitabilidade linguística e os esquemas de Winograd.

Não sei como traduzir Downstream, então mantive com o nome original. Se você tiver uma tradução apropriada, me conte e eu atualizo o post

Capítulo 4

Já em Avanços em traduções com Google Trax, Google Translate e Gemini, o texto explora a tradução automática em três etapas. Primeiro, define o que é a tradução automática. Em seguida, explica o pré-processamento de um conjunto de dados do Workshop on
Statistical Machine Translation (WMT) de 2014. Por fim, demonstra como implementar códigos para traduções automáticas em Python.

Capítulo 5

Aprofundando no ajuste fino com BERT discute a arquitetura do transformer original. O Bidirectional Encoder Representations from Transformers (BERT) leva os transformers a uma nova e vasta maneira de perceber o mundo do NLP. Em vez de analisar uma sequência passada para prever uma sequência futura, o BERT analisa a toda a sequência! O autor explora as principais inovações da arquitetura do BERT e, em seguida, ajusta um modelo BERT passo a passo em um notebook do Google Colab.

Capítulo 6

No Pré-treinando um modelo RoBERTa do zero, o texto implementa um modelo de transformer RoBERTa a partir do zero usando PyTorch na Hugging Face. Primeiro, é treinado um tokenizador em um conjunto de dados personalizado. Em seguida, é feito um pré-treino de modelo de suporte ao cliente com IA generativa.

Capítulo 7

No capítulo de A revolução da IA Generativa com o ChatGPT, o autor explora as melhorias significativas e a disseminação dos modelos ChatGPT no cotidiano de desenvolvedores e usuários finais. Inicialmente, é apresentada a arquitetura dos modelos GPT da OpenAI. Em seguida, trabalha com a API do GPT-4 e seus hiper-parâmetros para implementar diversos exemplos de NLP em Python. Por fim, aprendemos como obter melhores resultados com Retrieval Augmented Generation (RAG). No capítulo é implementado um exemplo de RAG com o GPT-4.

Capítulo 8

Ajuste fino de modelos OpenAI GPT, é explorada a técnica de ajuste fino para aprimorar os modelos GPT disponíveis por meio da API. Com o ajuste fino é possível obter resultados de maior qualidade do que apenas com prompts. Além disso, permite treinar o modelo com mais exemplos do que caberia em um prompt e economizar tokens devido a prompts mais curtos. Essa abordagem também reduz a latência das respostas nas solicitações. Os modelos da OpenAI já foram treinados em uma grande quantidade de texto, mas o fine tuning permite adaptá-los para tarefas em áreas de negócios específicas.

Capítulo 9

Desvendando a caixa preta com ferramentas interpretáveis, o autor trás detalhes dos modelos de transformer, interpretando e visualizando suas tarefas. Apresenta o BertViz para visualizar as camadas de atenção, o Language Interpretability Tool (LIT) para rodar uma análise de componentes principais (PCA) e o LIME para visualizar os transformers por meio do aprendizado de dicionário. Além disso, os LLMs da OpenAI vão mais a fundo, permitindo visualizar a atividade de um neurônio em um transformer de forma interativa.

Capítulo 10

Em Investigando o papel dos Tokenizadores na formação de Modelos de transformadores, apresenta inicialmente as práticas recomendadas independentes de tokenizadores para avaliar a qualidade de um tokenizador. Descreve as diretrizes básicas para conjuntos de dados e tokenizadores sob a perspectiva da tokenização. O autor explora a abordagem de tokenizadores de palavras e subpalavras, e demonstra como um tokenizador pode moldar o treinamento e o desempenho de um modelo de transformers.

Capítulo 11

O capítulo com titulo Alavancando os incorporamentos de LLM como alternativa ao ajuste fino, explora por que a busca com incorporamento pode ser, às vezes, uma alternativa eficaz ao ajuste fino. São discutidas as vantagens e limitações dessa abordagem. Além disso, são explicados os fundamentos dos incorporamentos de texto. Para solidificar o aprendizado, implementa um código Python que lê um arquivo, o tokeniza e o incorpora com as bibliotecas Gensim e Word2Vec. Para concluir, você terá trabalhado desde o design de prompts até a engenharia avançada de prompts, utilizando incorporamentos para a RAG.

Capítulo 12

Rumo à rotulagem de papéis semânticos sem sintaxe com o ChatGPT e o GPT-4 explora os conceitos de modelos estocásticos sem sintaxe e não repetitivos. Utilizam o ChatGPT Plus com o GPT-4 para executar amostras de Semantic Role Labeling (SRL), com exemplos simples e complexos. Apresenta como um modelo de propósito geral reage às solicitações de SRL.

Capítulo 13

Em Sumarização com T5 e ChatGPT, o autor explica os conceitos e a arquitetura do modelo de transformer T5. Utiliza o T5 para resumir documentos com modelos da Hugging Face. Os exemplos neste capítulo estão relacionados a áreas jurídicas e médicas, buscando explorar a sumarização em domínios específicos do conhecimento. Também trás uma comparação das abordagens de sumarização entre o T5 e o ChatGPT.

Capítulo 14

Explorando os LLMs de ponta com o Vertex AI e o PaLM 2. Apresenta o Google PaLM 2, um modelo com 540 bilhões de parâmetros. O PaLM 2 é um modelo autoregressivo, com ativação densa e decodificador. Explora como o PaLM 2 pode executar diversas tarefas como chat, classificação e geração de texto. O capítulo implementa a API do PaLM 2 dontro da Vertex AI, para várias tarefas de NLP, incluindo mas não se limitando, à perguntas e respostas e sumarização. FInaliza o capítulo, inclusive, com o processo de ajuste fino no Vertex AI.

Capítulo 15

Em Protegendo os gigantes: mitigando riscos em LLMs, exploram os riscos associados aos Large Language Models (LLMs) e estratégias para tentar mitigar os riscos. Estes são alguns riscos e abordagens de mitigação:

Alucinações: LLMs podem gerar respostas falsas ou incorretas, inegavelmente, levando à desinformação;
Memorização: LLMs podem memorizar exemplos específicos de seus dados de treinamento, reproduzindo-os literalmente;
Comportamento emergente arriscado: LLMs podem exibir comportamento inesperado ou prejudicial devido à sua complexidade;
Desinformação: LLMs podem ocasionalmente gerar conteúdo que dissemina desinformação;
Operações de influência: Atacantes maliciosos podem explorar LLMs para manipular a opinião pública ou enganar os usuários;
Conteúdo prejudicial: LLMs podem produzir saídas sobretudo prejudiciais ou ofensivas, e até criminosas;
Ataques adversários (“Jailbreaks”): LLMs podem ser vulneráveis a manipulações intencional, comprometendo a integridade do conteúdo gerado.

A fim de mitigar esses riscos, empregam técnicas avançadas de engenharia de prompts. Isso inclui a implementação de um modelo de moderação, a manutenção de uma base de conhecimento, a análise de palavras-chave, o uso de pilotos de prompts, a moderação pós-processamento e a alavancagem de incorporamentos, entre outras…

Capítulo 16

O texto Além do texto: transformers de visão no amanhecer da IA revolucionária, explora os modelos de transformers que respeitam a estrutura básica do transformer original, mas fazem algumas extensões significativas. Isso gerou poderosos transformers para visão, como o ViT, CLIP, DALL-E e GPT-4V. O autor implementa transformer de visão em Python, utilizando o GPT-4V, e expande as interações de texto-para-imagem do DALL-3. É importante destacar que os transformers vão além de texto e chegam até visão computacional.

Capítulo 17

Em Transcendendo a fronteira entre imagem e texto com a Stable Difusion, o autor explora os modelos de difusão, apresentando o Stable Vision, que, aliás, criou uma onda incrível de imagens realistas que está se espalhando pelo mercado. Explica os princípios, a matemática e implementa um código de Stable Difusion no Keras. O texto analisa cada um dos principais componentes de um modelo de Stable Difusion e examina os códigos do Keras. Para finalizar, também discute um modelo de de texto-para-vídeo com a Hugging Face e um modelo de vídeo-para-texto com o TimeSformer da Meta.

Capítulo 18

Hugging Face AutoTrain: Treinando modelos de visão sem codificação explora como treinar um transformer de visão usando o AutoTrain da Hugging Face. O autor explica o processo de treinamento automatizado e o autor comenta os problemas imprevisíveis que demonstram por que até o aprendizado de máquina automatizado requer expertise humana. Este capítulo também trás uma discussão e mostra como explorar os limites de um modelo de visão computacional, independentemente de quão sofisticado ele seja.

Este desafio de re-treino automatizado está presente, inclusive, no Machine Learning tradicional. Não é algo exclusivo da IA Generativa

Capítulo 19

No caminho para a IA geral funcional com o HuggingGPT e seus pares demonstra como podemos usar modelos encadeados entre plataformas para resolver problemas complexos de classificação de imagens. O autor compara o HuggingGPT e o Google Cloud Vision no trabalho de identificação de imagens fáceis, difíceis e muito difíceis. Além disso, o capítulo comenta as abordagens clássicas e explora como encadear modelos.

Capítulo 20

Além dos prompts projetados por humanos com ideação generativa explora a ideação generativa, uma abordagem que automatiza a produção de ideias para conteúdo de texto e imagem. A fase de desenvolvimento destas ideações requer especialistas qualificados em IA. Já para o usuário final, a abordagem é uma experiência simples de point and click. O autor discute e nos faz pensar em ideias generativas éticas para empresas sem recursos de marketing, mas não se limita apenas à essa área de atuação.

Minha opinião

Na minha opinião é um material rico para conhecer e aplicar a arquitetura de transformers para texto e visão computacional, codificando com Python. O livro oferece uma visão ampla, porém prática e aplicada, de como a arquitetura funciona e vários detalhes sobre os modelo de linguagem e te visão. É uma leitura densa, e pra mim, vou ter que estudar mais porque achei o assunto complexo. Não é do meu cotidiano trabalhar com GenAI, e por isso quero estudar mais antes de sair falando besteira por ai. As referências e leituras adicionais ajudarão quando eu tiver tempo para aprofundar.

Em linhas gerais recomendo a leitura, principalmente para quem se interessa pelo assunto de Inteligência Artificial. A versão digital está na Amazon por um pouco menos de 250 reais enquanto escrevo esse texto.

Transformers para texto e visão computacional

A atualização do Github contendo os códigos é frequente, inclusive no momento que posto esse texto, a ultima atualização de código foi ontem 29/04/2024.

Bons estudos!

O post Review do livro “Transformer for natural language processing and computer vision – 3rd Edition” apareceu primeiro em Diego Nogare.

Extrair valores de seus documentos

Diego Nogare — Mon, 06 Apr 2020 12:00:08 +0000

Como utilizar seus documentos físicos

para ajudar na tomada de decisão

Que os dados são os bens mais valiosos que as empresas possuem, não temos duvidas, mas como podemos extrair valores de seus documentos antigos da mesma forma que fazemos com os dados digitais que são utilizados nas tomadas de decisões? Com o uso de técnicas de Inteligência Artificial das áreas de Visão Computacional e também de Interpratação de Linguagem Natural, combinado com o poder da Computação em Nuvem, é possível trabalhar nesta frente dentro da sua empresa.

Imagine ter uma solução similar aos sofisticados sistemas de busca web, como o Google ou Bing, para sua empresa. Sim, é possível permitir busca de um termo e analisar o retorno no formato já conhecido de textos, como também os retornos em imagens, videos, etc. Qualquer coisa que contenha aquele termo de busca será retornado. Seja de escrita em formato digital ou manual. Como também em representação de imagem, será retornado para você. E não é necessário desenvolver do zero esta solução. Você pode utilizar serviços prontos, como por exemplo, a Busca Inteligente e a Mineração de Conhecimento que é oferecido como Serviço Cognitivo.

Extrair valores de seus documentos

A oferta de Busca Inteligente e Mineração de Conhecimento, contudo, encapsula diversas técnicas separadas dos Serviços Cognitivos. Como OCR que recebe um documento que foi digitalizado e transforma em texto, visão computacional para criar legendas automáticas em imagens. A busca fonética permite que se encontre termos, mesmo que digitados errados, mas que tenha uma similaridade em sua forma. Entre outras soluções nativas dos serviços cognitivos…

Um exemplo de uso destas técnicas pode ser encontrado no projeto JFK Files, onde a Microsoft indexou os documentos publicos do caso. O vídeo abaixo explica um pouco do uso destas técnicas, contudo apresentou uma visão macro, utilizadas na construção deste projeto sobre o assassinato do presidente americano.

O post Extrair valores de seus documentos apareceu primeiro em Diego Nogare.

Projeto com interpretação de linguagem natural

Diego Nogare — Mon, 16 Mar 2020 12:00:19 +0000

Processamento de Linguagem natural

oferecendo uma tela sem botões a seu cliente

Hoje em dia é muito comum os usuário interagirem de formas diferentes com seus aplicativos, e cada vez mais, é solicitado que se crie projeto com interpretação de linguagem natural. Isso não acontece só porque nos dias de hoje existe poder computacional disponível para isso, mas também porque é mais rápido desenvolver utilizando os serviços cognitivos.

Estes serviços permitem o usuário digitar uma ação de texto corrido, ou então para ele dizer (utilizando voz) o que deseja, ou até para explorar documentos. Estas tarefas são possíveis, graças à técnicas de processamento de linguagem natural. Estas técnicas não são atuais, já existem desde a década de 60!

Como funciona a interpretação de linguagem natural

Existem diversas técnicas computacionais que permitem interpretar os textos de forma natural. Você pode procurar por elementos e como técnicas, como:

Stemming que destacam o radical da palavra e se refere a um processo heurístico bruto que corta o final das palavras na esperança de atingir o objetivo corretamente na maioria das vezes;

Lemmatization que se refere a fazer as coisas corretamente com o uso de uma análise de vocabulário e morfologia das palavras, buscando remover as terminações flexionadas e retornar a forma básica ou de dicionário de uma palavra.

Stop Words que são as palavras de ligação, artigos, preposições, e outras palavras que fazem com que os textos sejam entendidos para os humanos, mas que não trazem muito benefício para a máquina na hora de interpretar o que está escrito ali.

Token é o termo usado para a palavra, ou conjunto de palavras, que está sendo tratada naquele contexto da interpretação. Contudo, o token depende do Corpus, que é o conjunto de documentos utilizado para aquele domínio de assunto. Todos os documentos utilizado naquele domínio são denominado de Corpus.

O que fazer

Pense que, quando um texto é enviado para uma análise, é fundamental entender o que ele significa para então tomar uma ação. Contudo, esse texto pode ser passado de diversas formas diferentes. Mas se isso acontece, como podemos interpretá-lo e entender o que se espera de resultado? É exatamente neste momento que as técnicas em projetos de interpretação de linguagem natural são aplicadas.

Estas técnicas auxiliam o modelo de Inteligência Artificial a entender as intenções de cada texto e extrair possíveis entidades. O resultado esperado é que, ao usar estas técnicas, as ações sejam realizadas de várias formas diferentes, mas, devem responder da mesma forma. Como acontece em uma conversa natural entre pessoas.

Se for utilizar os serviços cognitivos da Microsoft, você pode combinar as técnicas de QnA e LUIS.

QnA

É o serviço de Perguntas e Respostas, que permite criar relacionamentos entre o que é perguntado e o que é respondido. Diversas perguntas podem ser direcionadas à uma resposta, isso aumenta a variação de formas que as perguntas são feitas, para que o sistema possa responder de forma correta.

Os três itens de destaque do QnA são

Perguntas – é o que você espera que um usuário faça. As perguntas serão combinadas com respostas;
Respostas – a resposta que será retornada quando um usuário fizer uma pergunta. A resposta está emparelhada com uma pergunta na base de conhecimento;
Metadados – são tags associadas ao par de perguntas e respostas. Internamente, eles são representadas como pares de chave-valor e filtram os pares de Pergunta/Resposta para corresponder a uma consulta do usuário.

LUIS

É o acrônimo de Language Understanding Intelligent Service. Que é responsável por receber uma sentença, ou declaração, e é responsável por extrair a intensão e entidade daquele texto. Os principais elementos do Luis são:

Declarações – as declarações são inseridas pelo usuário, e enviadas ao aplicativo, que é responsável por interpretá-la;
Intenção – uma intenção representa uma tarefa ou ação que o usuário deseja executar. É um propósito ou objetivo expresso na declaração de um usuário;
Entidades – A entidade representa uma palavra ou frase dentro do texto, que você deseja extrair.

Dicas de criação

Ao criar projetos de interpretação de linguagem natural, é esperado que você adicione elementos que permitem e facilitem as interações do usuário com seu sistema. Contudo separei alguns elementos importantes para criar seu projeto.

Intenções – verifique se elas são distintas. Não crie sobreposição com enunciados como ‘Reservar um voo’ e ‘Reservar um hotel’. Você pode diferenciar qual aspecto da ‘reserva’ você quer extrari, definindo voo e hotel como entidades;
Construir iterativamente – mantenha um conjunto separado de sentenças que não são usados como exemplo de declaração ou ponto final. Continue melhorando o aplicativo para seu conjunto de testes, contudo adicione as novas frases para ensinar o aplicativo com as interações dos usuários. Adapte o conjunto de testes para refletir as declarações reais do usuário. Usar este conjunto de teste para avaliar cada iteração ou versão do aplicativo.
Use a intenção Nenhuma (none) – essa é a intenção de fallback, significa que o aplicativo não sabe o que é aquela sentença enviada pelo usuário. Adicione ao menos 1 exemplo de sentença à intenção Nenhuma, mas faça isso para cada 10 sentenças de exemplo do seu aplicativo.

Projeto com interpretação de linguagem natural

Neste vídeo é explicado como é fácil criar um Bot que interpreta textos para responder uma FAQ.

O post Projeto com interpretação de linguagem natural apareceu primeiro em Diego Nogare.