<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Arquivos speech to text - Diego Nogare</title>
	<atom:link href="https://diegonogare.net/tags/speech-to-text/feed/" rel="self" type="application/rss+xml" />
	<link>https://diegonogare.net/tags/speech-to-text/</link>
	<description>Consultor Executivo de IA &#38; ML</description>
	<lastBuildDate>Tue, 15 Apr 2025 13:44:10 +0000</lastBuildDate>
	<language>pt-BR</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://i0.wp.com/diegonogare.net/wp-content/uploads/2025/06/cropped-cropped-DN-Black-300x300-1.png?fit=32%2C32&#038;ssl=1</url>
	<title>Arquivos speech to text - Diego Nogare</title>
	<link>https://diegonogare.net/tags/speech-to-text/</link>
	<width>32</width>
	<height>32</height>
</image> 
<site xmlns="com-wordpress:feed-additions:1">247556142</site>	<item>
		<title>Permitindo interpretação e geração de fala em projetos</title>
		<link>https://diegonogare.net/2020/03/permitindo-interpretacao-e-geracao-de-fala-em-projetos/</link>
		
		<dc:creator><![CDATA[Diego Nogare]]></dc:creator>
		<pubDate>Mon, 23 Mar 2020 12:00:41 +0000</pubDate>
				<category><![CDATA[Cloud Computing]]></category>
		<category><![CDATA[azure]]></category>
		<category><![CDATA[inteligencia artificial]]></category>
		<category><![CDATA[interpretação de linguagem natural]]></category>
		<category><![CDATA[Machine Learning]]></category>
		<category><![CDATA[speech to text]]></category>
		<category><![CDATA[text to speech]]></category>
		<guid isPermaLink="false">http://diegonogare.net/?p=3193</guid>

					<description><![CDATA[<p>Interpretando comandos de voz para oferecer nova usabilidade aos sistemas Há uma linha de pesquisadores na área de Interface Humano Computador &#8211; IHC &#8211; investindo seus esforços para entender as interações desta geração, que são feitas muitas vezes através de voz e não exclusivamente com cliques ou toques em tela, permitindo interpretação e geração de...</p>
<p>O post <a href="https://diegonogare.net/2020/03/permitindo-interpretacao-e-geracao-de-fala-em-projetos/">Permitindo interpretação e geração de fala em projetos</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></description>
										<content:encoded><![CDATA[<h1>Interpretando comandos de voz</h1>
<h2>para oferecer nova usabilidade aos sistemas</h2>
<p>Há uma linha de pesquisadores na área de Interface Humano Computador &#8211; IHC &#8211; investindo seus esforços para entender as interações desta geração, que são feitas muitas vezes através de voz e não exclusivamente com cliques ou toques em tela, permitindo interpretação e geração de fala em projetos. Para que isso aconteça, é importante que o sistema de Inteligência Artificial consiga interagir com o usuário através desta nova forma. Quando algum assistente pessoal como a <em>Alexa, Google Home, Siri </em>ou<em> Cortana</em> é ativado e recebe um comando de voz, é necessário interpretar o que foi solicitado pelo usuário e que a ação seja respondida.</p>
<p>O assistente ouve o que o usuário pediu, então transforma o audio para texto através de um processo de transcrição, e então dispara o comando internamente nos diversos sistemas que integram esse ambiente. O comando é analisado e processado, e o retorno do sistema devolve a resposta. Esse retorno é então sintetizado de texto para voz, e é reproduzido pelo alto-falante do assistente. Concluindo assim o ciclo daquele diálogo.</p>
<h2>Geração de fala em projetos</h2>
<p>O processo para interpretar fala em projetos segue um roteiro padronizado relativamente trivial. Pode-se estender novas habilidades para aumentar sua capacidade de interação, mas isso é feito de projeto para projeto. Traduzir um texto, extrair o sentimento daquela frase ou perceber a intonação da voz são explorados por técnicas de Machine Learning. Esta técnicass estendem a interação por voz e pode fazer mais para o seu sistema!</p>
<p>O cenário trivial consiste necessariamente que o ambiente permita a transcrição em tempo real de áudio em texto. O sistema consome esse texto para poder tomar as medidas necessárias internas utilizando o texto como entrada do comando. Se trabalhar no ambiente Microsoft poderá disparar o texto como comando de entrada para interagir com o <a href="https://diegonogare.net/2020/03/projeto-com-interpretacao-de-linguagem-natural/" target="_blank" rel="noopener noreferrer">LUIS ou o QnA</a>, permitindo que ações desenvolvidas com o Bot Framework tome a ação desejada. Então o retorno destas soluções pode devolver a saída para o sistema de interação. Mais uma vez no ambiente Microsoft, é permitido transformar o texto de saída em algumas das vozes <span data-ttu-id="338f8-106">padrão ou em uma voz neutra (sem gênero definido) ou até criar uma voz personalizada exclusiva para seu sistema.</span> Existem <span data-ttu-id="338f8-107">75 vozes definidas como padrão e estão disponíveis em mais de 45 idiomas. </span></p>
<h2>Exemplo real de solução</h2>
<p>A Microsoft apresentou uma demonstração destas funcionalidades, permitindo interpretação e geração de fala em projetos. Integrado com o <a href="https://www.microsoft.com/en-us/hololens/buy" target="_blank" rel="noopener noreferrer">Hololens</a>, foi feita uma tradução simultânea entre Inglês (idioma original) e Japonês (idioma destino) e projetada em um holograma, como se a apresentadora estivesse falando naturalmente em Japonês. Veja o vídeo desta demonstração em uma aplicação desenvolvida para ser reproduzida em projetos do mundo real.</p>
<h2><iframe src="https://www.youtube.com/embed/auJJrHgG9Mc" width="560" height="315" frameborder="0" allowfullscreen="allowfullscreen"></iframe></h2>
<p>O post <a href="https://diegonogare.net/2020/03/permitindo-interpretacao-e-geracao-de-fala-em-projetos/">Permitindo interpretação e geração de fala em projetos</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></content:encoded>
					
		
		
		<post-id xmlns="com-wordpress:feed-additions:1">3193</post-id>	</item>
	</channel>
</rss>
