Imita fala humana: nova IA do ChatGPT fala e ouve ao mesmo tempo

Tecnologia

Redação
23 de junho de 2026

CanalTech

Foto: Marcelo Fischer/Canaltech

A OpenAI iniciou a liberação de um novo modelo de voz bidirecional para o ChatGPT, chamado internamente de “GPT-Bidi-1”, de acordo com o TestingCatalog. A ferramenta altera a dinâmica atual de conversação ao permitir que a inteligência artificial ouça e fale de forma simultânea. O recurso está com o lançamento gradual para um grupo selecionado de usuários web e mobile do aplicativo, sem um anúncio oficial da empresa até o momento.

O objetivo da atualização é aproximar a camada de voz das capacidades já existentes nos modelos de texto da companhia. A mudança estrutural tem como base a tese da OpenAI de que a fala se tornará o principal meio de acesso à inteligência artificial nos próximos anos.

Interrupções naturais e maior retenção de contexto

De acordo com testes iniciais e vazamentos de código do aplicativo, o GPT-Bidi-1 elimina a necessidade de alternância rígida de turnos entre o usuário e o sistema, ou seja, uma conversa em que alguém fala e alguém escuta.

Se o usuário interromper o ChatGPT no meio de uma resposta, o modelo consegue mudar o foco do assunto imediatamente, sem os travamentos e reinicializações que ocorrem na ferramenta de áudio atual.

A nova arquitetura também traz as seguintes mudanças no comportamento da IA:

Ajustes de ritmo: o modelo emite pequenos avisos naturais, como um “okay”, quando detecta que a pessoa reduziu a velocidade da fala ou fez uma pausa breve, sem cortar a transmissão;
Retenção de memória: a ferramenta mantém a linha de raciocínio ao longo de interações longas, corrigindo uma falha crônica do sistema anterior que descartava contextos antigos da conversa;
Silêncio prolongado: o robô deixa de dar respostas precipitadas durante pausas mais demoradas do interlocutor;
Direitos autorais estritos: o modelo mantém a capacidade de cantar e fazer beatbox, mas recusa reproduzir músicas populares protegidas por copyright, sugerindo composições inéditas no estilo do artista solicitado.

A OpenAI, dona do ChatGPT, planeja fazer um IPO (abrir capital) ainda neste ano (Imagem: Marcelo Fischer/Canaltech)

Mudanças na interface e tiers de processamento

Visualmente, a ativação do modelo altera elementos da interface do usuário. O GPT-Bidi-1 aparece listado no menu de seleção de modelos, localizado nas configurações do ChatGPT, posicionado ao lado das opções padrão e avançada.

Assim que o usuário seleciona o novo motor de voz, a bolha flutuante de conversação assume a cor amarela, substituindo o padrão visual anterior.

Diferente do atual assistente de voz que utiliza o GPT-4o adaptado para áudio, o GPT-Bidi-1 foi desenvolvido especificamente para processamento de som em tempo real.

A documentação interna indica que a funcionalidade operará com três divisões de inteligência: “High” (Alta), “Medium” (Média) e “Instant” (Instantânea). Essa separação replica a lógica dos modelos de texto, permitindo que o usuário escolha entre respostas de processamento imediato ou análises mais profundas e lentas.

A tecnologia está em desenvolvimento desde o início de 2026 e a expectativa é que o modelo seja expandido em um formato de adesão opcional. Na sequência deste lançamento, a OpenAI planeja uma atualização de voz dedicada para a ferramenta de programação Codex e, posteriormente, a liberação de acesso via API para desenvolvedores externos.

Imita fala humana: nova IA do ChatGPT fala e ouve ao mesmo tempo

Interrupções naturais e maior retenção de contexto

Mudanças na interface e tiers de processamento

Últimas Notícias

Frio sobrecarrega o coração e aumenta o risco de infarto e AVC; saiba como se proteger

Anvisa aprova novo medicamento oral para câncer de mama avançado

Arrancar cabelo branco faz nascer mais fios? Dermatologista esclarece

Polícia Militar realiza Operação Virtude para fortalecer proteção à pessoa idosa em Sonora e região

Bebê com bronquiolite precisa de doação urgente de sangue em Campo Grande