
Foto: Marcelo Fischer/Canaltech
A OpenAI iniciou a liberação de um novo modelo de voz bidirecional para o ChatGPT, chamado internamente de “GPT-Bidi-1”, de acordo com o TestingCatalog. A ferramenta altera a dinâmica atual de conversação ao permitir que a inteligência artificial ouça e fale de forma simultânea. O recurso está com o lançamento gradual para um grupo selecionado de usuários web e mobile do aplicativo, sem um anúncio oficial da empresa até o momento.
O objetivo da atualização é aproximar a camada de voz das capacidades já existentes nos modelos de texto da companhia. A mudança estrutural tem como base a tese da OpenAI de que a fala se tornará o principal meio de acesso à inteligência artificial nos próximos anos.
De acordo com testes iniciais e vazamentos de código do aplicativo, o GPT-Bidi-1 elimina a necessidade de alternância rígida de turnos entre o usuário e o sistema, ou seja, uma conversa em que alguém fala e alguém escuta.
Se o usuário interromper o ChatGPT no meio de uma resposta, o modelo consegue mudar o foco do assunto imediatamente, sem os travamentos e reinicializações que ocorrem na ferramenta de áudio atual.
A nova arquitetura também traz as seguintes mudanças no comportamento da IA:

Visualmente, a ativação do modelo altera elementos da interface do usuário. O GPT-Bidi-1 aparece listado no menu de seleção de modelos, localizado nas configurações do ChatGPT, posicionado ao lado das opções padrão e avançada.
Assim que o usuário seleciona o novo motor de voz, a bolha flutuante de conversação assume a cor amarela, substituindo o padrão visual anterior.
Diferente do atual assistente de voz que utiliza o GPT-4o adaptado para áudio, o GPT-Bidi-1 foi desenvolvido especificamente para processamento de som em tempo real.
A documentação interna indica que a funcionalidade operará com três divisões de inteligência: “High” (Alta), “Medium” (Média) e “Instant” (Instantânea). Essa separação replica a lógica dos modelos de texto, permitindo que o usuário escolha entre respostas de processamento imediato ou análises mais profundas e lentas.
A tecnologia está em desenvolvimento desde o início de 2026 e a expectativa é que o modelo seja expandido em um formato de adesão opcional. Na sequência deste lançamento, a OpenAI planeja uma atualização de voz dedicada para a ferramenta de programação Codex e, posteriormente, a liberação de acesso via API para desenvolvedores externos.