Interfaces de usuário conversacionais estão no cerne da onda atual de desenvolvimento de inteligência artificial. Houve avanços significativos em Processamento de Linguagem Natural (PLN) e de processamento de voz a partir de abordagens baseadas em redes neurais profundas (deep learning). Em particular, a aprendizagem profunda está aumentando significativamente as habilidades dos bots em relação as técnicas tradicionais de PLN e com efeito, criando o conceito de "conversação como plataforma".
É possível compilar uma tripla classificação de bots baseados em inteligência artificial:
- Bots que procuram informações;
- Bots que procuram informações para completar uma tarefa específica;
- Bots com habilidades sociais e de tarefas.
A primeira classe de modelos usa heurísticas para a escolha de respostas predefinidas, dadas algumas entradas e contexto, enquanto a última seria capaz de gerar respostas sem nenhuma informação a priori. O terceiro, é sem dúvida a mais difícil de ser desenvolvida atualmente. Quando esta terceira classe estiver totalmente desenvolvida, porém, nós nos encontraríamos vivendo em um mundo onde as máquinas se comunicam entre si e com os humanos da mesma maneira. Neste mundo, o modelo de negócio bot-to-bot será algo comum.
Tradicionalmente, podemos pensar em modelos de aprendizagem profunda para o reconhecimento de fala como modelos baseados em recuperação ou modelos generativos. O estado de arte do reconhecimento de fala avançou significativamente desde 2012. Então, se este avanços foram capazes de melhorar nossa compreensão da cognição da máquina , o que está nos impedindo de realizar os bots sociais perfeitos? Bem, há pelo menos um par de coisas que eu posso pensar. Em primeiro lugar, a tradução automática ainda está em sua infância. O Google criou recentemente um "Neural Machine Translation", um salto relevante no campo, com a nova versão permitindo mesmo a tradução de zero-curto (em línguas que não foram treinados para). Em segundo lugar, o reconhecimento de fala ainda é um processo supervisionado. Possivelmente será necessário evoluirmos na aprendizagem não-supervisionada e, eventualmente, integrar melhor as representações simbólicas e neurais. Além disso, há muitas nuances de reconhecimento de fala humana que não somos capazes de integrar completamente em uma máquina ainda. Por fim, os mecanismos de reconhecimento automático de fala criados até o momento não contemplam aspectos complexos como ironia e contexto espaço-tempo.