Se você ainda não fez isso Uma testemunha No evento OpenAI de ontem, recomendo fortemente fazer exatamente isso. A manchete da notícia era que o mais recente GPT-4o funciona perfeitamente com qualquer combinação de texto, áudio e vídeo.
Isso inclui a capacidade de “mostrar” a um aplicativo GPT-4o a gravação de tela que você está capturando para outro aplicativo – e essa é uma capacidade que a empresa demonstrou com uma impressionante demonstração do guru de IA do iPad…
GPT-4o
OpenAI disse que “o” significa “omni”.
GPT-4o (“o” para “omni”) é um passo em direção a uma interação humano-computador mais natural – aceita como entrada qualquer combinação de texto, áudio e imagem e gera qualquer combinação de texto, áudio e imagem como saída.
Ele pode responder à entrada de voz em apenas 232 milissegundos, com uma média de 320 milissegundos, o que é semelhante ao tempo de resposta humano(abre em uma nova janela) em uma conversa. […] O GPT-4o é particularmente melhor na compreensão da visão e do som do que os modelos atuais.
Até mesmo o aspecto de áudio disso é importante. Anteriormente, o ChatGPT podia aceitar entrada de voz, mas convertia-a em texto antes de trabalhar com ela. Em contraste, o GPT-4o realmente entende a fala, então pula completamente o estágio de conversão.
Como observamos ontem, os usuários gratuitos também obtêm muitos recursos que antes eram limitados aos assinantes pagantes.
Demonstração de professor de IA do iPad
Um dos recursos demonstrados pelo OpenAI é a capacidade do GPT-4o de ver o que você está fazendo na tela do iPad (no modo de tela dividida).
O exemplo mostra uma IA ensinando um aluno que tem um problema de matemática. Você pode ouvir que o GPT-4o entendeu o problema a princípio e queria resolvê-lo imediatamente. Mas o novo formulário poderá ser interrompido, caso em que ele será solicitado a ajudar o aluno a resolvê-lo sozinho.
Outra capacidade que emerge aqui é que o modelo afirma detectar emoções na fala e também pode expressar as próprias emoções. Para meu gosto, isso foi um pouco exagerado na versão beta, e isso se reflete aqui – a IA talvez seja um pouco condescendente. Mas tudo isso é ajustável.
Efetivamente, todos os estudantes do mundo podem ter um professor particular com esse tipo de habilidade.
Quanto disso a Apple integrará?
Sabemos que a IA é o foco principal do iOS 18 e que um acordo está sendo finalizado para trazer recursos OpenAI para dispositivos Apple. Embora na época tenha sido descrito como sendo para ChatGPT, agora parece muito provável que o negócio real seja para acesso ao GPT-4o.
Mas também sabemos que a Apple tem trabalhado nos seus próprios modelos de IA, com os seus próprios centros de dados a gerir os seus próprios chips. Por exemplo, a Apple estava desenvolvendo rei Uma forma de permitir que o Siri entenda as telas dos aplicativos.
Portanto, não sabemos exatamente quais recursos do GPT-4o a empresa trará para seus dispositivos, mas esse recurso parece tão perfeito para a Apple que tenho que acreditar que será incluído. Isso é realmente usar a tecnologia para capacitar as pessoas.
foto: OpenAI. Benjamin Mayo contribuiu para este relatório.
FTC: Usamos links automáticos de afiliados para obter renda. mais.
“Estudante amigável. Jogador certificado. Evangelista de mídia social. Fanático pela Internet. Cai muito. Futuro ídolo adolescente.”