O Google DeepMind lançou a próxima geração de seu poderoso modelo de Inteligência Artificial, Gemini, com capacidades aprimoradas para lidar com grandes quantidades de vídeo, texto e imagens. Este é um avanço significativo em relação às versões anteriores do Gemini 1.0, variando em tamanho e complexidade.
A nova versão, Gemini 1.5 Pro, está disponível para desenvolvedores e clientes corporativos selecionados. Embora seja um modelo de nível intermediário, o Gemini 1.5 Pro oferece desempenho equivalente ao antigo Gemini 1.0 Ultra, mas com menor consumo de poder computacional.
A principal melhoria é a capacidade de processar uma quantidade muito maior de dados de entrada. A versão padrão do novo Gemini 1.5 Pro pode lidar com até 128.000 tokens (palavras ou partes de palavras), alcançando o mesmo nível da melhor versão do GPT-4 (GPT-4 Turbo).
Essa capacidade resulta de avanços na arquitetura de "mistura de especialistas", que divide a rede neural em partes e ativa apenas as relevantes para a tarefa, em vez de acionar toda a rede simultaneamente.
Em uma demonstração, os pesquisadores alimentaram o Gemini com uma transcrição de 402 páginas da missão de pouso na Lua da Apollo.
Posteriormente, mostraram um esboço de uma bota e pediram ao modelo que identificasse o momento na transcrição que o desenho representava, o que ele conseguiu fazer com sucesso.
Essa capacidade de processar grandes quantidades de dados abre novas possibilidades para aplicações de IA que exigem a análise de conjuntos de dados complexos e volumosos.