builderall

O Google DeepMind lançou a próxima geração de seu poderoso modelo de Inteligência Artificial, Gemini, com capacidades aprimoradas para lidar com grandes quantidades de vídeo, texto e imagens. Este é um avanço significativo em relação às versões anteriores do Gemini 1.0, variando em tamanho e complexidade.


A nova versão, Gemini 1.5 Pro, está disponível para desenvolvedores e clientes corporativos selecionados. Embora seja um modelo de nível intermediário, o Gemini 1.5 Pro oferece desempenho equivalente ao antigo Gemini 1.0 Ultra, mas com menor consumo de poder computacional.


Capacidade de processar entradas maiores


A principal melhoria é a capacidade de processar uma quantidade muito maior de dados de entrada. A versão padrão do novo Gemini 1.5 Pro pode lidar com até 128.000 tokens (palavras ou partes de palavras), alcançando o mesmo nível da melhor versão do GPT-4 (GPT-4 Turbo).


Essa capacidade resulta de avanços na arquitetura de "mistura de especialistas", que divide a rede neural em partes e ativa apenas as relevantes para a tarefa, em vez de acionar toda a rede simultaneamente.


Demonstração com transcrição da Apollo


Em uma demonstração, os pesquisadores alimentaram o Gemini com uma transcrição de 402 páginas da missão de pouso na Lua da Apollo.

Posteriormente, mostraram um esboço de uma bota e pediram ao modelo que identificasse o momento na transcrição que o desenho representava, o que ele conseguiu fazer com sucesso.


Essa capacidade de processar grandes quantidades de dados abre novas possibilidades para aplicações de IA que exigem a análise de conjuntos de dados complexos e volumosos.