NVIDIA ensina usuários como rodar sistema avançados de IA localmente em seus PCs

Cada vez mais pessoas estão executando LLMs (Large Language Models) diretamente em seus PCs para reduzir custos com assinaturas externas e obter mais privacidade e controle sobre seus projetos de inteligência artificial. Com os novos e avançados modelos abertos e ferramentas gratuitas para rodá-los localmente, cresce o interesse em experimentar a IA diretamente em notebooks ou desktops. As GPUs GeForce RTX aceleram essas experiências, oferecendo respostas rápidas e fluidas. Com as atualizações do Project G-Assist, os usuários de notebooks já podem começar a usar comandos de voz e texto baseados em IA para controlar seus computadores.

O novo blogpost da NVIDIA destaca como estudantes, entusiastas de IA e desenvolvedores podem começar a utilizar LLMs localmente em seus PCs a partir de agora:

Ollama: Uma das formas mais acessíveis de começar. Esta ferramenta de código aberto oferece uma interface simples para executar e interagir com LLMs. Permite arrastar e soltar PDFs em prompts, manter conversas interativas e até experimentar fluxos de trabalho multimodais que combinam texto e imagens.
AnythingLLM: Crie um assistente de IA pessoal. Esta ferramenta funciona em conjunto com o Ollama, possibilitando carregar anotações, apresentações ou documentos para criar um tutor que gera questionários e cartões para estudos. Privado, rápido e gratuito.
LM Studio: Explore dezenas de modelos. Baseado no popular framework llama.cpp, fornece uma interface amigável para executar modelos localmente. Usuários podem carregar diferentes LLMs, conversar em tempo real e até os disponibilizar como endpoints de API local para integração em projetos personalizados.
Project G-Assist: Controle seu PC com IA. Com as últimas atualizações, os usuários podem ajustar bateria, ventoinha e configurações de desempenho usando somentecontrole por voz ou texto.

As atualizações mais recentes em PCs com GeForce RTX AI incluem:

Ollama com grande aumento de desempenho em Geforce RTX: As atualizações mais recentes oferecem até 50% de otimização de performance para o modelo gpt-oss-20B da OpenAI e até 60% mais rapidez nos modelos Gemma 3, além de um agendamento de modelos mais inteligente para reduzir problemas de memória e melhorar a eficiência em múltiplas GPUs.

Llama.cpp e GGML otimizados para GeForce RTX: Agora entregam inferência mais rápida e eficiente em GPUs GeForce RTX, incluindo suporte ao modelo NVIDIA Nemotron Nano v2 9B, Flash Attention habilitado por padrão e otimizações de kernel CUDA.
Atualização do G-Assist v0.1.18 disponível no NVIDIA App, trazendo novos comandos para usuários de notebook e melhor qualidade nas respostas.
Microsoft lança o Windows ML com NVIDIA TensorRT para aceleração RTX, oferecendo até 50% de ganho de desempenho em inferência, implantação simplificada e suporte para LLMs, modelos de difusão e outros tipos no Windows 11.

1 outubro, 2025

Mostrar mais

Leia Mais: