LLM - NVIDIA Chat with RTX ( solo serie 30 e 40 )

Ho provato NVIDIA Chat with RTX serve una RTX Serie 30 o 40 con almeno 8GB di ram il pack pesa 35GB e all’installazione può arrivare fino a 70GB visto che crea in automantico un enviroment python con miniconda e poi scarichera i modelli da voi scelti, insomma meglio avere 100GB liberi sull’SSD.

I modelli proposti sono LLama2 13B ( servono almeno 12GB di ram per questo ) e Mistral 7B che è più leggero e sembra pure migliore ed entrambi quantizzati a 4 bit.

Qual é il vantaggio rispetto a text-generation-webui ?

l’installazione one click o quasi e un interfaccia ridotta all’osso ma il piatto forte è il RAG ovvero la possibilità di fornirgli un dataset in .txt .pdf .doc e chattare con un AI istruita con quei dati che sarà in grado anche di indicarvi la pagina dove ha preso tale informazione.

Ho fatto un test dato usando Mistral 7B con un .pdf da 30mb per 1225 pagine ( The Art of Electronics - Horowitz & Hill ) ci ha messo circa 90 secondi a tokenizzarlo sulla mia 4080 ed ho iniziato a interrogarlo e dava tutte risposte inerenti al testo e se chiedi ti cita anche la pagina :nerdsaw:

1 Like

Hai provato a passargli questo’

e poi chiedergli un parere sulla differenza di età?

Così tanto per vedere :asd:

1 Like

il RAG è fatto apposta per fare in modo che non abbia pareri ma che si limiti a rispondere in base al dataset che ha senza allucinare o inventare roba, se nel dataset non c’é l’informazione richiesta te lo dice :sisi:

gli ho dato anche un dataset di .pdf in italiano e sorprendentemente risponde alle domande poste in italiano, se lo fai col chatbot classico Mistral 7B dice che lui non parla italiano, poi vai sul sito di Mistral.ai e scopri che gli autori sono francesi e diventa tutto più chiaro :ahsisi:

Mistral è unod egli LLM che meglio gestisce le lingue non angolofone :asd:

1 Like

La versione Mixtral 8x7B è quella multilingue, purtroppo quantizzata a 4bit non bastano i 24GB di una 4090 bisogna scendere a 3bit