LLM - NVIDIA Chat with RTX ( solo serie 30 e 40 )

LorenzoLamas · March 25, 2024, 2:20pm

Ho provato NVIDIA Chat with RTX serve una RTX Serie 30 o 40 con almeno 8GB di ram il pack pesa 35GB e all’installazione può arrivare fino a 70GB visto che crea in automantico un enviroment python con miniconda e poi scarichera i modelli da voi scelti, insomma meglio avere 100GB liberi sull’SSD.

I modelli proposti sono LLama2 13B ( servono almeno 12GB di ram per questo ) e Mistral 7B che è più leggero e sembra pure migliore ed entrambi quantizzati a 4 bit.

Qual é il vantaggio rispetto a text-generation-webui ?

l’installazione one click o quasi e un interfaccia ridotta all’osso ma il piatto forte è il RAG ovvero la possibilità di fornirgli un dataset in .txt .pdf .doc e chattare con un AI istruita con quei dati che sarà in grado anche di indicarvi la pagina dove ha preso tale informazione.

Ho fatto un test dato usando Mistral 7B con un .pdf da 30mb per 1225 pagine ( The Art of Electronics - Horowitz & Hill ) ci ha messo circa 90 secondi a tokenizzarlo sulla mia 4080 ed ho iniziato a interrogarlo e dava tutte risposte inerenti al testo e se chiedi ti cita anche la pagina

Nikita · March 25, 2024, 2:25pm

Hai provato a passargli questo’

e poi chiedergli un parere sulla differenza di età?

Così tanto per vedere

LorenzoLamas · March 25, 2024, 2:43pm

il RAG è fatto apposta per fare in modo che non abbia pareri ma che si limiti a rispondere in base al dataset che ha senza allucinare o inventare roba, se nel dataset non c’é l’informazione richiesta te lo dice

gli ho dato anche un dataset di .pdf in italiano e sorprendentemente risponde alle domande poste in italiano, se lo fai col chatbot classico Mistral 7B dice che lui non parla italiano, poi vai sul sito di Mistral.ai e scopri che gli autori sono francesi e diventa tutto più chiaro

Teocrazia · March 25, 2024, 5:54pm

Mistral è unod egli LLM che meglio gestisce le lingue non angolofone

LorenzoLamas · March 25, 2024, 6:22pm

La versione Mixtral 8x7B è quella multilingue, purtroppo quantizzata a 4bit non bastano i 24GB di una 4090 bisogna scendere a 3bit