mistral finetuned french vigogne text-generation-inference

Vigostral-7b-Chat GGUF

Conversion du modèle vigostral-7b-chat au format GGUF

Lien du modèle original: https://huggingface.co/bofenghuang/vigostral-7b-chat/

Le projet llama.cpp (pour l'inférence): https://github.com/ggerganov/llama.cpp/

Les modèles ont dans leur nom un suffixe qui définit la quantification.

La perte de qualité est tirée de la documentation de llama.cpp et a été calculée par la variation de la perplexité (ppl) sur le modèle LLaMA-v1-7B. Elle n'est donc fournie ici que pour donner une approximation de la perte rééle.

Méthode de quantification Taille du fichier Perte Téléchargement
COPY 13,5 Go Aucune https://huggingface.co/FlorianJc/Vigostral-7b-Chat-GGUF/blob/main/vigostral-7b-chat-COPY.gguf
Q8_0 7,2 Go +0.0004 ppl @ LLaMA-v1-7B https://huggingface.co/FlorianJc/Vigostral-7b-Chat-GGUF/blob/main/vigostral-7b-chat-Q8_0.gguf
Q6_K 5,5 Go -0.0008 ppl @ LLaMA-v1-7B https://huggingface.co/FlorianJc/Vigostral-7b-Chat-GGUF/blob/main/vigostral-7b-chat-Q6_K.gguf
Q5_K_M 4,8 Go +0.0122 ppl @ LLaMA-v1-7B https://huggingface.co/FlorianJc/Vigostral-7b-Chat-GGUF/blob/main/vigostral-7b-chat-Q5_K_M.gguf
Q4_K_M 4,1 Go +0.0532 ppl @ LLaMA-v1-7B https://huggingface.co/FlorianJc/Vigostral-7b-Chat-GGUF/blob/main/vigostral-7b-chat-Q4_K_M.gguf