More info at : stendhalgpt.fr
Mo# Model Card pour l'identifiant du modèle
Le modèle peut détecter les sites de scam/phishing uniquement en se basant sur leur orthographe.
Détails du modèle
Le modèle a été entraîné à partir de 50 000 noms de domaine, ce qui représente moins de 2% du dataset à ma disposition. Il ne fonctionne actuellement qu'avec les domaines en .fr. Cependant, certaines expressions sur-utilisées affectent la détection de sites officiels en raison de la présence d'un grand nombre de sites frauduleux tels que "info-gov.fr" ou "livraison-colis.fr".
Description du modèle
- Développé par : Nielzac | Étudiant français
- Partagé par [optionnel] : Nielzac
- Type de modèle : Classification
- Nom du modèle : Talleyrand
- Langue(s) (NLP) : FR
- Licence : CC ANC 4.0
Sources du modèle [optionnel]
1 : Site frauduleux 0 : Site légitime
- Démo [optionnel] : antai-gov.fr : [0.99354464] amendes-paris.fr : [0.9942043] le-bousquet.fr : [0.00631859] amendes-gouv.fr : [0.9967435] hotel-de-paris.fr : [0.00752462] colis-livraison.fr : [0.9986418] antai-gov.fr : [0.99354464] cnil-info.fr : [0.8227607] leclerc.fr : [0.02546518] amd.fr : [0.04804057] paris.fr : [0.6099069]
Utilisations
Vous pouvez l'utiliser uniquement à des fins de test.
Biais, risques et limitations
Il a un fort biais en faveur des sites frauduleux, il se peut que vous devriez le combiner avec une liste de noms de domaine déjà vérifiés.
Comment commencer avec le modèle
import keras
import tensorflow as tf
from sklearn.model_selection import train_test_split
from keras_nlp.tokenizers import UnicodeCodepointTokenizer
import numpy as np
domain_names = []
tokenized_domains_2 = []
for name in domain_names:
tokens = tokenizer.tokenize(name)
tokenized_domains_2.append(tokens)
X_new = keras.utils.data_utils.pad_sequences(tokenized_domains_2, maxlen=26, padding='post')
# Faire une prédiction sur les noms de domaines
y_pred = model.predict(X_new)
# Afficher les prédictions
for i in range(len(domain_names)):
print('{}: {}'.format(domain_names[i], y_pred[i]))
Détails de l'entraînement
Données d'entraînement
text,label
19151,soinmiracle.fr,0
45747,alibuyer.cn,1
24797,publii.fr,0
48250,lanmobile.cn,1
26260,ho4people.fr,0
...
11284,nocturnos.fr,0
44732,buy-bitcoin.africa,1
38158,portailpompiersparis.fr,1
860,rl-lyon.fr,0
15795,voujacna.fr,
## Model Card Contact
Contact me at : contact@stendhalgpt.fr or at stendhalgpt.fr