phishing fake domaine name fake site scam text-classification

More info at : stendhalgpt.fr

Mo# Model Card pour l'identifiant du modèle

Le modèle peut détecter les sites de scam/phishing uniquement en se basant sur leur orthographe.

Détails du modèle

Le modèle a été entraîné à partir de 50 000 noms de domaine, ce qui représente moins de 2% du dataset à ma disposition. Il ne fonctionne actuellement qu'avec les domaines en .fr. Cependant, certaines expressions sur-utilisées affectent la détection de sites officiels en raison de la présence d'un grand nombre de sites frauduleux tels que "info-gov.fr" ou "livraison-colis.fr".

Description du modèle

Sources du modèle [optionnel]

1 : Site frauduleux 0 : Site légitime

Utilisations

Vous pouvez l'utiliser uniquement à des fins de test.

Biais, risques et limitations

Il a un fort biais en faveur des sites frauduleux, il se peut que vous devriez le combiner avec une liste de noms de domaine déjà vérifiés.

Comment commencer avec le modèle

import keras  
import tensorflow as tf  
from sklearn.model_selection import train_test_split  
from keras_nlp.tokenizers import UnicodeCodepointTokenizer  
import numpy  as np  

domain_names = []  
  
tokenized_domains_2 = []  
for name in domain_names:  
    tokens = tokenizer.tokenize(name)  
    tokenized_domains_2.append(tokens)  

X_new = keras.utils.data_utils.pad_sequences(tokenized_domains_2, maxlen=26, padding='post')  

# Faire une prédiction sur les noms de domaines  
y_pred = model.predict(X_new)  

# Afficher les prédictions  
for i in range(len(domain_names)):  
    print('{}: {}'.format(domain_names[i], y_pred[i]))  

Détails de l'entraînement

Données d'entraînement

text,label 
19151,soinmiracle.fr,0
45747,alibuyer.cn,1
24797,publii.fr,0
48250,lanmobile.cn,1
26260,ho4people.fr,0
...
11284,nocturnos.fr,0
44732,buy-bitcoin.africa,1
38158,portailpompiersparis.fr,1
860,rl-lyon.fr,0
15795,voujacna.fr,


## Model Card Contact

Contact me at : contact@stendhalgpt.fr or at stendhalgpt.fr