Descripción del modelo
hackathon-pln-es/jurisbert-clas-art-convencion-americana-dh, es un modelo de clasificación de texto entrenado en un corpus de datos en español de manera supervisada. Este modelo fue entrenado con scjnugacj/jurisbert un modelo de enmascaramiento preentrenado con un corpus jurídico en español. Por lo tanto, nuestro jurisbert-clas-art-convencion-interamericana-dh toma un texto ingresado y predice en que categoría de los 30 artículos de la Convención Americana de Derechos Humanos pertenece.
Usos previstos y limitaciones
Puede usar el modelo para obtener los artículos de la Convención Americana de Derechos Humanos que tengan más relación al texto que está introduciendo. Tenga en cuenta que este modelo está destinado principalmente a ajustarse en tareas de clasificación, cuando quiera obtener principalmente que artículos tienen mayor relación a su tema en cuestión.
Cómo utilizar
#Para instalar SimpleTransformers:
pip install simpletransformers
from simpletransformers.classification import ClassificationModel
# Creando un ClassificationModel
model = ClassificationModel(
"roberta", "hackathon-pln-es/jurisbert-clas-art-convencion-americana-dh", use_cuda=True)
predecir = ["adoptar a un niño"]
predictions, raw_outputs = model.predict(predecir)
predictions
Datos de entrenamiento
El modelo hackathon-pln-es/jurisbert-clas-art-convencion-interamericana-dh se entrenó previamente en un conjunto de datos que consta de 6,089 textos con su etiquetado a diferentes 30 tipos de artículos.
Procedimiento de entrenamiento
Los textos se transforman utilizando SimpleTransformers en el que se entrenó una época con modelo base Roberta y modelo especifico Jurisbert el cual es un modelo de enmascaramiento con corpus jurídico en español.
Variables y métricas
Para entrenar se usaron el 90% (5,480) de nuestros datos, al hacer la evaluación: Train: 5,480 Test: 609
Resultados de evaluación
precision | recall | f1-score | support | |
---|---|---|---|---|
accuracy | 0.75 | 609 | ||
macro avg | 0.69 | 0.64 | 0.64 | 609 |
weighted avg | 0.76 | 0.75 | 0.74 | 609 |
Accuracy: 0.7504105
Equipo
El equipo esta conformado por @gpalomeque @aureliopvs @cecilimacias @giomadariaga @cattsytabla