Descripción del modelo

hackathon-pln-es/jurisbert-clas-art-convencion-americana-dh, es un modelo de clasificación de texto entrenado en un corpus de datos en español de manera supervisada. Este modelo fue entrenado con scjnugacj/jurisbert un modelo de enmascaramiento preentrenado con un corpus jurídico en español. Por lo tanto, nuestro jurisbert-clas-art-convencion-interamericana-dh toma un texto ingresado y predice en que categoría de los 30 artículos de la Convención Americana de Derechos Humanos pertenece.

Usos previstos y limitaciones

Puede usar el modelo para obtener los artículos de la Convención Americana de Derechos Humanos que tengan más relación al texto que está introduciendo. Tenga en cuenta que este modelo está destinado principalmente a ajustarse en tareas de clasificación, cuando quiera obtener principalmente que artículos tienen mayor relación a su tema en cuestión.

Cómo utilizar

#Para instalar SimpleTransformers:
pip install simpletransformers
from simpletransformers.classification import ClassificationModel
# Creando un ClassificationModel
model = ClassificationModel(
    "roberta", "hackathon-pln-es/jurisbert-clas-art-convencion-americana-dh", use_cuda=True)
predecir = ["adoptar a un niño"]
predictions, raw_outputs = model.predict(predecir)
predictions

Datos de entrenamiento

El modelo hackathon-pln-es/jurisbert-clas-art-convencion-interamericana-dh se entrenó previamente en un conjunto de datos que consta de 6,089 textos con su etiquetado a diferentes 30 tipos de artículos.

Procedimiento de entrenamiento

Los textos se transforman utilizando SimpleTransformers en el que se entrenó una época con modelo base Roberta y modelo especifico Jurisbert el cual es un modelo de enmascaramiento con corpus jurídico en español.

Variables y métricas

Para entrenar se usaron el 90% (5,480) de nuestros datos, al hacer la evaluación: Train: 5,480 Test: 609

Resultados de evaluación

precision recall f1-score support
accuracy 0.75 609
macro avg 0.69 0.64 0.64 609
weighted avg 0.76 0.75 0.74 609

Accuracy: 0.7504105

Equipo

El equipo esta conformado por @gpalomeque @aureliopvs @cecilimacias @giomadariaga @cattsytabla