anton-l/wav2vec2-base-superb-sd

This is the anton-l/wav2vec2-base-superb-sd model, converted to OpenVINO. An example of how to do inference on this model:

from transformers import AutoFeatureExtractor
from optimum.intel.openvino import OVModelForAudioFrameClassification
from datasets import load_dataset
import torch

dataset = load_dataset("hf-internal-testing/librispeech_asr_demo", "clean", split="validation")
dataset = dataset.sort("id")
sampling_rate = dataset.features["audio"].sampling_rate

feature_extractor = AutoFeatureExtractor.from_pretrained("helenai/anton-l-wav2vec2-base-superb-sd-ov")
model =  OVModelForAudioFrameClassification.from_pretrained("helenai/anton-l-wav2vec2-base-superb-sd-ov")
inputs = feature_extractor(dataset[0]["audio"]["array"], return_tensors="np", sampling_rate=sampling_rate)
logits = model(**inputs).logits

probabilities = torch.sigmoid(torch.as_tensor(logits)[0])
labels = (probabilities > 0.5).long()
print(labels[0].tolist())