speech - AI Model Zoo - BimAnt

Multimodal

Feature Extraction Text-to-Image Image-to-Text Text-to-Video Visual Question Answering Document Question Answering Graph Machine Learning

Computer Vision

Depth Estimation Image Classification Object Detection Image Segmentation Image-to-Image Unconditional Image Generation Video Classification Zero-Shot Image Classification

Natural Language Processing

Text Classification Token Classification Table Question Answering Question Answering Zero-Shot Classification Translation Summarization Conversational Text Generation Text2Text Generation Fill-Mask Sentence Similarity

Audio

Text-to-Speech Text-to-Audio Automatic Speech Recognition Audio-to-Audio Audio Classification Voice Activity Detection

Tabular

Tabular Classification Tabular Regression

Reinforcement Learning

Reinforcement Learning Robotics

NSDT 3DConvert

Convert 30+ 3D formats online: GLTF, GLB, GBX, OBJ, DAE, IFC, STEP, STL...

UnrealSynth

Unreal engine based photo realistic synthetic data generator for YOLO.

DreamTexture.js

AI powered 3d texture generation and projection SDK for three.js.

Models with tag speech retrieved: 692

nvidia/stt_be_conformer_ctc_large speech

KBLab/wav2vec2-base-voxpopuli-sv-swedish speech

asapp/sew-d-mid-400k-ft-ls100h speech

dragonSwing/wav2vec2-base-vietnamese speech

m3hrdadfi/hubert-base-persian-speech-emotion-recognition speech

microsoft/unispeech-sat-base-sd speech

qqpann/w2v_hf_jsut_xlsr53 speech

qqpann/wav2vec2-large-xlsr-japanese-0325-1200 speech

superb/wav2vec2-large-superb-er speech

mnazari/wav2vec2-assyrian speech

dragonSwing/viwav2vec2-base-3k speech

nvidia/stt_it_fastconformer_hybrid_large_pc speech

nvidia/stt_ua_fastconformer_hybrid_large_pc speech

facebook/wav2vec2-xls-r-2b-21-to-en speech

vasilis/wav2vec2-large-xlsr-53-greek speech

nvidia/stt_hr_conformer_transducer_large speech

anilbs/pipeline speech

anilbs/segmentation speech

vasista22/ccc-wav2vec2-base-SUPERB speech

devasheeshG/whisper_medium_fp16_transformers speech