audio - AI Model Zoo - BimAnt

Multimodal

Feature Extraction Text-to-Image Image-to-Text Text-to-Video Visual Question Answering Document Question Answering Graph Machine Learning

Computer Vision

Depth Estimation Image Classification Object Detection Image Segmentation Image-to-Image Unconditional Image Generation Video Classification Zero-Shot Image Classification

Natural Language Processing

Text Classification Token Classification Table Question Answering Question Answering Zero-Shot Classification Translation Summarization Conversational Text Generation Text2Text Generation Fill-Mask Sentence Similarity

Audio

Text-to-Speech Text-to-Audio Automatic Speech Recognition Audio-to-Audio Audio Classification Voice Activity Detection

Tabular

Tabular Classification Tabular Regression

Reinforcement Learning

Reinforcement Learning Robotics

NSDT 3DConvert

Convert 30+ 3D formats online: GLTF, GLB, GBX, OBJ, DAE, IFC, STEP, STL...

UnrealSynth

Unreal engine based photo realistic synthetic data generator for YOLO.

DreamTexture.js

AI powered 3d texture generation and projection SDK for three.js.

Models with tag audio retrieved: 1539

espnet/chai_librispeech_asr_train_conformer-rnn_transducer_raw_en_bpe5000_sp audio

espnet/simpleoier_chime4_enh_asr_train_enh_asr_convtasnet_fbank_transformer_raw_en_char audio

espnet/simpleoier_chime4_enh_asr_convtasnet_init_noenhloss_wavlm_transformer_init_raw_en_char audio

chaitu619/chai_librispeech_asr_train_transducer_v2_raw_en_bpe5000_sp audio

espnet/french_commonvoice_blstm audio

patrickvonplaten/wav2vec2-conformer-rope-large-960h-ft-4-gram audio

espnet/id_commonvoice_blstm audio

espnet/greek_commonvoice_blstm audio

espnet/pt_commonvoice_blstm audio

espnet/tamil_commonvoice_blstm audio

espnet/tamil_slu audio

espnet/simpleoier_chime6_asr_transformer_wavlm_lr1e-3 audio

wgb14/icefall-asr-gigaspeech-pruned-transducer-stateless2 audio

espnet/kyrgyz_commonvoice_blstm audio

espnet/bengali_blstm audio

Servinform/wav2vec2-large-xlsr-53-spanish audio

Monsia/afrilang-bci-tts audio

pyf98/aishell_branchformer_e24_amp audio

pyf98/slurp_entity_conformer audio

pyf98/slurp_entity_branchformer audio