audio - AI Model Zoo - BimAnt

Multimodal

Feature Extraction Text-to-Image Image-to-Text Text-to-Video Visual Question Answering Document Question Answering Graph Machine Learning

Computer Vision

Depth Estimation Image Classification Object Detection Image Segmentation Image-to-Image Unconditional Image Generation Video Classification Zero-Shot Image Classification

Natural Language Processing

Text Classification Token Classification Table Question Answering Question Answering Zero-Shot Classification Translation Summarization Conversational Text Generation Text2Text Generation Fill-Mask Sentence Similarity

Audio

Text-to-Speech Text-to-Audio Automatic Speech Recognition Audio-to-Audio Audio Classification Voice Activity Detection

Tabular

Tabular Classification Tabular Regression

Reinforcement Learning

Reinforcement Learning Robotics

NSDT 3DConvert

Convert 30+ 3D formats online: GLTF, GLB, GBX, OBJ, DAE, IFC, STEP, STL...

UnrealSynth

Unreal engine based photo realistic synthetic data generator for YOLO.

DreamTexture.js

AI powered 3d texture generation and projection SDK for three.js.

Models with tag audio retrieved: 1539

JorisCos/DPRNNTasNet-ks2_Libri1Mix_enhsingle_16k audio

espnet/kan-bayashi_ljspeech_joint_finetune_conformer_fastspeech2_hifigan audio

m3hrdadfi/wav2vec2-large-xlsr-persian audio

JorisCos/ConvTasNet_Libri2Mix_sepnoisy_16k audio

GunnarThor/talromur_f_tacotron2 audio

nvidia/stt_ru_fastconformer_hybrid_large_pc audio

yongchanskii/whisperx-for-developers audio

othrif/wav2vec2-large-xlsr-arabic audio

proxectonos/Nos_ASR-wav2vec2-large-xlsr-53-gl-with-lm audio

voxxer/speecht5_finetuned_commonvoice_ru_translit audio

JunzheJosephZhu/MultiDecoderDPRNN audio

cahya/wav2vec2-large-xlsr-indonesian audio

espnet/owsm_v3 audio

shiwangi27/wave2vec2-large-xlsr-hindi audio

facebook/wav2vec2-base-10k-voxpopuli-ft-pl audio

Voicemod/fastspeech2-en-male1 audio

Kamtera/persian-tts-female-glow_tts audio

nvidia/stt_de_conformer_transducer_large audio

padmalcom/wav2vec2-large-emotion-detection-german audio

vumichien/wav2vec2-large-xlsr-japanese-hiragana audio