audio - AI Model Zoo - BimAnt

Multimodal

Feature Extraction Text-to-Image Image-to-Text Text-to-Video Visual Question Answering Document Question Answering Graph Machine Learning

Computer Vision

Depth Estimation Image Classification Object Detection Image Segmentation Image-to-Image Unconditional Image Generation Video Classification Zero-Shot Image Classification

Natural Language Processing

Text Classification Token Classification Table Question Answering Question Answering Zero-Shot Classification Translation Summarization Conversational Text Generation Text2Text Generation Fill-Mask Sentence Similarity

Audio

Text-to-Speech Text-to-Audio Automatic Speech Recognition Audio-to-Audio Audio Classification Voice Activity Detection

Tabular

Tabular Classification Tabular Regression

Reinforcement Learning

Reinforcement Learning Robotics

NSDT 3DConvert

Convert 30+ 3D formats online: GLTF, GLB, GBX, OBJ, DAE, IFC, STEP, STL...

UnrealSynth

Unreal engine based photo realistic synthetic data generator for YOLO.

DreamTexture.js

AI powered 3d texture generation and projection SDK for three.js.

Models with tag audio retrieved: 1539

anton-l/wav2vec2-large-xlsr-53-estonian audio

espnet/kan-bayashi_csmsc_transformer audio

arijitx/whisper-base-bn-trans audio

saefro991/tts_ipa_css10_7lang_textpretrain_residual_freeze audio

Blaxzter/whisper-large-v2-inference-endpoint audio

seba3y/speecht5-asr-punctuation-sensitive audio

JorisCos/VAD_Net audio

espnet/kan-bayashi_csmsc_tts_train_conformer_fastspeech2_raw_phn_pypinyin_g2p_phone_train.loss.ave audio

facebook/wav2vec2-base-10k-voxpopuli-ft-hr audio

wietsedv/wav2vec2-large-xlsr-53-dutch audio

Voicemod/fastspeech2-en-200_speaker-cv4 audio

qinyue/wav2vec2-large-xlsr-53-chinese-zn-cn-aishell1 audio

bl4dylion/faster-whisper-small-belarusian audio

Edresson/wav2vec2-large-100k-voxpopuli-ft-Common-Voice_plus_TTS-Dataset-portuguese audio

cankeles/ConvTasNet_WHAMR_enhsingle_16k audio

m3hrdadfi/wav2vec2-large-xlsr-georgian audio

facebook/textless_sm_cs_en audio

rsonavane/distil-whisper-large-v2-8-ls audio

pgwi/en_tr_titanet_large audio

Nithu/text-to-speech audio