audio - AI Model Zoo - BimAnt

Multimodal

Feature Extraction Text-to-Image Image-to-Text Text-to-Video Visual Question Answering Document Question Answering Graph Machine Learning

Computer Vision

Depth Estimation Image Classification Object Detection Image Segmentation Image-to-Image Unconditional Image Generation Video Classification Zero-Shot Image Classification

Natural Language Processing

Text Classification Token Classification Table Question Answering Question Answering Zero-Shot Classification Translation Summarization Conversational Text Generation Text2Text Generation Fill-Mask Sentence Similarity

Audio

Text-to-Speech Text-to-Audio Automatic Speech Recognition Audio-to-Audio Audio Classification Voice Activity Detection

Tabular

Tabular Classification Tabular Regression

Reinforcement Learning

Reinforcement Learning Robotics

NSDT 3DConvert

Convert 30+ 3D formats online: GLTF, GLB, GBX, OBJ, DAE, IFC, STEP, STL...

UnrealSynth

Unreal engine based photo realistic synthetic data generator for YOLO.

DreamTexture.js

AI powered 3d texture generation and projection SDK for three.js.

Models with tag audio retrieved: 1539

qqpann/w2v_hf_jsut_xlsr53 audio

qqpann/wav2vec2-large-xlsr-japanese-0325-1200 audio

superb/wav2vec2-large-superb-er audio

mnazari/wav2vec2-assyrian audio

patrickvonplaten/hubert-xlarge-ls960-ft-4-gram audio

Voicemod/fastspeech2-mf audio

facebook/xm_transformer_s2ut_800m-es-en-st-asr-bt_h1_2022 audio

lesliejd/jt-whisper audio

nvidia/stt_it_fastconformer_hybrid_large_pc audio

nvidia/stt_ua_fastconformer_hybrid_large_pc audio

abdelhalim/Shower_Sound_Recognition audio

espnet/Karthik_sinhala_asr_train_asr_transformer audio

espnet/kan-bayashi_csmsc_tts_train_fastspeech2_raw_phn_pypinyin_g2p_phone_train.loss.ave audio

espnet/kan-bayashi_jsut_full_band_vits_prosody audio

espnet/kan-bayashi_jvs_jvs010_vits_prosody audio

espnet/kan-bayashi_libritts_tts_train_xvector_vits_raw_phn_tacotron_g2p_en_no-truncated-09d645 audio

espnet/kan-bayashi_ljspeech_fastspeech audio

facebook/xm_transformer_600m-en_ru-multi_domain audio

facebook/xm_transformer_600m-fr_en-multi_domain audio

jkang/espnet2_librispeech_100_conformer_word audio