audio - AI Model Zoo - BimAnt

Multimodal

Feature Extraction Text-to-Image Image-to-Text Text-to-Video Visual Question Answering Document Question Answering Graph Machine Learning

Computer Vision

Depth Estimation Image Classification Object Detection Image Segmentation Image-to-Image Unconditional Image Generation Video Classification Zero-Shot Image Classification

Natural Language Processing

Text Classification Token Classification Table Question Answering Question Answering Zero-Shot Classification Translation Summarization Conversational Text Generation Text2Text Generation Fill-Mask Sentence Similarity

Audio

Text-to-Speech Text-to-Audio Automatic Speech Recognition Audio-to-Audio Audio Classification Voice Activity Detection

Tabular

Tabular Classification Tabular Regression

Reinforcement Learning

Reinforcement Learning Robotics

NSDT 3DConvert

Convert 30+ 3D formats online: GLTF, GLB, GBX, OBJ, DAE, IFC, STEP, STL...

UnrealSynth

Unreal engine based photo realistic synthetic data generator for YOLO.

DreamTexture.js

AI powered 3d texture generation and projection SDK for three.js.

Models with tag audio retrieved: 1539

espnet/russian_commonvoice_blstm audio

nvidia/stt_es_conformer_ctc_large audio

Jzuluaga/wav2vec2-xls-r-300m-en-atc-uwb-atcc audio

optimum/whisper-tiny.en audio

facebook/xm_transformer_600m-en_zh-multi_domain audio

nvidia/stt_es_fastconformer_hybrid_large_pc audio

JorisCos/ConvTasNet_Libri3Mix_sepclean_8k audio

KBLab/wav2vec2-large-voxrex audio

espnet/kan-bayashi_jsut_conformer_fastspeech2 audio

espnet/kan-bayashi_jsut_vits_prosody audio

espnet/kan-bayashi_ljspeech_fastspeech2 audio

espnet/kan-bayashi_tsukuyomi_tts_finetune_full_band_jsut_vits_raw_phn_jaconv_pyopenjtalk_prosody_latest audio

espnet/pengcheng_guo_wenetspeech_asr_train_asr_raw_zh_char audio

facebook/tts_transformer-en-200_speaker-cv4 audio

nvidia/stt_zh_conformer_transducer_large audio

MehdiHosseiniMoghadam/wav2vec2-large-xlsr-53-French audio

espnet/kan-bayashi_csmsc_tts_train_full_band_vits_raw_phn_pypinyin_g2p_phone_train.total_count.ave audio

espnet/kan-bayashi_jsut_tacotron2_prosody audio

facebook/s2t-small-covost2-es-en-st audio

aware-ai/wav2vec2-large-xlsr-53-german-with-lm audio