audio - AI Model Zoo - BimAnt

Multimodal

Feature Extraction Text-to-Image Image-to-Text Text-to-Video Visual Question Answering Document Question Answering Graph Machine Learning

Computer Vision

Depth Estimation Image Classification Object Detection Image Segmentation Image-to-Image Unconditional Image Generation Video Classification Zero-Shot Image Classification

Natural Language Processing

Text Classification Token Classification Table Question Answering Question Answering Zero-Shot Classification Translation Summarization Conversational Text Generation Text2Text Generation Fill-Mask Sentence Similarity

Audio

Text-to-Speech Text-to-Audio Automatic Speech Recognition Audio-to-Audio Audio Classification Voice Activity Detection

Tabular

Tabular Classification Tabular Regression

Reinforcement Learning

Reinforcement Learning Robotics

NSDT 3DConvert

Convert 30+ 3D formats online: GLTF, GLB, GBX, OBJ, DAE, IFC, STEP, STL...

UnrealSynth

Unreal engine based photo realistic synthetic data generator for YOLO.

DreamTexture.js

AI powered 3d texture generation and projection SDK for three.js.

Models with tag audio retrieved: 1539

espnet/kan-bayashi_ljspeech_transformer audio

espnet/siddhana_slue_asr_train_asr_conformer_raw_en_word_valid.acc.ave_10best audio

espnet/simpleoier_librispeech_asr_train_asr_conformer7_wav2vec2_960hr_large_raw_en_bpe5000_sp audio

facebook/wav2vec2-base-es-voxpopuli-v2 audio

facebook/wav2vec2-base-hr-voxpopuli-v2 audio

facebook/wav2vec2-base-sl-voxpopuli-v2 audio

facebook/wav2vec2-base-sv-voxpopuli-v2 audio

facebook/wav2vec2-large-10k-voxpopuli audio

facebook/wav2vec2-large-sv-voxpopuli audio

jaketae/hifigan-lj-v1 audio

shahukareem/wav2vec2-large-xlsr-53-dhivehi-v2 audio

voidful/tts_hubert_cluster_bart_base audio

pyf98/librispeech_conformer audio

nguyenvulebinh/iwslt-asr-wav2vec-large-4500h audio

swayam01/hindi-clsril-100 audio

CAiRE/wav2vec2-large-xlsr-53-cantonese audio

patrickvonplaten/wav2vec2-base-960h-4-gram audio

pyf98/aishell_conformer_e12_amp audio

nvidia/stt_ca_conformer_transducer_large audio

nvidia/stt_rw_conformer_transducer_large audio