audio - AI Model Zoo - BimAnt

Multimodal

Feature Extraction Text-to-Image Image-to-Text Text-to-Video Visual Question Answering Document Question Answering Graph Machine Learning

Computer Vision

Depth Estimation Image Classification Object Detection Image Segmentation Image-to-Image Unconditional Image Generation Video Classification Zero-Shot Image Classification

Natural Language Processing

Text Classification Token Classification Table Question Answering Question Answering Zero-Shot Classification Translation Summarization Conversational Text Generation Text2Text Generation Fill-Mask Sentence Similarity

Audio

Text-to-Speech Text-to-Audio Automatic Speech Recognition Audio-to-Audio Audio Classification Voice Activity Detection

Tabular

Tabular Classification Tabular Regression

Reinforcement Learning

Reinforcement Learning Robotics

NSDT 3DConvert

Convert 30+ 3D formats online: GLTF, GLB, GBX, OBJ, DAE, IFC, STEP, STL...

UnrealSynth

Unreal engine based photo realistic synthetic data generator for YOLO.

DreamTexture.js

AI powered 3d texture generation and projection SDK for three.js.

Models with tag audio retrieved: 1539

Classroom-workshop/assignment1-jane audio

nvidia/stt_en_citrinet_384_ls audio

nvidia/stt_ca_conformer_ctc_large audio

nvidia/stt_rw_conformer_ctc_large audio

nguyenvulebinh/wav2vec2-base-ja audio

espnet/slurp_slu_2pass audio

facebook/unit_hifigan_mhubert_vp_en_es_fr_it3_400k_layer11_km1000_es_css10 audio

nvidia/stt_it_conformer_transducer_large audio

carlosdanielhernandezmena/stt_is_quartznet15x5_ft_ep56_875h audio

nvidia/stt_eo_conformer_ctc_large audio

pyf98/swbd_e_branchformer audio

pyf98/voxforge_it_conformer_e15_linear1024 audio

quaja/hubert-base-amharic-speech-emotion-recognition audio

speechcatcher/speechcatcher_german_espnet_streaming_transformer_26k_train_size_s_raw_de_bpe1024 audio

language-and-voice-lab/whisper-large-icelandic-30k-steps-1000h-ct2 audio

espnet/guangzhisun_librispeech100_asr_train_conformer_transducer_tcpgen500_deep_sche30_GCN6L_rep_suffix audio

jerichosiahaya/faster-whisper-medium-id audio

yongchanskii/Whisper-for-developers audio

SameerMahajan/marathi-numbers-100 audio

transiteration/stt_kz_quartznet15x5 audio