audio - AI Model Zoo - BimAnt

Multimodal

Feature Extraction Text-to-Image Image-to-Text Text-to-Video Visual Question Answering Document Question Answering Graph Machine Learning

Computer Vision

Depth Estimation Image Classification Object Detection Image Segmentation Image-to-Image Unconditional Image Generation Video Classification Zero-Shot Image Classification

Natural Language Processing

Text Classification Token Classification Table Question Answering Question Answering Zero-Shot Classification Translation Summarization Conversational Text Generation Text2Text Generation Fill-Mask Sentence Similarity

Audio

Text-to-Speech Text-to-Audio Automatic Speech Recognition Audio-to-Audio Audio Classification Voice Activity Detection

Tabular

Tabular Classification Tabular Regression

Reinforcement Learning

Reinforcement Learning Robotics

NSDT 3DConvert

Convert 30+ 3D formats online: GLTF, GLB, GBX, OBJ, DAE, IFC, STEP, STL...

UnrealSynth

Unreal engine based photo realistic synthetic data generator for YOLO.

DreamTexture.js

AI powered 3d texture generation and projection SDK for three.js.

Models with tag audio retrieved: 1539

classla/wav2vec2-xls-r-parlaspeech-hr-lm audio

Jzuluaga/wav2vec2-large-960h-lv60-self-en-atc-uwb-atcc-and-atcosim audio

KELONMYOSA/wav2vec2-xls-r-300m-emotion-ru audio

espnet/owsm_v2 audio

franjamonga/speakerverification_en audio

espnet/owsm_v1 audio

LuisG07/wav2vec2-large-xlsr-53-spanish audio

facebook/s2t-small-covost2-en-de-st audio

SYSPIN/Marathi_Male_TTS audio

teticio/audio-diffusion-breaks-256 audio

quaja/hubert-split-data-base-amharic-speech-emotion-recognition audio

lichenda/wsj0_2mix_skim_small_causal audio

espnet/pengcheng_aishell_asr_train_asr_whisper_medium_finetune_raw_zh_whisper_multilingual_sp audio

anzorq/kbd-vits-tts-male audio

espnet/akreal_libritts_asr_phn audio

Bagus/wav2vec2-xlsr-greek-speech-emotion-recognition audio

ccoreilly/wav2vec2-large-100k-voxpopuli-catala audio

eml914/streaming_transformer_asr_librispeech audio

espnet/kan-bayashi_csmsc_vits audio

espnet/kan-bayashi_jsut_conformer_fastspeech2_accent audio