audio - AI Model Zoo - BimAnt

Multimodal

Feature Extraction Text-to-Image Image-to-Text Text-to-Video Visual Question Answering Document Question Answering Graph Machine Learning

Computer Vision

Depth Estimation Image Classification Object Detection Image Segmentation Image-to-Image Unconditional Image Generation Video Classification Zero-Shot Image Classification

Natural Language Processing

Text Classification Token Classification Table Question Answering Question Answering Zero-Shot Classification Translation Summarization Conversational Text Generation Text2Text Generation Fill-Mask Sentence Similarity

Audio

Text-to-Speech Text-to-Audio Automatic Speech Recognition Audio-to-Audio Audio Classification Voice Activity Detection

Tabular

Tabular Classification Tabular Regression

Reinforcement Learning

Reinforcement Learning Robotics

Models with tag audio retrieved: 1539

espnet/belarusian_commonvoice_blstm audio

imdanboy/ljspeech_tts_train_jets_raw_phn_tacotron_g2p_en_no_space_train.total_count.ave audio

mbazaNLP/stt_rw_sw_lg_conformer_ctc_large audio

pyf98/librispeech_100_transducer_conformer audio

Sangramsing/whisper-large audio

badili/stt_sw_conformer_ctc_small audio

voices/VCTK_European_English_Males audio

mort666/faster-whisper-large-v2-th audio

arc-r/faster-whisper-large-zh-cv11 audio

DeividasM/wav2vec2-large-xlsr-53-lithuanian audio

Ilyes/wav2vec2-large-xlsr-53-french_punctuation audio

anton-l/wav2vec2-large-xlsr-53-mongolian audio

cahya/wav2vec2-base-turkish-artificial-cv audio

espnet/ftshijt_mls_asr_transformer_valid.acc.best audio

espnet/kan-bayashi_csmsc_tts_train_transformer_raw_phn_pypinyin_g2p_phone_train.loss.ave audio

espnet/kan-bayashi_csmsc_tts_train_vits_raw_phn_pypinyin_g2p_phone_train.total_count.ave audio

espnet/kan-bayashi_jsut_fastspeech audio

espnet/kan-bayashi_jsut_fastspeech2 audio

espnet/kan-bayashi_jsut_tts_train_conformer_fastspeech2_transformer_teacher_r-truncated-74c1b4 audio

espnet/kan-bayashi_jsut_tts_train_fastspeech2_transformer_teacher_raw_phn_jac-truncated-6f4cf5 audio