ESPnet

non-profit

https://github.com/espnet/espnet

espnet

Activity Feed Request to join this org

AI & ML interests

voice-conversion speech-separation speech-enhancement speech-translation speech-synthesis speech-recognition spoken-language-understanding

Recent Activity

wanchichen published a model about 17 hours ago

espnet/xeus_ckpts

JinchuanTian published a dataset 4 days ago

espnet/emi

qingzhengwang published a dataset 6 days ago

espnet/oooo_text

View all activity

wanchichen

published a model about 17 hours ago

espnet/xeus_ckpts

Updated about 17 hours ago

JinchuanTian

published a dataset 4 days ago

espnet/emi

Updated 4 days ago • 1

qingzhengwang

published a dataset 6 days ago

espnet/oooo_text

Updated 6 days ago • 1

qingzhengwang

updated 2 datasets 6 days ago

espnet/oooo_cap

Preview • Updated 6 days ago • 11

espnet/laion_audio_300m_cap

Viewer • Updated 6 days ago • 65.4M • 10

qingzhengwang

published 2 datasets 6 days ago

espnet/laion_audio_300m_cap

Viewer • Updated 6 days ago • 65.4M • 10

espnet/oooo_cap

Preview • Updated 6 days ago • 11

JinchuanTian

updated a dataset 8 days ago

espnet/oooo

Viewer • Updated 8 days ago • 225M • 793

shikhar7ssu

authored a paper 20 days ago

OpenBEATs: A Fully Open-Source General-Purpose Audio Encoder

Paper • 2507.14129 • Published Jul 18 • 9

shikhar7ssu

authored a paper about 1 month ago

POWSM: A Phonetic Open Whisper-Style Speech Foundation Model

Paper • 2510.24992 • Published Oct 28 • 2

huckiyang

authored 10 papers about 2 months ago

Generative Speech Recognition Error Correction with Large Language Models and Task-Activating Prompting

Paper • 2309.15649 • Published Sep 27, 2023 • 1

Conditional Modeling Based Automatic Video Summarization

Paper • 2311.12159 • Published Nov 20, 2023 • 1

Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue

Paper • 2312.15316 • Published Dec 23, 2023

Multimodal Attention Merging for Improved Speech Recognition and Audio Event Classification

Paper • 2312.14378 • Published Dec 22, 2023

GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators

Paper • 2402.06894 • Published Feb 10, 2024 • 1

Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data

Paper • 2409.20007 • Published Sep 30, 2024 • 1

Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks

Paper • 2411.05361 • Published Nov 8, 2024 • 3

Towards Neural Scaling Laws for Time Series Foundation Models

Paper • 2410.12360 • Published Oct 16, 2024

Plan2Align: Predictive Planning Based Test-Time Preference Alignment in Paragraph-Level Machine Translation

Paper • 2502.20795 • Published Feb 28

Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition

Paper • 2409.09785 • Published Sep 15, 2024