TIMIT

TIMIT(英語:The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus),是由德州仪器麻省理工学院和SRI International合作构建的声学-音素连续语音语料库。

TIMIT数据集的语音采样频率为16kHz,一共包含6300个句子,由来自美国八个主要方言地区的630个人每人说出给定的10个句子,所有的句子都在音素级别(phone level)上进行了手动分割,标记。70%的说话人是男性;大多数说话者是成年白人。

外部連結

  • 官方网站 (英文)
英語文字語料庫
  • 美國國立語料庫英语American National Corpus
  • 英語銀行英语Bank of English
  • Bergen Corpus of London Teenage Language英语Bergen Corpus of London Teenage Language
  • 英國國立語料庫英语British National Corpus
  • 布朗語料庫英语Brown Corpus
  • Buckeye Corpus英语Buckeye Corpus
  • 劍橋英語語料庫英语Cambridge English Corpus
  • 美國當代英語語料庫英语Corpus of Contemporary American English
  • Enron Corpus英语Enron Corpus
  • International Corpus of English英语International Corpus of English
  • LOB語料庫英语Lancaster-Oslo-Bergen Corpus
  • 牛津英語語料庫英语Oxford English Corpus
  • PropBank英语PropBank
  • Spoken English Corpus英语Spoken English Corpus
  • TIMIT
  • VerbNet英语VerbNet
  • Wellington Corpus of Spoken New Zealand English英语Wellington Corpus of Spoken New Zealand English
非英語文字語料庫
  • Bijankhan Corpus英语Bijankhan Corpus
  • CHILDES英语CHILDES
  • Croatian Language Corpus英语Croatian Language Corpus
  • Croatian National Corpus英语Croatian National Corpus
  • Europarl Corpus英语Europarl Corpus
  • German Reference Corpus英语German Reference Corpus
  • Hamshahri Corpus英语Hamshahri Corpus
  • 波蘭國立語料庫英语National Corpus of Polish
  • Neo-Assyrian Text Corpus Project英语Neo-Assyrian Text Corpus Project
  • 古蘭經阿拉伯語語料庫英语Quranic Arabic Corpus
  • 俄羅斯國立語料庫英语Russian National Corpus
  • Scottish Corpus of Texts and Speech英语Scottish Corpus of Texts and Speech
  • Slovenian National Corpus英语Slovenian National Corpus
  • TalkBank英语TalkBank
  • Tatoeba
  • Tehran Monolingual Corpus英语Tehran Monolingual Corpus
  • Tekstaro de Esperanto英语Tekstaro de Esperanto
  • Thesaurus Linguae Graecae英语Thesaurus Linguae Graecae
組織
  • 英國國立語料庫英语British National Corpus
  • COBUILD英语COBUILD


小作品圖示这是一篇语言学小作品。您可以通过编辑或修订扩充其内容。