TIMIT

TIMIT（英語：The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus），是由德州仪器、麻省理工学院和SRI International合作构建的声学－音素连续语音语料库。

TIMIT数据集的语音采样频率为16kHz，一共包含6300个句子，由来自美国八个主要方言地区的630个人每人说出给定的10个句子，所有的句子都在音素级别（phone level）上进行了手动分割，标记。70%的说话人是男性；大多数说话者是成年白人。

外部連結

官方网站（英文）

查论编语料库语言学

英語文字語料庫	美國國立語料庫（英语：American National Corpus）英語銀行（英语：Bank of English） Bergen Corpus of London Teenage Language（英语：Bergen Corpus of London Teenage Language）英國國立語料庫（英语：British National Corpus）布朗語料庫（英语：Brown Corpus） Buckeye Corpus（英语：Buckeye Corpus）劍橋英語語料庫（英语：Cambridge English Corpus）美國當代英語語料庫（英语：Corpus of Contemporary American English） Enron Corpus（英语：Enron Corpus） International Corpus of English（英语：International Corpus of English） LOB語料庫（英语：Lancaster-Oslo-Bergen Corpus）牛津英語語料庫（英语：Oxford English Corpus） PropBank（英语：PropBank） Spoken English Corpus（英语：Spoken English Corpus） TIMIT VerbNet（英语：VerbNet） Wellington Corpus of Spoken New Zealand English（英语：Wellington Corpus of Spoken New Zealand English）

非英語文字語料庫	Bijankhan Corpus（英语：Bijankhan Corpus） CHILDES（英语：CHILDES） Croatian Language Corpus（英语：Croatian Language Corpus） Croatian National Corpus（英语：Croatian National Corpus） Europarl Corpus（英语：Europarl Corpus） German Reference Corpus（英语：German Reference Corpus） Hamshahri Corpus（英语：Hamshahri Corpus）波蘭國立語料庫（英语：National Corpus of Polish） Neo-Assyrian Text Corpus Project（英语：Neo-Assyrian Text Corpus Project）古蘭經阿拉伯語語料庫（英语：Quranic Arabic Corpus）俄羅斯國立語料庫（英语：Russian National Corpus） Scottish Corpus of Texts and Speech（英语：Scottish Corpus of Texts and Speech） Slovenian National Corpus（英语：Slovenian National Corpus） TalkBank（英语：TalkBank） Tatoeba Tehran Monolingual Corpus（英语：Tehran Monolingual Corpus） Tekstaro de Esperanto（英语：Tekstaro de Esperanto） Thesaurus Linguae Graecae（英语：Thesaurus Linguae Graecae）

組織	英國國立語料庫（英语：British National Corpus） COBUILD（英语：COBUILD）

这是一篇语言学小作品。您可以通过编辑或修订扩充其内容。

查
论
编

frontpage hit counter

Medium | kindergartner