簡介 - 語料庫
中研院中文對話語音語料庫(TMC語料庫)」為43小時的中文對話語音資料,包含30個自由對話(MCDC8和MCDC22)、29個特定主題對話和26個地圖任務對話(MTCC和MMTC)。每個對話的平均時長分別為1小時、20分鐘及10分鐘。TMC 語料庫具備對話情境及對話夥伴是否熟識的平衡設計。 一共記錄了年齡在16歲至63歲之間的98名女性和72名男性語者語音資料。 其中有26位語者參加了所有三個子語料庫的錄音計畫。錄音時使用SONY TCD-D10 Pro II DAT 數位錄音機與Audio-Technica ATM 33a麥克風,48 kHz 的採樣率。錄音地點在中央研究院語言學研究所的安靜房間,個別語者以獨立聲道錄音。對話內容以繁體中文轉寫,口語對話中經常出現的語助詞、言談標記、填充詞等都轉寫時予以相應註釋。本檢索系統的拼音及詞類,僅MCDC8經過人工檢查,其餘語料庫皆為自動處理結果,請謹慎使用。語料庫的統計數據如下。
IPU | 81,237 |
Word | Lexical words: 397,693 (15,105) |
1-syllabic words: 224,343 (1,580) | |
2-syllabic words: 153,240 (9,705) | |
3-syllabic words: 17,322 (2,942) | |
Others: 2,788 (878) | |
Discourse-related items: 175,318 (2,419) | |
Discourse particles: 29,421 (36) | |
Discourse markers: 12,164 (16) | |
Fillers: 16,721 (34) | |
POS | Verbs: 98,090 (6,261, 16) |
Adverbs: 80,190 (657,64) | |
Nouns: 75,559 (8,210,7) | |
Pronouns: 39,453 (50, 1) | |
Determinatives: 24,865 (526, 5) | |
Preposition: 14,464 (100, 1) | |
Conjunctions: 17,950 (94, 4) | |
Structural particles DE: 16,342 (5, 1) | |
Classifiers: 12,969 (165, 1) | |
Particles: 3,802 (22, 1) | |
Adjectives: 813 (193, 1) | |
Interjection: 8 (4, 1) | |
Copula: 13,141 (3, 1) | |
Foreign words: 1,470 (473, 1) | |
Character | 594,238 (2,952) |
Syllable | Tone-distinctive 1,086 |
No tone distinction 403 | |
Phoneme | 1,429,518 |
「中研院台灣華語社會語音語料庫」為國家型數位典藏計畫資助之計畫成果。此語料庫記錄台灣華語的當代口語使用情況。錄音遍及北、中、南十二個地區,包括宜蘭縣、桃園縣、新竹縣、台中市、南投縣、雲林縣、嘉義市、彰化縣、台南市、高雄市、高雄縣、 和台北市。共有1,402人次的採訪。對象主要為20至40歲的世代。錄音地點多為公園、郵局或銀行等公共場所,因為我們認為這些地方較有可能採訪到當地人。錄音時Sony Hi-MD MZ-RH1數位錄音機與Sony ECM MS907 麥克風,44.1 kHz 採樣率。採訪內容包括受訪者的語言使用、社會經濟背景和網路使用情況等三大類訊息,共25個題項。受訪者的回答內容以繁體中文轉寫。語料庫的統計數據如下。
IPU | 124,916 |
Word | Lexical words: 284,196 (7,085) |
1-syllabic words: 133,354 (1,007) | |
2-syllabic words: 129,060 (4,218) | |
3-syllabic words: 20,348 (1,585) | |
Others: 1,434 (275) | |
Discourse-related items: 122,634 (718) | |
Discourse particles: 28,928 (33) | |
Discourse markers: 3,993 (12) | |
Fillers: 28,826 (21) | |
POS | Verbs: 58,894 (2,135, 16) |
Adverbs: 42,750 (367, 6) | |
Nouns: 88,146 (4,423, 7) | |
Pronouns: 10,020 (33, 1) | |
Determinatives: 18,700 (362, 5) | |
Preposition: 11,499 (66, 1) | |
Conjunctions: 9,817 (64, 4) | |
Structural particles DE: 6,655 (7, 1) | |
Classifiers: 5,917 (76, 1) | |
Particles: 6,324 (19, 1) | |
Adjectives: 683 (102, 1) | |
Interjection: 3 (2, 1) | |
Copula: 10,275 (4, 1) | |
Foreign words: 2,579 (235, 1) | |
Character | 458,320 (2,006) |
Syllable | Tone-distinctive 929 |
No tone distinction 375 | |
Phoneme | 1,102,753 |
「中研院兒童語音語料庫」由國家科學及技術委員會和雅文兒童聽語文教基金會資助完成。包含79名2~6歲聽力正常(NH)的學齡前兒童和45名3~12歲聽力受損(HI)兒童的複誦和口述語音語料。HI兒童其中30名佩戴傳統助聽器(輕度至重度聽力損失);15名使用人工耳蝸(重度至重度聽力損失)。HI兒童錄音 使用雅文兒童聽語文教基金會隔音教室內建的錄影設備錄製。NH兒童在中央研究院語言學研究所的隔音錄音間或幼兒園安靜的教室中使用Sony Hi-MD MZ-RH1數位錄音機和Sony ECM MS907麥克風進行錄音。口述語音語料以說故事方式進行,錄音時以《龜兔賽跑》固定順序的圖卡誘導兒童口述故事內容。內容以繁體中文轉寫。語料庫的統計數據如下。
HI | NH | ||
IPU | 2,208 | 2,727 | |
Word | Lexical words | 5,193(503) | 6,436(559) |
1-syllabic words | 3,002(181) | 3,863(205) | |
2-syllabic words | 2,123(276) | 2,484(305) | |
3-syllabic words | 61(40) | 86(46) | |
Others | 7(6) | 3(3) | |
Discourse-related items | 2,778(42) | 3,695(51) | |
Discourse particles | 75(14) | 52(16) | |
Discourse markers | 21(4) | 53(8) | |
Fillers | 56(8) | 214(11) | |
POS | Verbs | 1,612(252,16) | 1,857(287,16) |
Adverbs | 1,038(71,6) | 1,388(75,6) | |
Nouns | 1,209(135,7) | 1,254(148,7) | |
Pronouns | 334(10,1) | 650(11,1) | |
Determinatives | 251(25,5) | 344(28,5) | |
Preposition | 155(15,1) | 241(20,1) | |
Conjunctions | 79(15,4) | 92(15,4) | |
Structural particles DE | 131(2,1) | 107(2,1) | |
Classifiers | 163(7,1) | 239(8,1) | |
Particles | 170(10,1) | 183(10,1) | |
Adjectives | 2(1,1) | 2(1,1) | |
Interjection | 0 | 0 | |
Copula | 49(1,1) | 72(2,1) | |
Character | 7,467(378) | 9,102(408) | |
Syllable | Tone-distinctive | 311 | 349 |
No tone distinction | 215 | 236 | |
Phoneme | 17,046 | 21,022 |