簡介 - 語料庫
中研院中文對話語音語料庫(TMC語料庫)」為43小時的中文對話語音資料,包含30個自由對話(MCDC8和MCDC22)、29個特定主題對話和26個地圖任務對話(MTCC和MMTC)。每個對話的平均時長分別為1小時、20分鐘及10分鐘。TMC 語料庫具備對話情境及對話夥伴是否熟識的平衡設計。 一共記錄了年齡在16歲至63歲之間的98名女性和72名男性語者語音資料。 其中有26位語者參加了所有三個子語料庫的錄音計畫。錄音時使用SONY TCD-D10 Pro II DAT 數位錄音機與Audio-Technica ATM 33a麥克風,48 kHz 的採樣率。錄音地點在中央研究院語言學研究所的安靜房間,個別語者以獨立聲道錄音。對話內容以繁體中文轉寫,口語對話中經常出現的語助詞、言談標記、填充詞等都轉寫時予以相應註釋。本檢索系統的拼音及詞類,僅MCDC8經過人工檢查,其餘語料庫皆為自動處理結果,請謹慎使用。語料庫的統計數據如下。
IPU | 81,237 |
Word | Lexical words: 397,693 (15,105) |
1-syllabic words: 224,343 (1,580) | |
2-syllabic words: 153,240 (9,705) | |
3-syllabic words: 17,322 (2,942) | |
Others: 2,788 (878) | |
Discourse-related items: 175,318 (2,419) | |
Discourse particles: 29,421 (36) | |
Discourse markers: 12,164 (16) | |
Fillers: 16,721 (34) | |
POS | Verbs: 98,090 (6,261, 16) |
Adverbs: 80,190 (657,64) | |
Nouns: 75,559 (8,210,7) | |
Pronouns: 39,453 (50, 1) | |
Determinatives: 24,865 (526, 5) | |
Preposition: 14,464 (100, 1) | |
Conjunctions: 17,950 (94, 4) | |
Structural particles DE: 16,342 (5, 1) | |
Classifiers: 12,969 (165, 1) | |
Particles: 3,802 (22, 1) | |
Adjectives: 813 (193, 1) | |
Interjection: 8 (4, 1) | |
Copula: 13,141 (3, 1) | |
Foreign words: 1,470 (473, 1) | |
Character | 594,238 (2,952) |
Syllable | Tone-distinctive 1,086 |
No tone distinction 403 | |
Phoneme | 1,429,518 |
「中研院台灣華語社會語音語料庫」為國家型數位典藏計畫資助之計畫成果。此語料庫記錄台灣華的當代口語使用情況。錄音遍及北、中、南十二個地區,包括宜蘭縣、桃園縣、新竹縣、台中市、南投縣、雲林縣、嘉義市、彰化縣、台南市、高雄市、高雄縣、 和台北市。共有1,402人次的採訪。對象主要為20至40歲的世代。錄音地點多為公園、郵局或銀行等公共場所,因為我們認為這些地方較有可能採訪到當地人。錄音時Sony Hi-MD MZ-RH1數位錄音機與Sony ECM MS907 麥克風,44.1 kHz 採樣率。採訪內容包括受訪者的語言使用、社會經濟背景和網路使用情況等三大類訊息,共25個題項。受訪者的回答內容以繁體中文轉寫。語料庫的統計數據如下。
IPU | 124,916 |
Word | Lexical words: 284,196 (7,085) |
1-syllabic words: 133,354 (1,007) | |
2-syllabic words: 129,060 (4,218) | |
3-syllabic words: 20,348 (1,585) | |
Others: 1,434 (275) | |
Discourse-related items: 122,634 (718) | |
Discourse particles: 28,928 (33) | |
Discourse markers: 3,993 (12) | |
Fillers: 28,826 (21) | |
POS | Verbs: 58,894 (2,135, 16) |
Adverbs: 42,750 (367, 6) | |
Nouns: 88,146 (4,423, 7) | |
Pronouns: 10,020 (33, 1) | |
Determinatives: 18,700 (362, 5) | |
Preposition: 11,499 (66, 1) | |
Conjunctions: 9,817 (64, 4) | |
Structural particles DE: 6,655 (7, 1) | |
Classifiers: 5,917 (76, 1) | |
Particles: 6,324 (19, 1) | |
Adjectives: 683 (102, 1) | |
Interjection: 3 (2, 1) | |
Copula: 10,275 (4, 1) | |
Foreign words: 2,579 (235, 1) | |
Character | 458,320 (2,006) |
Syllable | Tone-distinctive 929 |
No tone distinction 375 | |
Phoneme | 1,102,753 |
「中研院兒童語音語料庫」由國家科學及技術委員會和雅文兒童聽語文教基金會資助完成。包含79名2~6歲聽力正常(NH)的學齡前兒童和45名3~12歲聽力受損(HI)兒童的複誦和口述語音語料。HI兒童其中30名佩戴傳統助聽器(輕度至重度聽力損失);15名使用人工耳蝸(重度至重度聽力損失)。HI兒童錄音 使用雅文兒童聽語文教基金會隔音教室內建的錄影設備錄製。NH兒童在中央研究院語言學研究所的隔音錄音間或幼兒園安靜的教室中使用Sony Hi-MD MZ-RH1數位錄音機和Sony ECM MS907麥克風進行錄音。口述語音語料以說故事方式進行,錄音時以《龜兔賽跑》固定順序的圖卡誘導兒童口述故事內容。內容以繁體中文轉寫。語料庫的統計數據如下。
HI | NH | ||
IPU | 2,208 | 2,727 | |
Word | Lexical words | 5,193(503) | 6,436(559) |
1-syllabic words | 3,002(181) | 3,863(205) | |
2-syllabic words | 2,123(276) | 2,484(305) | |
3-syllabic words | 61(40) | 86(46) | |
Others | 7(6) | 3(3) | |
Discourse-related items | 2,778(42) | 3,695(51) | |
Discourse particles | 75(14) | 52(16) | |
Discourse markers | 21(4) | 53(8) | |
Fillers | 56(8) | 214(11) | |
POS | Verbs | 1,612(252,16) | 1,857(287,16) |
Adverbs | 1,038(71,6) | 1,388(75,6) | |
Nouns | 1,209(135,7) | 1,254(148,7) | |
Pronouns | 334(10,1) | 650(11,1) | |
Determinatives | 251(25,5) | 344(28,5) | |
Preposition | 155(15,1) | 241(20,1) | |
Conjunctions | 79(15,4) | 92(15,4) | |
Structural particles DE | 131(2,1) | 107(2,1) | |
Classifiers | 163(7,1) | 239(8,1) | |
Particles | 170(10,1) | 183(10,1) | |
Adjectives | 2(1,1) | 2(1,1) | |
Interjection | 0 | 0 | |
Copula | 49(1,1) | 72(2,1) | |
Character | 7,467(378) | 9,102(408) | |
Syllable | Tone-distinctive | 311 | 349 |
No tone distinction | 215 | 236 | |
Phoneme | 17,046 | 21,022 |
「中研院兒童語音習得語料庫」為中央研究院語言學研究所收集798名新北市與台北市學齡前兒童念讀「中研院兒童語音平衡詞表」之語音資料。人數統計資料如表1。依據園方回報,所有孩童皆無任何語言、聽力和智力發展相關疾病,雙耳皆通過1000Hz、2000Hz與4000Hz,聽覺閥值20dB的純音聽力篩檢。「中研院兒童語音習得語料庫」於2017年經中央研究院人文倫理審查委員會審查通過開始執行(AS-IRB-HS07-107079)。由園方協助收集孩童家庭照護與語言使用等個人資料及取得家長簽署之計畫知情同意書。。如表2所列,「中研院兒童語音平衡詞表」由70個多字詞組組成,共有148個音節。所有聲母於第一音節及第二音節位置至少出現一次,並覆蓋所有雙音節聲調組合及多種詞語語意範疇。798名兒童共計錄音55,860詞語/118,104 音節,經中研院自動切音系統處理及人工驗證全數音節邊界,以供後續語音分析及模型建立使用。
表1. 中研院兒童語音習得語料庫人數統計資料
3歲~3歲半 | 3歲半~4歲 | 4歲~4歲半 | 4歲半~5歲 | 5歲~5歲半 | 5歲半~6歲 | 6歲~6歲半 | 6歲半~7歲 | 總計 | |
男 | 10 | 40 | 64 | 55 | 65 | 64 | 79 | 22 | 399 |
女 | 21 | 52 | 58 | 64 | 53 | 62 | 60 | 29 | 399 |
表2. 中研院兒童語音平衡詞表
動物 | 食物 | 交通工具 | 身體部位 | 動作 | 物品 | 遊戲 | 地點 | 景觀 | 節日 |
天鵝 | 牛奶 | 火車 | 牙齒 | 吃飯 | 皮鞋 | 大富翁 | 花園 | 月亮 | 生日 |
母雞 | 牛排 | 汽車 | 耳朵 | 走路 | 吸管 | 吹泡泡 | 客廳 | 白雲 | |
老虎 | 芒果 | 飛機 | 嘴巴 | 爬山 | 玩具 | 足球 | 噴水池 | 斷崖 | |
老鷹 | 果汁 | 穿衣服 | 時鐘 | 拼圖 | 廚房 | ||||
兔子 | 草莓 | 掃地 | 茶杯 | 積木 | 學校 | ||||
刺蝟 | 甜甜圈 | 淋雨 | 彩色筆 | ||||||
恐龍 | 蛋糕 | 游泳 | 窗戶 | ||||||
烏龜 | 葡萄 | 買菜 | 鈕扣 | ||||||
蜘蛛 | 壽司 | 睡覺 | 溫度計 | ||||||
蜜蜂 | 熱狗 | 說話 | 筷子 | ||||||
螃蟹 | 饅頭 | 寫字 | 電視 | ||||||
醜小鴨 | 蘋果 | 騎馬 | 盤子 | ||||||
關燈 | 輪胎 |