采集18种语言,每种语言录制150人,每个录音人录制200句。
1.1 要求是本国人员。性别、年龄、口音要求如下:
性别比例:
每个采集男女 : 40%~60%
18种语言:
语言 |
备注 |
-Indian |
|
-US |
|
-UK |
|
- French |
|
- Mandarin |
|
- German |
|
- Spanish |
|
- Italian |
|
- Dutch |
|
- Portuguese |
巴西葡萄牙语 |
-Portugal |
欧洲葡萄牙语 |
-Brazil |
|
- Japanese |
|
- Polish |
|
- Arabic |
|
- Farsi |
|
- Turkish |
|
- Hebrew |
|
1.1 发音清楚,避免说话不清、中途咳嗽等现象出现。
1.2 参加录音的人必须事先了解录音要求(录音方法、发音标准、录音环境、朗读要求、合格指标)。
1.3 每人只能录制一份该项目录音。如出现一人录制多份数据的现象将取消相应报酬。
1.4 录制人员对录音人的录音号段做好分配,避免号段重复使用。
2.1 录音设备及软件
手机:苹果和安卓(android)系统都涵盖
2.2 录音环境
安静的室内,不能有其他人说话声、笑声,及其他噪音(鼠标点击声、敲击键盘声、空调声、音乐声、汽车声、风声、撞击声、突发噪音等),无回音,无空旷音。(不能在空旷的场地采集,例如:教室、礼堂、厕所、酒店大厅等。)
周边噪声关联事项:
1) 录音人外其他人的声音不采用,如有其他人声音录制进来,在人工判断时对实际录音人的数据影响不明显可算合格。
2) 录音人的喘气声可以采用,但是声音过大为不合格。
3) 其他噪音不采用。
例如:摔东西的声音、关门声、喝水声、笑声、音乐声、咳嗽声、车声等。
1.1 录音数据格式
数据格式为无压缩WAV格式,采样率为16kHz,16bit量化,单通道。
1.2 朗读要求
1) 用指定语言朗读所有句子,必须是同一录音人完成一份语料的全部200句。
|
语句1 |
语句2 |
语句3 |
语句4 |
语句5 |
小音量 |
12遍 |
12遍 |
12遍 |
12遍 |
12遍 |
标准音量 |
16遍 |
16遍 |
16遍 |
16遍 |
16遍 |
大音量 |
12遍 |
12遍 |
12遍 |
12遍 |
12遍 |