建立模型需要大量样本
高任飞所说的计划,是由浙江大学文学院、阿里巴巴AI Data团队牵头,浙大城市学院杭州语言服务协同创新研究中心协办的杭州方言保护计划,也是“阿里×浙大智能语音技术方言解析能力提升计划”的核心部分。
高任飞说,杭州话在读音上,会出现7个声调,普通话则是4个,有时候一段语句中杭州话甚至会出现13个声调。
“比如‘西湖’这个词,‘西’用杭州话单独念,是‘xi’(一声),‘湖’是‘hu’(二声),但‘西湖’连起来读,则是‘xi(一声)hu(平声)’。”高任飞说,这与北京话的儿化音有点类似,但比儿化音更复杂,“所以模型的建立需要大量样本。”
“这次我们主要邀请自幼大部分时间生活在杭州老城区、能说一口自然地道杭州话的老杭州,考虑到杭州各区方言有所不同,本次主要采集杭州老城区及西湖周边龙井、梅家坞一带的杭州方言,余杭、萧山、彭埠、转塘等地方言暂不纳入。”
从11岁小学生到85岁老人
近千人踊跃参与“海选”
市民扫描二维码进入页面,登录后看到一段文本,用杭州话念出来,将录音上传,即可参与。
文本一部分来自高任飞写的小说《点香烛》和《杭味廿篇》,还有一部分是他创作的,“不是随便拿一句话让大家朗读,首先要贴合口语,更容易说出来而非写出来,同时要确认这句话里每一个字的发音与本字相对应,不然输入AI中容易出现错别字”。
比如这几个例句:
他们娘坦悠悠从灶间里跑出,桌子一搡,一只笃栗子敲到他额角头,就开始骂山门。
他刀儿搠来搠去,大家一道生把他用索儿缚牢,防恐他脑子发热,闯出祸水来。
吃螺蛳个时光,厣儿是吃不来的,你嫑囫囵吞!
他衣裳也不汏的,邋里邋遢,我看了厌憎杀嘚。
嗰桩事体你是蟹儿抱西瓜,弄不来的。
他自家一点数账也没有的,作惯黄瓜儿跟牢丝瓜儿荡。
嫑噱来噱去,你只手表多少洋钿买的同我不搭界的。
高任飞粗略统计了下,春节期间有近千人参与了项目“海选”。
“年纪最大的超过85岁,最小的只有11岁,还是小学生。”高任飞说,近千个样本后期他要和同事们仔细筛选。
“我们的海选到后期参与的朋友越来越多,我们也为他们颁发了荣誉证书,以表谢意。”高任飞说。
杭州话是老底子杭州人的乡音、母语,或许你还没来得及参加这次的征集活动,但你也可以来橙柿互动App橙柿直通车论坛,拍摄一段你说杭州话的视频并发送,你可以说说你对保护杭州话的想法,你也可以用杭州话介绍杭州,这里畅所欲言。
扫码下载橙柿互动App,点击底部“+”号,可选择发布你的杭州话视频。
