锁定上游核心资源
不少专家和从业者直言,未来的大模型之争,核心是语料库之争。
“大模型主要拼的是算法、算力和数据。算力靠芯片等硬件,算法则与数据息息相关。”柯登峰介绍,大模型算法主要分预训练、微调、人类偏好对齐、外部数据检索增强四大类,其中如预训练技术,是给大模型完成“通识基础教育”,要用百科全书式的语料;微调技术,相当于让大模型“专业定向深造”,需要医疗、教育、金融、法律等垂直领域的高质量语料库……
随着算法升级,语料库建设的专业性在不断加码。
以数据标注这一语料库建设的核心环节为例,不久前,各地曾火过一阵数据标注产业,吸引了不少人力的投入。但如今的新算法,已能让AI自主完成基础内容的标注。柯登峰打了个比方:“如果说此前的数据标注是中小学生水平,比如在图片上标注什么是树、什么是路;现在却要达到本科、硕博士水平,比如一道物理难题是如何一步步解题的,甚至还要从业多年的专家水平,比如如何判断病理。”
这些专业化的市场需求,又推动着语料库产业高速发展。
在国际上,Meta、OpenAI、谷歌等头部企业早已重金布局高质量语料库赛道,以锁定上游核心资源。国内上海等地也在大力推进语料库建设。
这场未来之争中,杭州已深度参与。
“我们在拓展专业用户,加快产品落地。”王宇介绍了同行们在努力的一个方向:培育更多市场需求。
去年,迪安诊断发布了一款订阅版科研文献智搜智能体——Repilot。它是基于海量医疗文献语料库建立的一个AI智能体。在以前,医生做课题,光文献调研,可能就要一个月,但现在输入关键词,几秒钟就能出来完整框架,还能自动匹配最新研究。
多位浙江三甲医院的医生评估,Repilot可以让他们省去约80%的低水平重复工作。
“大模型应用的重心,正由通用对话转向高价值垂直场景。融合领域知识与工作流的智能体,已成为AI商业化的关键突破口。这也可以让专业语料库建设形成资源化、价值化的闭环。”王宇说。
2月24日,迪安诊断发布了革兰氏染色涂片智能识别系统2.0版。革兰氏染色检测是识别细菌感染、指导抗生素治疗的关键手段。临床要求该检验能又快又准,但经验丰富的检验师完成一张涂片镜检,平均也要约15分钟。该系统基于迪安诊断的医学生物语料库研发,平均用时可缩短至约1分钟。
在语料库建设中,不少企业还从“卖石油”变成了兼“卖工具”,延长了产业链条。
去年,景联文发布了SolarSense语料工程平台、QApex专家众包平台。前者是统一的数据标注平台,可以把原来分散在不同团队、不同工具里的数据采集、标注和质检等流程统一起来,进而缩短交付周期、降低返工率;后者可以把专业数据传递到相关行业领域专家那里进行标注。
“语料库建设,已不再是以前的‘一次性买卖’,而是一项长期工程。”刘云涛说,这两个平台的建设,是在探索一种“平台+基地+行业”的新生产模式,以集合更多力量,实现语料库建设的规模化、可持续产出。
目前,杭州数据交易所上架的产品中,数据工具已和数据产品、数据服务成为三大主类。“智能化的数据工具能大大降低语料库建设的技术门槛,吸引更多参与者。”杭州市数据集团数据产业事业部副总经理张凯说。
面对这场未来之争,杭州还在持续培育生态,比如引进更多数据标注企业,建设语料库智能化标注基地、组建产业联盟等。
有业内人士指出,过去的标注产业偏劳动密集型,杭州的人力成本相对较高,并不占优。如今,标注产业的核心竞争力已转向AI赋能、专业知识支撑与产业生态加持,杭州在成本—效率比方面的优势就凸显了。
“我们希望更多主体参与进来。”杭州市数据局相关负责人介绍,杭州已推出系列扶持政策,比如设置“中国数谷”专项资金,在语料库开发、数据服务等方面给予资金扶持,对多模态语料库最高可给予200万元补助。
杭州语料库,值得期待。