端出“营养餐” 让AI听懂四川话
成都市国家数据标注基地牧山园区开园

何为数据标注?
数据标注产业是对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理的新兴产业,其核心任务是对原始数据进行加工,使之成为可用于训练人工智能大模型的优质原料。
数据标注有什么用?
数据标注作为训练大模型至关重要的一环,直接影响机器学习模型的性能,对支撑人工智能能力水平提升具有重要作用。
AI怎么听懂四川话?
数据标注公司为下游的人工智能算法公司提供高质量的四川方言数据集,使得AI能够通过深度学习,成功跨越理解方言的障碍。
自动驾驶车辆如何识别车道和前方物体?智能家居和AI政务热线怎么听懂四川话?这背后是一个新兴产业在为AI发展提供“优质原料”——数据标注。
作为人工智能发展的核心基石之一,数据标注产业将在成都得到大力发展。18日,成都市国家数据标注基地牧山园区在新津经开区举行开园仪式。现场,成都数据标注产业发展联盟正式成立,并对成都数据公园“数据要素服务站”、可信数据空间新津节点进行授牌。此外,活动还发布了四川方言高质量数据集、四川方言大模型、四川方言AI+政务服务热线应用。
为人工智能模型
提供优质原料
国家数据局于2024年5月发布了承担数据标注基地建设任务的城市名单,成都等7个城市在列。按照成都市工作部署,新津纳入“人工智能牵引区+数据标注聚集区”布局。作为成都落实国家数据标注试点城市建设任务的重要载体,成都市国家数据标注基地牧山园区规划载体面积28万平方米,自去年8月正式启动建设以来,已建成7万平方米,在建10万平方米将于6月竣工,将围绕“数据标注+”产业链,打造数据产业集群。
何为数据标注?数据标注产业是对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理的新兴产业,其核心任务是对原始数据进行加工,使之成为可用于训练人工智能大模型的优质原料。数据标注作为训练大模型至关重要的一环,直接影响机器学习模型的性能,对支撑人工智能能力水平提升具有重要作用。
高质量数据集
助力AI听懂四川话
首批入驻企业——整数智能成都分公司总经理高彤瑶以自动驾驶为例,解释了数据标注在人工智能产业中所起的作用。“为了让车辆能自动识别前方的车道线、别的车辆和人群,就需要通过数据标注这个环节,将这些信息告诉人工智能模型,以便通过训练,让人工智能模型知道该如何识别前方的物体。”高彤瑶说。
现场发布的四川方言大模型也引起广泛关注。“没有经过AI数据训练的人工智能产品,是听不懂四川方言的”,成都向己科技有限公司CEO谭浩宇介绍,正因为像他们这样的数据标注公司为下游的人工智能算法公司提供了高质量的四川方言数据集,才使得即时通讯软件、自动驾驶产品、智能家居产品甚至AI+政务服务热线都能听得懂四川话。据了解,该公司已经为包括国内第一大语音商在内的多家知名公司提供了超过5000小时的数据集,使得AI能够通过深度学习,成功跨越理解方言的障碍。
新津区数据局相关负责人认为,随着人工智能技术不断成熟、应用领域持续拓展,数据标注行业将迎来更广阔的市场空间,尤其是在低空经济、智慧城市、自动驾驶、智慧医疗等新兴科技领域展现出巨大潜力。
据了解,成都市国家数据标注基地牧山园区坐落在地铁10号线新津站东侧。新津以平台化理念运营,在天府数字科技联创中心打造孵化器,在园区打造高品质产业承载空间,在北京中关村打造城际合作飞地,构建“一中心一园区一飞地”的发展格局。
成都日报锦观新闻记者 李娟
制图 江蕊松

