重点围绕大数据等数字领域新职业,以技术创新为核心,以数据赋能为关键……分职业、分专业、分等级开展规范化培训、社会化评价 点击查看
数据交易师回到顶部
考生须知
数据交易师关注二维码 扫码关注官方微信 预约考试公开课
热点推荐
考生须知
数据交易师官方微信 扫码关注官方微信 预约考试公开课

案例集|数据标注优秀案例集之二|多模态数据智能标注与管理平台

来源: 国家数据局      发布日期:2025-05-09

多模态数据智能标注与管理平台


申报单位:北京海天瑞声科技股份有限公司
推荐单位:北京市政务服务和数据管理局
  一、案例简介
  为解决数据处理过程中面临的数据模态多样化、处理效率低、质量难控、自动化水平低等挑战,自研多模态数据智能标注与管理平台,通过算法工程化、工具智能化、流程柔性化三大技术突破,实现数据集高质、高效和规模化供给。目前,已面向超1000家国内外人工智能研发企业、机构累计提供约7500次高价值数据产品/服务,在大模型训练、自动驾驶、内容生成等22类领域成功应用。


多模态数据智能标注与管理平台框架

  二、举措与成效
  一是支撑多模态AI训练数据集智能化处理及管理能力。平台具备多模态数据处理及管理能力,创新融合3D/4D点云连续帧平滑算法、音素边界毫秒级标注技术、大模型CoT标注工具链等核心技术,构建起覆盖“采集-清洗-标注-质检-训练-回流”的全生命周期管理体系。平台已建成涵盖智能语音、自然语言处理、计算机视觉等自有专业化数据处理工具200余种,智能化算法自动化标注模型100余种。
  二是支撑多模态AI训练数据集的高效、高质量、规模化供给。通过此平台面向国内数据服务商及上下游产业链企业开放AI数据服务,目前服务企业数量已达到1000家;平台推动国内AI数据服务产业生态协同发展,并显著提升数字服务能力,扩大数字经济规模,目前生产系统入驻企业数量已达1500家,入驻数据工程师48万余人,其中数据标注工程师24万人,已建立覆盖全球200+语种的工业化数据生产资源网络。
  三、特色亮点
  一是通过多模态数据处理的关键技术创新,提升数据标注的智能化水平,提升数据标注的质量和效率。在视觉数据领域,提出3D点云障碍物检测、3D/4D点云标注等技术,突破了传统方法在实时响应与精确度上的局限,显著提升了对应任务的数据处理效率与精度;在语音数据领域,建立了基于元学习的自适应语音偏误检测和诊断模型,提出了基于无监督模型的语音数据库覆盖性度量方法和基于线性预测残差负熵的定量音质评价方法,提高了生产语音数据库的质量和效率;在文本数据领域,提出了多样态数据到文本数据的对齐方法,构建了个性化语料生成、短语智能拆分、深层语义推理网络框架,解决了语料库构建中的内容可控、个性化问题。
  二是通过建设数据智能标注与管理平台,实现人工智能数据智能化高质量生产。打通算法平台与标注平台的数据交互流水线,实现数据自驱的多模态标注算法快速迭代。将多样化AI算法与生产系统深度融合,构建了支持124个各类型数据处理加工算子、150+预设流程模板的柔性管理平台,并应用于视觉、语音、文本等多样态数据生产各环节,大幅提升数据生产质效,形成AI数据生产的新质生产力。