2024年中国AI基础数据服务调查报告

2024-07-17

AI|调查报告


核心摘要:


近几年来,Transformer等预训练模型在语言逻辑和生成等领域表现出色,Scaling在大模型背后。 Law(规模法则)进一步揭示了模型性能与信息量、算率之间的关系,加强了数据在AI性能提升中的关键作用。AI基础数据服务是AI产业发展的重要支撑,可以加速高质量数据的获取和标注,促进AI算法的创新和持续优化。基于对中国AI基础数据服务市场供需两侧企业的调查,如数据服务专业制造商、云制造商、大型R&D制造商和智能驾驶R&D制造商,结合艾瑞对中国人工智能市场整体和AI基础数据服务业发展的判断,艾瑞计算2023年中国AI基础数据服务市场规模为45亿元。预计到2028年,中国AI基础数据服务市场将达到170亿元,未来五年复合增长率为30.4%。


AI产业的整体进步


多模式、长文本、大模式微型化已成为研究内容的热点。


近几年来,公众已经看到了GPT。、在自然语言理解和生成方面,BERT等大语言模型具有优异的能力。与单一模式的大模式相比,多模式的大模式可以提供更自然的人机交互模式,具有更全面、更准确的思维能力,在不同的场景下表现出更高的鲁棒性,从而赋能更丰富、更全面的AI应用。所以,多模态技术已经成为许多大型模型制造商研发的重点。此外,随着长文本处理能力的提高,大模型在理解和生成复杂文档方面表现更好,可以更好地支持多主题、多步推理任务;通过知识蒸馏、模型修剪、混合精度训练等技术,大模型可以微型化,降低了计算资源的需求,提高了推理效率,使大模型在资源有限的设备中高效运行,提高了响应速度和客户体验,保证了用户的数据隐私。聚焦国内AI商业市场,大模型商业化进程加快,API市场竞争激烈,价格战频发,但也反映了供应商之间能力同质化的问题,迫切需要打破。另一方面,中央国有企业凭借良好的数字化基础、丰富的数据和需求场景以及相对充足的科技投资预算,成为目前国内大型项目建设的主力军,推动了中国AI行业大型项目的商业化。


构建AI的三个要素是数据、算法和算率。


从理论到应用,数据、算法、计算能力的协同促进了现代AI技术的飞跃


在人工智能领域,数据、算法和计算率是构建AI系统的三个核心要素,三者的协同使得现代AI技术从理论到应用都有了飞跃。大量优质数据不仅可以提高当前模型的准确性,而且可以促进模型的优化和创新,是信息AI的基础。以ImageNet数据为例,该数据和相关竞争促进了计算机视觉算法的快速发展。2017年是竞争的最后一年,7年内物体分类冠军的准确率从71.8%上升到97.3%。近几年来,Transformer等预训练模型在语言逻辑和生成等领域表现出色,Scaling在大模型背后。 Law(规模法则)进一步揭示了模型性能与信息量、算率之间的关系,加强了数据在AI性能提升中的关键作用。


AI基础数据服务是AI产业发展的关键支撑。


加快高质量数据的获取和标记,促进AI算法的创新和持续优化


根据AI基础数据服务制造商LXT对322家具有AI项目经验的美国公司的调查,培训数据的资金投入占这些企业AI整体建设投入的15%,61%的企业认为未来2-5年对数据的需求会增加,62%的企业认为数据质量比信息更重要。在AI建设中,LXT的调查结果揭示了公司对高质量数据的迫切需求。鉴于AI基础数据服务制造商在高效提供优质数据方面的专业能力,AI基础数据服务已经成为AIR&D企业的重要合作伙伴,AI基础数据服务已经成为推动AI产业发展的关键支撑。


AI基础数据服务制造商及主要产品服务介绍


三大产品服务:标准数据集、定制数据、配套设备和工具服务等。


AI基础数据服务制造商是一家专注于为各个行业的AI算法培训和优化提供基础数据产品服务的公司。通过提供标准数据集、定制数据和配套设备工具服务,这些企业支持AI技术在互联网、大模型、智能驾驶等领域的发展。根据内容格式,数据可以分为文本、图像、视频、语音等类型。核心生产过程主要包括方案策划、数据收集、数据清理、数据标注、数据质量检验五个重要环节。标准数据集是数据服务制造商开发的数据集,可以多次销售;定制数据是根据客户需求制作特定数据,数据的知识产权归客户所有;配套设备服务包括标注工具、培训平台、AI模型评估等软硬件工具服务,用于满足不同层次的客户需求,如高效标注数据、培训数据标注、AI能力评估等。,帮助和延伸数据服务制造商的相关业务。



典型服务场景-通用大模型(1/2)


信息量大,层次多样,标注方式和质量评价标准也更加复杂多变。


从理论到实践,算法模型的应用依赖于大量的训练数据。训练数据越多,越完整,质量越高,模型推理的结果就越可靠。传统AI泛指Transformer架构出现之前的AI架构,其参数一般较小,而大型架构则以Transformer为代表。ChatGPT自2022年11月推出以来,ChatGPT作为应用大模型架构的代表,在AI乃至社会经济领域掀起了大模型研究与应用的热潮。与传统的AI类似,大型模型仍然需要大量的高质量数据,但它们需要更多的信息,更多的数据维度,更复杂的标记方法和质量判断标准。


典型服务场景-通用大模型(2/2)


为了提高通用性,大型训练数据的投入会逐渐向图像、视频等多模态数据倾斜,需要更多的采购数据来支持。


纵观行业开源和闭源大模型的能力特点,结合艾瑞对大模型R&D企业的研究,虽然目前主流大模型的应用还是比较注重文本输入和文本输出的能力,但是图像、视频、语音等多模态数据的应用越来越普遍。艾瑞预测,未来几年,大模型培训信息中多模态数据的比例将继续增加。根据艾瑞对一些通用大型模型和综合AI制造商的调查,目前大型模型的培训数据主要来自可以公开获取的数据,如公开数据和网络爬虫数据,其次是采购数据。综合AI厂商与大型初创企业相比,凭借现有的互联网应用和AI业务积累,具有独特的数据优势。公开数据和爬虫数据已经广泛应用于模型通用能力建设中,未来这两种数据的整体提升空间相对有限,Epoch 在2024年6月更新的论文中,AI等机构的研究人员表示,大语言模型将在2026-2032年之间耗尽所有公开的文本数据。艾瑞预测,大型R&D厂商将采用更多的采购数据来提高模型的通用性;但在垂直场景优化和行业客户拓展方面,公开数据和爬虫数据仍有很大的提升空间,大型R&D厂商将更多地利用客户端的合作数据,增强模型处理行业特定领域或单位特定问题的能力。


典型的服务场景-大模型评估


公开评价标准与商业评价服务共创大模型评价生态评价


伴随着大型模型技术的快速迭代和在许多领域的广泛应用,相关评估需求同步增长。对于模型R&D企业来说,评价是发现模型在功能、性能、安全性和可靠性方面的优缺点的关键步骤,可以横向与其他企业的模型进行比较,从而有针对性地优化模型,提高其性能和稳定性;对于模型应用企业来说,评价是选择和项目验收的重要工具。企业可以通过专业的评价服务,评价模型的实际应用适用性,确保所选模型符合要求。并且保证定制模型项目的交付质量。与传统AI相比,大型模型的应用空间更广,评价本身也更加复杂多样,市场对专业评价服务的需求潜力无限。与传统AI相比,大型模型的应用空间更广,评价本身也更加复杂多样,市场对专业评价服务的需求潜力无限。公开评价标准和商业评价服务的发展将为大型评价提供重要支持,促进技术和行业的健康发展。




典型的服务场景-智能驾驶


AI基础数据服务与AI算法研发相互促进,共同推动自动驾驶的实现


智能驾驶的自动化水平在模型和端到端技术的加持下不断提高,相关功能已经成为部分消费者购车时的重要参考标准。摄像机和激光雷达是目前高级智能驾驶系统中的两个核心传感器,除了个别厂商致力于纯视觉路线。摄像头主要捕捉二维图像,分辨率高,色彩细节丰富;激光雷达可以通过发射和接收激光脉冲来准确测量物体的距离、尺寸和位置关系,并且受到光照等自然条件的影响较小。摄像机、激光雷达等各种传感器各有优势,相互补充,数据标注需要对来自不同传感器的数据标签进行对齐和交叉验证。AI基础数据服务是支持AI算法研发的基石,如智能驾驶和大模型,AI算法大大提高了智能驾驶R&D领域数据标注的效率和质量,为数据服务业的发展注入了新的活力。数据和AI相互支持,相互促进,共同推动自动驾驶的实现。


AI基础数据服务产业图谱中国


多源数据,人力资源服务,IT设施 → 数据服务 → AI算法研发厂家


AI基础数据服务行业的中游是数据标签等数据服务的供应商,包括专业制造商和云制造商,其中后者主要支持内部算法研发和云业务客户需求。上游提供原材料数据、人力资源支持和IT基础设施,其中人力资源服务供应商主要包括两类厂商:垂直做数据标注的厂商和综合IT厂商。目前,人力支持一般采用远程在线服务,即云BPO。以下游为数据服务的需求方,包括投资AI算法研发的大型、智能驾驶等各个行业的厂商。



中国AI基础数据服务市场规模


2023年,中国AI基础数据服务市场规模为45亿元,未来复合增长率为30.4%。


基于对中国AI基础数据服务市场供需两侧企业的调查,如数据服务专业制造商、云制造商、大型R&D制造商和智能驾驶R&D制造商,结合艾瑞对中国人工智能市场整体和AI基础数据服务业发展的判断,艾瑞计算2023年中国AI基础数据服务市场规模为45亿元。在需求方面,随着AI算法研发从面向特定任务领域的小模型向具有更强通用性和泛化能力的大模型转变,数据服务需求公司将产生大量高质量、多模式的数据需求。同时,随着AI技术的大规模商业落地,如大型模型在通用和垂直场景中的应用扩展和智能驾驶,良好的商业收入将进一步促进需求方对数据的投入。在供给方面,随着数据要素等相关扶持政策的不断深化,服务提供商将加快数据库的获取和数据集的制作。随着数据工程设计、数据标准规范、标注方式的不断完善,人才生态和服务软件平台的自动化和系统化也在不断完善,加强了供给侧的供给能力和服务水平。艾瑞预计,到2028年,中国AI基础数据服务市场规模将达到170亿元,未来五年复合增长率将达到30.4%。


AI基础数据服务商的市场结构分析


自建团队和品牌数据服务提供商主导市场,中小服务提供商市场份额大幅下降


在2020年中国AI数据服务业研究中,艾瑞将继续划分供应商。本报告将供应商分为三类:需求商自建团队、品牌数据服务提供商和中小数据服务提供商。其中,拥有AI数据外部服务的云厂商最为特殊,由于其集团内部AI算法研发所需的数据服务,可能由四个团队承担:云服务业务线、算法研发业务线内部标注团队、外部品牌和中小数据服务提供商。在艾瑞对供应商的市场份额统计中,云服务业务线的内部支持计入需求方自建团队的市场;由于云服务制造商具有较大的市场影响力和相对完善的服务软件平台,云服务线对外部制造商的数据服务被纳入品牌数据服务商的市场。


与4年的市场份额相比,中小数据服务提供商的整体市场份额下降了约41%,需求方自建团队上升了36%,品牌数据服务提供商上升了5%。:传统AI数据标注市场竞争激烈,而大型、智能驾驶等新兴项目需要较强的综合服务能力,叠加疫情冲击,更多的中小数据服务提供商已经退出市场;在模型、智能驾驶等新兴AI算法和相应的标注方式快速迭代阶段,为了追求更高的开发效率,保证信息安全,更多的需求者通过自建团队来满足数据服务的需求;未来,随着品牌数据服务提供商数据版权的丰富、专业能力的提高和标注方式的完善,品牌数据服务提供商将承担更多的数据服务需求。


根据艾瑞的调查统计,2023年中国AI数据服务业的CR4(前四大公司的市场份额)为22.0%,市场仍然比较分散。2023年中国AI基础数据服务市场的集中度明显提高,与2019年14.3%的CR4相比。展望未来,随着AI技术的发展,如大型模型,对数据服务的需求越来越大和复杂,这对服务企业的综合能力提出了更高的要求。没有自动化软件平台或平台能力弱、资源整合能力有限的厂商,将面临生存空间不断被挤压的困境;高质量的数据拥有丰富的版权、强大的运营管理能力和深刻的行业理解头部数据服务制造商有望继续增加市场份额。


厂商的竞争要素和未来发展战略


自动化平台,深刻的行业理解,前瞻性的技术和数据布局,将有助于知名企业赢得市场领先地位


在行业集中度不断提高的过程中,积极应用前沿算法、积累优质数据版权的AI基础数据服务厂商,基于自动化平台不断加强项目运营和资源整合能力,深刻理解行业需求,将在残酷竞争的市场中脱颖而出,赢得市场领先水平。




AI数据服务业面临的挑战和机遇


由于需求量大,需求复杂,行业面临着人力短缺、项目难管理等挑战。


AI数据服务行业面临诸多挑战,包括数据标注工程师门槛提高、项目管理复杂性增加、项目规模大、高质量数据难以获取、信息安全问题等。,因为大模型对数据集的要求更加复杂,对优质数据的需求增加,需求者对数据安全和核心技术的重视。尽管面临挑战,行业也迎来了新的机遇。AI技术的不断发展,如大型模型,带来了高数据需求,促进了AI基础数据服务市场的增长,高质量的数据集成成为供应商的核心竞争优势。此外,对多模态数据集的需求也会增加。数据服务软件平台凭借精细的流水分工和日益精确的AI算法,在行业内的价值不断提升。平台可以帮助服务提供商更好地满足需求者的高质量数据需求,应对人力和项目管理的挑战。




本文来自微信微信官方账号“艾瑞咨询”(ID:iresearch-),作者:艾小妹,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com