数据采集标注:人工智能产业落地的「至强」后盾
时间:2019-10-29 14:00:59 热度:37.1℃ 作者:网络
来源 / ToB行业头条(ID:wwwqifu)
作者 / 李晓松 · 编辑 / Jenny
这两年,人工智能越来越火。
大到机场、火车站、商超、街道上的人脸识别设备;小到我们手机APP的各种算法,以及Siri、小度、小爱等语音助手,都与人工智能相关。
虽然人工智能应用的越来越普及,可我们还是会经常遇到APP推送不精准,语音助手像个“傻瓜”,人脸识别系统频繁出乌龙等现象……
乌龙闹剧:董明珠“闯红灯”。实际是公交巴士贴着董明珠头像,刚好被摄像头拍到,人工智能系统误以为是董明珠闯了红灯。
我们畅想的人工智能,是科幻电影中能够“想我所想”的人工智能。可我们面对的人工智能,却是频繁出错,甚至是难以落地的人工智能。
那么,面对这些问题,我们要如何解决?我们又要做哪些努力,才能让人工智能更加精准呢?
01
制约人工智能发展的要素
总有朋友认为,人工智能不准是因为训练人工智能的数据不准。其实,这个观点说对也对,但也并非全对。
数据确实是制约人工智能发展的重要一环。可制约人工智能发展的要素并不只有数据,算法、算力也是极其重要的因素。
如果以一辆汽车来比喻,算法是汽车的设计理念,算力更像是汽车的发动机,而数据则是驱动骑车前行的燃料。
光有燃料,没有好的发动机和设计,汽车自然跑不快。同样,光有发动机,没有燃料,汽车也无法不动。
按理说,三位一体的协同发展肯定是最好的。可当前人工智能公司的现状却是:很多公司已经具备了先进的算法和优质的硬件,产品不能落地还真是燃料的问题。
Testin有数总经理贾宇航在接受ToB行业头条(ID:wwwqifu)采访时表示:
“人工智能时代到来以后,越来越多的产品、APP、硬件成为人工智能落地的载体。在人工智能落地的过程中,很多企业受制于数据难题,在产品迭代、升级的过程中遇到了较大阻力。”
而关于人工智能企业面对的数据难题,贾宇航重点提到了两个:
- 很多人工智能企业没有数据或可用的数据实在太少。这些企业在数据采集环节,就遇到了大问题。
- 很多人工智能公司好不容易采集到了大量数据,却无法将数据标注精准,也找不到可靠的、拥有相关经验的人来标注。总要面临数据如何筛选、如何使用的难题。
那么,针对这些问题,人工智能企业又该怎么办呢?是否有一种办法,能够帮助人工智能企业解决当前的数据难题呢?
02
数据要如何采集、如何用?
其实打从人工智能出现的那一天起,数据采集、标注等问题,就得到了诸多厂商的重视。
早在2005年,亚马逊就建立了Mechanical Turk论坛,希望通过众包模式,解决人工智能公司的数据处理需求。
但随着人工智能的逐步发展,AI落地已经成为行业发展的一大重要阶段,相应的数据服务也迈向了场景化以及精细化时代。
贾宇航介绍称,Testin有数目前主攻自动驾驶、银行、保险和安防领域,为其提供定制化的数据采集、标注服务,全方位支持文本、语音、图像、视频等各类型数据的处理。
“比如自动驾驶厂商需要采集司机的疲劳状况,却很难把设备安装到大街上的车里面。因为这样采集到的数据不仅不标准,还会涉及司乘人员的隐私问题。
但Testin有数却可以根据客户需求,在数据采集中心搭建模拟场景,利用专业的备采人群和软硬件设备,采集丰富的样本信息,满足客户的多种需求。”
Testin有数定制化采集场景示意图
作为AI数据服务行业的领航品牌,Testin有数拥有自建的数据基地体系,所有标注员统一管理,规范生产,能够在保证数据准确率的同时,有效保证标注作业的信息流转。
Testin有数还开发了自研标注平台,支持标注类型定制化开发,让标注类型功能更为全面,保证标准化业务可以高效运行。
Testin有数标注平台示意图
当前,国内很多数据标注公司,还是典型的劳动密集型企业。这些企业为了节省人力成本,还在使用培训半天即可上岗的临时工,做的也是数据标注行业最简单的事情。
可Testin有数很早就看到了传统模式的弊端,早已通过采集基地的建立、标注平台的搭建和职前60天的优质培训,摆脱了标注行业的低端同质化竞争,实现了技能密集型企业的转型。
贾宇航始终认为:“劳动密集型的数据服务,过于依赖劳动力,企业天花板较为明显。这类企业对数据平台的建设不够重视,从业人员培训时间较短,数据标注的质量一般。
或许腰部公司会因为成本等原因,选择这类公司的服务,可头部公司一定会选择优质的数据标注厂商。因为只有优质的数据才能催生优质的人工智能,这是行业发展的基本规律。”
03
高质、精准的数据
才是行业的未来
一个行业的成熟,一定离不开行业内成熟企业的推动。人工智能企业要想快速发展,必然离不开数据采集、标注行业的整体进步。
多年以前,我们经常会看到知名人工智能公司把数据采集、标注的服务外包给非洲公司,甚至有媒体在探访非洲数据标注工厂后感叹:“贫民为硅谷人工智能打工赚钱。”
其实,数据标注工厂建立在非洲等欠发达地区,就是为了获取廉价劳动力。正因如此,数据服务也被外界认作是人工智能金字塔上最底层的工作。
可金字塔的最底层,虽然不像塔尖那样耀眼,可底层却是体积最大、也是支撑金字塔屹立不倒的坚实根基。
在人工智能企业草莽生长的阶段,地基不牢的企业尚可借力发展。可当企业成长的越来越快,企业搭建的数字化尖塔越来越高,根基是否牢靠直接决定了企业的发展上限。
这也是为什么,从一开始Testin有数就对标注人员培训、对标注中心搭建、对数据采集平台开发极为上心的重要原因。
因为贾宇航始终相信,高质、精准的数据才是行业的未来。“当一般的数据公司还在争夺地上的‘六便士’时,Testin有数已经奔往了天上的‘月亮’。”
目前,Testin有数已经在华东、华北、华南设有数据交付中心和数据采集、标注基地,并成功为数百家企业提供AI数据服务。
与之相证的是,国内相关调研报告的结论也一片向好,数据标注行业正在稳步上行。
据艾瑞咨询最新报告显示,2018年中国人工智能基础数据服务市场规模为25.86亿元,其中数据资源定制服务占比86.2%,行业年复合增长率为23.5%,预计2025年市场规模将突破110亿元。
这一片蒸蒸日上的势头,不仅源于飞速发展的人工智能公司带来了大量需求,同样也离不开Testin有数这些默默耕耘的数据服务厂商,持续为人工智能行业提供着燃料。
确实,当前的人工智能还存在“不准”的现象,可我们却能看到,几年前,阿尔法狗在围棋领域完爆人类。而就在过去几个月内,此前发展了20多年都没被大众了解的RPA也突然火了。
为什么阿尔法狗能击败人类?为什么RPA突然爆火?这必然离不开人工智能算法的更新演进。可在技术成熟的背后,像Testin有数这样提供数据采集、标注服务的厂商也是功不可没。
正是数据采集与标注的成熟、精准,才能训练出阿尔法狗的精准算法。正是数据行业的不断积累,才让OCR、NLP等人工智能技术在今年变得成熟,从而推火了沉寂已久的RPA。
诚然,人工智能的前路还无尽漫长,但从以Testin有数为首的数据采集、标注厂商的发展方向来看,我们已经看到了行业未来的蓝图。