全部服務(wù)分類
發(fā)布者:95健康說時間:05-22
分類:資料下載 > 資質(zhì)審批 > 電信增值 > 金融行業(yè) > 其它行業(yè)
相關(guān)資質(zhì):電信設(shè)備進網(wǎng)許可證
發(fā)布機構(gòu):拉薩盛創(chuàng)企業(yè)管理咨詢公司
在經(jīng)歷了一段時期的野蠻生長之后,人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)進入成長期,行業(yè)格局逐漸清晰。人工智能基礎(chǔ)數(shù)據(jù)服務(wù)方的上游是數(shù)據(jù)生產(chǎn)和外包提供者,下游是AI算法研發(fā)單位,人工智能基礎(chǔ)數(shù)據(jù)服務(wù)方通過數(shù)據(jù)處理能力和項目管理能力為其提供整體的數(shù)據(jù)資源服務(wù),不過AI算法研發(fā)單位和AI中臺也可提供一些數(shù)據(jù)處理工具,產(chǎn)業(yè)上下游普遍存在交叉。
2018年中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場規(guī)模為25.86億元,其中數(shù)據(jù)資源定制服務(wù)占比86%,預(yù)計2025年市場規(guī)模將突破113億元。市場供給方主要由人工智能基礎(chǔ)數(shù)據(jù)服務(wù)供應(yīng)商和算法研發(fā)單位自建或直接獲取外包標注團隊的形式組成,其中供應(yīng)商是行業(yè)主要支撐力量。
數(shù)據(jù)安全、采標能力、數(shù)據(jù)質(zhì)量、管理能力、服務(wù)能力等仍是需求方的痛點,需要人工智能基礎(chǔ)服務(wù)商有明確具體的安全管理流程、能夠深入理解算法標注需求、可提供精力集中且高質(zhì)量的服務(wù)、能夠積極配合、快速響應(yīng)需求方的要求。
隨著算法需求越來越旺盛,依賴人工標注不能滿足市場需求,因此增強數(shù)據(jù)處理平臺持續(xù)學(xué)習(xí)能力,由機器持續(xù)學(xué)習(xí)人工標注,提升預(yù)標注和自動標注能力對人工的替代率將成趨勢。遠期,越來越多的長尾、小概率事件所產(chǎn)生的數(shù)據(jù)需求增強,機器模擬或機器生成數(shù)據(jù)會是解決這一問題的良好途徑,及早研發(fā)相應(yīng)技術(shù)也將成為AI基礎(chǔ)數(shù)據(jù)服務(wù)商未來的護城河。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)定義
意指為AI算法訓(xùn)練及優(yōu)化提供數(shù)據(jù)采集和標注等形式的服務(wù)
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)指為AI算法訓(xùn)練及優(yōu)化提供的數(shù)據(jù)采集、清洗、信息抽取、標注等服務(wù),以采集和標注為主。人工智能概念爆發(fā)伊始,算法、算力、數(shù)據(jù)就作為最重要的三要素被人們樂道,進入落地階段,智能交互、人臉識別、無人駕駛等應(yīng)用成為了最大的熱門,AI公司開始比拼技術(shù)與產(chǎn)業(yè)的結(jié)合能力,而數(shù)據(jù)作為AI算法的“燃料”,是實現(xiàn)這一能力的必要條件,因此,為機器學(xué)習(xí)算法訓(xùn)練、優(yōu)化提供數(shù)據(jù)采集、標注等服務(wù)的人工智能基礎(chǔ)數(shù)據(jù)服務(wù)成為了這一人工智能熱潮中必不可少的一環(huán)。如果說計算機工程師是AI的老師,那基礎(chǔ)數(shù)據(jù)服務(wù)就是老師手中的教材。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)發(fā)展歷程
行業(yè)進入成長期,行業(yè)格局逐漸清晰
伴隨國內(nèi)人工智能熱潮爆發(fā),大量的AI公司拿到融資,為了不斷提高算法精度,數(shù)據(jù)采標需求也空前爆發(fā),一度催生了行業(yè)的繁榮。但早期的AI基礎(chǔ)數(shù)據(jù)服務(wù)門檻較低,玩家魚龍混雜,使行業(yè)標準模糊、服務(wù)質(zhì)量參差不齊。隨著競爭加快,AI公司對訓(xùn)練數(shù)據(jù)的質(zhì)量要求也不斷提高,并且當(dāng)產(chǎn)業(yè)落地成為主旋律,需求方對垂直場景的定制化數(shù)據(jù)采標需求成為主流,眾多小型AI基礎(chǔ)數(shù)據(jù)服務(wù)公司從數(shù)據(jù)質(zhì)量和采標能力上達不到要求,或被淘汰,或依附大平臺,行業(yè)格局逐漸清晰,頭部公司實力逐漸凸顯。隨著算法需求越來越旺盛,目前機器輔助標注、人工主要標注的手段需要改進提升,增強數(shù)據(jù)處理平臺持續(xù)學(xué)習(xí)和自學(xué)習(xí)能力,增加機器能夠標注維度、提升機器處理數(shù)據(jù)的精度,由機器承擔(dān)主要標注工作將成為下一階段的行業(yè)重心。未來,越來越多的長尾、小概率事件所產(chǎn)生的數(shù)據(jù)需求增強,人機協(xié)作標注的模式性價比不足,機器模擬或機器生成數(shù)據(jù)會是解決這一問題的良好途徑,及早研發(fā)相應(yīng)技術(shù)也將成為AI基礎(chǔ)數(shù)據(jù)服務(wù)商未來的護城河。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)的行業(yè)價值
目前有監(jiān)督的深度學(xué)習(xí)是主流,標注數(shù)據(jù)是其學(xué)習(xí)根本
人工智能是研究如何通過機器來模擬人類認知能力的科學(xué),機器學(xué)習(xí)是現(xiàn)階段實現(xiàn)人工智能的主要手段。機器學(xué)習(xí)方法通常是從已知數(shù)據(jù)中學(xué)習(xí)規(guī)律或者判斷規(guī)則,建立預(yù)測模型,其中,深度學(xué)習(xí)可以通過對低層特征的組合,形成更加抽象的高層屬性類別,自動從信息中學(xué)習(xí)有效的特征并進行分類,而無需人為選取特征。憑借自動提取特征、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、端到端學(xué)習(xí)等優(yōu)勢,深度學(xué)習(xí)在圖像和語音領(lǐng)域?qū)W習(xí)效果最佳,是當(dāng)今最熱門的算法架構(gòu)。在實際應(yīng)用中,深度學(xué)習(xí)算法多采用有監(jiān)督學(xué)習(xí)模式,即需要標注數(shù)據(jù)對學(xué)習(xí)結(jié)果進行反饋,在大量數(shù)據(jù)訓(xùn)練下,算法錯誤率能大大降低?,F(xiàn)在的人臉識別、自動駕駛、語音交互等應(yīng)用都采用這類方法訓(xùn)練,對于各類標注數(shù)據(jù)有著海量需求,可以說數(shù)據(jù)資源決定了當(dāng)今人工智能的高度。由于應(yīng)用有監(jiān)督學(xué)習(xí)的AI算法對于標注數(shù)據(jù)的需求遠大于現(xiàn)有的標注效率和投入預(yù)算,無監(jiān)督或僅需要少量標注數(shù)據(jù)的弱監(jiān)督學(xué)習(xí)、小樣本學(xué)習(xí)成為了科學(xué)家探索的方向,但目前無論從學(xué)習(xí)效果和使用邊界來看,均不能有效替代有監(jiān)督學(xué)習(xí),人工智能基礎(chǔ)數(shù)據(jù)服務(wù)將持續(xù)釋放其對于人工智能的基礎(chǔ)支撐價值。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)的主要產(chǎn)品形式
定制服務(wù)為主要服務(wù)形式,數(shù)據(jù)集產(chǎn)品集中于語音類賽道
目前,國內(nèi)AI基礎(chǔ)數(shù)據(jù)服務(wù)主要為數(shù)據(jù)集產(chǎn)品和數(shù)據(jù)資源定制服務(wù),數(shù)據(jù)集產(chǎn)品往往是AI基礎(chǔ)數(shù)據(jù)服務(wù)商根據(jù)自身積累產(chǎn)出的標準數(shù)據(jù)集,以語音數(shù)據(jù)集為主,主體偏普通話語音、英文語音、方言語音等;為保證算法優(yōu)勢,客戶更多采用定制化服務(wù),由客戶提出具體需求,數(shù)據(jù)服務(wù)商或直接對客戶提供的數(shù)據(jù)進行標注、或?qū)?shù)據(jù)進行采集并標注。大型的需求方,為保障數(shù)據(jù)的安全,往往提供Web形式的自有標注平臺給執(zhí)行方,以此對整體項目進行把控,也有一些AI基礎(chǔ)數(shù)據(jù)服務(wù)商向客戶提供私有化平臺建設(shè)服務(wù),或?qū)⒆陨砥脚_與甲方系統(tǒng)兼容;除以上兩種形式外,部分AI基礎(chǔ)數(shù)據(jù)服務(wù)商還向算法服務(wù)進行拓展,提供算法訓(xùn)練、模型搭建等服務(wù)。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)的發(fā)展背景
人工智能經(jīng)濟崛起為基礎(chǔ)數(shù)據(jù)服務(wù)提供長期向好的基本面
2010年語音識別和計算機視覺領(lǐng)域產(chǎn)生重大突破,國內(nèi)開始萌生AI概念。到2015年,國內(nèi)迎來人工智能創(chuàng)業(yè)熱潮,獨角獸不斷涌現(xiàn),融資記錄被不斷打破。2012年-2019年8月人工智能領(lǐng)域共發(fā)生2787件投融資事件,總?cè)谫Y額達4740億元,人工智能成為最炙手可熱的融資熱點,百度、阿里、騰訊、京東、華為等科技企業(yè)也紛紛加注。2017年至今,產(chǎn)業(yè)落地成為AI行業(yè)的主流,人工智能賦能實體經(jīng)濟保持高速發(fā)展態(tài)勢,涉及行業(yè)包括安防、金融、零售、交通、教育、醫(yī)療、營銷、工業(yè)、農(nóng)業(yè)、企服等眾多領(lǐng)域。下游的爆發(fā)式增長為人工智能基礎(chǔ)數(shù)據(jù)服務(wù)的發(fā)展提供了長期向好的基本面。
數(shù)據(jù)量呈指數(shù)式增長,非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用依賴于清洗標注
PC、互聯(lián)網(wǎng)、消費級移動設(shè)備的興起宣告了數(shù)據(jù)時代的來臨,物聯(lián)網(wǎng)的發(fā)展更使線下業(yè)務(wù)產(chǎn)生的大量數(shù)據(jù)被采集起來,數(shù)據(jù)量呈指數(shù)式增長,據(jù)IDC統(tǒng)計,全球每年生產(chǎn)的數(shù)據(jù)量將從2016年的16.1ZB猛增至2025年的163ZB,其中80%-90%是非結(jié)構(gòu)化數(shù)據(jù)。過去計算機主要處理結(jié)構(gòu)化數(shù)據(jù),人工智能模型卻以處理非結(jié)構(gòu)化數(shù)據(jù)見長,但“玉不琢不成器”,數(shù)據(jù)經(jīng)過清洗與標注才能被喚醒價值,這就產(chǎn)生了源源不斷的清洗與標注需求。在我國,每年需要進行標注的語音數(shù)據(jù)超過200萬小時,圖片則有數(shù)億張。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)業(yè)鏈
AI基礎(chǔ)數(shù)據(jù)服務(wù)方是行業(yè)核心環(huán)節(jié)
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)業(yè)圖譜
產(chǎn)業(yè)上下游普遍存在交叉
AI基礎(chǔ)數(shù)據(jù)服務(wù)方的上游是數(shù)據(jù)生產(chǎn)和外包提供者,下游是AI算法研發(fā)單位,AI基礎(chǔ)數(shù)據(jù)服務(wù)方通過數(shù)據(jù)處理能力和項目管理能力為其提供整體的數(shù)據(jù)資源服務(wù)。 AI基礎(chǔ)數(shù)據(jù)服務(wù)方整體有兩大類,一種是具備自有的標注基地或全職標注團隊,這類企業(yè)也參與產(chǎn)業(yè)上游部分直接提供產(chǎn)能資源,另一種是依靠眾包或外包模式,專注于數(shù)據(jù)產(chǎn)品的開發(fā)與項目執(zhí)行。下游部分AI公司擁有自己的標注工具,也可通過AI中臺獲取一些通用標注工具,同時一些數(shù)據(jù)需求大的企業(yè)還孵化了自己的數(shù)據(jù)服務(wù)團隊。整體而言,產(chǎn)業(yè)上下游普遍存在交叉關(guān)系。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)投融資
融資規(guī)模集中于千萬量級,早期融資項目居多
從融資規(guī)模來看,人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場的融資多集中在千萬級別。從時間維度來看,2015年人工智能基礎(chǔ)數(shù)據(jù)服務(wù)商獲得的融資金額相對較高,標志著行業(yè)初露頭角,受到資本的認可。從獲得融資的企業(yè)數(shù)量來看,目前獲得融資的玩家并不多,資本市場表現(xiàn)的活躍度不高。從融資輪次來看,大部分融資仍然集中于早期融資,目前上市的企業(yè)僅掛牌新三板的數(shù)據(jù)堂一家(不考慮科技公司內(nèi)部孵化的基礎(chǔ)數(shù)據(jù)服務(wù)商)。人工智能基礎(chǔ)數(shù)據(jù)服務(wù)毛利率普遍較高,但為保持與人工智能市場前沿算法的匹配,需要投入大量研發(fā)成本進行數(shù)據(jù)處理平臺與工具的研發(fā)升級,因此對融資仍有較強依賴。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)商業(yè)模式
生產(chǎn)、獲客、部署合力驅(qū)動發(fā)展
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)是典型的To B型業(yè)務(wù),商業(yè)模式較為穩(wěn)定。在生產(chǎn)方面,主要通過自建標注基地或標注團隊、搭建眾包平臺、采購供應(yīng)商外包服務(wù)(BPO)等模式實現(xiàn)生產(chǎn)運營,大多企業(yè)主要采取眾包與外包模式,百度數(shù)據(jù)眾包、倍賽等企業(yè)自建標注基地或全職標注團隊,對于培訓(xùn)較高素質(zhì)工作人員、完善團隊管理有積極意義;在獲客方面,主要通過口碑傳播、學(xué)術(shù)會議與展會及代理渠道等模式進入市場,對銷售人員熟悉市場趨勢、客戶需求的要求較高;在實施交付方面,有私有化部署和公有部署兩類,能夠較為靈活地應(yīng)對客戶對數(shù)據(jù)安全、交付周期與成本的個性化需求。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場規(guī)模
2025年市場規(guī)模將突破百億,行業(yè)年復(fù)合增長率為23.5%
2018年中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場規(guī)模為25.86億元,其中數(shù)據(jù)資源定制服務(wù)占比86.2%,數(shù)據(jù)集產(chǎn)品占比12.9%,其他數(shù)據(jù)資源應(yīng)用服務(wù)占比0.9%;行業(yè)年復(fù)合增長率為23.5%,預(yù)計2025年市場規(guī)模將突破110億元。從整體增速來看,行業(yè)發(fā)展較為穩(wěn)健,下游人工智能行業(yè)持續(xù)發(fā)力將形成長期利好。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)細分結(jié)構(gòu)
純標注服務(wù)為主體,由供應(yīng)商提供服務(wù)占79%
2018年中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場以語音、視覺、NLP領(lǐng)域的標注服務(wù)為主,同時提供采集與標注服務(wù)占比較少,這是由于生數(shù)據(jù)由需求方提供的情況較多,但這并不意味著市場中數(shù)據(jù)采集需求弱,相反,人工智能技術(shù)落地后產(chǎn)生了大量新興垂直領(lǐng)域的數(shù)據(jù)需求,然而這些數(shù)據(jù)采集難度大,能夠提供相關(guān)采集工具和服務(wù)的供應(yīng)商將獲取競爭優(yōu)勢。市場供給方主要由企業(yè)自建或直接獲取外包團隊的形式以及供應(yīng)商組成,又以供應(yīng)商為行業(yè)主要支撐力量,占比79%。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場格局
行業(yè)將提升至較高集中度,CR5占26%市場份額
目前人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)CR5占26%市場份額,行業(yè)集中度較為適中,既非寡占型市場也非充分競爭市場,這一方面是由于百度數(shù)據(jù)眾包、海天瑞聲、數(shù)據(jù)堂等企業(yè)進入市場較早,積累了較多客戶資源,另一方面則是由于下游企業(yè)之前多采用公開數(shù)據(jù)集訓(xùn)練模型,對數(shù)據(jù)的高精度要求由來尚短,受生態(tài)傳導(dǎo)效應(yīng)滯后影響,市場門檻還不顯著,資金與研發(fā)實力較為薄弱的中小企業(yè)還有較強的發(fā)展土壤。然而未來,隨著下游企業(yè)發(fā)展壯大,直接使用外包團隊成本低廉、數(shù)據(jù)安全可控性強,一些基礎(chǔ)性需求將由下游企業(yè)自給自足,外部的數(shù)據(jù)服務(wù)商現(xiàn)有的存量市場面臨下降,因此必須承擔(dān)高難度、前沿獨特性任務(wù),這就要求其自身投入高精度、專業(yè)化數(shù)據(jù)處理工具的研發(fā)和人工智能算法基礎(chǔ)研究,以把握客戶需求,開拓增量市場,因此資金與研發(fā)實力成為較高行業(yè)門檻,同時受近年資本市場冷卻影響,一批中小型廠商面臨業(yè)務(wù)收縮,再者部分廠商如倍賽開始在業(yè)內(nèi)并購,參考海外數(shù)據(jù)服務(wù)市場發(fā)展情況(海外行業(yè)巨頭Appen多次并購其他企業(yè)),并購也將成為市場趨勢,多種因素疊加影響下,行業(yè)集中度將提升。
視圖基礎(chǔ)數(shù)據(jù)服務(wù)市場現(xiàn)狀
人像與OCR數(shù)據(jù)是視圖基礎(chǔ)數(shù)據(jù)服務(wù)的主流
在不考慮自動駕駛的前提下,2018年視圖基礎(chǔ)數(shù)據(jù)服務(wù)市場達到6.6億元,人像與OCR數(shù)據(jù)是視圖基礎(chǔ)數(shù)據(jù)服務(wù)的主流,尤其人像數(shù)據(jù)占市場的42.9%。OCR占27%,其他的人體識別數(shù)據(jù)、商品識別數(shù)據(jù)、工業(yè)質(zhì)檢數(shù)據(jù)、醫(yī)學(xué)影像數(shù)據(jù)及其他新場景數(shù)據(jù)等較為分散,合計占市場30.1%。
視圖基礎(chǔ)數(shù)據(jù)服務(wù)技術(shù)趨勢
針對算法研發(fā)方向判斷數(shù)據(jù)需求,挖掘增量市場
按照數(shù)據(jù)使用方向,可以劃分為新算法模型搭建與研發(fā)、在已有算法基礎(chǔ)上增加新模塊、解決方案交付過程中定制優(yōu)化等三類,其中新算法模型搭建與研發(fā)和在已有算法基礎(chǔ)上增加新模塊類型的數(shù)據(jù)需求是可以根據(jù)相應(yīng)機器視覺算法的前沿研發(fā)方向來判斷預(yù)測的。例如,就智慧城市場景而言,針對漢族的人臉識別和視頻結(jié)構(gòu)化已較為成熟,在實際應(yīng)用場景中還需針對少數(shù)民族和其他人種進行優(yōu)化以提升整體算法準確率,此外,跨鏡追蹤成為場景研發(fā)熱點,相應(yīng)的跨攝像頭數(shù)據(jù)如何標注對算法訓(xùn)練也會產(chǎn)生較大影響,再及,深度相機可以幫計算機讀懂三維立體的監(jiān)控視頻,還能夠較好地解決復(fù)雜光照條件下視圖數(shù)據(jù)采集的問題,也將在未來成為重要的研發(fā)方向,綜上,多民族、多人種數(shù)據(jù)、跨攝像頭數(shù)據(jù)、3D數(shù)據(jù)的采集與標注服務(wù)將為視圖基礎(chǔ)數(shù)據(jù)服務(wù)市場的發(fā)展帶來增量空間,OCR、手機、零售等其他領(lǐng)域也同理可針對算法研發(fā)方向挖掘增量市場。
自動駕駛基礎(chǔ)數(shù)據(jù)服務(wù)應(yīng)用場景
算法尚未成熟,對數(shù)據(jù)有長期需求,且缺口仍在
L3級別以上的自動駕駛系統(tǒng)主要有感知、定位、預(yù)測、決策和控制五部分,其對于計算機視覺技術(shù)的需求度遠高于ADAS,系統(tǒng)需要對雷達、攝像頭等傳感器采集的點云和圖像數(shù)據(jù)進行抽取、處理和融合,構(gòu)建車輛行駛環(huán)境,為預(yù)測和決策做依據(jù),這對于算法的準確性和實時性有極大考驗。目前自動駕駛的視覺技術(shù)主要應(yīng)用有監(jiān)督的深度學(xué)習(xí),是基于已知變量和因變量推導(dǎo)函數(shù)關(guān)系的算法模型,需要大量的標注數(shù)據(jù)對模型進行訓(xùn)練和調(diào)優(yōu)。在世界級無人駕駛大賽中,主辦方往往提供近億張圖片、數(shù)十萬張標注圖片供參賽團隊訓(xùn)練使用;在路測或真實道路駕駛時,如人車混雜、分布稠密、行為多變等復(fù)雜環(huán)境問題更需要海量的真實路況數(shù)據(jù)不斷對算法進行優(yōu)化,才能保障無人駕駛車輛正常可用。如今國內(nèi)自動駕駛飛速發(fā)展,AI公司、科技公司、高精地圖廠商、車廠等參與者眾多,該領(lǐng)域的數(shù)據(jù)采集和標注需求已經(jīng)成為AI基礎(chǔ)數(shù)據(jù)服務(wù)的主要項目之一,且自動駕駛算法應(yīng)用仍待優(yōu)化,數(shù)據(jù)需求缺口仍在,市場遠未飽和。
自動駕駛基礎(chǔ)數(shù)據(jù)服務(wù)市場現(xiàn)狀
2025年采標規(guī)模將超24億,科技公司和車廠是主要需求方
自動駕駛基礎(chǔ)數(shù)據(jù)主要是道路交通圖像、障礙物圖像、車輛行駛環(huán)境圖像等,需求方以科技公司、汽車廠商和高精地圖廠商為主,2018年自動駕駛行業(yè)基礎(chǔ)數(shù)據(jù)服務(wù)規(guī)模為5.76億元,預(yù)計2025年將超24億元,三方規(guī)模占比分別為49%、47.2%和3.8%,行業(yè)數(shù)據(jù)總?cè)蝿?wù)量超一億張,2D圖像標注與3D點云標注任務(wù)量基本為2:1。其中高精地圖廠商算法較為成熟,數(shù)據(jù)自動化標注程度可達90%左右,外包需求較少;以百度、圖森未來為代表的自動駕駛科技公司一直是該領(lǐng)域基礎(chǔ)數(shù)據(jù)服務(wù)的主要買方,平均各家算法訓(xùn)練圖像數(shù)據(jù)累積需求在千萬級以上,隨著落地項目進程加快,將會有更多細分場景的需求產(chǎn)生;近幾年,汽車廠商在ADAS和自動駕駛方向的投入明顯,上汽、吉利等廠商年投入均可達數(shù)億元,對于數(shù)據(jù)的采集和標注需求也逐年增加,預(yù)計未來3年中,汽車廠商將成為需求主力。
智能交互基礎(chǔ)數(shù)據(jù)服務(wù)市場現(xiàn)狀
遠場語音交互成為主流需求,中文類數(shù)據(jù)仍占據(jù)市場核心
2018年語音交互相關(guān)數(shù)據(jù)服務(wù)市場規(guī)模達到13.5億元。語音交互主要分為近場交互、中場交互和遠場交互,以智能影音家居、可交互機器人和車機為代表的中遠場交互類數(shù)據(jù)服務(wù)需求合計占到智能交互基礎(chǔ)數(shù)據(jù)服務(wù)的68%,成為當(dāng)前智能交互基礎(chǔ)數(shù)據(jù)服務(wù)的主流需求,因此針對遠場語音交互的低噪聲環(huán)境服務(wù)具有較強發(fā)展?jié)摿妥h價能力。在服務(wù)語種上,中文(含方言)服務(wù)占據(jù)71%的市場份額,外語種資源相對稀缺,采集和標注難度較大,成本相對更高,目前占29%的市場份額。
智能交互基礎(chǔ)數(shù)據(jù)服務(wù)技術(shù)趨勢
實現(xiàn)跨語音識別、語義理解的復(fù)合數(shù)據(jù)標注
目前企業(yè)在智能交互系統(tǒng)的建設(shè)中,對單純的語音識別或合成方面技術(shù)能力相對較完善,而在上下文理解、多輪對話、情緒識別、模糊語義識別、意圖判斷等方面的研發(fā)痛點更強,根據(jù)智能交互系統(tǒng)算法的發(fā)展,迭代并設(shè)計符合算法需求的NLP數(shù)據(jù)產(chǎn)品,有助于從數(shù)據(jù)層面推動智能交互系統(tǒng)的發(fā)展。特別的,對話系統(tǒng)的效果對標注數(shù)據(jù)的質(zhì)量和規(guī)模依賴性很強,但目前受標注數(shù)據(jù)和模型能力的雙重制約,對話流程還無法對語音、語義整個交互流程打通,而實現(xiàn)跨語音識別、語義理解的復(fù)合數(shù)據(jù)標注可以幫助減輕語音信息與文本信息之間的信息誤傳導(dǎo),對整個對話流程效果增強能夠產(chǎn)生積極影響,將增加智能交互基礎(chǔ)數(shù)據(jù)服務(wù)探索的可能性。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)客戶定位
客戶分為AI公司、科技公司、科研機構(gòu)、行業(yè)企業(yè)四類
從需求方來看,AI公司和科技公司占主要份額,AI公司更聚焦于視覺、語音等某一類型的基礎(chǔ)數(shù)據(jù)服務(wù),而科技公司結(jié)合集團優(yōu)勢,向人工智能整體發(fā)力,不同部門會產(chǎn)生多類型數(shù)據(jù)需求,科研機構(gòu)需求占比較小。此外傳統(tǒng)意義上的行業(yè)企業(yè),如汽車廠商、手機品牌商、安防廠商等傳統(tǒng)企業(yè)圍繞自身業(yè)務(wù)進行技術(shù)拓展,也開始產(chǎn)生AI基礎(chǔ)數(shù)據(jù)需求,并且量級逐漸增大,未來將釋放更多市場空間。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)核心需求類型
AI應(yīng)用三大階段,對基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)生差異化需求
企業(yè)應(yīng)用人工智能算法要經(jīng)歷研發(fā)、訓(xùn)練和落地三個階段,不同階段對于AI基礎(chǔ)數(shù)據(jù)服務(wù)也有差異化需求。研發(fā)需求是新算法研發(fā)拓展時產(chǎn)生的數(shù)據(jù)需求,一般量級較大,初期多采用標準數(shù)據(jù)集產(chǎn)品訓(xùn)練,中后期則需要專業(yè)的數(shù)據(jù)定制采標服務(wù);訓(xùn)練需求是通過標注數(shù)據(jù)對已有算法的準確率、魯棒性等能力進行優(yōu)化,是市場中的主要需求,以定制化服務(wù)為主,對算法的準確性有較高要求;落地場景的業(yè)務(wù)需求中算法較為成熟,涉及的數(shù)據(jù)采集和標注更貼合具體業(yè)務(wù),如飛機保養(yǎng)中的涂料識別數(shù)據(jù)等,對于標注能力和供應(yīng)商主動提出優(yōu)化意見的服務(wù)意識有較強要求。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)需求痛點
五大需求痛點決定AI基礎(chǔ)數(shù)據(jù)服務(wù)商的服務(wù)標準
目前需求方在選擇數(shù)據(jù)服務(wù)時往往會遇到數(shù)據(jù)安全、采標能力、數(shù)據(jù)質(zhì)量、管理能力、服務(wù)能力等痛點。對于數(shù)據(jù)安全,需求方希望基礎(chǔ)數(shù)據(jù)服務(wù)商有明確具體的安全管理流程,對數(shù)據(jù)傳輸、存儲,以及結(jié)項后的數(shù)據(jù)銷毀等環(huán)節(jié)比較重視。在采標能力方面,需求方算法越來越貼近業(yè)務(wù),希望數(shù)據(jù)服務(wù)商對于自動駕駛、工業(yè)等有一定門檻的領(lǐng)域有采集能力,并且能理解客戶意圖,配合標注,甚至可以提出標注建議;根據(jù)市場反應(yīng),大多數(shù)數(shù)據(jù)服務(wù)公司首次交付項目時,數(shù)據(jù)的準確率普遍偏低,都需要一到兩次的返工,故需求方對無效數(shù)據(jù)少、準確率高的公司更加青睞。對于執(zhí)行效率,一般AI基礎(chǔ)數(shù)據(jù)服務(wù)商都能在項目周期內(nèi)完成,但管理能力較弱的公司很難在兼顧多個項目時做到精力集中、高質(zhì)量地服務(wù)客戶,同時執(zhí)行團隊的素養(yǎng)與信譽也是重要影響因素。服務(wù)意識是一項軟實力,需要AI基礎(chǔ)數(shù)據(jù)服務(wù)商能夠積極配合、快速響應(yīng)需求方要求。
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)發(fā)展建議
企業(yè)由被動執(zhí)行向主動服務(wù)的意識躍遷
單純依據(jù)客戶各個項目的訴求進行數(shù)據(jù)采集和標注屬于被動執(zhí)行,主觀能動性低、行業(yè)邊界有限,各家公司的產(chǎn)品和服務(wù)趨于同質(zhì)化、競爭呈膠著狀態(tài),制約著AI基礎(chǔ)數(shù)據(jù)服務(wù)的發(fā)展。通過對需求方的研究,發(fā)現(xiàn)除安全性、質(zhì)量、效率等核心關(guān)注點之外,越來越多的需求方對數(shù)據(jù)服務(wù)公司產(chǎn)生了主動服務(wù)的需求,希望數(shù)據(jù)公司能夠更懂算法技術(shù)、更懂需求場景,甚至能參與到算法的研發(fā)中來,給出數(shù)據(jù)采標方面的優(yōu)化建議,這也為數(shù)據(jù)服務(wù)商形成差異化競爭帶來了契機,尤其是在AI落地階段,在垂直場景中能夠形成一套集調(diào)研、咨詢、設(shè)計、采集、標注為一體的AI基礎(chǔ)數(shù)據(jù)整體解決辦法,將在收入和業(yè)務(wù)邊界上實現(xiàn)突破。