您好,登錄后才能下訂單哦!
2020 年 1 月 14 日 13:58
如果將人工智能比作“火箭”,那么,數據就是助推火箭上升的“燃料”。機器學習依賴大量的已標注數據,數據標注讓機器理解并認識世界。數據標注是人工智能發展過程中不可缺的一環,是 AI 金字塔構建的基礎力量。與 AI “臺前”的繁榮、高光形成鮮明對比的是,數據標注往往居于幕后,常被人忽視,也受到一些偏見,“血汗工廠”、“AI 富士康”、“新型民工”…隨著 AI 深入落地對數據提出更高的要求,數據標注行業也從草莽生長階段逐漸過渡到更精細化的成長期。
數據是機器學習的基礎,機器學習建立在數據建模基礎上,豐富的標簽是機器學習成功建模的前提。監督學習是目前應用最廣泛的機器學習算法,該方法強依賴標注數據,它通過學 習 大 量標注的訓練樣本來構建預測模型。深度學習也需要大量數據的“投喂”,以深度學習為代表的機器學習框架都需要在大型的監督數據集上進行訓練,百分點首席算法科學家蘇海波曾表示,深度學習只有在擁有充足標注數據的場景下才能發揮它的威力,但在很多實際的應用中卻沒有足夠的標注數據。
AI 技術在全場景的落地以及大數據時代的到來產生了海量、指數級別的數據,數據獲取也相對變得容易,然而,想要獲得大量的已標注數據卻并不容易,往往需要付出很大的人力、物力、財力成本。在醫療 AI 等專業門檻較高的細分領域,缺乏標注數據就成了阻礙行業發展的“絆腳石”,騰訊優圖實驗室總監鄭冶楓曾在接受 AI 前線采訪時表示,醫療數據標注“難”一方面體現在頂尖的醫療數據標注人才缺乏,另一方面,臨床、科研任務重,很多醫療專家沒有時間和精力做數據標注。
數據標注主要是針對語音、圖像、文本等進行標注,主要通過做標記、標重點、打標簽、框對象、做注釋等方式對數據集作出標注,再將這些數據集給機器訓練和學習。數據標注的類型主要有:拼音標注、韻律標注、詞性標注、音素時間點標注、語音轉寫、分類標注、打點標注、標框標注、區域標注等等。由于需要標注的數據規模龐大且成本較高,一些互聯網巨頭及一些 AI 公司很少自己設有標注團隊,大多交給第三方數據服務公司或者數據標注團隊來做。
數據服務是標貝科技的起家業務,自 2016 年成立以來,標貝科技為 BAT、AI 獨角獸等多家公司提供過語音、圖像、NLP 數據的采集、標注等服務。據標貝科技數據負責人繆冠瓊介紹,標貝有自研的采集標注平臺,包括長語音(對話、持續)標注平臺和短語音(十幾秒)標注平臺, AI 語音合成數據標注平臺、數據工場 APP 等。在標注平臺的選擇上,會依據圖像、語音數據、數據來源、客戶需求等綜合決定。以語音合成數據標注為例,會標注其音字、韻律、音素時間點、詞性等標簽。
人工智能的繁榮催生并壯大了數據標注行業,也創造了大量的就業崗位。有數據顯示,目前中國的全職數據標注從業者有約 20 萬人,兼職數據標注從業者有約一百萬人,全國從事數據標注業務的公司約有幾百家。
在數據標注行業流行著一句話,“有多少智能,就有多少人工”。數據標注是人工智能發展中至關重要的一環,卻常常容易被人忽視。
相對而言,數據標注是人工智能領域“入門級”的工種,單從工作流程看,其技術含量較低,人是這項工作中最大的影響“因素”,久而久之,“勞動密集型”成為外界給數據標注行業貼上的一個標簽。低門檻吸引了眾多農民、學生、殘疾人群體加入到數據標注大軍中,在我國河南、河北、貴州、山西等地的四五線城市還出現了一些特色的“數據標注村”。
不止中國,向勞動力更充足、成本更低的地方遷移也是全球數據標注行業的發展趨勢。印度涌現了不少數據標注村,他們為美國、歐洲、澳洲和亞洲的 AI 公司服務,Facebook 就曾將部分社交內容標注的工作外包給了一家印度公司。
上述務工者也由此成為了人工智能浪潮中的參與者,盡管待遇上遠遠少于其他人工智能從業者,但相較傳統的體力工作,數據標注員的工作倒是更輕松,體面。不過,硬幣的另一面是,這項工作流程簡單,單調乏味,數據標注員日復一日重復“畫框”的工作…關于數據標注行業是“臟活累活”、“數據民工”的論調也四散而起。
對于這些“聲音”,繆冠瓊并不認同。
“我覺得(它)不是‘臟活累活’行業 ,因為這并不是一個什么人都可以做的工作。AI 本身發展很快,隨著應用產品落地,對數據的要求越來越高,對數據采標人員的素質也提出了高要求“。考慮到外包團隊服務質量難以把控等因素,標貝科技所承接的項目主要依靠自有數據標注團隊,其在天津、長春等城市設有數據團隊,兼職人員則視項目大小臨時擴容,遴選兼職人員時更考慮專業水平,要求具有語言、方言背景,或者有數據標注經驗,無經驗者要經過至少 6 個月培訓。
繆冠瓊表示,數據標注行業的發展越來越趨向于專業化,早期多以中文數據標注為主,現在隨著多語種、方言、個性化標注等發展標注需求的增加,并不是隨便“拉來”很多人就可以做的,需要專業的人才。此外,“血汗工廠”這種情形多出現在行業早期且多針對于只有數據標注一項業務的小團隊,它們承接不了一些復雜的、定制化的項目。從工作量上看,結合客戶需求,以語音標注為例,標貝科技的數據標注員一個人工作一天的有效標注語音時長為 1 小時。
蠻荒時代已過去了。
《2019 年中國人工智能基礎數據服務行業白皮書》分析指出,2010-2016 年為數據服務行業的“初生期”,早期數據標注需求激增,加之入行門檻低,涌入了大量玩家,魚龍混雜。自 2017 年以來,伴隨著 AI 深入落地到各個應用場景中,數據標注行業了進入成長期,上層應用端的廠商對數據標注質的要求不斷提高,如自動駕駛、運動圖像、計算機視覺等領域的數據標注難度很高。
行業格局漸漸清晰,馬太效應明顯。據了解,國內從事數據標注業務公司 / 團隊約有幾百家,其中獨立做整個數據質量服務的約百余家,能夠提供數據采標服務一體化的有幾十家,能夠提供高標準基礎數據服務的僅有十幾家。現階段,下游 AI 算法研發單位多將業務分流給不同數據服務公司加之數據標注相關標準待完善,該行業還沒有出現大的巨頭公司。
這是一個尚未飽和的市場,同樣,這也意味著巨大的發展空間。據統計,2018 年中國人工智能基礎數據服務市場規模為 25.86 億元,行業年復合增長率為 23.5%。
繆冠瓊認為,受數據安全和質量標準不斷提升及相關數據政策出 臺影響,一些不滿足行業標準及客戶需求的將會被市場淘汰。她補充,“行業目前正處于一個上升的、快速發展的階段,整體在朝著個性化、專業化的方向發展,從早期較簡單的、通用的數據過渡到更復雜的個性化的、場景化的數據,對于很多細分領域,需要大量真實的模型進行標注去迭代模型,而非簡單的通用數據可以滿足的”。
數據標注行業也已經開始進入到人機協作的階段,數據標注市場需求量仍舊很大,需要更加專業的人及高效的機器協助,機器標注所占的比重會不斷提升,AI 技術與數據互補,通過 AI 技術提升數據效率,數據反過來服務于技術。
為降低人工成本,提高效率,不少互聯網技術公司及第三方數據服務商在開發自己的標注工具。去年 10 月,Google 發布了用于完整圖像標注的人機協作接口 Fluid Annotation,利用它標注圖像中每個對象和背景區域的類標簽與輪廓,可將標注數據集的創建速度提高三倍。數據標注眾包平臺也不斷涌現,京東眾智、百度眾測、figure-eight、亞馬遜的 Mechanical Turk 等。
未來,機器標注、人工輔助將成為可以預見的發展趨勢。這對“數據標注村”來說或許并不是一件好事。但繆冠瓊認為,機器不可能完全取代人工。現階段人工標注的準確度要高于機器,機器只能跑出有一定比例的正確結果,更精確的結果仍需要人工來標注,且發揮的作用更關鍵。此外,在質檢環節,人的作用也無可替代,標貝數據校對采用人工為主的處理方式,采用遵循“一審、二校、三驗”流程,機器會抽檢、驗收一部分數據并給出預處理結果,最終的結果要靠精細化的人工校對。
https://www.infoq.cn/article/F3eYbuTb2ygMIUdNtatL?utm_source=tt&utm_medium=infoq&utm_campaign=newinfoq&utm_content=0114ai
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。