星尘数据:人工智能领域的基础性服务

http://www.sina.com.cn 2017年11月08日 16:48 消费日报网

  若把人工智能行业比作金字塔,最顶端的是人工智能应用(如无人汽车、机器人等),而最底端则是数据服务。“国内的应用端和欧美已经并驾齐驱了,但是在最基础的数据服务上还有较大差距。”

章磊

  刚从硅谷回国的章磊,对此感触颇深。彼时,他在一家人工智能投资公司担任首席数据科学家。由于没能找到合适的数据标注公司,他只能通过招募、培训实习生的方式,完成标注工作。由于人员流动性大、成本高,标注效果并不理想。

  章磊介绍,“人脸识别每张图至少需要标注52个点,标注上万张图,无人汽车需要标注的数据更多。这样巨大的工作量通过招募实习生标注的方式事倍功半。”

  在美国有许多专门提供数据标注服务的公司,国内仅有三四家刚刚起步,其标注体系和工具还较落后。如使用QQ群管理标注人员,而非系统自动计算数据质量。

  但是数据的竞争是AI领域最根本的竞争。业界共识是“大量数据+普通模型”比“普通数据+高级模型”的准确度更高,而这些数据必须通过标注才能形成。章磊意识到国内的这座价值50亿美金的“金矿”正待挖掘。

  今年3月章磊和合伙人成立“星尘数据(stardust)”。这是一家AI数据服务公司,为人工智能企业提供机器训练的数据标注服务。

  目前,国内的数据服务才刚刚起步,章磊及其团队成立“星尘数据”,想在这一领域掘到“金矿”。“星尘数据”是一家为机器学习训练提供数据标注服务的公司。其平台“stardust”通过“准入考核”、“动态测量”、“动态发题”和“人机结合”等标注方法,为人工智能企业提供人工智能数据众包服务。

  团队将客户提供的数据和标注模型公布在“stardust”平台上,通过平台考核的C端标注人员可根据模型做标注试题,完成标注任务。团队提供人脸、无人车、图片边缘、图片识别、图片主题提取和声音转文字等多种模型的标注服务。

  以电商的人工智能客服为例,客服需要“理解”用户留言所包含的情绪,才能有针对性地回复。在“你们到底什么时候发货?”这句话中,标注人员需要对所包含的情绪模型“焦躁、疑问、平静、高兴”进行标注,让人工智能学习如何作答。

  由于标注是不断测试和优化的互动过程,“星尘数据”的数据科学家基于建模经验和学术水平,会给客户提供免费的咨询和流程化方案。比如在上例中,章磊会对情绪模型是否合理、是否需要改进提供建议和优化方案。同时,团队也可免费为客户提供标注工具的开发。

  “星尘数据”通过“准入考核”、“动态测量”、“动态发题”和“人机结合”四种方式控制C端用户标注的准确度。通过这套标注方法和体系,平台的标注准确度为99.9%。通过准入考核的C端标注人员已有2万余名。

  章磊通过和硅谷数据安全公司合作,用加密技术在数据底层做隔离,从而分离了数据的使用权和拥有权,以此防止客户数据在众包过程中泄漏。

  目前“星尘数据”团队成员包括2名数据科学家。核心成员来自于世界银行、硅谷、百度研究院(前室吴恩达团队),长期从事数据分析和建模工作。

  公司主要通过人工智能数据标注收费盈利。收费标准为0.05~2元/条,目前已经有近百万的数据标注量。

  今年8月,团队获得天使轮投资,由天使湾领投,英诺天使、老鹰基金和创势基金跟投。章磊介绍,下一步团队除了扩展市场、完善产品外,还将开放API接口,让人力数据加工给更加广泛的企业使用。

  
  免责声明本网转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。

发表评论
Powered By Google