数据为王 | 如何让数据像石油一样被交易?

 

fm

《中国经济周刊》2018年第3期封面

《中国经济周刊》 记者 银昕 | 北京报道

责编:陈惟杉

(本文刊发于《中国经济周刊》2018年第3期)

2018年年初,微信官方表示,不会将用户的任何聊天内容用于大数据分析;百度在被指涉嫌“监听电话”后表示,旗下App不会、也没有能力监听电话;支付宝与芝麻信用有关负责人因“支付宝年度账单事件”被约谈……

在一个万物互联的时代,每个人、每个时刻都在产生数据,越来越多的数据可以被采集,被用于大数据分析、人工智能的训练等领域,这不仅模糊了个人隐私的边界,也令数据成为一种资源,引发各方的争夺。

“未来最大的能源不是石油而是数据。”从2015年马云作出如此表述开始,数据不断被喻为未来的“石油”。

上个世纪,石油对新经济、新业态以及新的就业产生的作用不言而喻,有人甚至将其称为“增长和变革的驱动者”,石油的广泛应用产生了新的基础设施、新的商业模式、新的垄断机构、新的经济,甚至是新的政治(油价一度成为产油国和石油主要消费国之间政治博弈筹码)。

如今,数据能够担当这样的重任吗?

与石油相比,数据是完全不同形态的资源,其“萃取,提炼和估价”的方式截然不同,交易的方式更不相同,数据将改变一些市场规则,需要管理者制定新的规则进行治理,很多冲突也会像石油引发的博弈一样,围绕着“谁该拥有数据”,以及“谁有权利从数据中获益”展开。截至目前,数据所有权归属及交易、流通和定价机制在全球范围内都只处于起步阶段。

当前,大数据已成为我国的国家战略。2017年12月8日,中共中央政治局就实施国家大数据战略进行集体学习,习近平总书记强调, 要制定数据资源确权、开放、流通、交易相关制度,完善数据产权保护制度。

“集体学习的内容对于任何与数据打交道的行业来说都值得欢欣鼓舞。”浙江省卫生信息学会秘书长倪荣博士对《中国经济周刊》记者表示,信息壁垒及数据确权、开放、流通、交易相关制度正是当下我国数据行业面临的主要问题。

谁的数据?

复盘华为、腾讯数据争夺战,数据该如何“确权”?

在人工智能是继移动互联网之后的下一波技术潮流已成为普遍共识的背景下,2017年8月,一场硬件厂商与服务提供商之间的数据之战打响:腾讯认为华为正在通过其荣耀Magic智能手机收集用户活动信息,以打造其人工智能功能,例如使手机基于用户的短信内容推荐餐厅,而其收集的数据包括微信的聊天信息,这一行为侵犯了本应属于用户和腾讯的数据,并侵犯了微信用户的隐私,腾讯已请求政府部门介入此事。

华为方面则表示,所有用户数据都属于用户,不单方面属于腾讯或华为,该公司在荣耀Magic设备上处理用户数据之前经过了用户授权。

“这背后是各厂商在人工智能时代开启后,对数据入口的激烈争夺。”通信行业观察人士项立刚对《中国经济周刊》记者说,目前几乎所有科技公司都在发力人工智能,而抛开数据谈人工智能,是无水之鱼。他分析认为,数据归根结底是用户的,并不能简单说是硬件厂商的还是服务提供商的,目前数据所有权问题在法律上还是空白。“但这部分用户数据在双方的战略布局中都极为重要,这已是不争的事实。”

抢数据就是“抢石油”

根据麦肯锡发布的2017全球人工智能报告,科技巨头们在2016年对人工智能的花费在200亿至300亿美元之间,美国公司占据所有人工智能投资的66%,中国占据17%,排在第二位,并且增长迅速。

就国内厂商而言,截至目前已高调宣布“All in”人工智能的企业有百度和联想,此次数据之争的主角之一华为并没有公开宣称“All in”人工智能,但布局也在悄然进行。根据领英中国发布的数据,华为在人工智能方面的雇员数量在中国企业中最多,高调宣布“All in”人工智能的百度名列第二,联想的雇员数量则列第八。此次冲突的主角荣耀Magic手机就诞生于华为的人工智能实验室,被华为内部称为Intelligent Phone,而非Smart Phone。

一家国内头部互联网公司高层曾对《中国经济周刊》记者说,“大量的公司都说自己能够做人工智能,但很可能干不好,因为没有数据。”

他进一步解释说,人工智能有几个绕不过去的因素,排在第一位的就是数据,“没有海量的数据是训练不出人工智能的。”

青云QingCloud CEO黄允松告诉《中国经济周刊》记者,业界目前对人工智能的架构基本达成一致:计算平台、数据平台和数据是人工智能的“三驾马车”,其中前二者就是云计算和大数据,而目前各方的激烈争夺围绕后者——数据展开。

硬件厂商要“换个活法”

2017年1月,一则华为终端业务负责人余承东被华为创始人任正非批评的消息不胫而走。一些人认为是华为出货量未达预期所致。华为2015年实现手机出货量1亿部,于是定下了2016年达到1.4亿部的目标,但2016年华为出货量只有1.39亿部,没有达到预期。“产能的问题任总是能理解的。如果非要说批评了什么,那就是批评我们盈利能力还是不足,利润增长太慢,太多利润都被渠道商赚走了,我们成了为渠道商打工的了。”余承东如是说。

其实,设备制造商的利润率一直都不尽如人意。

华为公布的2016年财务报告显示,该年华为营业收入为5276亿元人民币,净利润却不到371亿元,同比增长为0.38%,利润率仅为7%;反观腾讯,2016年其收入虽不足华为的三分之一,但净利润却超过华为,达到414.47亿元,利润率则超过27%。

与百度一样高调宣布“All in”人工智能的联想目前已没有利润可言。根据2017年8月联想公布的2017—2018财年第一季度数字,其营业收入超过100亿美元,与上一年同期基本持平,但税前利润为-6926.2万美元。联想集团解释为“受零件成本上涨和供应链短缺影响,导致集团业绩波动”。

硬件业务永远都会“受零件成本上涨和供应链短缺”影响,于是硬件厂商亟待寻找新的突破点:收集数据,做人工智能。“安卓手机厂商的利润率普遍不高,不能单纯靠硬件赚钱。”黄允松对记者说,增值空间较大的领域,是通过大数据分析来做精准的推送,这就需要获取数据、分析数据、运营数据。

硬件厂商对数据的渴望就此展开。

有分析人士认为,在“大数据”和“云计算”时代,服务提供商对数据的处理和计算能力领先于硬件厂商,硬件厂商渐渐沦为“打工者”的边缘角色,但在“数据”归位于人工智能时代的“三驾马车”之中后,希望似乎正在到来。

服务提供商对数据的获取与应用通常以业务切入。以自建物流的京东为例,其已经用掌握的大量物流数据优化物流。“除了最直观的无人车和无人机、无人仓带来的运营成本的减少,一些感知不太直接的人工智能技术,比如智慧供应链也带来了效率提升。”京东集团副总裁、大数据研发部负责人翁志告诉《中国经济周刊》记者,智慧供应链的智能补货、智能调货等平台,提升了现货率、减低了供应商的库存周转天数和库存成本。

但无论何种高效的服务,最终是安装在智能硬件之上才能完成的,这让硬件厂商开始动起了脑筋。通信行业观察人士项立刚对《中国经济周刊》记者解释说,“人工智能的技术可以被描述得天花乱坠,但最终要靠硬件与用户实现交互来落地。存储、交互、通信是硬件厂商做人工智能时需要倚仗的要素,一来可以利用其在硬件制造方面的优势,同时又为其PC和手机业务的未来发展提供新的可能。”

如此一来,硬件厂商手中的设备不再是“累赘”,反而变成“资产”。华为目前就已经拥有庞大的智能手机资产;反观腾讯,虽一直以投资的方式对智能设备进行布局,但至今为止似乎未见明显建树。

联想研究院院长芮勇在联想TechWorld上宣讲联想的人工智能战略时出现频率颇高的一个词就是“硬件”,他反复强调硬件品类的齐全对联想“All in”人工智能的好处:“联想是全球为数不多的拥有设备、服务及后端的基础架构的企业,人工智能需要迭代,做闭环的系统,前端设备就是入口。每年联想售出1.5亿台设备,有设备就有数据,用户购买之后基础架构就会研究和分析数据。”项立刚也认为一旦硬件厂商拥有包括PC、手机和平板电脑在内的全品类硬件,这在AI时代可以被看做是优势。

不愿居于“打工者”位置的硬件厂商,从人工智能浪潮中似乎嗅到了一丝“逆袭”的机会。

腾讯与华为争的是“超级入口”

就在华为与腾讯爆发数据争夺战后,双方举行了一场内部交流会,就华为手机的具体技术进行了交流,但没有达成任何结论。会后,腾讯副总裁丁珂曾对媒体称赞了华为的技术实力,称华为开发荣耀Magic这款手机的本意是好的,从技术上说其人工智能技术可以带来高效,而该款手机所引发的争论是两家公司“理念不同”导致的。丁珂说,微信的价值导向是从来不会读取、分析用户的聊天记录。

事实上,荣耀Magic是华为6年多来在人工智能技术的发展和应用领域中布局的关键棋子。现任华为轮值CEO徐直军此前正是这款手机所在项目的负责人。荣耀Magic以“应用调用应用”的做法触碰了服务提供商的“底线”,这使腾讯让微信成为“超级流量入口”的算盘遇到了挫折。

“应用调用应用”到底是要做什么?

随着智能手机上App数量越来越多,手机用户经常感到不停地切换于各个App之间十分不便,希望一个“超级入口”出现,一个平台可以搭载几乎所有与生活服务密切相关的应用。同时,硬件厂商面对一个个数据并不互通,实质上已成“孤岛”的App也深感不便。

智能手机本身已承载了用户的衣食住行等各种行为产生的各类数据,如果硬件厂商在安卓系统底层与各App之间建立另外一套系统来去分析用户的行为数据,并提供以数据为基础的人工智能服务,争取能“比用户更懂用户”,硬件厂商就可以在系统底层与服务提供商之间建立一套由自己掌握的新规则,服务提供商此时便处于产业链“下游”的位置,这便是荣耀Magic手机“应用调用应用”的实质。

据了解,国外科技巨头对此也并非没有举动,Google和苹果在2015年前后均推出过类似功能,分别“藏”在Google Now on Tap及Siri中。

“应用调用应用”对我国移动互联网现有利益格局造成了强烈冲击,其对微信这个“超级入口”地位的威胁最大,腾讯反应自然激烈。此前,微信已将共享单车、票务、网络预约出租车、餐饮及旅游等多项生活服务集于一身,微信是规则和利益分配原则的制定者。荣耀Magic则试图打破这套封闭系统,与其他手机应用一样,微信、QQ也受“应用调用应用”功能实施者MagicLive监测,该系统在监测到微信中的聊天内容后,可自行在日历中生成日程。

华为公开宣称,大量生活服务类App与荣耀Magic手机“相处和谐”,乐于受MagicLive的“调遣”,没有遇到像腾讯一样的挑战。但有业内人士直率地指出,绝大多数生活服务类App提供商没有成为“超级入口”的野心,MagicLive和微信一样无非是另外一个“入口”罢了,腾讯反应激烈的原因在于微信“超级入口”的地位受到挑战。

然而,作为一款初级概念性产品,荣耀Magic并非“爆款”。项立刚是该手机的用户,他认为其运行感和体验并没有太多超过其他手机之处。

关于设备厂商就此实现“逆袭”,黄允松也持相似观点,他认为人工智能时代必须是计算平台、数据平台和数据“三驾马车”并驾齐驱,“单独谈设备制造商的优势是不客观的。”

数据确权顶层设计不可或缺

“数据说到底是属于用户的,而不是哪家企业的。”在项立刚看来,人工智能时代更需要打破壁垒,构造开放式的生态环境,实现数据互联互通,“网络服务提供商也好,硬件厂商也好,越往后越不可能出现一家巨头对数据进行垄断的局面,华为和腾讯的争夺可以是一个典范,未来服务提供商和设备厂商之间可共同制定规则,达成共享协议来解决这个尴尬,最终更好地服务用户。”

从事零售、物流及金融业务的京东除自身业务产生的数据外,也有向公开市场采购数据进行补充的经历。对于建立数据交易流通机制,京东集团副总裁、大数据研发部负责人翁志认为,需要首先解决数据确权的问题,“明确数据所有权是建立数据流通秩序的前提条件,需要有明确的、标准的定义,应该有相关的国家法律法规出台”;其次,什么数据可交易、什么数据不可交易,应该有明确的范围,保证个人隐私数据不被贩卖,这也需要国家强有力的监管;第三,个人用户数据价值也很大,需要从技术上突破,进行数据的匿名和脱敏(编者注:数据脱敏指对某些敏感信息通过脱敏规则进行数据的变形,实现对敏感隐私数据的保护),而又不导致数据关联时分析价值的降低,这在技术上目前还是个挑战;“最后还应实行市场准入制度和严格监管机制,对于参与和建设主体进行严格要求和监管,在这一点上国家层面的力量更是不可或缺。”

医疗界人士也在呼吁顶层设计“先行一步”,线上医疗企业丁香园创始人李天天对《中国经济周刊》记者表示,医疗大健康数据关乎个人隐私和国家安全等关键问题,“应顶层设计先行,制定出国家标准,企业和各类数据交易机构随后跟进,这样才能构建比较完善的数据交易机制。”

确权的实现不可避免地要在数据所有者(用户)和数据使用者(服务提供商)之间进行平衡。在国外的软件行业中不乏这样的商业模式:用户有偿地开放使用数据给服务提供者,服务提供者向用户支付一定数额的费用,当作用户主张其对数据的所有权,但我国尚未有类似做法。

上海数据交易中心CEO汤奇峰分析认为,用户理所应当是数据的产生者和所有者,然而正是服务提供商的加入,才使用户的行为被收集和封装成为数据,服务提供者同样是数据链条上不可或缺的一环,而用户在服务提供者的帮助下,享受了其提供的订机票、送餐等出行和生活服务的便捷,其实已经获得了提供数据给服务提供者的“红利”。“数据的确权肯定是在用户和服务提供商之间达成平衡,而不是单方面地强调用户对数据所有权的主张。”汤奇峰告诉记者,国家制定并实施《网络安全法》就是要将数据所有者(用户)和数据控制方(服务提供者)都纳入保护范围,制定出被各方都能接受的条款,“数据控制方按照有效性和有限性两个原则对用户数据进行使用。”

但在现实中这种“平衡”似乎难以达成,例如在医疗行业中,企业使用患者数据要遵循“患者本人知情同意”原则,即用户在“知情同意”的复选框上打钩后服务提供者才能使用其数据。一旦用户不打钩,则无法进入服务流程的下一步,也就是无法使用该服务,“知情同意”变成了“不同意也得同意”。倪荣对此分析说:“这种确权明显是不到位的,但是目前没有明确的文件很细致地规定有关数据确权的详细标准,确权确到哪一步,现在还是空白。”

 

如何让数据像石油一样被交易?

数据定价是个难题?

2017年数据行业充满了对数据所有权的纷争,其中以华为与腾讯、菜鸟与顺丰之间的争夺最为激烈,业界对打造“开放共享的数据生态”的期待也始于此。然而对视数据如生命的商业机构来说,无条件地开放共享自己所拥有的数据几无可能,一套有条件的“有价共享”的数据流通规则成为多数业内人士的共识: 即在各市场主体之间达成协议,进而达成行业内有普遍共识的行业协议,形成一套包括定价机制在内的数据流通规则。

有业内人士向记者透露,腾讯曾就与华为之间的数据纠纷提请工信部进行裁决,工信部坚持此事以市场经济规则解决,即涉事双方互相协商,争取达成行业内的一致意见。

与早就实现标准化交易的石油相比,数据的定价问题始终是个难点,也是重点。有分析认为,鉴于数据本身的丰富性和复杂性,即便企业出价从外部购得新的数据,嫁接在自身数据之上,很可能产生不知如何使用、不知如何发挥最大价值等问题,所以对数据价格不知该如何确定,于是将自身数据都“据为己有”,有意回避公开交易机制,成了商业机构自保的一种选择。

中国人民大学金融科技与互联网安全研究中心主任杨东告诉《中国经济周刊》记者:“数据交易双方信息不对称,这种不对称与实物商品交易中存在的信息不对称有所不同,不仅买方对大数据商品的价值不确定,甚至卖方对其拥有的大数据也无法做出理性评估。”据了解,目前数据行业中尚未形成较为统一的定价机制,大多数交易以协议定价和拍卖竞价及固定定价进行。

“我们从来没有从外部采购过数据。”丁香园创始人李天天告诉《中国经济周刊》记者,在数据交易中经常出现“我买来之后发现其实这段数据并不是我想要的,于是我觉得买亏了”,以及“你认为不重要的恰恰是我认为非常重要的”等认知不对等、信息不对称的问题,出于谨慎以及医疗数据的特殊性,丁香园没有对外采购过数据。而与买卖双方以及行业内部自行协商搞出一个价格相比,李天天更倾向于一个第三方交易机构专门就数据的定价做出一系列标准,然后大家共同执行。

“我想我们的使命也是如此。”李天天的想法与汤奇峰不谋而合,汤奇峰认为,企业与企业之间一家家地谈价格,首先在时间上是浪费;其次,某一家企业不可能掌握与数据行业有关的所有动态,而数据交易机构的专业性和信息的准确性及完整性都可以支持其掌握买卖双方的信息,进而逐渐形成买卖双方都认可的市场化定价机制,而非掺杂了较多主观化甚至情绪化的定价行为。“通过我们的打包和其他各种技术处理,形成标准化的各类‘数据商品’,进行自由流通并不会是特别遥远的事情。”汤奇峰说。

数据该如何进行标准化的交易?

石油的标准化交易由美国标准石油公司经过一系列的技术改造得以实现,“标准石油”名如其实,1911年,标准石油公司被美国联邦最高法院以反垄断为由分拆成34个独立公司。

“与石油相比,数据难以进行标准化交易。这与数据本身的定价难、存储载体难以转移以及数据一直在实时更新有关,而这些是不会发生在石油身上的。”中国人民大学金融科技与互联网安全研究中心主任杨东分析说。

如何将数据变成像石油一样可进行标准化、商品化的交易?

据了解,我国与数据有关的交易平台数量在2017年年末已达到30个,包括北京大数据交易服务平台、长江大数据交易所、东湖大数据交易平台、上海数据交易中心等,其中也不乏贵阳大数据交易所这样的“明星项目”。

作为全球第一家大数据交易所,贵阳大数据交易所于2015年4月14日正式开业,其官方网站披露,截至2017年10月,累计交易额1.2亿余元,交易框架协议近3亿元,发展会员超1500家,接入225家优质数据源,可交易数据产品近4000个,可交易的数据总量超150 PB。但与企业所掌握的数据相比,联想一家就拥有超过12PB的数据,每日新增的数据量超过30TB,贵阳大数据交易所掌握150PB的数据总量并不算高。

“总体而言,数据交易额较小、数据来源比较狭窄,数据交易所与我国的其他机构产生的海量数据相比只是冰山一角,目前的存储技术也难以支持数据如同U盘一样‘即插即用’。”杨东表示。

有互联网公司高管曾对记者说,企业拥有的数据必须是“活”的,“数据是有时效性的,半年不用,有效数据可能只占原来的50%;3年不用,有效数据可能只剩下10%。”

一个好消息是,在前一个阶段的探索下,数据交易从概念到落地,部分省市和数据企业在定价和交易标准等方面有了一些成果,催生了体量相当可观的大数据交易行业。据贵阳大数据交易所发布的《2016年中国大数据产业白皮书》统计,2015年我国大数据相关交易的市场规模为33.85亿元,预计到2020年将达到545亿元。

“要想促进数据交易行业的繁荣,很重要的一个环节是把原始数据‘封装’成为可供交易的‘源数据’,其中涉及一系列的‘清洗’和‘打包’技术,这一点上与石油的提炼和萃取有点相似。”上海数据交易中心CEO汤奇峰告诉《中国经济周刊》记者,目前他和同事所做的一项重要任务就是在数据的流通环节,对组织定价、隐私保护、数据质量以及与开放共享有关的数据流转等环节进行一系列标准和规范的探索。

如何打破“孤岛”和“烟囱”?

除交易流通机制外,“打通信息壁垒,形成覆盖全国、统筹利用、统一接入的数据共享大平台”也是习近平总书记在中央政治局集体学习中明确提出的要求。

汤奇峰认为,与商业机构之间的数据交易流通相比,掌握在政府部门、国有企业和公立单位手中的数据在数量上远远超过商业机构所掌握的数据,打破信息壁垒,形成覆盖全国的数据共享大平台应在公共属性较强的数据类别率先展开。

以公共属性较强的医疗领域数据共享平台为例,我国从2014年就已着手布局。2014年7月,国家卫计委提出“46312”工程,即4级卫生信息平台、6项业务应用、3个基础数据库、一个融合网络和两个标准体系,其中“一个融合网络”近似于全国统一的医疗数据平台。在具体实施过程中,各地方因地制宜地做出了一些升级和优化。温州市卫计委信息中心主任何耀平告诉《中国经济周刊》记者,该市在市、县两级数据平台的基础上进行了融合,温州市的市、县两级医疗卫生机构共享同一个数据平台。

“国家要全面地掌握公共属性极强的数据。公共数据归国家所有,也是数据确权的题中之义。”作为“46312”工程文件的起草者之一,浙江省卫生信息学会秘书长倪荣博士告诉《中国经济周刊》记者,几年以来随着云计算技术的提升以及体制外医疗机构(如微医、好大夫、丁香园等)的“倒逼”,“46312”只作为一个顶层设计的框架方案存在,一些地方政府在此基础上进行了必要的优化和升级。“要解决的问题没有变,就是打破数据孤岛,形成全国统一的数据平台。”

“信息壁垒”目前普遍存在的形式是“孤岛”和“烟囱”。

以医疗行业为例,医疗机构的数据目前与社保体系间互成“孤岛”,卫生管理部门和医疗机构自身所掌握的数据间互成“孤岛”。即便在多家医院构成的医联体内部,目前仅能实现互传数据,但无法做到“互操作”,即互相修改对方提供的数据,这也是一类“孤岛”;而较典型的一类“烟囱”则是传染病直报系统,因为传染病数据的特殊性,该系统可将信息由全国任意地方“一竿子杵到底”地直接上传至国家级平台,但该系统独立存在,与医疗行业的其他数据系统和社保系统都不打通。但是一些不特殊的直报系统类“烟囱”应该被“拔除”,产生的数据应该共享。此外,新成立的社会医疗机构,如微医、丁香园和好大夫等渐渐占据较大市场规模,连接了诸多患者和医生,这类机构各自掌握的数据也是一定意义上没有打通的“孤岛”。

“信息壁垒”还带来公立医疗机构与市场化医疗企业间信息是否可以共享的问题,不乏商业机构用非法手段“打破”信息壁垒的案例。

2017年10月,浙江杭州警方就破获了一起某科技公司利用权限便利和系统漏洞,从浙江某疾病预防控制部门网站非法下载接种疫苗儿童及其家长个人信息,后贩卖获利的案件,最终有39名犯罪嫌疑人落入法网,有关部门查获非法获取的公民个人信息370万余条。“某一地区的居民健康信息对医疗企业来说肯定有巨大的商业价值,如果将来能建立起正常的数据交易机制,商业机构可以合法地从公立机构购得这部分数据用于商业开发,对双方来讲都是很大的方便,但这部分机制目前还是空白。”倪荣对记者表示,他希望在大数据战略的继续实施中,能不断打破“壁垒”,解决上述问题。

从德雷克在美国宾夕法尼亚打出第一口现代工业油井算起,现代石油业用了十几年的时间实现了标准化自由流通,业内人士普遍认为数据的这条路所用的时间可以大大缩短。“习近平总书记提出的数据确权、交易流通等机制的建立,正是数据交易市场中亟须解决的难题,国家将数据资源共享开放放在国家战略层面,是所有数据企业的福音,应该为此做好准备,迎接一个具有非常广阔前景的数据交易时代的来临。”京东集团副总裁、大数据研发部负责人翁志表示,数据交易市场机制的建立是个过程,可喜的是国家已经在逐步加强这方面的立法和监管,“在逐步尝试建立相关机制时,技术的进步也日新月异,相信应该很快能解决我们遇到的问题。”

顶部