← Dailyio 历史存档 | 搜索

标签: 人工智能

共有 76 篇文章

中国 AI 独角兽们的微妙时刻

「洞察」部分,结合本月三家中国 AI 创业公司的一系列举动,分析其面临的机遇、挑战以及可能的结局;「视野」部分,包括了华为、Google、苹果等大公司的最新新闻与独特观点。

洞察

这个 5 月对于三家中国 AI 明星创业公司而言可谓意义重大。

上周,商汤科技在一场「丰盛」的发布会上发布了 11 款产品,涵盖了医疗、城市、零售、教育、娱乐五个领域,科技媒体 PingWest 的评价:「每一款都存在感极强——都能立刻、马上改变我们的日常生活。」

本月稍早一点,依图科技发布了首款自研的深度学习云端定制芯片 questcore™,主要面向视觉领域的推理和加速。

与之遥相呼应,Face++ 完成一笔 7.5 亿美元的 D 轮融资,参与投资的机构包括中银集团投资公司、阿布扎比投资局旗下的投资公司、工银资管等。

商汤、依图与 Face++,三家公司都是依托计算机视觉起家,在 AI 热潮里迅速成为资本的宠儿,一轮轮眼花缭乱的融资与令人咂舌的高估值之后,也进入到一个微妙的时刻。

首先,这些 AI 创业公司之所以得到资本市场的关注,都是建立在「AI 即将改变世界」的行业判断前提下,这里所谓的「改变世界」,可以理解为对于某些行业的「改造」甚至「颠覆」。

但 AI 创业公司所提供的,只是技术解决方案,上述三家公司无一例外都是计算机视觉技术供应商,他们需要将技术与行业相结合,才能实现所谓「改变世界」的目标,于是我们也看到过去几年,三家公司在大安防领域的厮杀,也看到了其在手机相册技术领域的暗战。

第二,计算机视觉技术作为 AI 领域的重要技术,其应用的场景非常广泛,不过除了上文提及的大安防,鲜有其他领域的落地实践。也正因为此,CB Insights 在 2018 年度 100 个 AI 创业公司里,将上述三家公司列为「To G」的公司,也就是「To Government」,

img

我在当时的会员通讯里这样评价:「考虑到他们的主要生意都是在中国大陆,这也让整个围绕 AI 生意的讨论变了味道,这是一个无比残酷但必须要接受的现实:在政府需求的刺激下,依靠海量的脸部数据,中国大陆造就了多个全球 AI 独角兽。」

第三,随着三家创业公司开始主动或被动的扩张,也将越来越多地进入到 BAT 的地盘。以商汤此次发布的城市解决方案为例,PingWest 这样介绍商汤的产品:

这套“端-边-云”一体系统在前端支持轻量高精度算法;在边侧,实现中小场景数据闭环;在云端,保证海量数据高可用。

方舟 2.0 具有强大的前端计算能力,可识别 20000 人脸库,可广泛用于闸机、门禁、办公室等场景,算法识别准确率达到 99% 以上。在每一个端点,方舟 2.0 都能完成人脸抓拍、黑白名单布控、数据分析、多算法融合、信号联动控制等复杂任务。

在边侧,智能边缘节点作为一款基于深度学习技术的多算法融合嵌入式边缘计算产品平台,能够按摄像头分配场景适用算法,提供摄像机、抓拍机、门禁机等多种采集设备接入能力,支持8路高清视频接入和 10 万张比对库容。

这和阿里云 ET 城市大脑、百度智能城市解决方案有异曲同工之处。比如 ET 城市大脑目前也是通过打通城市摄像头数据来实现对城市事件的感知,并在城市安全、交通信号控制上做文章,其 Slogan 是「用数据治理城市,让城市会思考」。

当然,AI 落地城市是一个需求旺盛的现实场景,这是一个巨大的市场,理论上可以容纳阿里、百度这样的巨头以及商汤这样创业公司,但问题是,BAT 以城市为切入点,还可以提供一系列脱胎于自身业务的附加产品,比如 ET 城市大脑里提供了大量基于阿里云的计算能力,百度则将自动驾驶和 DuerOS 打包到城市解决方案里,商汤们又能提供什么?

另一个值得关注的是,商汤此次还针对零售行业提出了 AI 解决方案,可谓踏入到当下另一个热点「新零售」,这也是阿里巴巴与腾讯竞争的重要领域。细心去看商汤提供的产品,依然是围绕摄像头来实现所谓的「精准营销」,但问题是,在线上线下数据正在实现统一的当下,没有线上数据支撑,只依靠店铺视觉平台的商汤,如何能与阿里、腾讯相抗衡?

再来看依图,这家公司不仅发布了自研的云端芯片,还抛出了「算法即芯片」的宣传语,官方这样解释:

摩尔定律已濒临终点,单位面积晶体管数量的提升终将触及物理极限,很难在更小的空间里容纳下更多的算力。而智能算法的性能却在万倍增长,以依图自主研发的人脸识别算法为例,过去4年算法精度提升了100万倍。在这样的背景下,人工智能推动计算产业迈入“算法即芯片”时代。

恕我愚钝,我并不能理解这个口号,也无法认同其解释。如果按照科技行业「XX 即 XX」的解释方法,所谓「算法即芯片」也就成了利用算法实现芯片的功能,这就变得相当滑稽了,依图官方有意无意地将两个概念扯在了一起,并以摩尔定律失效为背景,演绎了一个全新(胡扯)的宣传口号,只能说,这是一次相当失败的 PR。

第四,这些 AI 创业公司的未来在哪里?与「AI 即将改变世界」相对的另一个判断是,「没有 AI 行业,只有行业 AI」。这意味着两点:

  • AI 创业公司必须将自身技术落地到其他行业,才能发挥出自己的价值;
  • AI 创业公司进入到 2B 市场;

这两点会让 AI 创业公司引以为豪的炫酷技术逐步走向幕后,成为各行各业的技术。从芯片、算法到解决方案,AI 创业公司们所面临的竞争,既有 BAT 这类互联网巨头,也有华为等传统的 ICT 企业,压力可想而知。

2019 年是科技「独角兽」的上市高峰期,但这些过往标榜如何改变世界的科技公司,如 Uber、Lyft,正在变成他们曾经誓言要颠覆的那种公司。

与这些或主动或被动 IPO 的企业相比,商汤们或许还有一段与资本的甜蜜故事,但这些 AI 公司的最后结局和 Uber、Lyft 等公司的结局类似,最终成为一个个行业效率提升的助推器。(完)

视野

大公司

路透:Google 或停止向华为提供 GMS 服务。目前还没有更多的消息源确认,如果消息属实,其对华为手机的海外市场将打击巨大,下图是 IDC 统计的欧洲智能手机格局,欧洲也是华为手机的第二大市场。

img

《财富》报道了Google 「内战」,展现了 Google 员工对于公司价值观发展的不满。

Register报道了AWS 工程师如何开发和维护亚马逊公司的内部技术

Asymoco 做了一篇关于 iPhone 销量及影响力的分析文章,其中的信息图非常棒,推荐一看。

职场的「数字化替身」

这期的「洞察」部分,我将从 996 的争议谈起,讨论人工智能对于企业管理的意义,为何亚马逊 AI 算法开除员工是未来?「视野」里,你会看到印度移动互联网格局以及两个对话式 AI 平台的最新信息。

洞察

不久前关于中国互联网行业 996 的讨论里有诸多假设。

比如最大的假设,可能就是将「工作时间」作为一个判断标准。企业主,如马云、刘强东等「以身作则」,反复强调自己都需要这么长的工作时间,作为年轻人的你们为何不可以?而反对 996 的员工,则认为工作时间「入侵」了生活时间,导致自己的生活只剩下了工作。

除此之外,这场讨论里的代际隔阂、文化隔阂甚至职业隔阂,都被简化为了「996」,或者说被简化为关于「工作时间」的诉求——一方要求增加工作时间,另一方则呼吁减少工作时间。

但还有一个关键命题却有意无意被忽略了,那就是,何谓「工作时间」?

几乎在国内热议 996 的同时,大洋彼岸的美国,一向工作环境「恶劣」的亚马逊,也爆出了一则丑闻。美国科技媒体 Vox 拿到了一份内部文件,文件显示,亚马逊打造了一个自动化的追踪系统,可以量化亚马逊仓库里每一个员工的工作效率。

这套系统有一个追踪员工松懈或偷懒时间的项目,叫「Time Off Task(简称为TOT)」。如果员工打包包裹的时间过长,会触发 TOT 机制,系统将自动发出警告,甚至该文件还显示,根据日常的 TOT 追踪,系统也会自动判定该员工是否还能继续呆在公司。

此事引发众多争议。工人代表对于亚马逊如此「残忍」的机制相当愤怒。而亚马逊官方后续回应称,人类管理者也会检查系统决定,并有权推翻系统的决定。

上述两个争议背后都是劳资双方——企业与员工——就工作效率的不同立场,但所不同的是,996 的诉求从一开始就有意无意地模糊了一切界限,使用一种「时间被剥削」的口号去串联去鼓动,以至于后续的话题发酵里,不同利益方之间几乎没有对话的共同基础。

与之相比,亚马逊让 AI 算法决定员工是否去留的方式看似残忍,却显示了一种面向未来的企业管理模式。当然这里需要明确一点,无论企业主还是员工,都有一个提升工作效率的共同目标,基于这个目标,企业主可以借助一系列工具来提升整个公司的工作效率,并保障员工的合法权利。

目前在市场上,已经有一系列利用 AI 来提升企业管理效率的产品,比如微软的 Workplace Analytics、Google 的 Work Insights、SAP 的 SuccessFactors 等等。这些产品的基本模式也是通过对员工工作中的各项行为的收集和分析,提供一套理解这些行为的分析框架,帮助企业主更好地做出决策。

比如上文提及的一个问题:如何衡量工作时间?来自加州大学欧文分校的一份调查显示,在美国的典型上班族的「工作时间」里,每天至少有 96 分钟是被打断的,如果按照 8 小时公司制来计算,这也意味着有五分之一的时间被浪费,而更难计算的则是其效率的衰减,毕竟很多职业需要长时间的专注工作,频繁的打断将大幅降低其工作效率。

基于这样的场景,利用对于员工工作时间内不同行为数据的收集,AI 的工具可以找出这些「时间黑洞」,从而进一步优化工作的流程,减少时间浪费。

不管部分媒体如何渲染类似「1984」的场景,将 AI 应用到公司管理的趋势已经不可避免。根据咨询机构 Gartner 提供的数据,将 AI 应用于公司员工行为分析将产生 29 亿美元的商业价值,除此之外还有无法估量的工作时间的节约。

从企业管理者的角度去看,还有两个值得关注的问题。其一,基于 AI 模型可以很容易分析出员工效率的高低,那么利用效率高低的结果还能做什么?培训效率低的员工,还是开除他们?

其二,如何平衡量化效率与员工对隐私、监控的担忧,这注定一个长期的挑战,不仅取决于企业的决策智慧,也取决于社会文化未来的发展方向以及 AI 技术的成熟程度。

人工智能正在渗透在整个社会的方方面面,你会看到几乎每个行业的行为模式都在被重构,如果说过去这些模式里的核心是流程,那么现在以及未来的核心就是数据。企业管理的模式,也将从流程转型到数据,员工一举一动产生的海量数据被收集与分析,构成了员工的「数字化替身」,一个个「数字化替身」让企业管理者的决策变得足够简单,也足够粗暴。(完)


视野

移动互联网

来自市场分析机构Canalys的报告,展示了北美手机市场的格局,苹果依旧领先,而 iPhone Xr 是苹果出货量的最大支撑。

TechCrunch的这篇报道介绍了印度移动互联网里的超级 App 们,这些应用尽管有印度本地产品以及来自美国的应用,但都有意无意地模仿了中国互联网巨头的做法。

AI

Salesforce 收购了一家对话式 AI 创业公司 Bonobo

思科开源对话式 AI 平台MindMeld

百度为听障儿童开发全球首款AI手语翻译小程序

AI 创业公司 Clarifai 裁员 20%,该公司的最大客户是美国国防部。

Google 的 AI 伦理探索之路、欧盟出台 AI 伦理指南以及三个核心议题

差不多一年前,Google 经历了一次影响广泛内部「博弈」。

Google 员工发现公司(准确地说是 Google Cloud)正在参与美国军方的无人机项目 Maven,该项目是美国五角大楼与包括 Google 在内的多家公司共同参与,旨在利用机器学习来分析美军无人机拍摄的画面,从而提升无人机打击的精准度。

这意味着,Google 的 AI 正在被应用到军事领域。这也引发了 Google 内部员工的巨大反响,数千名员工签署联名信,呼吁公司停止这个项目。

这个「博弈」一直延续到 6 月,时任 Google Cloud CEO 的 Diane Greene 在 2018 年 6 月 3 日宣布,Google 在该项目合作到期后,不再继续参与其中

紧接着,Google CEO 皮查伊透过官方博客进一步介绍了 Google 对于未来人工智能的使用原则和底线,根据科技媒体爱范儿的翻译,主要包括以下几项:

  • 对社会有益。
  • 避免制造或者加深不公平的偏见。
  • 在开发中进行测试以确保安全。
  • 对人类负责。
  • 隐私原则。
  • 坚守对卓越科学的追求。
  • 在使用中考虑首要用途、技术的独特性及适用性、使用的规模这三个因素。

四个底线包括:

  • 对于那些将产生或者导致伤害的整体性技术,我们会确保其利大于弊,并将做好确保安全的相关限制。
  • 不会将 AI 用于制造武器及其它将会对人类产生伤害的产品。
  • 不会将 AI 用于收集或使用用户信息,以进行违反国际公认规范的监视。
  • 不会将 AI 用于违反国际法和人权的技术开发。

但正如我在当时一篇会员通讯里所言:

Google 既没有设置相应的监督机制,也没有提出必要的防御措施,整个表态也就失去了其意义,此次 Maven 项目的争议中,Google 内部上千名工程师的签名信以及辞职威胁的作用到底有多大,以及在其他公司又有多少可复制性,都是一个巨大的问号。

这个问号一直延续到了 2019 年 3 月。

2019 年 3 月 26 号,Google 通过官方博客正式宣布成立一个「先进技术外部咨询委员会(Advanced Technology External Advisory Council,以下简称为 ATEAC)」。

按照 Google 官方的说法,这个委员会将评估 Google 多项 AI 技术的潜在影响,比如脸部识别里的肤色偏见以及机器学习应用过程里的其他偏见等。该委员成员也涉及 AI 学术界、经济、政策、伦理等领域,首批成员共有八人,详细资料在这里

img

从 AI 伦理的角度去看,Google 希望将内部 AI 伦理原则与外部 AI 咨询委员会结合在一起,至少在 PR 层面重塑 Google 的形象。

但事情的走向从一开始就发生了变化。

Google 员工发现这个提供「技术伦理道德」咨询的委员会,其组成成员却在某些议题上非常「不道德」,比如委员会里的 Dyan Gibbens,其身份是无人机公司 Trumbull 的 CEO,该公司与军方关系密切;再比如 Heritage 基金会负责人 Kay Coles James,在 LGBT 议题上持非常保守的态度,她不止一次地反对 LGBT。

这也再次引发 Google 员工的抗议,其背后的动因不仅是这两位成员的「伦理」,还涉及了 Google 到底是如何选择的这些成员,如果说成立外部咨询委员会让 AI 技术伦理实践更具透明度,那么这个委员会成员筛选的透明度又如何保障?

最终,在上周五,Google 宣布解散这个委员会,官方声明以「更新」的方式添加到了委员会成立的新闻上面:

It’s become clear that in the current environment, ATEAC can’t function as we wanted. So we’re ending the council and going back to the drawing board. We’ll continue to be responsible in our work on the important issues that AI raises, and will find different ways of getting outside opinions on these topics.

兜兜转转,又回到了原地。

但 AI 伦理监管的探索还在继续。

本周一,欧盟委员会再一次强调了科技公司必须建立 AI 伦理原则,以防止 AI 技术被滥用。

根据 The Verge 的报道,欧盟委员会在这份 AI 伦理指南里,提出了以下几个「要求」:

  • 人类影响与监督:人工智能不能超越人类的自主性。人类不能被AI系统操纵或者胁迫,人类要能够干预或监督软件做出的决定。

  • 技术的稳健性和安全性:人工智能应该是安全的、准确的。它不应该易于受到外部攻击的影响,应该是相当可靠的。

  • 隐私和数据管理:人工智能系统收集的个人数据应是安全的、私有的。它不应该被任何人接触,也不能被盗。

  • 透明性:创建人工智能系统的数据和算法应该是可访问的,软件所做的决定应“由人类理解和跟踪”。换句话说,操作员应该能够解释AI系统所做的决定。

  • 多样性、非歧视和公平性:人工智能服务应该面向所有人,无论年龄、性别、种族或其他特征。AI不应该存在偏见。

  • 环境和社会福祉:人工智能应该是可持续的并可以「导致积极的社会变革」。

  • 问责机制:人工智能系统应该是可审计的,并被纳入企业可举报范畴,以便受到现有规则的保护。应事先告知和报告系统可能产生的负面影响。

路透社的消息称,欧盟目前有一个来自 50 多家机构(公司、高校)的咨询委员会,上述几项原则也正是出自这个机构。当然这些「要求」还不具有法律约束力,不过鉴于欧盟对于数据隐私、互联网的强势管理方式,未来不排除正式出台 AI 伦理监管的法律。

透过 Google 外部委员会的闹剧与欧盟的举措,《华尔街日报》也提供一份 AI 伦理监管需要关注的问题。

其一,千万不要忽视 PR 层面的争议。如果要成立 AI 伦理监管委员会,一定要提高一整套、清晰的成员筛选标准;

其二,AI 伦理监管的权力问题。公司外部 AI 伦理监管太过于表面,如果要符合欧盟对于 AI 伦理的要求,那么公司一定要拥有内部的 AI 伦理机制,既有向公司董事会汇报的权力,也应该了解、并参与 AI 项目;

其三,制定更详细的 AI 伦理道德准则。包括数据使用、隐私保护以及透明度、算法可解释等方面的具体原则,以此来约束和规范公司的 AI 项目。

AI 伦理监管的探索还将继续,欧盟委员会数据代表 Andrus Ansip 的这句话颇为应景:

The ethical dimension of AI is not a luxury feature or an add-on. It is only with trust that our society can fully benefit from technologies......


乔布斯去世后,苹果 AI 实践的三个阶段

这期的会员通讯,我将梳理过去 9 年苹果在人工智能领域的探索,包括以下几个方面:

  • 乔布斯为何要买下 Siri ?
  • Siri 是如何被苹果「毁掉」的?
  • 为什么 2016 年 WWDC 大会是苹果 AI 实践的转折点?
  • Core ML 带来那三重意义?
  • 2018 年苹果 AI 产品和团队调整的意义如何?
  • 2019 年苹果会如何将 iPhone 与 AI 结合起来?

上周,CNBC 率先报道了 AI 领域知名学者、GANs(对抗式生成网络)提出者 Ian Goodfellow 离开 Google 并加入苹果的消息。

CNBC 发现,Ian Goodfellow 在周四更新了自己的 LinkedIn 个人资料,显示这位 AI 领域炙手可热的研究者已经在今年 3 月加入苹果,并成为苹果「特殊项目小组」的机器学习负责人,该小组直接向苹果 CEO 库克汇报。

媒体对于 Ian Goodfellow 的关注较多,此君在 2013 年以实习生身份加入 Google,一年后,他完成了一篇题为《Generative Adversarial Nets》的论文,该论文提供了一个计算机如何生成图片的思路——将两个神经网络相互对抗

img

这个方法引发行业震动,包括 Facebook AI 首席科学家 Yann LeCun 以及参与 Google Brain 和百度大脑建设的吴恩达,都肯定了该方法对于机器学习发展的的重要意义。

值得一提的是,此前「AI 换脸」技术 DeepFake,其核心技术也是来自 Ian Goodfellow 的发明。

目前尚不清楚 Ian Goodfellow 会给苹果带来哪些变化,考虑其 3 月份刚刚入职,而且 Ian Goodfellow 主要关注在研究领域,因此可以断定,短期内,Ian Goodfellow 的研究不会直接落地到苹果的产品里。

但 AI 之于苹果,已然变得越来越重要了。

如果以当下的视角去看,苹果的 AI 探索始于收购 Siri。

作为乔布斯生前收购的最后一家公司,Siri 肩负着乔布斯对于未来交互模式的远见思考。

img

正如上图所示,「互联网女皇」 Mary Meeker 在人机交互历史回顾中中指出,几百万年前,人类从声音的交互开始,而文字的发明,则让交互从声音转入文本阶段,于是出现了各种与文本打交道的交互工具。即便如此,人类交流中的 90% 依然还是通过声音来完成,这种更自然也更原始的交互模式在过去半个世纪里并未得到突破性的进展。

自动语音识别(Automatic Speech Recognition ,简称ASR)是一种机器可识别人类说话单词的能力。很长一段时间里,ASR 在准确度上都无法与人类识别相媲美,而在 2010 年,ASR 在识别准确度上迎来一个拐点。

img

从上图的变化可以看出,2010—2015的五年时间,ASR 准确度得到大幅提升,这种变化超过了过去 30 年到 40 年的变化。事实上,我们现在已经接近一个时刻:机器对于语音的识别能力即将超过人类。

乔布斯看到了基于声音的交互才是人类天性的体现,而技术进步则帮助人类重新回到了最原始的声音交互时代。

Siri 在这种情况下成为苹果布局声音交互的重要产品,当时,乔布斯曾被问到收购 Siri 是否想与Google 竞争搜索业务,乔布斯给出的答案很明确:Siri 不是搜索产品,他们要做人工智能。(他原话是「 [Siri is] not a search company. They're an AI company. We have no plans to go into the search business. We don't care about it -- other people do it well.」)

只可惜,乔布斯并未看到搭载 Siri 的第一部 iPhone—— iPhone 4S 的发布仪式。彼时, Siri 给世界带来的惊喜随着一次次的恶作剧般的调侃趋于平淡,人们突然发现,Siri 几乎没有任何用处。她(他/它)常常答非所问,又经常无故跳出(不小心长按 home 健)…..

如乔布斯当年所言,语音交互正在成为人工智能最有可能爆发的领域。看看市面上的科技公司们,亚马逊、微软以及Google、Facebook,无一不在这个领域发力。

但苹果显然缺乏应对之策。自乔布斯逝世后,原来的 Siri 团队核心成员几乎都离开了苹果,包括Siri早期开发者的Dag Kittlaus 和Adam Cheyer 等人又创立了一家 Viv 的公司,其产品可以理解为新一代的 Siri。

2018 年 3月, 付费科技媒体 The Information 发表了一篇长文,详细展示了过去几年 Siri 是如何被苹果玩坏的。

文章提到了两个对立的原因,一方面是负责 Siri 的苹果老员工 Richard Williamson 被指责没有创新意识;另一方面 Richard Williamson 则不断强调 Siri 是一个不成熟的产品,自己作为维护者无法承担其如此大的责任,或者换句话说,这个锅应该由 Siri 创始团队来背。

文章同时还指出,苹果在 2013、2015 年做了两笔与 Siri 相关的收购,希望将两家创业公司 Topsy 的搜索能力以及 VocallQ 的自然语言理解能力整合到 Siri 里,但结果并不尽如人意。Information 获取的消息源称,Topsy 团队的成员表示不愿与 Siri 团队合作,原因是 Siri 的技术陈旧且无法满足当下的用户需求。

随后苹果内部做了一个「艰难」的决定:放弃对 Siri 的修修补补,重写 Siri。这也是一个艰巨的任务,此时的 Siri,已经成为数以亿计的苹果设备里的重要产品,颇具讽刺的是,或许是因为 Siri 太傻,或许 Siri 的打开率太低,重写 Siri 的过程并没有在如此庞大的用户群体掀起多大波澜。

撇开这些无法确定的事实来看,Siri 无法变得聪明也是苹果内部的必然结果。

首先,缺乏人才。有媒体盘点过 2015 年苹果的挖人名单:

  • 2015年年初,前苏黎世联邦理工学院自动系统实验室副主管Paul Furgale加入苹果;
  • 7月,前意大利经典汽车厂商菲亚特克莱斯勒集团质检总监Doug Betts加入苹果。
  • 8月,大众前工程师 Megan McClain、特拉斯前工程经理Hal Ockerse、前高级工程师Jamie Carlson加入苹果。
  • 9月,芯片制造商Nvidia公司人工智能专家、深度学习软件主管Jonathan Cohen 加入苹果;
  • 10月,电动摩托厂商Mission Motors申请破产,旗下一部分优秀工程师投奔到了苹果旗下;

上述几位除了Jonathan Cohen 之外都与苹果汽车项目相关(当然这个项目如今已经被大量裁员)。直到 2015 年 9 月,苹果才罕见发布招聘广告,大规模招募人工智能和机器学习方面的人才。

其次,苹果公司文化强调的保密原则,根本不适用于机器学习领域。这也可以解释,为何当 Google、Facebook 等公司的机器学习工程师发布论文,而难见苹果公司的原因。

这不禁让人发问:苹果在 AI 领域到底是毫无作为还是隐藏实力?

如果将时钟拨回到三年前的 WWDC ,苹果的 AI 探险之路也是从这个时候开始的。与历年 WWDC 类似,这一次同样发布了全新的 iOS——iOS 10。

iOS 10 里,苹果官方的照片应用可以自动识别人脸、物体,并能够相册里的人物自动分类,新加入的「回忆」,则可以通过对照片的位置信息、人脸照片信息、场景信息等聚集在一起,还支持插入音乐。

苹果将上述功能加入到一台运行 iOS 10 的iPhone中实属不易,要知道类似的功能在 Google 与微软那里,都是通过云端数据处理后的返回结果。

苹果之所以采用这种方法既有历史原因,也有诸多现实考量。

历史上看,乔布斯时代的苹果对人机交互有着异常的坚持,比如 iOS 曾经异常的简洁性——这也意味着毫无选择性的交互方式。乔布斯也曾表示,如果他来做一款DVD,那么唯一的按钮就是「烧录」,其他都可以舍弃。正是这样对于简洁性的追求,使得苹果的产品线长期以来在功能上的变化都极其克制。

乔帮主已仙逝多年,iOS 自 iOS 7 开始在交互上开始复杂,但将人工智能纳入到苹果产品的过程依然十分缓慢,摆在苹果面前的现实问题有两个,其一,苹果的云服务不如 Google 和微软,至今苹果 iCloud 的服务还有一部分跑在亚马逊 AWS 上,这也使得苹果无法像Google 微软那样通过云端强大的处理性能来处理照片分类、语音识别等。

其二,苹果长期以来的价值观就是对用户隐私的保护。以虚拟助理来说,Siri 早在 2011 年就已经发布,但比起Google Now、微软的 Cortana 来说,Siri 真的很不智能,原因就在于Siri对于用户数据的收集非常少,而另外两家公司的产品则有点「贪得无厌」,尤其是Google,默认的用户协议里,Google 可以收集用户几乎所有的数据为其所用。

但现实则是,时下流行的深度学习,迫切需要海量数据的「喂养」。这一年的 WWDC 上,苹果也重新定义了所谓「大数据」,正式启动苹果的「Differential Privacy」,这个概念由微软的C. Dwork 提出,其基本含义就是基于统计学原理,在一个群体层面收集数据,而非像FB、Google 那样收集个体的数据。

由于苹果的 iMessage、 FaceTime 早已部署了端到端的加密技术,因此能够让用户数据以加密的方式上传到苹果的服务器,然后苹果在对于这些群体层的数据进行分析和优化,从而改善用户的体验。

2016 年秋天,随着新 iPhone 设备的发布,iOS、macOS 等系统里也开始集成「Differential Privacy」。而到了这年冬天,在一个行业 AI 大会的非开放会场,新晋上任的苹果公司机器学习负责人 Russ Salakhutdinov 介绍了苹果在自动驾驶、神经网络、AI 芯片等领域的思考,这是几乎是苹果首次向外界(至少是学术界)透露自己的 AI 布局。

img

也是在 12 月,Russ Salakhutdinov 还代表苹果宣布了另一项重大决定:苹果将会允许自己的AI研发人员公布自己的论文研究成果!

紧接着,苹果在 2017 年 7 月正式发布了机器学习博客,利用这个平台发布一系列围绕 AI 的研究进展,其第一篇博客谈如何基于小规模数据训练,实现算法的提升,其中也提及使用 GANs 的思路。

2017 年可以说是苹果正式向外界展示 AI 能力的开始。这一年的 WWDC 大会上,苹果向世界展示了自己对于 AI 之于手机的新思考:帮助开发者将 AI 能力带入到智能手机里,或者说,帮助开发者将 AI 带入 iOS

这年的 WWDC 发布的 Core ML 野心巨大。坦率来说,Core ML 并不是第一个将机器学习引入智能手机的开发平台。2017 年的 5 月的 Google I/O 大会上,Google 发布了面向移动设备的机器学习框架 TensorFlow Lite,使得开发者可以方便地在移动端部署 AI 应用。

但苹果 CoreML 的出现,对于行业以及苹果而言有三重意义。

其一,相比于其他的机器学习框架,CoreML 坚持了苹果一贯以来的「设备智能」的原则,从训练到部署,都在设备端展开,这充分展现了苹果的「AI 价值观」,也因为苹果的巨大影响力,能够引发整个机器学习行业对于数据、隐私的关注。

img

其二,对于开发者而言,苹果的硬件生态依然拥有巨大的吸引力,基于 iOS 体系下的用户基础依然是一个金矿。上月的苹果软件服务发布会上,有一组数字足够震撼,如下图所示,iOS 上的游戏玩家已经突破 10 亿。

img

这样的硬件生态和用户基础,也将吸引更多开发者加入到苹果对于未来的应用体验定义之中,从 AR 到 AI,App Store 上的应用生态也在变得越来越多元化。

其三,对于苹果来说,正是 App Store 以及上面的开发者成就了苹果当下无可争议的「第一生态」,在当下 iPhone 销量下滑、iPad 无法接力的现实语境,Core ML 也成为提升 iOS 应用体验(讨好消费者)、推动 iOS 应用开发创新(讨好开发者)的重要产品。

img

2018 年的 WWDC 上,Core ML 进入 2.0 时代,提供了更小、更快也给更容易定制的机器学习模型,同时也大幅提升了训练、部署速度。可以预见,两个月之后的 WWDC 还会有更多的升级。

事实上,2018 年苹果在 AI 领域最大突破则是将 John Giannandrea 招致麾下。这位在 Google 工作 8 年,先后负责机器智能、搜索团队的大拿的到来,标志着苹果开始认真做起了 AI。

根据 TechCrunch 的报道,2018 年 7 月,苹果内部对于 AI 团队做了调整。将 Core ML 和 Siri 团队合并,由 John Giannandrea 统一领导,并直接向库克汇报。

这次人员调整也让这一年 WWDC 上推出的 Siri Shortcuts 具有更令人看好的前景。基于 Siri Shortcuts,第三方应用开发者可以将快速将自己应用的某些功能「输送」给 Siri,实现最快的语言唤醒。

而到了 2018 年 12 月,苹果官方宣布 John Giannandrea 晋升为管理团队成员,其职位名称为「机器学习和 AI 战略高级副总裁」。

在苹果官方新闻稿里,对 John Giannandrea 的工作范围做了这样的介绍:

Giannandrea oversees the strategy for AI and Machine Learning across all Apple products and services, as well as the development of Core ML and Siri technologies. His team's focus on advancing and tightly integrating machine learning into Apple products is delivering more personal, intelligent and natural interactions for customers while protecting user privacy. ......

Giannandrea’s team is also helping to enhance the developer experience with tools including Core ML and Create ML, making it easier and faster to integrate machine learning into apps.

通过上面的架构图以及对 John Giannandrea 职位范围的整理,可以清晰地看到苹果对于 AI 的重视程度,至此,AI 也成为苹果体系内与零售、服务、软件、设计并列的核心业务。而 John Giannandrea 在学术界以及工业届的号召力,也将进一步带动苹果 AI 领域的人才积累和研究突破,如今,随着 Ian Goodfellow 的到来,苹果在 AI 领域的话语权也越来越大。

那么问题来了,苹果会如何定义手机 AI?

过去五年,正是人工智能再一次成为主流技术潮流的五年,同时也是智能手机由盛而衰的五年,而智能手机于人工智能的结合,也是近两年来的新潮流。

正如我在今年初的一期会员通讯里所言,「包括苹果在内的智能手机行业,必须面对一个残酷的事实:尽管所有人都知道 AI 会给手机带来变革,但没有人知道到底从何处入手,以及如何去做。

如果结合苹果以及其他公司的实践,或许我可以提供几个值得关注的线索。

第一,操作系统。Google 与苹果,作为全球两大移动 OS 提供商,肩负着如何将 AI 植入 Android 和 iOS的重任,好在 5 月、6 月的两场开发者大会将让我们见识这两家公司的具体策略;

第二,语音。去年亮相的 Google Duplex 已经扩大到更多设备,这是语音技术的一次巨大突破,相比于更漂亮的实验室数据,基于实际应用场景的 Duplex 或许并不完美,但却提供了语音技术应用的新场景。

与此同时,苹果的 Siri Shortcuts 的确在一定程度上提高了 iOS 的自动化能力,但还没有完全激发出开发者、消费者的使用热情,随着苹果在越来越多设备里加入可随时唤醒的 Siri,Siri Shortcuts 可以提供更多应用空间。

第三,图像/摄像头。2018 年,Google 和华为分别从软件(计算机视觉)、硬件(面积更大的传感器)定义了两个不同的手机拍照路线(详见这期会员通讯),尽管苹果也在 2018 年用智能 HDR 予以还击,但在夜景上还是完败。

这也让外界好奇 2019 年 iPhone 的拍照能力是否可以实现新的突破,不管是硬件还是软件,苹果的确需要拿出一个好相机,挽回正在丢失的用户。(完)

【开放文章】490 亿美元的市场诱惑,科技巨头如何押注语音领域(美国篇)?

如果以 2014 年 11 月亚马逊发布第一款 Echo 算起,以语音为主要甚至唯一交互入口的「新物种」已经有了四年多的历史。

四年时间成就了亚马逊无处不在的 Alexa,推动了 Google、微软在语音、 NLP 技术领域的研发突破,也让苹果体会到了「(语音)起了大早赶了晚集」的滋味。

根据此前的 CBinsights 的统计,全球语音领域的市场规模高达 490 亿美元。

下文将以美国四大巨头公司为例,详细介绍其产品布局以及技术研发特点。

Google

Google 正致力于提高搜索和人工智能对话的准确性,其中一个方面是人工智能的语言能力。截止 2018 年末,亚马逊的 Alexa 和 Google Assistant 支持的语言种类都不及苹果 Home Pod。

2019 年,Google 将赋予其语音助理 30 种语言能力,包括同时理解两种以上语言。

Google (包括苹果)有大量的智能手机用户群体,这一优势使其很好地掌握用户使用习惯,更容易完成产品整合,实现家庭、办公室和汽车等场景的无缝衔接。

通过对于大量用户数据的分析,Google 已经意识到用户使用智能语音不仅是完成打电话、导航等简单的任务,需求正在不断扩大。Google 运用人工智能理解用户使用文字搜索到语音搜索的转变,尝试准确判断意图。

Google的竞争力主要在搜索和任务要求的准确性方面(尤其与亚马逊相比)。

source:KPCB
source:KPCB

Google 准备用 Duplex 技术获得更多市场。

此项技术已被用于 Google Assistant,可以让人工智能代表用户打电话完成预订和邀约的任务。

Duplex 跟人的声音极为相似,甚至包括「恩……啊……」之类的语气词。这的确标志着语音智能助理在权限和准确性方面的突破,但也带来了一些伦理问题。

比如欺骗,当人类在跟各方面听起来酷似人的机器人说话时,人类应不应该知道真相呢?

初始版本中,机器人没有加入任何区分。但在收到一些负面反馈后,Google 发布了以下申明

我们在公开透明的情况下设计了这项技术,也将确保它被合理的认知和识别。我们在 I/O 大会上展示的只是技术样品,我们将会听取更多反馈以完成产品开发。

Google 正通过实现更自然和零错误的智能语音工具和搜索来获得优势。Google 收购 api.ai 就是一个很好的例子,以此将自然语言处理应用到真实世界的智能语音对话,并扩展到搜索功能。

Google 创立语音助理投资基金

最近 Google 创立了一个用于智能语音项目投资的风险基金。Google Assistant 基金目前投资了大约 10个项目,已经与酒店和医疗领域建立了合作。

从这些项目可以很直观地看出 Google 把重心放在了自然语言处理上,以下两项投资尤为明显。

医疗行业下一个前沿技术——患者语音助理

Google Assistant 基金和亚马逊 Alexa 基金共同投资了 Aiva Health 项目,这是一个应用在医院和疗养院的患者语音操作系统,患者用语音完成操作和任务,医生可通过手机 app 与患者沟通和跟进。

Google Assistant 还接入了 Novant 医疗系统,患者可通过语音获得诊室排队信息、预约安排和指导等,相关信息都会发送到用户的手机上。

Google 通过这些投资进入医疗领域,在 Google Home 和 Google Assistant 上为患者开启一条通道。

进入酒店的新方式

酒店行业是另一个 Google 语音关注的领域。 Google 投资的 GoMoment,是一个人工智能语音机器人,可以帮助酒店迎接客人、回答问题;还能评估用户的满意度,减少酒店服务的通话时间。

source: Google

Google 还在语音助手中加入了「翻译模式」,已经在几家连锁酒店试点,能实现对话的实时翻译。对话可以通过 Google Home 语音输入或者 Google Assistant app 完成翻译,也可显示在界面上。 

这是 Google 占领酒店行业市场份额的另一种方式。每个房间里都有一个接入酒店集团系统的 Google Home,客人可以通过语音轻松完成活动门票预订、客房服务预约、获取天气信息、查看行程信息等操作。

Amazon

虽然 Google 一直在发力,但亚马逊的 Alexa 仍然毫无争议地占据着智能语音市场的主导地位。 

显然亚马逊一直在通过电商渠道改善语音服务,这也是其在美国科技五巨头(FAMGA: Facebook, Amazon, Microsoft, Google, Apple)中最突出的优势:每个 Alexa 都能连接到世界最大的网上商城。

Source: Forbes

亚马逊通过「亚马逊精选( Amazon Choice)」连接语音与电商平台,选出了一些「排名较高、价格更优、立即配送」的产品加上此标签。 

根据 OC&C 战略咨询的调查,亚马逊精选和语音搜索结合的模式中有两个非常有趣的数据:亚马逊精选的产品往往比其他产品的销量高出 3 倍;更重要的是,85% 的消费者最终选择购买亚马逊推荐的产品。

亚马逊精选所带来的潜在商机代表了电商平台发展的新转折点。

但研究表明,目前只有30%的用户使用智能语音进行购物。

source:recode
source:recode

2018年只有2%的 Echo 用户尝试通过 Alexa 购物,这对于亚马逊来说,远没有达到原本的预期。

然而,这并不代表没有潜力。

亚马逊尝试通过内置零售、电商渠道占领语音购买市场,想把更多内置 Alexa 的智能产品放进用户家里;同时联合微软,借助其可以匹敌苹果和 Google 的操作系统。此外,亚马逊跟快销品公司合作推广 Alexa。

此后,亚马逊又开始向新的领域扩张。在家庭以外的场景,跟 Google 和苹果相比,亚马逊一直处于弱势。它目前正在计划新的语音设备,更好地完成数据收集,以扭转劣势。

Alexa,我们一起出发吧

Voicebot.ai

亚马逊并不想把 Alexa 局限在家中,但是在户外环境,Alexa 一直处于弱势。Google 和苹果都在手机中内置了智能语音,走到哪都能用,而 Alexa 一直是个家庭产品。 但是,这一情形将被打破。 最近亚马逊发布了 Echo Auto,并称预售已超过100万台,这个公司正在给消费者提供更多使用语音助手的方式。 

在 Echo Auto 中,用户可以使用 Alexa 的所有功能,不用任何手部操作就可以轻松打电话、导航、听播客、播放音乐和控制智能家居设备。

研究数据显示,在车里使用语音助手已经非常普遍,所以 Echo Auto 符合人们的需求。

目前亚马逊正在与各大汽车制造商接洽,包括宝马、丰田、福特等,有望将 Alexa 整合到他们的智能车载系统中。而英菲尼迪、捷豹、梅赛德斯奔驰等厂商也计划在新推出的车型中加入 Alexa。

智能家电来了

消费者想跟他们的家用电器说话吗?亚马逊认为是这样的。

亚马逊开发了 Amazon Connect Kit(ACK),让其他开发者可以将 Alexa 接入新的家用设备和电器。

在语音助手爆发的 2018 年,Alexa 已成为亚马逊的核心增长点,根据其智能家电的装载量可以看出 Alexa 巨大的增长潜力。

在 2018 年第二季度的收益报告中,贝佐斯强调了智能语音对亚马逊未来发展的重要性:

全球有超过150个国家的数以万计的开发者在他们的产品中加入了 Alexa 智能语音助手,去年 Alexa 的装载量翻了3倍,我们的合作伙伴正在不断扩大和增强 Alexa 的使用体验。

亚马逊称,目前已有 4500 个独立品牌的 28000 种智能家庭设备使用了 Alexa。

US smart appliances market revenue
US smart appliances market revenue

小家电的营收通常在市场份额扩大的情况下才会增加。LG、三星、惠而浦、肯摩尔、博世、通用等智能家电为 Alexa 和 Google Home 提供了巨大的市场占比。

一款智能微波炉目前已经在 AmazonBasics 上架,与摩恩和 iRobot 的合作也让用户可用语音打开淋浴和激活扫地机器人。

亚马逊正用 ACK 全面打造 Alexa 控制的智能家居系统。

苹果

2011年,苹果发布 Siri,打开了智能语音助手的新世界;但直到发布智能音箱 HomePod,苹果才算进入到智能音箱阵营。在与早已占有一席之地的 Google 和亚马逊竞争时,略显艰难。

行业分析师明确指出了 Homepod 的缺陷:不像 Alexa 那样「多才多艺」,又不及 Google 的语音助手智能。

source: Statisa
source: Statisa

对于苹果的死忠粉来说,这些都不是问题。但如果你没有苹果「全家桶」,也许会觉得 HomePod 没有那么好用。

HomePod 最大的优点也许是安全性和私密性。苹果在2018年收购了 Silk Labs,这家公司开发了无需接入云处理的人工智能操作系统。

无需接入线上的语音助手

安全性和私密性对于语音助手来说越来越重要了。苹果最近申请了两项专利,都是针对语音安全性。

第一项是「线下个人助手」,不接入网络时也可以唤醒 Siri。使用 HomePod 时,语音对话不会被记录,因为大多数指令都不用连接云端。

这与 Google 和亚马逊的做法很不同,用户不用再担心数据安全的问题,但也很想知道数据储存到了哪里。

苹果尝试在设备内部完成语音指令激活。

苹果的此项专利是语音能在设备内部转化为文字指令,不用通过苹果服务器。设备的系统中预先存储了大量的指令,使其听到语音就能马上执行,用户在联网或离线时都能使用。

Source: USPTO
Source: USPTO

另一项跟语音安全相关的专利是「声纹识别」,使 Siri 能够识别多个用户的声音,实现一个设备多人操作。

与 Salesforce 合作

苹果不止希望用户在家里使用语音助手,它正与 Salesforce 合作将语音技术放进各个应用,这样用户只需让 Siri 完成更新和操作,不用在各个系统之间切换。

Salesforce 是目前最有名的企业级销售和市场工具之一,还拥有海量的第三方软件开发者,他们可以进入后端,找到更好的与 iPhone 和 iPad 结合的方式。

苹果 CEO 蒂姆·库克在接受路透社采访时谈到,「企业级语音的使用规模还远不及消费级,我们正在改变人们工作的方式,这与苹果『将事物变得更好』的核心理念一致。」

微软

虽然微软很早就发布了 Cortana 进入智能语音市场,但很难与 Google 和亚马逊竞争。

比起正面较量,微软更倾向于寻求合作。现在,Win10 和 Alexa 用户可以共享一些功能,Cortana 可以在 Win10 里与 Alexa 对话,Alexa 用户可以通过 Cortana 读取 Outlook 的邮件。

两大科技巨头的战略合作,使他们在原本难以进入的领域有了立足之地。微软赢得了看好 Cortana 和 Alexa 结合的用户,而在企业层面,Alexa 可以用于简单的任务操作。

Source: Voicebot.ai

今后几年,Cortana 有望将智能语音带进企业办公。 

微软最近收购了对话式人工智能的开发团队 Semantic Machines,看来与Alexa 的合作对微软来说尤为重要,有望推出智能语音驱动的办公套组。

低声语音专利

最近,微软申请了一项「低声语音输入」的专利,让用户可以低声激活语音助手,方便在公共场合使用。 

目前,人们只习惯在家中或者车里使用语音助手,尽量避免在公共场合使用。该项技术将在一些手机、智能手表和远程控制设备使用。对着智能手表小声说话,会不会让人有「007」的即视感呢?

微软显然对语音生物识别技术方面的尝试很感兴趣,最近更是将一家名为 ID R&D 的语音生物识别公司纳入其「物联网-人工智能内部实验室」项目。

结语

经过四年多的发展,美国的语音市场竞争已经进入到一个新的阶段。一方面,消费领域的竞争已经成为亚马逊、Google 和苹果的「三国演义」;另一方面,在企业领域,语音交互所带来的价值正在显现,这也是微软、Google 所看重的领域。

语音技术的发展、大量场景化的应用,正在催生一场全新的人机交互革命,这或许才是当下最重要的技术变革领域。(完)

与 AI 替代人类无关,详解文本模型 GPT2 的技术突破以及社会影响

上周,由 Elon Musk (根据 Elon Musk 的说法,他已经退出了这个机构)等人资助创建的非盈利组织 OpenAI 展示了一个令人颇感恐惧的产品,这个名叫 GPT-2 的 AI 模型也可以根据某些单词自动预测下一个单词,依托其海量的文本数据库,可以依次生成一个个句子,进而成为一段话、一篇文章。

下面这个视频来自英国《卫报》,如果无法直接观看,请点击这里跳转到 YouTube 里观看。

鉴于过去几年欧美各国对于「Fake News」的关注,OpenAI 的这个演示一经发布就引发了众多讨论。从某种意义上说,OpenAI 的 GPT-2 就是一个「Fake News」生成器,只需要简单输入几个单词,就可以将其作为一条社交媒体状态或者一篇博客文章的主题部分,如果再加上目前已经自动化的发布流程,虚假新闻的生产,真正实现了一条龙或者全自动化。

再看一段 GPT-2 「撰写」的文字:

The first thing that strikes you about GPT-2 is its simplicity. First, the system is built on unsupervised learning from text, which essentially means the software is trained to spot instances of certain words that, when paired with other words, trigger the system to give it a human review of them. The system also learns through example and repetition, but does not have the capability to recognize itself.

还有下面这段:

img

读完这两段话是不是格外震撼?但在渲染气氛之前,还是有必要搞清楚 OpenAI 的 GPT-2 到底是个什么东西。

GPT-2 是 OpenAI 推出的大规模无监督语言模型,相较于 2018 年 6 月的第一代模型,GPT-2 在技术参数上有了巨大提升,主要包括:

  • 模型参数达到 15 亿个;
  • 训练语料达到 40 GB,主要来自 Reddit 等论坛中高质量的页面,整个页面数量超过了 800 万;

OpenAI 在其官方博客上进一步介绍了 GPT-2 的能力:

GPT-2 displays a broad set of capabilities, including the ability to generate conditional synthetic text samples of unprecedented quality, where we prime the model with an input and have it generate a lengthy continuation. In addition, GPT-2 outperforms other language models trained on specific domains (like Wikipedia, news, or books) without needing to use these domain-specific training datasets. On language tasks like question answering, reading comprehension, summarization, and translation, GPT-2 begins to learn these tasks from the raw text, using no task-specific training data. While scores on these downstream tasks are far from state-of-the-art, they suggest that the tasks can benefit from unsupervised techniques, given sufficient (unlabeled) data and compute.

请注意最后一句话,利用海量的数据和足够的计算能力,GPT-2 在五监督学习上取得了巨大突破。换句话说,只需要给予一定量的数据和计算,GPT-2 就是一个可以自说自话的 AI 系统。

GPT-2 的另一个突破是「Zero-Shot」,也就是所谓无需预训练的方法,GPT-2 可以不针对任何特定数据训练,可直接将模型用在比如撰写为维基百科、新闻甚至图书的数据集里,OpenAI 展示了其取得的成绩,如下图所示,在总共 8 个数据集里,有 7 个数据集的最好成绩属于 GPT-2。

img

如此强大的模型,OpenAI 选择了一种非常不「Open」的方式,其官方博客这样写道:

Due to concerns about large language models being used to generate deceptive, biased, or abusive language at scale, we are only releasing a much smaller version of GPT-2 along with sampling code. We are not releasing the dataset, training code, or GPT-2 model weights......

在其开源的模型和代码里,大概只有 117M的模型样本和代码,此举则进一步引发了研究者的声讨,英伟达研究院负责人、AI 资深学者 Anima Anandkumar 毫不客气地指出

What you are doing is opposite of open. It is unfortunate that you hype up +propagate fear + thwart reproducibility+scientific endeavor. There is active research from other groups in unsupervised language models. You hype it up like it has never been done before.

GPT-2 展示了一种技术的可能性——让机器具备自动撰写「一般性」文章的可能性,过去几年所谓新闻行业里的「机器人记者」在 GPT-2 面前根本不值一提,如果你仔细去看上面的例证,不管是语法、拼写还是逻辑,几乎做到了令人无法分辨的地步。

即便是 OpenAI 选择性的开源了一小部分内容,但技术的发展从来不可能完全封闭,早几年的 DeepMind 的 AlphaGo 击败人类围棋选手,不到几个月就出现了一个「开源的 AplhaGo」Leela,我也相信类似情况会出现在 GPT-2 或者说语言模型技术的发展中。

但问题并不在于 OpenAI 是否真正开放这项技术,也不在于 GPT-2 的替代品何时出现,其最核心的问题是,如何让公众认识到这些技术背后的伎俩,从而更好地分辨出机器生成文本以及其危害

事实上,2018 年开始,机器就开始具备了「制造」视频的能力。

根据 Motherboard 的报道,利用人工智能可以制作虚假「明星色情影片」,这已经不是该网站第一次报道这类应用,不过在 MotherBoard 记者看来,如果说之前那个还是个「工程师作品」,那么如今这个产品几乎已经「开箱即用」:

Another redditor even created an app specifically designed to allow users without a computer science background to create AI-assisted fake porn. All the tools one needs to make these videos are free, readily available, and accompanied with instructions that walk novices through the process.

These are developments we and the experts we spoke to warned about in our original article. They have arrived with terrifying speed.

更进一步,这个应用的硬件使用门槛也很低:

.......anyone who can download and run FakeApp can create one of these videos with only one or two high-quality videos of the faces they want to fake. The subreddit’s wiki states that FakeApp is “a community-developed desktop app to run the deepfakes algorithm without installing Python, Tensorflow, etc.,” and that all one needs to run it is a “good GPU [graphics processing unit, the kind that high-end 3D video games require] with CUDA support [NVIDIA’s parallel computing platform and programming model].” If users don't have the proper GPU, they can also rent cloud GPUs through services like Google Cloud Platform. Running the entire process, from data extraction to frame-by-frame conversion of one face onto another, would take about eight to 12 hours if done correctly. Other people have reported spending much longer, sometimes with disastrous results.

相比于人工智能取代人类工作这样的宏大命题,这类似乎有些恶作剧的应用,所引发的关注度往往都停留在社会伦理层面,但下面这个视频或许可以改变一些你的想法(如果无法直接观看,请点击这里查看):

这个视频是将演员 Steve Buscemi 的「头」按在了 Jennifer Lawrence 的「身上」,演讲的内容是 2016 年金球奖颁奖典礼的片段。

根据该视频作者、Reddit 用户 VillainGuy 的说法, 生成这样一段视频需要一个免费的处理工具「faceswap」,然后收集大量 Steve Buscemi 的影像内容 ,再依靠高端显卡和处理器完成视频,如果你有耐心,那么可以生成质量更高的视频。

从图像、视频到文本,人工智能的各项技术突破带来的机遇与挑战,一方面在加速社会文化认知的转型,所谓「图=真相」的时代早已过去,而 2019 年随着文本生成模型的普及,自动化的文本也将进一步塑造社会公众对于文字阅读的认知。但另一方面,大公司,尤其是平台公司,正在利用这些技术编织一条巨大的网,让平台上的用户、内容以及 Bot(机器人)无力脱身。

补充两个细节:其一,来自 Reuters 基金会的一项调查显示,即便是美国、英国、法国这样的发达国家,也仅仅有不到 3 成的受访者了解 Facebook 利用算法推荐内容,其中法国的数据最低,只有 19%。

其二,春节期间,我父母手机上的火山视频,首页全部推荐我老家的段子、视频,甚至连我表弟的婚礼视频都「智能」推送过来,我父母虽不明为何,却相当开心,而我在一旁竟无法言语一句。