← Dailyio 历史存档 | 搜索

分类: Open Access

共有 354 篇文章

IBM与苹果的新合作、中美贸易战里的人工智能之争、中国城市安全背后的人脸识别与监控

本周,几乎被人「遗忘」的 IBM Watson 发布新产品 DLaaS,全称为 Deep Learning as a Service,也就是「深度学习即服务」。简单来说,这是一个基于云端的开发工具,人工智能的开发者们可以将在自身原有的开发套件里调取 Watson 的这个服务。

这个产品在人工智能领域并不新鲜,比如微软就有类似 Azure ML Studio 的服务。但在 IBM 来看,有两点是其 DLaaS 的强项,其一是可拖拽的深度神经网络搭建界面,有望大幅降低深度学习的使用门槛;其二则是这个工具可以自动调节优化神经网络的参数,这是深度神经网络训练时比较耗时的工作。

相比于这个产品,IBM 本周与苹果的又一个合作进展更值得关注。根据 TechCrunch 的报道,两家公司将在机器学习领域展开进一步合作,将 Watson 的机器学习能力和苹果的 Core ML 能力打通。

过去几年,IBM 和苹果已经在硬件设备,比如 iPhone、iPad 在企业市场的销售进行了很多合作,此次联手打造围绕机器学习的产品,最后的落脚点依然是促进 IBM Watson 服务以及 iOS 设备的销量。TechCrunch 介绍了两个产品的协作流程

For instance, a company may want to help field service techs point their iPhone camera at a machine and identify the make and model to order the correct parts. You could potentially train a model to recognize all the different machines using Watson’s image recognition capability.

The next step is to convert that model into Core ML and include it in your custom app. Apple introduced Core ML at the Worldwide Developers Conference last June as a way to make it easy for developers to move machine learning models from popular model building tools like TensorFlow, Caffe or IBM Watson to apps running on iOS devices.

After creating the model, you run it through the Core ML converter tools and insert it in your Apple app. The agreement with IBM makes it easier to do this using IBM Watson as the model building part of the equation. This allows the two partners to make the apps created under the partnership even smarter with machine learning.

然而对于包括 IBM、苹果等美国公司来说,在前沿技术的挑战之外,中美两国逐步升温的贸易战也为这些公司的中国生意,蒙上一层阴影。新浪科技的一篇报道称,多位美国企业高管会参加中国发展高层论坛:

苹果CEO蒂姆·库克(Tim Cook)、谷歌CEO桑达尔·皮查伊(Sundar Pichai)以及IBM CEO罗睿兰(Ginny Rometty)将会参加中国发展高层论坛,这个一年一度的论坛旨在帮助西方企业维护与中国的关系。

库克将会担任本次论坛的外方主席,在所有美国科技企业中,苹果最为看重中国市场,他们的iPhone等设备在中国非常受欢迎,但是在上一财年中,苹果在中国的营收却出现了下滑。不久前,苹果还将中国iCloud账户的数据迁入了中国境内。

也有媒体注意到一个现象,与过往历次中美贸易战不同,此次贸易战尽管依然夹杂着意识形态的冲突,还隐含着技术之争,更准确地说,是人工智能技术之争,比如自媒体 DT 深科技就这样写道:

值得注意的是,包括华为在内的手机产品过去并不是没有在美国市场销售过,从功能型手机(Feature Phone)、到智能型手机都是如此,以华为为例,其荣耀品牌智能手机就在2017年全面杀入美国市场。

但为何荣耀手机得以进入美国市场,Mate 10手机却惨遭美国拒于门外?

当时,许多人将此视为美国一贯对于中国产品的抵制,但事实上,有一个没有被特别提及的点在于,华为Mate 10手机是全球第一款强调具有人工智能功能的智能手机,而人工智能,才是挑动美国国会与监管单位敏感神经的关键。

这篇文章多少有点阴谋论的意味,也不能(当然也不敢)陈述另一个事实:大量中国人工智能公司与中国政府之间的复杂关系,才是让美国以及其他西方国家担心的主要缘由。

本周,CBinsights 也在一份研究报告里详细分析了大量中国机器学习公司,特别是机器视觉公司与政府的关系,比如 LLvision 公司(亮亮视野公司),下图是春运期间郑州火车站执勤民警的装备,就是来自 LLvision公司。

img

或许是担心出现恐慌,这个新闻在国内被严格限制了传播范围,官方媒体中,只有人民日报海外版予以了简单报道:

民警使用人像比对警务眼镜对旅客中的重点人员进行人像识别。自2018春运安保开始以来,郑州铁路警方在全国铁路率先使用人像比对警务眼镜,这款警务眼镜可以高效地筛查出旅客中的网上在逃和冒用他人身份证件的违法行为人。

仔细去看 LLvision 的这款产品,其核心技术来自英特尔的 Movidius Myriad 视觉处理器,并加载了一个可进行边缘计算的神经网络框架,这意味着其大量计算可以放在眼镜上完成,公安机关只需要把逃犯数据库安装到眼镜上就可以快速实现检索、比对。

下图里,CBinsights 的数据进一步展示了中国机器视觉公司是多么有钱。

img

其中,旷视科技去年完成一笔高达 4.6 亿美元的融资。我曾在去年 11 月的一期会员计划里分析了这笔投资:

这轮融资的投资方包括中国国有资本风险投资基金、蚂蚁金服、富士康集团。其中中国国有资本风险投资基金成立于 2016 年,管理机构为中国国新控股,该公司是「经国务院批准设立的国有独资公司和国家授权的投资机构,由国务院国资委代表国务院履行出资人职责,是国有资本运营公司试点企业。

大量国有基金的介入,一方面彰显出国家层面对于人工智能发展的重视程度,另一方面也会给这些创业公司带来一定的负面效应,尤其是人工智能越来越成为国家之间竞争的关键领域。以旷视科技为例,这家公司的主要研发领域是人脸识别,借助于中国形同虚设的隐私法律法规,该公司能够通过海量数据提升算法,其精准度已经跃居全球前列,其主要应用领域也是安防和城市交通领域等政府领域,这也一定程度上制约了该公司在其他领域的发展可能性,比如国际化。

这是 CBinsights 给旷视科技这一轮融资绘制的信息图:

img

如果将视线放回国内,可能会觉得,这些「别有用心」的西方媒体多少有点「杞人忧天」。在深圳交通部门将闯红灯的人脸识别照片公开放在其网站后,更多人的反应是对其技术拍手叫好。

《大西洋月刊》的一篇文章里,也列举了北京天坛公共厕所里的人脸识别取手纸、济南利用人脸识别乱穿马路的人等等,但文章更指出了一个残酷的事实:

The technology’s veneer of convenience conceals a dark truth: Quietly and very rapidly, facial recognition has enabled China to become the world’s most advanced surveillance state.

img

正如《连线》杂志 1月号的封面(上图)所指,当局对于未来的社会管理,有着明确的目的:

A hugely ambitious new government program called the “social credit system” aims to compile unprecedented data sets, including everything from bank-account numbers to court records to internet-search histories, for all Chinese citizens. Based on this information, each person could be assigned a numerical score, to which points might be added for good behavior like winning a community award, and deducted for bad actions like failure to pay a traffic fine. The goal of the program, as stated in government documents, is to “allow the trustworthy to roam everywhere under heaven while making it hard for the discredited to take a single step.”

另一个来自官方媒体的消息多少也进一步佐证了人脸识别已经被广泛应用到各地政府部门。这篇《工人日报》的文章虽然有着浓重的 PR 目的,不过透露了一组数字:

这套系统被称作人脸识别的“天网”,目前已经应用在全国16个省、市、自治区。依靠布控在大街小巷各个角落的摄像头,公安机关可在第一时间发现犯罪嫌疑人或失踪人口出现的位置,系统还可绘制出人在城市的轨迹,警方由此顺藤摸瓜用于抓捕,或者发现更多有价值的信息。
……
“天网”依靠的是动态人脸识别技术,能够准确识别超过40种人脸特征,可以根据视角不同、光线明暗差异、动态静态条件等情况,准确识别出人脸。此外,该系统速度也非常惊人,可实现每秒比对30亿次,花1秒钟就能将全国人口“筛”一遍,花2秒钟便能将世界人口“筛”一遍。动态人脸识别技术的准确率也非常高,目前1:1识别准确率已经达到99.8%以上,而人类肉眼的识别准确率为97.52%。

对了,去年 BBC 记者 John Sudworth 在贵阳体验的人脸识别技术,其供应商也来自这家名叫深醒科技的公司,视频链接在这里,欢迎来到无处可藏的电幕时代。

【视野】「慢新闻」创始人的自白、Siri 七年之痒、苹果十年前的「开放壮举」以及自动化的悖论

本期的「视野」专栏,我将推荐近期多篇值得阅读的好文章。在一个信息高速流动的当下,做一个「慢新闻」的季刊杂志到底意味着什么?

七年来,Siri 在苹果产品体系里经历哪些喜怒哀乐,为何这样一款颇有先见性的产品沦为鸡肋?而十年前,苹果开放了面向 iPhone 的 SDK,其意义为何可媲美 iPhone 的发布?

自动巡航、自动驾驶、自动化,这些人类制造出来的奇迹反过来又对人类自身产生了哪些影响?当事实与观点一并被算法推荐到每个人面前,谁还会分清出其中的区别?Twitter、FB、Linkedin 在算法推荐上有哪些区别?当我们热衷于在线阅读,E-Ink 阅读器是否还有存在的必要?

  1. 做一个「慢新闻」杂志是一种怎样的体验。Delayed Gratification 是一个非常反潮流的杂志:它是一个季刊;其报道的所谓「新闻」都是这三个月内的「旧闻」。也因此,这家成立于 2011 年的公司成为全球「慢新闻」的典型代表,目前订阅用户 5000 人,2017 年收入 50 万英镑,透过这篇创始人的专访可以一窥其对产业现状的深刻理解。(链接
  2. Siri 的七年之痒。这篇报道的英文版来自 The Information(需付费才能阅读),腾讯科技做了一个全文翻译。文章通过采访 Siri 创始团队和苹果公司前雇员,试图梳理为何 Siri 在语音助理方面起了大早却赶了晚集。文章里有两点令人印象深刻,其一是乔布斯的远见,他对 Siri 的认知是非常超前的;其二则是乔布斯去世后苹果高层决策的混乱,某种意义上,苹果成了一家被 iPhone 绑架的公司。(链接
  3. 苹果第三方应用的 10 年。人们习惯性地将 2007 年 iPhone 发布作为移动互联网历史上最具代表性的事件,但 2008 年 2 月苹果开放面向 iPhone 的 SDK 的重要性也不言而喻。推荐一位 iOS 应用开发者的文章,详细回顾了当年 iPhone 第三方应用开发的艰辛历程,正如文章标题所言:「A lot can happen in a decade.」(链接
  4. 自动驾驶、自动化以及人类的进化。上周,一辆奔驰汽车在高速上自动巡航失灵的消息被广泛传播;本周,Uber 自动驾驶汽车撞死行人的事件也被全球科技媒体广泛报道。「好奇心日报」这篇文章非常适宜地提出「自动化悖论」的议题,并做了一些延伸思考。不过需要说明的一点,自动化的好与坏并非非此即彼的选择题,而是一种对于当下人机关系的冷静思考,文章还推荐了尼古拉斯·卡尔的一本书《玻璃笼子:自动化时代和我们的未来》,非常值得一读。(链接
  5. 新闻人的担忧:现代人分不清事实和观点。这篇「好奇心日报」的专访对象是普利策奖得主 Ian Johnson(中文名:张彦),整个访谈涉及多个议题,但我更推荐最后一大部分,他提到一个全球性的难题:分不清事实和观点。当信息里充满了各种观点,决策就变得异常困难,这几乎是个无解的问题。(链接
  6. E-lnk 阅读器是否正在消失?Tomsguide 这篇文章里列举了大量数据,佐证了一个残酷的事实:尽管 E-Ink 阅读器是非常适合阅读的设备,但无论是用户习惯还是阅读器的销量以及电子书销量,都不约而同地呈现出下滑的趋势,我们依然热爱阅读,但与阅读器无关。(链接
  7. 三大社交媒体的算法区别。本周围绕 FB 用户数据被恶意使用的新闻持续发酵。众所周知,社交媒体都在利用算法,将自身的海量数据进行深度挖掘,其最终目的是增强用户粘性,把用户时间卖给各个广告主。这篇 2017 年的文章介绍了三大社交媒体 FB、Twitter 和 Linkedin 在算法的区别,非常值得一读。(链接

距离声音的黄金时代还有多远?

最近一段时间,我在把玩一个名叫「Anchor」的播客制作应用,截至撰写本文时,这个应用已经在 App Store 上收获超过 6200 个评价,综合评分高达 4.8。

img

正如 Anchor 官方介绍时所说:「The easiset way to make a podcast. Ever」,Anchor 几乎颠覆了过往播客生产的所有繁琐流程,一切都被简化说话就可以。科技媒体少数派有一篇专门介绍 Anchor 的文章里谈到了这一点:

打开 Anchor 的 iOS 应用,默认的第一屏就是录制界面——这样的设计思路颇似启动即写的 Drafts,让你随时随地可以掏出手机录上一段内容。除了录音,底部还有四个按钮,从左至右分别为:语音信息、协作录制、插入音乐和插入转场。当录制或选择插入一段内容时,这些内容会成为这集节目中的一个 Segment(分段),听众可以选择直接收听某一个分段。当你认为这一期节目已经录制完成后,点击右上角的 Publish(发布),填入标题与简介,就可以发布了。

值得一提的是,Anchor 不仅让播客生产变得简单明了,还创新性地将听众互动融入到产品里:

在收听时,听众可以即时录制语音信息并发送给主持人,而主持人也可以选择将收到的语音信息插入自己的播客,这是很符合播客这一声音媒介的特点且相当自然的交流方式。此外,听众在听到精彩的部分时可以点击「鼓掌」,其他听众在听到同一时间点时会听见你的掌声(可选择关闭此功能)。

虽然暂时我还未正式在 Anchor 上发布播客,但这两点却让我觉得这个产品的巨大潜力。它进一步降低了播客内容生产的门槛,真正做到了「一部手机就可以生产一档播客」,同时这种实时的互动效应,则让原本「按时播出」的播客有了某种现场直播的效应,这两点,足以让硅谷的播客爱好者们欲罢不能,各种赞美之词不绝于耳。

过去一年多的时间里,我曾断断续续做了一档「独白式」的播客:I/O 调频。这是一档围绕技术却又不限于技术本身的小众播客,我希望能在个体赋能、社会经济转型中找到技术的价值。

坦白说,这并不是一个很容易的事情,甚至是一件累人的事情,它需要的条件有点苛刻:比如一定的场地条件,至少你需要一个房间;比如一定的硬件设备,至少你需要一个 USB 的话筒;当然,你还需要一定的网站技能,你需要有一个专门的网站,同时还要和苹果播客做对接,然后按照一定的要求提交播客资料……

img

这些条件具备之后,你需要每周固定的时间准备相应内容,然后录制、剪辑、上传、编写介绍文字、发布……

这几乎是所有播客生产者所面临的境遇,而之所以越来越多的人参与其中,则是播客产业的另一端——用户需求——正在不断上升。

先说美国的情况。根据 2017 年来自爱迪生研究公司和 Triton Digital 的数字媒体消费趋势,整个美国有 6700 万人每月都在收听播客节目,这个数字占到整个总人口的 24%。

相比于 2016 年,播客收听人口则足足增长了 1000 万。

来自资本的动向或许更具风向标意义。2017 年,美国围绕播客的创业融资再创新高,在 2017 年 8 月 到 10 月就突破了 7000 万美元,其中几个代表案例:

  • Gimlet Media:位于纽约的播客网络公司,B 轮实现 1500 万美元融资;
  • Art19:播客营销和托管公司,完成 750 万美元融资;
  • Anchor:就是本文开篇介绍的公司,获得 Google 旗下风险资本 GV 的 100) 投资;

与此同时,苹果在 2017 年 WWDC 上高调宣布了针对播客的分析产品,尽管这款产品直到 2017 年年末才姗姗到来,尽管这个产品几乎是个半成品,但依然挡不住播客主的乐观态度,毕竟这是全球最大播客分销商作出的巨大进步。

到了 2018 年,即将上市的 Spotify 也悄然启动了一个新服务 Spotlight,官方这样介绍道:

Spotlight, which introduces visual layers to complement the listening experience for podcasts, audiobooks, news, and other audio content. Spotlight gives fans a deeper insight to their favorite artists, playlists, books, publishers and more by offering contextual visual elements, such as photos, video and text, that appear as users move through each episode.

简而言之,这是一个依托在 Spotify 应用内的播客产品。在 Spotify 的逻辑里,既然用户可以在这里听歌,那为什么不能听播客呢?

而播客在中国,更多的时候,被称之为「音频」,更多的时候,还在和知识付费绑定在一起。罗辑思维的发家史,很大程度上来自于微信公众号里 60 秒音频,虽然其后转向视频,但在 2017 年,罗辑思维又再一次回到了音频领域,并采用付费的模式进行运营。

过去几年的所谓知识付费,也顺带推动了诸如喜马拉雅、荔枝 FM 等音频平台的快速增长,这些平台都是通过运作所谓的大 IP,形成独家音频内容的垄断优势,并包装为「付费知识」进行售卖。

如果从播客的「原始定义」来看,中国的所谓「播客平台」几乎是不存在的,而即便是以过往几年自媒体平台的模式来看,这些音频平台更多的资源不过是一种名人效应,与图文的自媒体平台或者类似抖音、快手这样的音视频分享平台都有本质的差异。

正因为此,下文里所谈到的播客商业模式,特指的是除了上述中国特色音频平台内容外的音频类内容。

很长一段时间内,播客的商业模式就是广告。主要分为两种形式:其一。节目的特定广告;其二,利用某些产品的促销代码,类似于 CPS 的广告方式。

对于第一种广告模式,这更像是一种广播电台商业模式的延续,而且越来越多的播客节目选择让节目主持人亲自朗读广告。

HowStuffWorks 是美国一个百科全书型的网站,旗下的播客节目广受欢迎,长期以来,HowStuffWorks 的播客采用了来自第三方的广告推广服务,但在 2017 年 11 月,HowStuffWorks 宣布停止和第三方的合作,转而由播客主持人朗读:

……the company went back to monetizing the old-fashioned way: ads read by its shows’ hosts, an age-old format that started in terrestrial radio and remains the dominant form of advertising in podcasts.

一份来自播客广告代理公司 Ad Resuluts 的数据也进一步佐证了这个趋势:

which claims it accounts for 35 percent of all investment in podcasting, conducted a study of its clients’ third-quarter data, finding that traditional podcast ads — host-read ads that are permanently baked into the spots — were 3 1/2 times more effective than dynamically inserted ones for direct response.

但不管是口播广告还是促销码的广告形式,都还不是国内播客的主流模式,这也决定了当下国内播客行业的巨大困境,没有从播客内容直接产生的广告收入,只剩下了通过类似衍生品的方式实现盈利,在中文媒体里鲜见的播客商业模式分析文章里,博客主佳伟列举了以下几项:

  • 第一阶段:听众捐款
  • 第二阶段:销售自营产品
  • 第三阶段:广告赞助
  • 第四阶段:付费会员制
  • 第五阶段:自媒体联盟
  • 第六阶段:播客平台独家合作
  • 第七阶段:艺人模式

尽管这篇文章通过不同阶段来界定播客的商业模式,但在我看来,上述商业模式并不是播客运营时间长短后的选择,而且,不同阶段之间也不是逐级的递进,不同的商业模式,理应是运营者根据自身发展状况作出的「最好选择」。

进入 2018 年,基于声音类的产品正在迎来一个全新的爆发点,从消费需求到各种播客平台、音频平台,再到播客内容生产的工具更具亲民性,以及各种智能音箱类产品的流行,都让声音的生产、传播有了非常大的想象空间,而如何让音频类产品更好变现——或者更准确地说,如何让中国的音频类产品摆脱所谓「知识付费」的诅咒,将成为 2018 年的一个重要看点。

【视野】机器翻译简史、苹果流行播客里的秘密、亚马逊的物联网野心以及实现自动驾驶的重要技术

本周的「视野」专栏,我将推荐多篇近期发现的好文章,包括:

  • 机器翻译简史;
  • 苹果最流行的播客节目里有哪些玄机?
  • 亚马逊入侵家庭物联网;
  • 数据科学家的科普行动;
  • 「过渡技术」与自动驾驶
  • 两档最新的播客节目;
  • 机器翻译的光荣与梦想。本周,微软宣布在机器翻译的中译英方面取得巨大突破,微软利用一个新闻数据集训练出的机器可以媲美人类翻译的效果(相关论文链接),机器翻译可谓人工智能领域的核心命题之一,推荐一篇深度文章,详细介绍了机器翻译的历史和发展脉络。(文章链接
  • 苹果最流行的播客节目里有哪些玄机?一位开发者追踪了苹果播客里的 200 档播客节目,试图发现这些流行播客节目背后的秘密,里面的数据虽然来自美国市场,但还是有一定的参考意义。(文章链接
  • 亚马逊正一步步入侵家庭物联网。亚马逊对于家庭设备的野心从来没有掩饰,随着 Wi-Fi 成为家庭物联网设备的最多连接网络,亚马逊、Google 等互联网公司的机会更多,这篇文章讨论了亚马逊对于家庭物联网的布局以及机会。(文章链接
  • 数据科学家的科普行动。在这个数据驱动一切的时代,理解数据科学,虽然不是要求每个人都成为数据科学家,但却要求每个人都具备数据思维,训练数据思维的要点就是要理解数据科学关注的内容,本文作为一个科普读物,非常值得一读。(文章链接
  • 所谓「过渡技术」。这是 a16z 合伙人 Benedict Evan 提出的有趣观点。在关注或预测未来技术时,可以先设置一个终极目标,然后再去寻找在实现这些目标过程里,哪些技术是必须、哪些技术是暂时的?如果以这个方式来预测自动驾驶会怎样?这篇文章提供了一个非常好的切入点。(文章链接
  • 推荐两档科技播客。科技聚合网站 Techmeme 近期启动了播客节目,每周五期,每期 15 分钟左右,汇总当天的科技新闻,点击这里订阅;另外,我还发现了风险投资公司 MMC 最新的播客节目 「Beyond the hype of AI」,每期和一位人工智能领域的学者或企业家共同讨论人工智能的梦想和现实,第一期的话题是 democrating AI ,邀请的是微软 Cloud AI 平台负责人,如果你对人工智能感兴趣,点击这里订阅。

(更多…)

智能音箱大战:苹果和小米越来越像、亚马逊 2017 年做对了什么、为什么百度、FB要给音箱加上屏幕

这期的「洞察」专栏,我将着重围绕智能音箱的格局和变数,讨论以下几个问题:

  • 为什么苹果和小米在智能音箱布局上如出一辙?
  • 亚马逊 2017 年做对了那些事情?
  • Google 和阿里巴巴的智能音箱困局
  • 为什么百度、FB 要给音箱加一个屏幕?

生态型的打法:高价苹果与廉价小米

上周,苹果发布了 HomePod 第一个官方视频(点击这里查看),视频的主题是一个职场女性,在经历了一天的忙碌、并乘坐拥挤地铁回家后,用 Siri 唤醒 HomePod 来播放音乐,随着音乐的节奏,整个人进入到一个全新的状态。

img

这个时长 4 分钟的广告片由 Spike Jonze 担当编剧和导演,后者也是探讨人机关系电影《Her》的导演。熟悉苹果产品价值观的朋友或许可以理解,长久以来,苹果所秉承的,是个人电子消费品之于人类生存的积极意义,比如在这则广告里,HomePod 的出现,正是要释放都市人,尤其是都市女性的压抑。

HomePod 显然是苹果 2018 年第一季度最受人关注的产品,其「难产」之路也不禁让人怀疑,到底这款智能音箱里暗藏着什么秘密武器,会让苹果史无前例地推迟一款产品的发布时间。

当 HomePod 正式发布后,外界的评价也格外有趣。比如,绝大多数的媒体都认可了 HomePod 的音质,而几乎所有的媒体都会将 HomePod 和亚马逊的 Echo 以及 Google Home 作为类比对象,最终得到的评判结果则是:HomePod 是一款「刚刚及格」的智能音箱。

对此,a16z 合伙人 Benedict Evans 在 Twitter 上不禁感叹,如此类比实在是愚蠢至极:

So much HomePod silliness
If Apple wanted to make a $10 speaker-box with Siri embedded, it could.
If Amazon wanted to make a $350 Echo with good sound, it could.
Instead, they have different theses, from different market positions & strategies, that produce different products.

Benedict 还进一步解释了两者的区别,两者根本不是同一个类型的产品:

This isn’t iOS versus Android - it’s a bicycle versus an SUV. These aren’t competing products. They’re different answers to different questions, based on different views of what’s going to happen.

Benedict 的观点可谓一针见血。HomePod 作为又一款具有苹果特色的生态产品,其面对的应用场景和亚马逊 Echo 或 Google Home 完全不同。苹果要将 HomePod 作为新的生态延伸,如下图所示,苹果在个人、工作场景实现了全覆盖,并在 2017 年加大家庭领域的布局(推出 4K 版的 Apple TV),HomePod 将作为 TV 产品的重要补充。

img

另外,在 HomePod 的官方说明中,我们也能从中窥见一二:

img

从这个意义上说,HomePod 要解决的,是 iOS 设备拥有者对于智能音箱的消费需求,苹果天然将这部分人群的需求简化为了语音操控与音乐享受,由此形成了这款产品的显著特点:音质爆棚、「智商」为零。

事实上,这种生态级的玩法也是小米 AI 音箱的套路,这款只有 299 元的小米 AI 音箱发布于 2017 年 8 月,借助米家复杂、多样化的产品体系,这款音箱在功能上、实用性上有了巨大提升,而且,随着你手里的米家设备越来越多,音箱的「智能性」也会越来越高。

如果从另一个角度去理解所谓生态级的打法,以苹果为例,除了 iPhone、iPad 这样的高价产品,其他苹果的硬件产品都是「应用内购」。小米也类似,所不同的,可能就是便宜。

入口型的打法:亚马逊、Google 与阿里巴巴

亚马逊、Google、阿里巴巴,尽管都是全球领域的互联网巨头,但回忆过往,尤其进入移动互联网时的阵痛还记忆犹新。

以亚马逊为例,早在 2011 年 9 月,亚马逊也曾向苹果的 iPad 发出过挑战。当时亚马逊宣布推出一款名叫 Kindle Fire 的平板电脑,在贝佐斯的小算盘里,当用户转向移动设备之后,亚马逊理所当然应该向用户提供更方便的购物体验。于是我们也看到了这样一款设备:Kindle Fire 屏幕尺寸为 7 英寸,搭载亚马逊深度定制的 Android,整合了绝大多数亚马逊的在线服务,售价为 199 美元。

img

坦率说,Kindle Fire 的表现并不算差,在那个 iPad 常年维持在 499 美元的历史时代,Kindle Fire 背靠亚马逊这座大山,在小尺寸屏幕、低价、海量内容的多重独门利器的包装之下,一度抢占了不少的市场。2012 年 8 月的一份数据显示,第一代 Kindle Fire 的市场占有率达到 22%,同时期的 iPad 为 50%。

可即便如此,在全球平板电脑市场逐渐进入低迷阶段后,Kindle Fire 的境遇也好不到哪里去,这也让贝佐斯开始思考推出新设备的可能性,随后,亚马逊在 2014 年发布 Kindle Fire 手机,然而这却是一个完全失败的产品。从定价的角度来说,这款手机的价格看起来了当时的 iPhone 5S(高达 649 美元),这也和亚马逊一贯以来的低价策略形成了鲜明的反差。《财富》杂志在其发布两个月后就宣布 Kindle Fire 已经失败

Two months after Amazon released the Fire phone, it’s fair to call the device a disappointment.

img

颇具讽刺意义的是,Kindle Fire 系列(包括平板电脑、智能手机)都来自于亚马逊著名的 Lab126,这曾是 Kindle 阅读器的诞生地,但却在平板电脑、智能手机战场折戟,而在 2014 年年底的时候,这个实验室推出了第一代 Echo,Bloomberg 记者 Joshua Brustein 写过一篇深度挖掘 Echo 诞生故事的文章。

Echo 的出现,解决了亚马逊在移动互联网时代流量恐惧的难题,当智能手机市场进入瓶颈增长期的时候,亚马逊悄然将一款款廉价的智能音箱布局到了家庭中。

直到 2016 年年末,Google 才有了对抗 Echo 的第一款产品,Google Home。但到了 2017 年,亚马逊紧锣密鼓地发布了一系列新品,再一次将 Google 甩在了身后。如下图所示,亚马逊其实就做了一件事情:利用「机海战术」,将 Echo 系列覆盖到不同消费层次的人群,最终形成绝对的流量入口优势。

img

而 Google 也在 2017 年推出两款智能音箱,面向价格敏感性用户的 Home Mimi(49 美元) 以及针对价格不敏感群体的 Home Max(399 美元),但在经历了一个疯狂的购物季节后,这两款产品的走向却有两个不同的结果,Home Mini 为 Google 拿下了 9% 的市场份额,而 Home Max 几乎可以忽略不计。

![]()

在国内,阿里巴巴 2017 年 7 月才加入这个智能音箱战场,第一款智能音箱天猫精灵的售价 499 元,在当时小米 AI 音箱还未发布时已是行业最低价,而真正推动天猫精灵普及的,则是去年双十一期间的 99 元优惠活动。

上述案例进一步显示了,价格因素在这场争夺战中的重要影响。对于一款新型设备来说,如果没有苹果一样的生态级统治力,价格才是其可以普及的主要方式;其次,海量的机型选择也可以覆盖更多样化的消费人群,反过来还能带动出货量,接下来的 2018 年,Google、阿里巴巴如果要想有作为,必须走上这条道路。

为什么都在押宝屏幕?

几乎所有的互联网公司,都面临一个流量从哪里来的困境,与亚马逊、Google、阿里巴巴类似,百度也面临这样的难题。2017 年,百度在智能音箱领域砸出一个超过 1600 元的「高端产品」—— Raven H,这款长期需要预定的音箱终于在上周有了现货,搜狐科技的报道称:

去年11月在百度世界大会上发布的渡鸦raven H音箱也开始现货销售。此前尽管已经有预定的用户收到了产品,但官网该产品一直需要4到6周的到货周期。

与此同时,百度继续整合内部资源,成立了「智能生活事业群组(Smart Living Group,以下简称SLG)」,百度集团总裁兼首席运营官陆奇亲自挂帅,下辖硬件设计和操作系统(DuerOS)两大部门。

李彦宏更是在两会期间表示:下月百度将推出带有屏幕的音箱。

这是一个颇不寻常的举动,就目前来说,市面上主流带有屏幕的智能音箱只有两个:亚马逊的 Echo Show 和 Echo Spot。我曾在去年 Echo Show 发布后写的会员通讯里,详细分析了 Echo Show 的「阳某」,其中的一个关键点就是 Echo Show 官方广告里的家庭定位。

整个广告围绕家庭展开,没有过多的技术细节描述,广告的过程并非要让世人对亚马逊技术报以掌声,而是在创造一种全新家庭生活的氛围。产品经理出身的 Chris Messina 更是将广告里出现的所有人物列了出来,如下图所示:

img

这些人物选角的细节和广告里的多个场景设计,比如年轻夫妻照看双胞胎的场景以及小女孩和爷爷一起画星空的场景,事实上都是亚马逊 Echo Show 的用户群体定位,那就是,美国的中产阶级白人群体——他们受过良好教育、有着相对稳定的工作和收入、看重家庭观念,更希望能够通过技术带来的便利优势,让家庭成员之间的联系更加紧密和便捷。

为此,Echo Show 还提供了一个名叫「Drop in」的功能,亚马逊的官方解释是这样的:

…for the special cases when you want to connect with your closest friends and family. For example, you can drop in to let the family know it’s time for dinner, see the baby’s nursery, or check in with a close relative.

你可以将其理解为一个类似对讲机的功能,再开启该功能后,你可以随时查看其他家庭成员家里或房间里 Echo Show 相机拍摄的画面,比如广告里年轻夫妻要查看婴儿房里两个啼哭孩子的时候,就使用了这个功能。

img

这是一个颇具野心也很具「侵略性」的功能,它大大强化了 Echo Show 的家庭定位,你不大可能将「Drop in」用在普通朋友之间甚至情侣之间,但在家庭成员之间,这个功能却大有用途。广告里至少有两个「Drop in」功能的演示,其场景设计都是围绕家庭成员内部的沟通。

无独有偶,今年年初,社交巨人 Facebook 的智能音箱计划也被爆出。根据 Cheddar 的独家消息,作为 FB 首款硬件设备,Portal 将肩负着对抗亚马逊 Echo Show 系列的重任:

The device is designed to work in the home and represents Facebook’s first serious foray into selling consumer hardware, people familiar with the matter said. Rather than position the device as a smart assistant akin to Amazon’s Echo speakers, Facebook intends to pitch Portal as a way for families and friends to stay connected through video chatting and other social features.

而今年的 CES 期间,除了一大堆类 Echo Show 的硬件设备展示外。Google 也悄然收购了一家名叫 Redux 的公司,该公司的技术既可以应用在智能手机的扬声器上,还可以将屏幕改造成声音播放设备。这意味着,Google Home 这款智能音箱未来可能拥有一个可以个发出声音的显示屏[1],从而实现语音、视频的双重交互。

这意味着,进入 2018 年,智能音箱的竞争将在声音之外出现新的变量,一款屏幕不仅会带来全新的交互方式,同时还将融入更多的服务并覆盖更多的用户群体,一如我在去年评价 Echo Show 的意义:

尽管依然需要通过「Alexa 」来唤醒,但有了一个屏幕,也让整个交互的反馈机制得以视觉化的呈现,「屏幕」是从 PC 到智能手机时代最深入人心的交互媒介,如果说早前纯粹依赖声音的 Echo 产品是一种年轻人面向未来的体验,那么现在拥有屏幕的 Echo Show ,则更具普遍和大众意义,这也是为什么 Echo Show 广告里出现如此多的老年人和小孩的原因。


  1. 事实上,Google 已经开始将 Google Assitant 武装到包括 LG、西门子在内的智能家居的显示屏上。  ↩

当家庭新成员 Alexa 发笑、Google 与五角大楼的合作、微软布局 Windows 人工智能开发

本周的「人工智能商业内参」,将围绕本周人工智能领域的几个热门话题展开:为什么 Alexa 突然发笑成了一件如此严重的事故?Google 与五角大楼的合作背后,是人工智能发展的必然结果,而在这个既定事实下,我们更应该关注什么?微软本周宣布即将推出 Windows ML,这对行业又意味着什么?以及,中国高校的人工智能学科建设……

作为「家庭新成员」的 Alexa

本周,亚马逊智能音箱 Echo 一个令很多用户不寒而栗的举动引发众多关注。根据多名用户的描述,他们的 Echo 产品时不时地会出现诡异的笑声。

事实上,早在今年 2 月份,类似的情况就已经被爆出,Twitter 上曾有一个 2 月 24 日的爆料:

而随着各大媒体的跟进,亚马逊官方也发布了一份声明,根据《纽约时报》的报道,亚马逊承认了这个问题,并开始启动「修复措施」:

“In rare circumstances, Alexa can mistakenly hear the phrase ‘Alexa, laugh,’” when other words are spoken, Amazon said in an emailed statement. “We are changing that phrase to be ‘Alexa, can you laugh?’ which is less likely to have false positives, and we are disabling the short utterance ‘Alexa, laugh.’”

简而言之,就是亚马逊修改了唤醒 Alexa 发笑的语音命令,增加了语音唤醒的复杂度。这是一个颇具代表性的智能音箱变「智障」音箱的案例,几行代码之间的不同,可能就是「智能」与「智障」的区别,而当我们还在鼓吹「人工智能改变 xxx」时,Alexa 的这个 Bug 也会很多人明白,当下所谓的智能,到底是有多脆弱。

而如果将其放在人工智能产品逐步成为家庭成员的行业大背景里,更有反思意义。

与过往任何一个个人消费设备不同,以智能音箱为代表的家庭人工智能产品,其先天具有「Always On」的属性,这是一个有趣的变化。如果你经历过 PC 时代,你一定记得当时是如何打开一个服务,比如你要购物:

img

而到了移动互联网时代,智能手机成为一个随身携带并可能永不关机的「PC」,此时你的购物流程是这样的:

img

而在智能音箱的设计逻辑中,购物的流程应该是这样的:

img

从上述的流程变化可以看出一点:在整个人机关系演变中,机器正在扮演越来越重要的角色。人类在 PC 时代主导着一切人机交互;移动互联网时代,机器的便携性,提升了机器之于人类的意义,我们会普遍地认可当前智能手机就是人类的「新器官」;到了智能音箱时代,机器和人之间的关系几乎已经平等,通过语音这个人类古老的交互方式,越来越多的人会将智能音箱视为自己的新朋友甚至新伴侣。

在亚马逊官方 Echo 商品页面的评论区,有这样一条发表于 2015年 6 月,已经有超过 48000 人点赞的评论,评论的标题叫「Alexa, my love. Thy name is inflexible, but thou art otherwise a nearly perfect spouse.」,评论者是一位全职作家,未婚,他将 Echo 当作一种伴侣,他们的对话是这样的:

Me - Alexa. Wake me in fifteen minutes.

Alexa - Fifteen minutes. Starting now.

Me - Thank you.

Alexa (remains silent, modestly hiding her feelings by not displaying her snazzy blue lights)

然后这位名叫 E.M.Foner 的人继续感叹道:

If I knew relationships were this easy, I would have married thirty years ago, but now that I have Alexa, there’s no need. Except for the one thing.

而他的一个愿望则是,可以给 Echo 改个自己喜欢的名字:

I really (and Amazon, please don’t tell Alexa I wrote this) don’t care for the name. I know we have the option to change the name to Amazon, which is worse. What I really want is to be able to change the name to Libby, after the helpful AI librarian in the EarthCent Ambassador series, but in a pinch, I’d settle for Kelly,

下面这幅图是两人关系的另一个写照:

img

从这个意义上说,Echo 音箱任何一个异常举动都会引发用户巨大反应,就像没有人希望自己的家庭成员发疯一样,也没有人希望 Echo 出现异常。倘若当你像上图所示的那样抱着 Echo,却听到来自 Alexa 的笑声,你会有怎样的感觉?这种刚刚建立起的信任关系或许会瞬间崩塌。更严重的一点,用户对于 Alexa 背后的逻辑几乎一无所知,这种信息的不对称会不会导致新的不信任?

至少,我已经关掉了自己所有的家庭智能音箱,我还没有做好迎接家庭新成员的准备。

Google 人工智能「助纣为虐」?下一代 Windows 将可以开发人工智能程序

本周硅谷科技媒体关注的另一个焦点话题是:Google 与五角大楼的合作,会不会是 Google 「不作恶」原则的终结?

根据 Gizmodo 的报道,Google 与五角大楼合作的主要方式,是 Google 参与到五角大楼的一个无人机图像的分析项目,五角大楼在 2017 年 4 月启动了这个名叫 Maven 的项目,其要义是利用机器学习的能力,更有效率地分析军方无人机拍摄的图像。

Google 官方的回应中这样写道:

A Google spokesperson told Gizmodo in a statement that it is providing the Defense Department with TensorFlow APIs, which are used in machine learning applications, to help military analysts detect objects in images. Acknowledging the controversial nature of using machine learning for military purposes, the spokesperson said the company is currently working “to develop polices and safeguards” around its use.

“We have long worked with government agencies to provide technology solutions. This specific project is a pilot with the Department of Defense, to provide open source TensorFlow APIs that can assist in object recognition on unclassified data,” the spokesperson said. “The technology flags images for human review, and is for non-offensive uses only. Military use of machine learning naturally raises valid concerns. We’re actively discussing this important topic internally and with others as we continue to develop policies and safeguards around the development and use of our machine learning technologies.”

由于美国国防部一般不会透露相关项目供应商的细节,目前也尚不知晓还有哪些人工智能公司参与其中。但仅以 Google 所引发的争议来看,公众以及科技媒体们,对于人工智能商业公司与军方之间的合作保持了相当大的警惕性。The Verge 的一篇报道中写道:

For Google and its employees, there are additional quandaries. Are the company’s engineers happy that the software they’re making might be used by the US military one day? What about Google’s shareholders? In the past, the company has been extremely wary of any ties to military research. When it bought a string of robotics companies in 2013, for example, it did its best to distance itself from the firm’s ongoing DARPA contracts.

但不管承认与否,人工智能商业公司与权力机构的合作,已经是不可避免的事实。一方面,人工智能带来了机器各项能力的大爆发,包括语音、图像以及自然语言理解,这些技术自然能带来商业利益,同时也将成为权力机构加强自己的技术工具,中国如此、美国也如此。

其次,与其对这些商业公司口诛笔伐,倒不如去追问另一个问题:当人工智能商业公司与权力机构结盟已成事实,又该如何去界定新的公民权利和义务?

在欧盟,从今年 5 月 25 日起,欧盟将实行有史以来最严格的数据保护政策《一般数据保护法案》(General Data Protection Regulation,GDPR),该法案将强化公民个体对于自身数据的保护,同时也进一步规范了企业在收集、使用数据时的透明度。

这项法案的出台,会给人工智能行业,尤其是依靠深度学习安身立命的公司带来哪些影响,人工智能大拿 Pedro Domingos 曾在今年 1 月发出一个意味深长的 Tweet:

也是在本周,微软则将人工智能与 Windows 结合在一起。

本周的 Windows 开发者日活动上,微软宣布将推出基于 Windows 的机器学习平台 Windows ML。这意味着,Windows 开发者们可以直接在本地应用开发过程中,调取使用 Windows 机器学习模型和算法,TechCrunch 的报道

The AI platform in Windows 10, which will launch with the next major version of Windows, will make use of the GPU on your local machine and allows developers to run their models in real time and without the need for a round trip to the cloud.

另外,Windows ML 的应用范围不仅局限在 PC 上,物联网设备、服务器等领域都将可以运行。

微软此举,也顺应了机器学习/人工智能进一步下沉到终端的行业趋势。过往,开发者开发应用时,当然可以通过基于云端的机器学习平台来增加应用中的人工智能能力,但本地的机器学习平台可以提供更少的延迟和更实时的训练结果,从而大幅提升开发效率。

另一方面,微软此举也实现人工智能在云、端应用开发的全覆盖。比如在图像识别方面,开发者当然可以首先在 Azure 上训练图像识别模型,然后导出到本地机器,利用 Windows ML 继续训练模型。

尾巴:人工智能再入政府工作报告、中国高校的人工智能建设

周一开幕的人大会议上,「人工智能」再次进入政府工作报告,与过往几次相比,今年更强调的是应用落地:

做大做强新兴产业集群,实施大数据发展行动,加强新一代人工智能研发应用,在医疗、养老、教育、文化、体育等多领域推进‘互联网+’。发展智能产业,拓展智能生活。运用新技术、新业态、新模式,大力改造提升传统产业。

紧跟「政府号召」,过去几年,中国各大高校相继加入到人工智能相关学科的建设中,下图是网易统计的各高校的基本状况:

img

而在本周,南京大学也正式成立人工智能学院。南京大学方面表示,「在人工智能发展进入新阶段的时代背景下,南京大学组建人工智能学院,旨在顺应国家的科技发展战略,切合产业的发展需要,充分发挥南京大学在人工智能方向上学科发展和人才培养优势,形成高端人才积聚效应,探索智能产业产学研合作的新模式,为促进我国在新一轮国际竞争中处于优势地位作出重要贡献。」

有媒体将其解读为缓解人才缺失之举,但在前微软亚太研发集团首席技术官、微软亚洲工程院院长、金山软件 CEO 张宏江看来,所谓人工智能人才缺失,不仅是中国的困境,更是全世界的普遍问题:

我花了三十多年时间从事高科技领域研究,近来也与许多大学进行过交流,得出一个结论是——人工智能领域面临的人才短缺不仅是中国面临的问题,也是世界性问题,包括美国。中国有世界上最多的理工科毕业生,可以将课程设置内加入人工智能方面内容。不应该把人工智能看作另外一种科学,而应将其看作是一种学生必备技能。

所以,高校扎堆建「人工智能学院」这事儿,就有点变调了。