人工智能方向的思考总结 - 百纳信息喻俨考察手记 | 英途

本文是途友喻俨在参加完刚结束的“英途2016硅谷人工智能考察”之后的思考总结。主要概括了人工智能的发展现状、深度学习在图像、文字等领域的最新进展，以及AI领域创业公司的制胜要素。

五月参加英途的人工智能活动到美国溜达了一周，拜访了十来个AI相关的公司，涨了见识同时收获不少。回国后把看到的内容和自己近期的一些思考总结如下：

1.人工智能 vs 机器学习 vs 深度学习

AI（人工智能）、ML（机器学习）、DL（深度学习）这三个词有越来越被滥用的趋势，迄今为止还没有看到对这三者关系的一个标准定义，现在能看到的共识是：

AI是一个非常大的专业的科技/研究领域，这个领域包含了很多需要解决的子领域（从Wikipedia上拷贝过来有）：reasoning，knowledge，planning，learning，NLP，perception and the ability to move and manipulateobjects。有时候我们平常说的AI也指机器所具有的某种智能化的“表现”。

ML属于AI的一个子研究领域，关注点在通过数据驱动的算法方面的研究。ML是用来实现AI的一种手段。

DL属于ML的一个分支，可以简单看作是ML算法中神经网络算法的分支，通过建立和模拟人脑神经网络来进行层次化的分析学习。

2.DL在图像、文字等领域的最新进展
打造方便于消费者的机器人，49美元的众筹价格实惠亲民，满足任何渴望了解更多机器人、工程和生物学的消费者Avant是目前美国成长最迅猛的网贷平台, 过去三年间的贷款总规模超过30亿美金，仅次于Lending Club和Prosper。势头正猛的Avant是本次LendIt大会上当之无愧的明星。它的总部位于中部城市芝加哥，却是美国P2P玩家中最执念走国际化的一个。目前在全球范围内的客户总量已超44万，也在很积极地拓展国外合作伙伴，包括中国在语音、图像和视频领域，进展非常明显。对于简单的分类（识别猫猫狗狗）、检测和跟踪任务（无人机尾随）已经达到甚至超越普通人类的水平，可以开始大规模商用。

在文字和NLP领域的进展要略微落后于语音和图像，有一些应用正在慢慢成熟，比如文字的情感分析、不同语言之间的翻译、邮件智能回复、对话式购物等。

混合应用场景开始出现，推动AI应用场景的丰富，比如：给图片智能生成标题（图像＋文字），看图回答/推理（图像＋文字），视频字幕生成（视频＋语音）。混合应用场景出现的部分原因是在于DL一些技术的成功转移，比如CNN从图像领域成功应用到文字领域。

3.对AI领域公司来说，什么是最重要的
Data（数据为王），数据特别是差异化的数据非常非常重要。因为对于一个基于 DL 的应用来说，技术层面主要是三大决定因素：算法、工具和数据。前两个因素：算法和工具，公开和开源是趋势，无论大小公司、学术界、工程界，大家都愿意积极参与贡献；而对于数据来说，基本上都是私有的，一来 DL 所需要的海量数据获取难度和代价都很大，二来出于隐私法规商业利益等角度，少有人愿意公开自己收集的数据。所以每一个AI公司都得在数据上尽早做布局。

Power（计算能力），DL在这几年取得的重大进展很大程度上也归因于硬件计算能力的突飞猛进，从CPU到GPU到FPGA到ASIC，比特币挖矿上的硬件系统演进看上去似乎正在DL应用上重演。随着DL应用领域的扩展，硬件的采用和布局也会是重要的一环。

Engineering（工程能力），在美国看到的不少创业公司人虽然很少，但都有非常强悍的工程能力，这种工程能力表现在从硬到软的技术栈全面性和对算法实现的工程优化能力。说到底，在算法和工具层面的竞争优势在今后会变得很小，相反在垂直领域的实际场景应用中，工程能力的强弱会变得很突出，一个优秀的能读懂算法论文又能最佳实现的工程师会变得非常有价值。

4.AI对移动互联网（App）有何价值？
一句话概括：每一个App都可以powered by AI？

喻俨
百纳研发副总裁

喻俨先生，浙江大学硕士，现任百纳产品研发副总裁。2007年任职于微软亚洲工程院；2011年加入百纳，负责业务线多个产品的开发、设计、运营和商业化工作，负责的著名出海产品——海豚浏览器，在欧美日韩等市场有超过2亿用户，先后获得了红杉、经纬、畅游的亿元投资。

本文来自于英途原创

_______________________________________

我们相信，对全球商业新锐与热点的探思，将改变中国商业的未来！
英途，与全球商业面对面。王石、周鸿祎、孙振耀、金志国等近百位企业家曾参与我们推出的英国、以色列、日本等全球交流合作项目。
关注全球商业趋势，请关注@英途微信微博。