社交账号登录

社交账号登录

0/34

上传头像

拖拽或者缩放虚线框,生成自己满意的头像

头像

预览

忘记密码

设置新密码

人工智能的 2014:从说人话开始

智能

人工智能的 2014:从说人话开始

夏雨青2014-11-10 22:10:48

你一时半会儿还看不到机器管家一样的机器人,但人工智能已经来到你我身边,从好好说话开始。

11 月 6 日,“双十一”电商购物节前的最后一个周四晚上,微软亚洲互联网工程院 11 楼的灯一直亮着。办公室的装修风格明亮、轻快,不过难掩目前的紧张气氛。这里是微软小冰团队的办公区域。为了让京东平台上的小冰助手在双 11 前顺利推出,他和一些技术人员至少还要加班到半夜,继续测试和调整产品。

“16 岁的萌妹子形象一直在那儿,只不过这个萌妹子又变成了一个手机达人。”胡晓光这么解释小冰和京东的合作。他是微软小冰团队负责第三方平台接入的产品经理,也是小冰与京东合作的负责人。在休息区坐下接受《好奇心日报》的采访时,他看起来既疲倦又兴奋。

第二天在京东应用上出现的小冰变身购买助手。在京东应用里与小冰对话,她会自然地询问你的购买预算、颜色、品牌等偏好,最后给出一个推荐,帮助你完成买手机这个任务。

小冰的推荐和对话背后是京东对于数码类产品的所有数据——规格、性能参数、用户评价等等。接入的大量数据让小冰成为一个超级产品搜索引擎。她能找到具体至“可以用 nano SIM 卡的手机”或者“宽度在 60 到 80 厘米的冰箱”这样的产品。

胡晓光对于传统的搜索并不满意,“你要自己先把那些关键词摘出来,说我要搜‘iPhone 5s 价格’。正常人不是这么说话的,你会问我‘iPhone 5s 多少钱?’她(小冰)真的能够回答得特别好,那是小冰的风格。” 用户可以跳过在传统的产品搜索页面手动选择品牌、屏幕产品尺寸、价格区间,直接以对话的形式完成这个繁琐的流程。

这也是其它平台上小冰吸引用户的地方——她与人的说话习惯相似,因而交流起来更加自然。

小冰与京东的合作只是她从五月上线以来带给旁观者的又一次惊讶,她打破了微软一直以来略显沉闷和保守的公众形象。很多人对小冰最初的印象来自于她在微信上线不久后即被封杀,微软连发多封公开信回应腾讯。哀怨、拟人的语气与微软通常的公告完全不同。

微软小冰项目从开始就显得不同寻常。小冰公共关系事务的工作人员告诉《好奇心日报》,微信事件的小冰公开申明可以不经法务部修改直接发布。这是其它产品团队所没有的特权。

微软对这个人工智能项目的重视甚至超过了他们一直以来珍视的流程。

她上线以来的宣传和推广也与微软传统的广告策略相去甚远:面对“人工智能”这样一个未来感十足的话题,小冰团队在任何广告中都选择轻松、活泼、少女式的网络风格。与不少堆砌“深度学习”、“大数据”这样的人工智能项目产生了鲜明对比——微软在使用普通人都会用的语言。

更让人惊讶的是在任何产品上都倾斜自己平台的微软会有一开始就以全平台为目标的服务。在小冰项目上,微软没有忌讳过她的平台和合作。小冰从未被局限在 Windows Phone 或者 Windows 系统上;她积极对外拓展不同的合作伙伴,即使对方公司与微软业务有竞争关系——比如米聊。

研发上小冰团队拥有整个亚洲研究院的支持,并且格外重视用户反馈和数据分析。微博版小冰每周至少解锁一个新功能,从研发速度和反应时间上来说,小冰团队更像是一个初创公司,而不是拥有数十年历史、需要任何决定都要层层审批的微软。

小冰团队是微软亚洲互联网工程院的一个“特区”。这让她成为微软近年开发的产品中,唯一一个在移动互联网上受普通人关注的服务,5 月上线至今在米聊、触宝和微博三个平台拥有 600 万用户,目前英文版也已经在开发之中。

这种特别来自于微软最高管理层的支持——负责长期研发的沈向洋和负责应用服务工程部的陆奇都是小冰项目的直接推动者。

他们在着急自己是否赶得上人工智能这样的未来趋势。

微软在智能手机和移动互联网时代缺乏具有足够影响力的产品。它需要仔细考虑它的下一个十年,而人工智能看上去是一个顺理成章的答案。

以自然语言处理、计算机视觉和机器学习为代表的人工智能研究在最近三年又成为热门话题、无数公司的投资趋势。经过 1980–1990 年代的低潮期,人工智能学科在蛰伏之后重新成为人们的关注焦点。

自然语言处理是其中的重点技术。小冰可以与人以自然的方式交流,Siri 能听懂你说的话,正是有赖于这个从人工智能领域诞生最早的学科。

苹果在 2011 年推出了 iPhone 上的 Siri 智能语音助手,Google Now 也于 2012 年上线。微软的 Cortana 智能助手今年 4 月发布,小冰 5 月诞生。亚马逊则在前几天推出了它自己的智能语音助手 Echo——一个在角落静静等你指示的智能家居设备。

他们的背后都是自然语言处理技术,聆听、理解并回应人类的语言。

在消费者领域的 Siri、小冰之外,人工智能开始向商用领域发展。IBM 就打算把人工智能沃森带到每一个商业公司。

在 Jeopardy! 智力问答节目上打败人类的沃森是人工智能史上绕不开的话题,也是大众现实中最熟悉的人工智能形象。2014 年 1 月,IBM 宣布成立全新的沃森集团,投资 10 亿美元。除了与医疗、保险、银行等不同行业合作开发决策方案,它还打算把沃森做成一个开放平台,让第三方软件和应用接入 IBM 的认知计算技术。

IBM 负责认知计算技术的杰出工程师高雨青博士告诉记者,认知计算能力是 IBM 辅助商业决策的重要基础。“比如说我们的服务对象是银行、保险公司、是医院,他们事业的基因、大数据的复杂挑战,就不是用一般方法可以解决的。我们认为我们可以帮他们找出洞察力,找出帮助他做决策的方法。洞察力找出来以后,怎么样用洞察来帮助你做各行各业的决策,这是我们的关键。”

IBM 的沃森系统目前在银行、保险、金融等领域都有不同的合作伙伴。购买了 Watson 服务的医疗保险公司 WellPoint 能够通过系统来判断医生的治疗请求是否符合公司的规定以及病人的医保。而不久前,IBM 研究员测试过在公司会议中使用 Watson。

想像一下你在董事会议里有这样一个智能助手,有问必答——沃森目前的能力还有限,但这不妨碍我们畅想一下人工智能在商业决策领域的将来。

在更冷门的安防监控领域,人工智能也在慢慢改变世界。中国创业公司格灵深瞳坐落在颐和园边上的一座四合院里,由 Google 前研究科学家赵勇和毕业于斯坦福大学商学院的何搏飞联合创立。

2014 年 6 月他们获得数千万美元投资,目前正与四大银行中的三家进行合作测试,更多公安、零售领域的伙伴还在接洽中。他们想改变安防领域的未来,让人工智能帮助分析、理解世界上无数的安防录像。

“安防监控本身,在中国、美国和以色列有很多做所谓智能视频监控的公司。现阶段的智能监控和你用 Photoshop 没什么区别——通过像素颜色的区分判断这是否是一个人。这就需要视频颜色干净,背景空旷,而且它只能判断出这个物体在移动。” 格灵深瞳 CEO 何搏飞告诉《好奇心日报》。

格灵深瞳的产品希望解决这样一个安防市场困境:城市的角落有无数个摄像头,它们每天捕捉海量的视频,却无法有效地进行分析、利用。保安每天对着数十个监控屏幕,稍不留神就会错过真正致命的事件。

何搏飞认为他们的产品将改变整个安防市场。“我们现在可以做到两件事情,一是在非常复杂的场景下——比如早上八点北京地铁站拥挤的人群中,我们可以非常精确地跟踪 10 米内所有人运动的轨迹和速度。第二是我们可以对人的肢体行为进行非常精确的跟踪和判断。我们可以区分暴力行为、人的跌倒还有呼救。”

更精准的追踪和判断来自于更先进的算法和传感器。格灵深瞳使用 RGB-D 摄像头,在捕捉二维图像的同时利用激光扫描三位空间。同时,它利用深度学习让计算机自己去学习、判断人类的动作模型。比起传统算法需要人将动作轨迹和相关判断在计算机内一一对应,计算机自己分析学习要更快,准确率也更高。

计算机视觉研究和深度学习让格灵深瞳想改变世界的愿景成为可能。

2014 年是人工智能的重要节点——诸多以往停留在实验室阶段的技术开始以更快的速度走入普通人的生活:

OrCam 希望为盲人的世界带来现实增强

2014 年 3 月 27 日,英特尔为以色列创业公司 OrCam 投资 1500 万美元。它是一个可佩戴的摄像头,为盲人识别文字和物体。

吴恩达加入百度大脑

2014 年 5 月 16 日,著名人工智能学者吴恩达加入百度担任首席科学家,负责百度研究院及旗下的“百度大脑”计划。9 月 3 日,百度发布了 BaiduEye 智能眼镜,结合了计算机视觉和自然语言处理技术。

微软小冰上线

2014 年 5 月 30 日,经过近半年的封闭研发,微软小冰正式上线。

美联社用自然语言处理技术写新闻

2014 年 7 月 1 日,美联社宣布他们将用自动化技术取代人工撰写大部分商业财报新闻。

小冰识狗功能上线

2014 年 8 月 21 日,微软小冰推出“小冰识狗”功能,背后是微软研究团队近两年的计算机视觉研究成果。

K-NFB 把文字识别技术带给盲人的手机

2014 年 9 月 23 日,在著名人工智能研究者 Ray Kurzweil 指导下,iPhone 应用 K-NFB Reader 发布。它利用图像和文字识别技术为盲人朗读文字。

Google 旗下的 DeepMind 公司模拟短期记忆

2014 年 10 月 29 日,被 Google 以 4 亿美元收购的 DeepMind 公司发布了“神经系统图灵机”,可以模拟人脑的短期记忆能力,并能通过“回忆”发展逻辑能力。

微软 Skype 开始向巴别塔进发

11 月 4 日,Skype 实时翻译功能开放了公众测试版,它依靠自然语言处理、深度神经网络来完成实时语音翻译功能。

亚马逊智能家居设备 Echo 发布

2014 年 11 月 6 日,亚马逊发布智能家居设备 Echo,它能随时听你说话,拥有天气预报、添加日程和购物等功能。

为什么是现在?人工智能为什么开始大规模进入我们的生活?一个简单的答案是,人工智能的技术开始达到能够进入民用领域的成熟度。

假如把人工智能作为一个学科的目标定为“理解智能、制造智能体”那我们离这个终极目标还差太远。

微软亚洲研究院首席研究员周明博士与很多人一样,对人工智能有着不同的理解。

“所谓智能体,每个人都有不同的定义。第一个是所谓的人机接口,人说了一些话,被电脑理解以后从而执行相应的动作。但是其实还有很多其他的智能体,比如自动翻译也算,语音也是其中一个重要的技术,还有给你执行任务。包括智能机器人,比如踢足球,生产线上的装配、焊接等机器人,我认为都是这种智能系统的一部分。现在只要可以替代人能做的东西,我认为都是一个智能体。”

从 1956 年的达特茅斯会议确立人工智能作为一门学科开始,对于它的研究开始逐渐分化出不同的子学科。现代科学家认为人工智能要具有匹敌人类智慧的能力,就需要强人工智能,而在达到强人工智能之前有几个关键问题需要解决——这被学术界称为 AI 完全问题。它至少包括:

• 计算机视觉:对于图像、视频的识别和处理

• 自然语言处理:让计算机用自然语言与人类交流

• 知识表达和推理:用现有的知识推论出未来的知识

• 问题解决:让计算机像人类一样解决现实中的问题

从 1956 年开始的现代人工智能历史几乎都围绕着这些主题前进。由于过度乐观堆积的泡沫和研究瓶颈,人工智能在 1970 至 1980 年代和 1980 至 1990 年代分别遭遇了两个低潮期。1966 年机器学习的技术限制、1975 年 DARPA 对于语音识别技术准确度的不满、以及 1990 年日本对于第五代计算机系统研究的放弃都成为人工智能进展上的重要阻碍。

微软的周明博士从事自然语言研究超过 30 年,他也经历过人工智能最困难的时期。他告诉《好奇心日报》,“大概在10年以前,你只要说你是搞人工智能的,大家就离你远去,觉得这个公司绝对不靠谱。如果某一个研究人员搞人工智能,也不靠谱。最近这两年似乎又觉得人工智能有希望了,我是这么看的:第一,它肯定是一点点地在逼近人工智能的终极目标。第二,它未来仍然还会出现大的波折,也不是人们想象的马上就要实现的。”

尽管之后的道路还很遥远,他认为人工智能在最近有几个很好的迹象:大数据、深度学习和互联网。

大数据是个被炒的太热的概念,但对它的滥用不代表大数据本身有错。说到底它是通过海量数据来提高数据分析的质量——用同样的机器学习的方法,数据越多,学的效果和能力越高。

大数据包含两种,一种是有标注的大数据。10 年以前在机器翻译领域,中英对照的例句不过有几万个条。现在可以挖到上亿个来自各个不同领域的数据,翻译能力自然增强。另一个是无标注的数据——像是单语数据,在以几万倍的速度增长。计算机能从中学到语言规律,像是词和词的搭配规律,句型和语言模型的学习。这些东西可以用在所有和自然语言处理有关的领域中,无形中所有相应的领域都得到了相应的提高。

无论你是在问 Siri 明天天气如何,还是在微博上和小冰聊天——他们能以自然、流畅的方式和你沟通,都离不开对于海量数据的分析。

深度学习则带来了计算机视觉领域的一次飞跃。2013 年,《麻省理工技术评论》把它列入年度十大技术突破之一。深度学习模拟人类大脑神经系统的工作原理,将输出的信号通过多层处理,将底层特征抽象为高层类别。它的目标是更有效率、更精确地处理信息。

深度学习在苹果和 Google 的产品上早有应用。Siri 的底层技术来自 Nuance 公司的语音识别服务,Google 街景使用识别技术来辨别具体地址,都依赖深度学习领域的进展。多伦多大学的 Geoff Hinton 教授是这个领域的先锋,几十年来一直坚持对于深度学习的研究。

2012 年对于深度学习是重要的一年,它的准确性有了质的提升。

微软亚洲研究院多媒体搜索与挖掘组副研究员杨奎元博士说,“2006 年已经有深度神经网络可以应用的苗头了,真正在视觉领域运用是2012年。深度神经网络在图像识别领域有一个专门的测试数据集 (ImageNet),它在这个数据集里,比传统的专家定义的特征错误率降低了一大截。”

纽约大学的计算机科学家 Yann LeCun 表示,“我们看到的准确度提升程度是非常少见的。”

当你每一次用 Google,Bing 和百度的图像搜索时,你都在享受深度学习的成果

互联网则让任何技术提升成为可能。现代的人工智能系统开始利用大量的用户数据反馈来改进——典型的例子就有小冰,Siri 和各大搜索引擎。越多用户反馈意味着更好、更精准的系统。你的每一次点击都可能为人工智能带来了微小的提升。

周明博士认为互联网这个生态环境是人工智能近几年受到关注的最重要原因。他告诉记者,“要是没有这个生态环境,雇一群用户做用户调研,反馈非常有限。现在是免费雇佣成千上亿个用户,他们还不知道自己在给你做贡献——用户没有感觉到他在给你做智能上的系统的贡献,他们仅仅就觉得我要用你的搜索,我要用你的广告,我要用你的 app,但是他在默默地给你做贡献。所以内容提供商、搜索提供商、用户,都从中都得到了好处。这个生态环境是20年以前传统的人工智能没办法做到的,现在做到了。人工自然而然的加入,使得智能系统越来越高。”

微软亚洲互联网工程院资深总监、小冰项目负责人李笛对《好奇心日报》说,“人工智能产品的成熟是需要一个过程的,这个过程不是说用用户数据去训练这个产品,而是这个产品需要在人类社会中摸爬滚打。它要去了解人类社会,人类社会要去了解它,然后这个模型才能逐步地被丰满、精确。不真正把这个产品投入到市场中去锻炼,你永远也不会知道这个产品最后会变成什么样。”

以小冰项目为例,它在实际应用中才能了解大众对于人工智能助手的需求。负责发展人工智能的团队看到大量的数据和反馈,也才能去着手解决这些问题、决定产品未来的方向。

李笛说,“这个经验远比单纯用户数据来得重要。”

从某种程度上来说,人工智能技术在帮助普通人生活的同时正在帮助它自己的技术进步。技术进步需要更多的用户数据,而人工智能的发展方向需要看它的使用者到底需要什么。

2014 年人工智能走入更多人的生活,是因为技术发展,也是为了技术发展;是因为有了更好的技术和产品;也是为了有更好的技术和产品。

人工智能在未来一个世纪的发展也许还会经历起起伏伏,但它始终承载着一个重要命题,也是人工智能领域里最让人期待的目标:一个完全的智能体,一个能全方位听说读写,进行反应、思考、决策的智能系统。这甚至超越技术领域,成为了一个哲学话题。

目前的人工智能仍然是一个个独自割裂的系统。你可以用 Siri 规划待办事项,用手机应用来进行文字识别,亚马逊 Echo 在客厅静候你的购物指令,小冰在深夜陪你聊天……它们有各自擅长的细分领域,但彼此分裂互不关联。

“其实人并不想找到一个能完全替代他自己的人。”周明博士认为,要做到像人那样有思考、行动、决策规划能力的,我们离得还很远,而且也不需要那么着急去要实现这个目标。

著名人工智能学者 Ray Kurzweil 关于人工智能的未来则有这么一段话:“我的观点是,智能或者人性是终极目标,但也在科学上无法突破。换句话说,没有任何科学测试能确定地证明智能在另一个系统里的存在。我们假定其它人类至少在行为看起来有智能时,是真的有智能的。而这个人类共同持有的假设在我们超越人类体验来看时站不住脚。”

这么来看,我们离人工智能很近,又特别远。

喜欢这篇文章?去 App 商店搜 好奇心日报 ,每天看点不一样的。