存档

2015年7月 的存档

全球顶尖大数据人才Top20

2015年7月31日 1 条评论

作者:t

数据科学家是21世纪最性感的工作,因为21是大数据世纪,而大数据时代企业需要能够将数据转化为商业能力的“数据领袖”。对于大多数企业来说,优秀的数据科学家灿若星辰却又一将难求,大数据分析人才的招聘更是企业人力资源部门的噩梦。传说中的数据科学家都长什么样?本文为大家推荐二十位顶尖大数据人才,请您感受一下。

以下内容来自199IT

Pinterest数据科学家安德莉亚•伯班克

Pinterest数据科学家

Pinterest是一家以图片为主的社交网络,数据科学家安德莉亚•伯班克主要负责该公司的A/B测试,评估公司网站、APP的外观或功能变化会对 它的6000万全球用户产生哪些影响。如果Pinterest网站上的某个小模块让你想邀请朋友也来玩一玩,或是某一封它发来的推荐邮件让你关注了更多话 题,那么这很可能就是伯班克团队的那只“看不见的手”起了作用。她在今年三月的一次行业会议上表示:“为了今后能为几十亿用户提供服务,我们已经针对几百 万用户做了数百次试验。”试验还拓展到了Pinterest自身的运营上。伯班克最大的成就之一,就是给Pinterest的其他员工赋权,让他们也能开 展试验。她表示:“以前只有一个故障点,但也只有一个知识点,现在不同了。”——Andrew Nusca

0xdata公司物理学家、黑客阿诺•康代尔

Oxdata数据科学家

阿诺•康代尔从小就生长在一个科研氛围浓厚的环境中。他出生于瑞士一个叫做下锡根塔尔的小村子,这个村子恰好位于拥有欧洲顶级粒子加速实验室的保罗谢 尔学院(Paul Scherrer Institute)和欧洲大陆最著名的科技院校苏黎士联邦理工学院(ETH Zürich)之间。在学习粒子物理学和超级计算机学期间,康代尔曾经在电脑上建立过宇宙的模型。后来他搬到美国加利福尼亚州,在斯坦福大学直线加速器中 心的全国加速实验室中工作(SLAC National Accelerator Laboratory),后来又开始创业,成为Skytree公司的创始工程师,并且设计了几套高性能的机器学习算法。现在他是Oxdata公司h2o数 据分析平台的核心开发者,他开发的这个h2o平台,被编程社区GitHub的成员誉为最优秀的开源Java机器学习项目,而且它还可以兼容流行的统计编程 语言——R语言。他在Oxdata公司的头衔是“物理学家兼黑客”。——Robert Hackett

Hortonworks联合创始人阿兰•默西

Hortonworks联合创始人

阿兰•默西最早在雅虎公司(Yahoo)工作,现在已然用途极广的开源存储和处理软件Hadoop在那时尚处于早期原型阶段。默西的团队的任务就是扩展 Hadoop的功能,让它用于雅虎的网页搜索。于是默西研发了一个名叫YARN的资源负载管理系统,它的作用大致相当于Hadoop的一个操作系统。默西 表示:“第一版的Hadoop看起来就像还在用Notepad的Windows,但是我们真正想要的是能用Powerpoint、Word和Excel的 Windows。”这正是YARN的魅力所在:它允许用户向Hadoop中插入多种应用以存储各类信息。默西表示:“我家里有两个孩子,但YARN就像是 我的第三个孩子。”——Robert Hackett

NuoDB首席执行官巴里•莫里斯

NuoDB首席执行官

很多科技公司都想发起一场技术革命,但是很少能获得上一波技术革命领导者的支持。马萨诸塞州剑桥市的NuoDB公司却一举网罗了上一波数据库革命“四 大天王”的其中之三——Ingres公司前CEO加理•摩根泰勒、Sybase公司前CEO米切尔•克兹曼、Informix公司前CEO罗杰•斯普尔。 只有最后一名“天王”,也就是甲骨文(Oracle)的CEO弃权了,但他也身在投资人之列。这么一家名不见经传的公司何以有这么大的号召力?因为 NuoDB的技术解决了一个多年来被行业视为“圣杯”的问题:如何让一个数据库在多个服务器上运行。“关键在于用更多的机器,而不是更大的机器。”该公司 CEO巴里•莫里斯表示:“那个问题听起来虽然简单,但一直没得到解决。”DuoDB公司成立于2010年,现在这家公司已经签下了一个大客户——欧洲第 二大软件厂商达索系统公司(Dassault Systèmes)。另外莫里斯认为,公司正在飞速朝着一个“新的聚焦点”迈进。他认为DuoDB将走上舞台的中央。“它的意义不在于数据的规模或运行速 度,而在于形成一种数据导向型模式。持续改进的能力才是它的革命性所在。”——Andrew Nusca

Beats Music 公司大数据工程总监布莱恩•罗格斯基

Beats Music大数据工程总监

要想让布莱恩•罗格斯基谈谈他在Beats Music公司的工作细节真是不容易,不过Beats Music刚被苹果(Apple)收购,考虑到苹果一向神神秘秘的作风,倒也没什么可奇怪的。(这笔交易于今年五月宣布,上周五完成。)不过罗格斯基依然 是三句话不离本行。他表示,现在企业都有兴趣更深入地进行实时数据分析,而且也有兴趣在企业内部加大数据的分享力度。另外很多公司也想利用大数据提高 APP的个性化体验。那么罗格斯基打算如何在Beats公司跟上这股潮流呢?他表示:“你必须自己理解其中的奥妙。由于我目前的角色,我对这个问题不能说 太多,现在还是说说大趋势吧。”——Robert Hackett

雅虎实验室研究员达尼埃尔•凯西亚

雅虎实验室研究员

小时候,达尼埃尔•凯西亚最想当一名警察,为此他还买了一辆玩具摩托车。不过现在在雅虎实验室(Yahoo Labs),他对城市的了解绝对细致入微——尽管只是在数码层面上。凯西亚拥有计算机科学博士学位和麻省理工学院(MIT)城市研究专业的博士后学位。目 前他主要进行广域的城市研究。比如他构建了一款游戏,问人们喜欢哪种城市景观,然后把评分放在Facebook上进行病毒式传播。凯西亚会对结果进行研 究,以确定人们喜欢或不喜欢哪种城市景观,以便最终设计出更好、更漂亮的城市。他认为:“计算机科学就是一门构建工具的学问。我想做一些新的事情,一些能 对现实造成影响的事。而全球有超过一半的人口都住在城市里。”——Shalene Gupta

微软研究院计算生态与环境科学小组负责人德鲁•帕维斯

微软研究员计算生态与环境科学小组负责人

微软(Microsoft)内部有一个叫做“比尔评论”(Bill Reviews)的保留节目,也就是员工们可以在创始人兼董事长比尔•盖茨面前提出自己的创意。当微软研究院剑桥实验室(Microsoft Research’s Cambridge Labs)的计算机学负责人史蒂夫•艾默特在一次“比尔评论”中提出,要由剑桥实验室出资,在公司内部建立一个生态学研究小组时,“那真是一次糟糕得出名 的会议。”——时任普林斯顿大学(Princeton University)生态学家的德鲁•帕维斯如是说。但是最后比尔•盖茨改变了主意,很快微软聘请了帕维斯作为这个小组的领头人,负责建立地球生态系统 的预测模型。自从微软的“蓝天”研究部门成立后,帕维斯已经带领科研团队开发了一个模拟地球所有生命的“马丁利模型”。这个项目可谓雄心勃勃,虽然有些 “唐吉诃德”色彩,但它的部分成果说不定最终也能应用于实际。帕维斯表示:“国民经济中发生的每一件事,都可以放在一定的环境因素中考量。”他随口道出全 世界面临的几大最严重的挑战,包括人口老龄化、癌症、食品安全、气候变化和替代能源等问题。对于生态学和生物学,帕维斯补充道:“这些东西将成为21世纪 经济的核心驱动力。”

IBM沃森与认知烹饪小组高级软件工程师弗罗里安•皮内尔

IBM认知烹饪小组高级软件工程师

自从IBM的“智能”电脑系统沃森(Watson)在电视智力节目Jeopardy中战胜了人类对手之后,IBM还想试试它到底能把智能计算的边界推 到多远。最近IBM决定让沃森进军烹饪界。作为一名受过专业训练的厨师,弗罗里安•皮内尔也是IBM的“认知烹饪”团队的一员。皮内尔表示:“我们之所以 把重点放在美食上,是因为美食是大家都关心的东西,而且我们可以很容易地创造出原型产品。现在我能把对食物和计算机科学的热情融合在一起,这令我大喜过 望。”这个团队首先从各种食材和调料着手,但是他们研发的各种食物的组合呈指数级增长,催生出了大量潜在的美食食谱。比如在今年德州奥斯汀的SxSW大会 上,沃森系统就在IBM的美食卡车上发明了一种澳洲巧克力卷饼,食材包括巧克力、牛肉糜、青豆和大豆。听起来虽然是一道很难吃的菜,不过皮内尔却表示: “它大获成功,非常好吃。所以我们的目的就是要启发用户,帮助他们开发他们自己永远想不到的美食配方。”——Robert Hackett

Cloudera公司首席科学家,西奈山医院基因与基因组学助理教授汉默巴切

Cloudera首席科学家

身为西奈山医院(Mount Sinai Hospital)基因与基因组学的助理教授,杰夫•汉默巴切虽然没有这个专业的博士学位,但丰富的经验让他绝对称职。他曾是Facebook最优秀的数 据学家之一,后来他放弃了被广告渗透到各个角落的社交媒体业,成了Cloudera公司的首席科学家。Cloudera是一家基于Apache Hadoop平台的企业软件供应商。现在汉默巴切又与西奈山医院的基因与基因组学负责人埃里克•沙特合作,试图把大数据分析带入到医疗保健领域。沙特指 出:“他正在定义一个新的领域,以后这个领域将成为一门会发放博士学位的学问。现在没有任何一门学科在教授他所做的事。”汉默巴切正在构建管理和运算人体 健康数据所需要的基础架构,以建立更好的医学预测模型。沙特表示:“对于医疗业和医疗机构来说,现在正是他们开始启用大数据分析引擎的时机。我们和杰夫这 样的人才合作,充分说明了医学将来的走向。”——Robert Hackett

CloudFlare联合创始人米歇尔•扎特琳

CloudFlare联合创始人

如果说互联网也有它自己的中央情报局,那么这块招牌可能要落到CloudFlare公司身上。这家旧金山的公司监控着全球5%的网络流量。公司创始人 之一米歇尔•扎特琳2009年在哈佛大学(Harvard University)遇到了另外两个合作伙伴——马休•普林斯和李•霍洛维,并于同年创办了这家公司。CloudFlare扮演了一个网站与恶意用户之 间的缓冲区的角色。如果CloudFlare判定一名用户为友好用户,它就会加快他所享受的服务的速度。如果它判定一名用户为垃圾邮件发送者或者机器人程 序,它就会降低他的服务速度,或者是要求对方输入验证码。扎特琳表示:“十年以前,我知道我想成为一个大而重要的团队的一份子,但当时我并不确切地知道这 意味着什么。但是现在我感到很幸运,因为我找到了CloudFlare。我想象不出还有比帮助客户更好地经营他们的业务更好的事了。”——Shalene Gupta

Jawbone数据副总裁莫妮卡•罗加蒂

Jawbone数据副总裁

在Jawbone公司,莫妮卡•罗加蒂有两个职责。首先是弄清楚该公司的Up智能腕表收集的数据都代表了什么。其次,构建以智能方式使用这些数据的新 产品。罗加蒂表示:“我们发现了关于我们如何睡觉、活动和进食的许多新的信息,它们都是之前无法发现的。以前我们只能对100个人进行睡眠研究,但是现在 我们可以研究10万个人的睡眠信息。”也就是说,罗加蒂和她的团队能够了解人们为什么会失眠。比如华盛顿的居民可能会因为一次总统就职典礼而兴奋难眠;伊 斯坦布尔的居民可能会因为中东爆发的抗议而睡不着觉;笃信天主教的罗德岛居民可能因为教皇的辞职而失眠——然后,该公司可以把这些信息反馈到Up智能腕表 上,并调整他们的行为。罗加蒂指出:“我们充分地利用了这些数据反映出的见解,并且利用它们来鼓励人们保持最佳水平。”——Andrew Nusca

施乐欧洲研究中心高级研究员欧诺•佐伊特

施乐欧洲研究中心高级研究员

孩提时代,欧诺•佐伊特梦想着成为一名乐高积木的设计师。8岁时,他拥有了人生中的第一台电脑,它点燃了一个男孩对人工智能的兴趣。如今佐伊特已经进 入施乐欧洲实验室(Xerox Labs Europe)工作,他研究的重点是如何缓解洛杉矶的交通拥堵。佐伊特表示:“我们对停车问题了解的不多,因为它需要大量时间来观察。”为此,佐伊特的团 队在全市各处的停车场安装了大量传感器。传感器收集的信息会反馈到一款智能手机应用上,这样司机就可以随时了解哪些停车场已经停满了,哪些停车场的车位还 空着。更妙的是,城市可以根据这些数据调节这些停车场的停车费,以降低高度拥堵地区的车流量。自从这个项目在2012年问世以来,洛杉矶的交通拥堵已经缓 解了10%。——Shalene Gupta

Eventbrite公司工程副总裁帕特里克•普尔斯

Eventbrite

帕特里克•普尔斯曾经告别科技业整整五年,这期间他转行做了一名职业扑克玩家。不过职业扑克市场在2010年萎缩得非常厉害,于是他决定重返科技行 业。他并不为他的选择后悔,他说:“分析数据跟玩扑克很像。你玩了几千手牌,你也了解了人,你也处理了数据,而且你会留心寻找一些显眼的东西。这些都是共 通的。”在Eventbrite网络售票公司里,普尔斯和他的团队开了一个推荐系统,能够根据用户已经浏览的内容,向他们推荐他们可能感兴趣的大型活动。 这个系统的反响很不错,现在每周大约有100万人在Eventbrite上购票,其中近半数都是回头客。普尔斯的下个项目,是要想出怎样才能最好地卖掉需 要预订座位的活动的门票。

Dropbox首席科学家西尔瓦诺斯•李

Dropbox首席科学家

有“神童”之称的西尔瓦诺斯•李只花了短短两年时间,就从斯坦福大学获得了计算机科学与数学的双学位。他在毕业后直接进入了金融行业,但是科技业的诱 惑还是太强了,于是他在2012年加盟Dropbox。凭借其商业背景和科技知识,他成立了一支团队,专门从事数据学研究。他曾经负责过一个叫做 Project Harmony的通讯软件,它使Dropbox的用户可以实时查看其他用户对共享文档的修改,并可与其进行讨论。另一个跟销售有关的项目是查看是否有来自 同一家公司的员工在同时使用Dropbox,如果有就为他们提供超值套餐。西尔瓦诺斯•李的老板王晨立(音译)表示:“他的背景横跨科技、数学和商业实 务,非常难得。这使他的数据科学研究鹤立鸡群。”——Shalene Gupta

Airbnb软件工程师苏拉比•古普塔

Airbnb软件工程师

苏拉比•古普塔非常喜欢旅行,经常替亲朋好友规划旅行线路。作为斯坦福大学(Stanford University)计算机科学专业毕业的研究生,她对摘要的艺术非常着迷——仅仅短短数语就能尽得其要,而无需阅读整篇文字。早先古普塔在谷歌 (Google)工作期间就曾研究过租房服务公司Airbnb。她对Airbnb的数据所能提供的可能性很感兴趣,于是她主动联系了Airbnb跳槽到这 家公司。短短四个月后,她就显著改进了Airbnb的搜索引擎。现在古普塔正在试图压缩Airbnb的所有列表,创建摘要,以便用户可以迅速了解不同城市 的风情。她表示:“总的目标就是,当人们旅行时,我们怎样把他们吸引到Airbnb来?当他们想去旅行的时候,我们怎样让他们获得我们的信息?”—— Shalene Gupta

美国运通GMS IM平台与大数据项目副总裁斯瓦蒂•辛格

美国运通GMS IM平台与大数据项目副总裁

斯瓦蒂•辛格的技术背景几乎无懈可击,其中包括从杜克大学(Duke University)获得的机器学习博士学位。但她的性格却热衷经商。她是美国运通(American Express)MyOffers服务背后的主要智囊,这项服务旨在让美国运通的会员在需要的时候获得他们想要的东西。比如现在是中午,你又恰好想吃墨西 哥菜,美国运通就会送你一张附近墨西哥餐厅的优惠券。她负责的另一个工具可以让商家比较自己的年度表现。她的老板塞斯特里•杜尔瓦苏拉表示:“她有很强的 技术背景,但是她也可以像一个领导者一样,和其他领导谈事情。每次我们讨论数据的时候,她都在场。”——Shalene Gupta

Adobe Digital Index首席分析师塔玛拉•加夫尼

Adobe Digital Index首席分析师

塔玛拉•加夫尼利用数据来预测未来。在Adobe数字系统公司,她的团队负责从使用Adobe云服务的用户那里反馈的数据来预测各种问题,比如哪部片 子会获得奥斯卡奖,哪部大片会卖座,在冬季购物季有多少人会在网上购物等等。她的预测也的确非常了不起,在去年的圣诞购物季,加夫尼团队的预测只比实际情 况低了1个百分点。她的经理朱莉•麦肯蒂表示:“她对科技的理解再加上她对人的行为的兴趣,使她非常与众不同。她好奇心很强,喜欢对数据划分模式、追踪线 索,对事情的演变提出假设。”加夫尼的下一个项目,是对各种移动购物应用进行预测。——Shalene Gupta

Rent the Runway首席分析官维贾伊•苏伯拉马尼安

Rent the runway首席分析官

第一眼看去,在这样一家经营时尚业务的公司里,维贾•苏伯拉马尼安的工作貌似并不光鲜。不过作为时装租赁服务Rent the Runway的首席分析官,恐怕很少有人对女性时尚潮流的理解比他更深了。2010年,他加入公司不久后,便构建了一个评估模型,能够估算漏掉的需求、产 品寿命以及库存服饰的使用场合。由于公司每个季度都要从时装设计师那里购入成卡车的时装首饰租给顾客,因此维贾的模型可以说给公司省了一大笔钱。他表示: “如果你把三个数据来源放在一起,你就可以建立一个体现购物习惯的模型框架。它告诉我们应该去找哪种风格的衣服,才最有可能让我们穿出明星范。”——当然 还有尽量要避免哪种搭配。维贾的下一个项目是整合Unlimited反馈的新型数据——Unlimited是该公司为了进军日常便服领域而推出的一个项 目。维贾表示:“我们的经典模型都围绕着你要去的重大场合。你可能穿衣比较前卫,但如果你出席正式场合,你自己的穿衣风格就不重要了,重要的是适应场合。 而Unlimited则是理解用户穿衣风格的开始。”——Andrew Nusca

ShareThis数据科学副总裁曲艳

ShareThis数据科学副总裁

很多人可能很难相信,曲艳(音译)的工作影响了95%的美国读者。曲艳在社交网站公司ShareThis开发了一个叫做“社交质量指数” (Social Quality Index)的指标,可以衡量围绕一定网络内容的社交活动,并帮助广告主和出版商锁定目标群体。曲艳表示:“技术方面并不难,难的是怎样发现一个商业问 题,然后把技术应用上去。”曲艳在卡耐基梅隆大学(Carnegie Mellon University)获得了自然语言处理专业博士学位。在进入ShareThis工作前,她还曾领导过美国在线(AOL)的 Advertising.com的Advance Research研究团队。现在,她很喜欢迎接移动电话带来的挑战,而且手机也不允许网站植入cookies来确认重复访客。这些都需要曲艳收集更多的数 据。——Shalene Gupta

Data Collective公司管理合伙人扎卡里•博格

Data Collective

早在2011年的时候,扎卡里•博格与马特•奥克多就在旧金山湾区成立了一家风投公司,专门关注大数据领域的创业,这种眼光在当时无疑是非同一般的。 从那时起,这家公司的业务也随着大数据的浪潮而水涨船高。博格表示:“成本曲线很快就被越过了。急速下降的成本使这些新方法得以冲击那些旧的行业。”今 年,该公司又推出了自己的第三支基金,使它的总融资额达到将近2.5亿美元。该公司把赌注押在了短期借贷创业公司LendUp,以及内存数据库服务 MemSQL等新锐公司上。据说MemSQL要比市面上现有的内存数据库便宜得多也快得多。博格表示:“科技为广大的市场和行业开放了前所未有的投资机 会。我们的一个观点是,每个部门和行业都会被科技彻底扰乱,真是令人兴奋。”——Andrew Nusca

原文链接:http://www.ctocio.com/bigdata/18296.html


分类: Data Center 标签:

GitHub靠什么推倒了谷歌和微软?

2015年7月27日 1 条评论

 

github

Github办公室一角 图片:Wired

不要把鸡蛋放在一个篮子里

十年前,开源软件思想尚未颠覆技术世界,开源社区依然相对小众。但开源Linux操作系统已占据在华尔街和其他地方的众多计算机上,证明了与大众分享软件源代码可以创造巨大的价值和利润。程序员们想创建新的开源项目时,通常只会将之建立在极客气息浓厚的SourceForge网站,但这个网站有时并不靠得住。

克里斯·迪波纳,这位长发飘飘的谷歌开源大师,很担心全世界的开源软件会毁在同一个篮子里。“只有一个地方,那就是SourceForge。”他说道。

因此,像很多其他公司一样,谷歌创建了它自己的开源项目网站——谷歌代码(Google Code)。谷歌在Linux和其他开源软件的基础上建立了自己的网上帝国,为开源世界提供了SourceForge之外的又一选择,它试图确保开源精神 持续发展,在网上传播这一信仰。

但是,GitHub出现了,以开源精神更快传播者的身份。

3月初,谷歌宣布:十年之久的谷歌代码即将关闭。这一决策并不让人意外。过去三年多来,谷歌已经将大约一千个项目从网站上移出。但它的官方葬礼还是值得注意的。谷歌代码已是苟延残喘,因为开源世界的主要力量如今都将代码放在GitHub上。GitHub是旧金山一家古怪的初创公司设立的同名网站。谷 歌代码中撤出的上千个项目现在几乎全部在GitHub安了家。

有人争辩说谷歌开设谷歌代码有其他更自私的原因:它想要掌控权,或者说它想将尽可能多的数字资源放在自己的机器上(就像这家公司一直以来的做法)。 但最终,GitHub脱颖而出。GitHub超越了SourceForge,超越了谷歌,超越了其他前辈,以一种更彻底的方式令软件开发民主化大众化。而 这恰是软件开发界最有价值的硬通货。

GitHub:程序员的兴奋剂

上线仅仅7年,GitHub就网罗了几近9百万注册用户。每个月,另有大约2千万非注册用户访问它。Alexa网站排名查询结果中,GitHub位列全球百家最流行网站榜单之上。

GitHub的广受欢迎是极不平凡的,因为它基本上就是个软件开发人员专用的网站,而不是大众找寻名人八卦、宠物视频或社交闲聊的网站。

“看看最流行网站榜单,你能从上面找出一些社交网站,30个网站巨头谷歌旗下的站点,一堆媒体门户,以及GitHub。”——布莱恩·道尔,GitHub战略副总裁。

讽刺的是,GitHub的成功正是由于开源世界的大量自由代码又重回到一个集中的资源库。不过,这一次,与绝大多数其他程序员一样,迪波纳对于所有 东西都放在一个地方感到很开心。拥有一个集中的地点可以使人们更加容易地在几乎任何事情上通力合作。而由于GitHub独特的设计,“鸡蛋都放在同一个篮 子里”这种事也不像SourceForge那样令人焦虑。“GitHub意义重大,但也不是说你就卡在那儿了。”迪波纳说。

将所有代码都集中存放的同时,GitHub也将之放在各处。这自相矛盾的悖论正展现了开源软件之美,也阐述了为什么它对技术的未来如此重要。

Git准备好了

该怎样解释这个悖论呢?归根结底,一切源于Git——GitHub用作基石的版本控制软件。Linux之父李纳斯·托沃兹(Linus Torvalds)为了更好地开发Linux而在2005年创建了Git。Git让人们可以在同一时间对同一版本的Linux代码进行操作,而又不相互冲 突,发生越俎代庖事件。

简言之,Git可以让任何人毫无困难地下载一份Linux源代码副本到他们自己的机器上,做出修改,然后,觉得满意了就将修改的部分上传回 Linux的集中代码库。而且Git可以令每个人做出的修改都无缝融合起来。“这就是Git的精髓,而GitHub的精髓是它理解了Git的精髓。”

GitHub建立了一个使其他软件项目也可以像Linux项目一样运作的网站,普通程序员都能很容易地掌握网站的使用。经历了开源革命的技术网站Slashdot主编Rob “CmdrTaco” Malda说:“GitHub真的很优雅。它是个性感摩登的接口。”

现在,几乎所有人都将自己的开源代码项目放在GitHub上,包括谷歌、脸谱、推特,甚至微软这个开源软件界曾经非常讨厌的家伙。最近几个月,微软开放了某些它最重要的源代码,放在GitHub上而不是使用它自己的开源网站CodePlex。

S. “Soma” Somasegar,微软开发工具事业部全球资深副总裁,为软件开发者们照管着微软庞大的开发工具集的人。他表示,CodePlex将继续运营,其他资源 库,如SourceForge和BitBucket,也将继续经营下去。“我们想确保它一直在那里,提供一种选择。”但他也承认,GitHub是放置像 Microsoft .NET这样的项目的唯一选择。“我们想在开发者的地盘上与他们交流。而开源社区,很大程度上,在GitHub。”

私有遇见公开

而且,多亏了迪波纳所谓的“Git的精髓”,开源社区同样可以脱离GitHub行动。由于Git,程序员们不仅可以在从事某个特定项目时把代码移动 到自己的机器上,还能很容易地“分支”代码,创建新的独立的项目。他们可以保持部分代码私密,而在GitHub上公开其他部分。或者干脆全部公开。

Git和GitHub,显而易见,不仅仅是开源软件专属物。他们也能用于私有代码。你可以随意将私有代码公开,也可以再私有回来。你可以单干,也可以借助大家的力量。这就是开源的精髓。

谷歌灵活运用了Git各种特性。它的划时代编程语言Go语言就放置在GitHub上,而且是完全公开的。一个叫Kartes的项目位于GitHub的一个私有库中,但后来被用于公开项目Kubernetes。Chrome浏览器则建在谷歌内部的一个私有Git服务上。

在微软,运作模式几乎完全一样。微软内部通过像Visual Studio和Team Foundation Server这样的工具使用Git。但它也在GitHub上公开分享代码。而且通过为全球用户提供像Visual Studio和Team Foundation Server这样的工具,微软实际上也是将Git推向其他领域的一员。Somasegar估测大约有20%的微软客户现在正不同程度地使用Git。

开发者即人民

况且,软件开发人员社区也不再微小。毫不夸张地说,他们就是驱动世界的人。道尔说,GitHub位列百佳,”这告诉了我,软件已经变得像文字一样重要了。”

谷歌工程师,帮忙监管开源Angular项目的Igor Minar称,开发者社区已成长得太过庞大,以致GitHub如今疲于应付为大型项目提供合适的管理工具。Angular是存于GitHub上的一个大型项目,参与人员高达上万人。

开发者遍布世界各地。他们中太多人上GitHub,为上千万的开源项目做贡献。Minar认为GitHub就像一个义卖集市,你可以在里面找到任何 想要的代码,而且大多是免费的。“如果你需要什么东西,就去GitHub。你能在那儿找到想要的。”总之,开源时代拉开大幕。而最终,这意味着我们可以比 以前快得多地建设、塑造和改善我们的世界。”

文章来自IT经理网

当代最伟大数学家讲述二十世纪的数学

2015年7月27日 没有评论

本文来源于微信公众号‘机器之心’(almosthuman2014)

本文选自微信公众号:罗治兵(ID:chuangyiwantong),作者:Michael Atiyah,白承铭译,周性伟、冯惠涛校 。

本文作者Michael Atiyah爵士,英国数学家,被誉为当今最伟大的数学家之一。

这里的中译文刊登于《数学译林》2002年第2期,译者白承铭。白承铭教授任职于南开大学陈省身数学所,当时他翻译这篇文章是陈省身先生的提议。作为 Hermann Weyl 当之无愧的继承人,Atiyah 正是 Freeman Dyson 眼中的飞鸟(见 Dyson 的演讲《青蛙与飞鸟》,让他引领我们一起鸟瞰20世纪的数学吧!

谢谢邀请我来这里参加这个活动。当然,如果有人想谈论一个世纪的终结以及下一个世纪的开始,那么他有两个具有相当难度的选择:一个是回顾过去百年的数学;另一个是对未来百年数学发展的预测,我选择了前面这个比较困难的任务,任何人都可以预测未来而且我们并不能判定是对还是错。然而对过去的任何评述,每个人都可以提出异议。

我在这里所讲的是我个人的观点。这个报告不可能包含所有内容,特别是,有一些重要的内容我不准备涉及,一部分是因为我不是那些方面的专家,一部分也是出于它们已经在其他地方被评述过了。例如,我不会去谈论那些发生在逻辑与计算领域内的著名事件,这些事件往往是与像Hilbert,Godel,Turing这些伟大的名字相关的,除了数学在基础物理中的应用之外,我也不会谈论太多数学的其他应用,这是因为数学的应用太广泛了,而且这需要专门的论述。每一个方面都需要一个专门的报告.也许大家在这次会议的其他报告中会听到很多关于这些内容的演讲。另外,试着罗列一些定理,甚至是列出在过去一百年的著名数学家的名字也是毫无意义的,那简直是在做枯燥的练习。所以,代替它们的是,我试着选择一些我认为在很多方面都是很重要的主题来讨论并且强调围绕这些主题所发生的事情。

首先我有一个一般性的说明。世纪是一个大约的数字概念。我们不会真地认为在过整整一百年的时候,有些事情会突然停下来,再重新开始,所以当我描述二十世纪的数学时,有些内容实际上可能是跨世纪的,如果某件事件发生在十九世纪九十年代,并持续到二十世纪初,我将不去计较这种时间方面的细节。我所做的就象一个天文学家,工作在一个近似的数字环境中。实际上,许多东西始于十九世纪,只不过在二十世纪才硕果累累。

这个报告的难点之一是很难把我们自己放回到1900年时作为一位数学家的位置上,这是因为上个世纪的数学有非常多的内容已经被我们的文化和我们自己吸收掉了。难以想象人们不用我们的术语来思考的那个时代是什么样子的。实际上,如果现在有人在数学上有一个真正重要的发现,其后他也一定会与之一起被忽略掉了!他会完全地被融入到背景之中,于是为了能够回顾过去,我们必须努力去想象在不同时代,人们用不同方式思考问题时的情景。

从局部到整体

作为开始,我准备列一些主题并且围绕它们来讨论。我谈论的第一个主题概括地讲,就是被大家称为从局部到整体的转变。在古典时期,人们大体上已经研究了在小范围内,使用局部坐标等等来研究事物。在这个世纪,重点已经转移到试图了解事物整体和大范围的性质。由于整体性质更加难以研究,所以大多只能有定性的结果,这时拓扑的思想就变得非常重要了。正是Poincare,他不仅为拓扑学发展作出先驱性的贡献,而且也预言拓扑学将成为二十世纪数学的一个重要的组成部分,顺便让我提一下,给出一系列著名问题的Hilbert并没有意识到这一点。拓扑学很难在他的那些问题中找到具体体现.但是对Poincare而言,他相当清楚地看出拓扑学将成为一个重要的内容。

让我试着列一些领域,然后大家就能知道我在想什么了。例如,考虑一下复分析(也被称为“函数论”),这在十九世纪是数学的中心,也是象Weierstrass这样伟大人物工作的中心。对于他们而言,一个函数就是一个复变量的函数;对于Weierstrass而言,一个函数就是一个幂级数。它们是一些可以用于写下来,并且可以明确描绘的东西或者是一些公式。函数是一些公式:它们是明确可以用显式写下来的。然而接下来Abel、Riemann和其后许多人的工作使我们远离了这些,以至于函数变得可以不用明确的公式来定义,而更多地是通过它们的整体性质来定义:通过它们的奇异点的分布,通过它们的定义域位置,通过它们取值范围。这些整体性质正是一个特定函数与众不同的特性。局部展开只是看待它们的一种方式。

一个类似的事情发生在微分方程中,最初,解一个微分方程,人们需要寻找一个明确的局部解!是一些可以写下来的东西.随着事物的发展,解不必是一个显函数,人们不一定必须用好的公式来描述它们。解的奇异性是真正决定其整体性质的东西。与发生在复分析中的一切相比,这种精神是多么的类似,只不过在细节上有些不同罢了。

在微分几何中,Gauss和其他人的经典工作描述了小片的空间,小块的曲率以及用来描述局部几何的局部方程。只要人们想要了解曲面的整体图象以及伴随它们的拓扑时,从这些经典结果到大范围的转变就是很自然的了。当人们从小范围到大范围时,最有意义的性质就是拓扑的性质。

数论也有一个类似的发展,尽管它并不是很明显地适用于这一框架。数论学家们是这样来区分他们称之为“局部理论”和“整体理论”的:前者是当他们讨论一个单个的素数,一次一个素数,以及有限个素数时;后者是当他们同时讨论全部素数时。这种素数和点之间,局部和整体之间的类似性在数论发展过程中起了很重要的作用,并且那些在拓扑学发展中产生的思想深深地影响了数论。

当然这种情况也发生在物理学中,经典物理涉及局部理论,这时我们写下可以完全描述小范围性质的微分方程,接下来我们就必须研究一个物理系统的大范围性质。物理学涉及的全部内容就是当我们从小范围出发时,我们可以知道在大范围内正在发生什么,可以预计将要发生什么,并且沿着这些结论前进。

维数的增加

我的第二个主题有些不同,我称之为维数的增加。我们再次从经典的复变函数理论开始:经典复变函数论主要是详细讨论一个复变量理论并加以精炼。推广到两个或者更多个变量基本上发生在本世纪,并且是发生在有新现象出现的领域内。不是所有的现象都与一个变量的情形相同,这里有完全新的特性出现,并且n个变量的理论的研究越来越占有统治地位,这也是本世纪主要成就之一。

另一方面,过去的微分几何学家主要研究曲线和曲面,我们现在研究n维流形的几何,大家仔细想一想,就能意识到这是一个重要的转变。在早期,曲线和曲面是那些人们能真正在空间里看到的东西。而高维则有一点点虚构的成分,在其中人们可以通过数学思维来想象,但当时人们也许没有认真对待它们。认真对待它们并且用同样重视程度来研究它们的这种思想实际上是二十世纪的产物。同样地,也没有明显的证据表明我们十九世纪的先驱者们思考过函数个数的增加,研究不单单一个而是几个函数,或者是向量值函数(vector-valued function)。所以我们看到这里有一个独立和非独立变量个数增加的问题。

线性代数总是涉及多个变量,但它的维数的增加更具有戏剧性,它的增加是从有限维到无穷维,从线性空间到有无穷个变量的Hilbert空间。当然这就涉及到了分析,在多个变量的函数之后,我们就有函数的函数,即泛函。它们是函数空间上的函数。它们本质上有无穷多个变量,这就是我们称为变分学的理论。一个类似的事情发生在一般(非线性)函数理论的发展中。这是一个古老的课题,但真正取得卓越的成果是在二十世纪。这就是我谈的第二个主题。

从交换到非交换

第三个主题是从交换到非交换的转变。这可能是二十世纪数学,特别是代数学的最主要的特征之一。代数的非交换方面已经极其重要,当然,它源自于十九世纪。它有几个不同的起源。Hamilton在四元数方面的工作可能是最令人惊叹的,并且有巨大的影响,实际上这是受处理物理问题时所采用的思想所启发。还有Grassmann在外代数方面的工作,这是另一个代数体系,现在已经被融入我们的微分形式理论中。当然,还有Cayley以线性代数为基础的矩阵方面的工作和Galois在群论方面的工作等。

所有这些都是以不同的方式形成了把非交换乘法引入代数理论的基石,我形象地把它们说成是二十世纪代数机器赖以生存的“面包和黄油”。我们现在可以不去思考这些,但在十九世纪,以上所有例子都以各自不同的方式取得了重大的突破,当然,这些思想在不同的领域内得到了惊人的发展。矩阵和非交换乘法在物理中的应用产生了量子理论。Heisenberg对易关系是非交换代数在物理中的一个最重要的应用例子,以至后来被von

Neumann推广到他的算子代数理论中。

群论也是在二十世纪占重要位量的理论,我稍后再回来谈它。

从线性到非线性

我的下一个主题是从线性到非线性的转变。古典数学的大部分或者基本上是线性的,或者即使不是很精确的线性,也是那种可以通过某些扰动展开来研究的近似线性,真正的非线性现象的处理是非常困难的,并且只是在本世纪,才在很大的范围内对其进行了真正的研究。

我们从几何开始谈起:Euclid几何,平面的几何,空间的几何,直线的几何,所有这一切都是线性的。而从非欧几何的各个不同阶段到Riemann的更一般的几何,所讨论的基本上是非线性的.在微分方程中,真正关于非线性现象的研究已经处理了众多我们通过经典方法所看不到的新现象。在这里我只举两个例子,孤立子和混沌,这是微分方程理论两个非常不同的方面,在本世纪已经成为极度重要和非常著名的研究课题了。它们代表不同的极端。孤立子代表非线性微分方程的无法预料的有组织的行为,而混沌代表的是无法预料的无组织的行为(disorganized behavior)。这两者出现在不同领域,都是非常有趣和重要的,但它们基本土都是非线性现象。我们同样可以将关于孤立子的某些工作的早期历史追溯到十九世纪下叶,但那只是很少的一部分。

当然,在物理学,Maxwell方程(电磁学的基本方程)是线性偏微分方程。与之对应的是著名的Yang-Mills方程,它们是非线性方程并被假定用来调控与物质结构有关的力。这些方程之所以是非线性的,是因为Yang-Mills方程本质上是Maxwell方程的矩阵体现,并且由矩阵不可交换这一事实导致方程中出现非线性项。于是在这里我们看到了一个非线性性与非交换性之间的有趣的联系。非交换性产生一类特殊的非线性性,这的确是很有意思和很重要的.

几何与代数

至此我谈的是一些一般性的主题,现在我想谈论一下数学中的一个二分叉现象,它来回摇摆却始终伴随着我们,这就给了我一个机会来做一些哲学上的思索和说明。我指的是几何和代数之间的二分法,几何和代数是数学的两个形式支柱,并且都有悠久的历史。几何学可以追溯到古希腊甚至更早的时期;代数学则源于古阿拉伯人和古印度人。所以,它们都已经成为数学的基础,但它们之间有一种令人感到不太自然的关系。

让我首先由这个问题的历史开始。Euc1id几何是数学理论中最早的一个例子,直到Descartes在我们现在称为的笛卡儿平面中引入代数坐标之前,它一直是纯几何的。Descartes的做法是一种将几何思考化为代数运算的尝试。从代数学家们的角度来讲,这当然是对几何学的一个重大突破或者说一次重大的冲击,如果我们来比较Newton和Leibniz在分析方面的工作,我们会发现他们属于不同的传统,Newton基本上是一个几何学家而Leibniz基本土是一个代数学家,这其中有着很深刻的道理.对于Newton而言,几何学,或者是由他发展起来的微积分学,都是用来描述自然规律的数学尝试。他关心的是在很广泛意义下的物理,以及几何世界中的物理。在他看来,如果有人想了解事物,他就得用物理世界的观点来思考它,用几何图象的观点来看待它。当他发展微积分的时候,他想要发展的是微积分的一种能尽可能贴近隐藏在其后的物理内蕴的表现形式.所以他用的是几何论证,因为这样可以与实际意义保持密切关系,另一方面,Leibniz有一个目标,一个雄心勃勃的目标,那就是形式化整个数学,将之变成一个庞大的代数机器.这与Newton的途径截然不同,并且二者有很多不同的记号。正如我们所知道的,在Newton和Leibniz之间的这场大争论中,Leibniz的记号最后得胜。我们现在还沿用他的记号来写偏导数。Newton的精神尚在,但被人们埋葬了很长时间。

在十九世纪末期,也就是一百年前,Poincare和Hilbert是两个主要人物。我在前面已经提到过他们了,并且可以粗略地讲,他们分别是Newton和Leibniz的传人。Poincare的思想更多的是几何和拓扑的精神,他用这些思想作为他的基本洞察工具。Hilbert更多的是一个形式主义者,他要的是公理化,形式化,并且要给出严格的,形式的描述。虽然任何一个伟大的数学家都不能轻易地被归到哪一类中去,但是,很清楚地,他们属于不同的传统。

当准备这个报告的时候,我想我应该写下我们目前这一代中能够继承这些传统的具有代表性的人的名字。谈论还健在的人是十分困难的——谁该放在这张名单上呢?接着我又暗自思忖:有谁会介意被放在这么一张著名的名单的哪一边呢?于是我选择了两个名字Arnold Bourbaki,前者是Poincare-Newton传统的继承人,而后者,我认为,是Hilbert最著名的接班人。Arnold毫不含糊地认为:他的力学和物理的观点基本上是几何的,是源自于Newton的;以为存在处于二者之间的东西,除了象Riemann(他确实跟两者都有偏离)等少数人之外,都是一种误解。Bourbaki努力继续Hilbert的形式化的研究,将数学公理化和形式化推向了一个令人瞩目的范围并取得了一些成功。每一种观点都有它的优点,但是它们之间很难调和。

让我来解释一下我自己是如何看待几何和代数之间的不同。几何学当然讲的是空间,这是毫无疑问的.如果我面对这间房间里的听众,我可以在一秒中内或者是一微秒内看到很多,接收到大量的信息,当然这不是一件偶然的事件。我们大脑的构造与视觉有着极其重要的关系。我从一些从事神经生理学的朋友那里了解到,视觉占用了大脑皮层的百分之八十或九十。在大脑中大约有十七个中枢,每一个中枢专门用来负责视觉活动的不同部分:有些部分涉及的是垂直方向的,有些部分与水平方向有关,有些部分是关于色彩和透视的,最后有些部分涉及的是所见事物的具体含义和解说。理解并感知我们所看到的这个世界是我们人类发展进化的一个非常重要的部分。因此空间直觉(spatial intuition)或者空间知觉(spatial perception)是一种非常强有力的工具,也是几何学在数学上占有如此重要位置的原因,它不仅仅对那些明显具有几何性质的事物可以使用,甚至对那些没有明显几何性质的事物也可以使用。我们努力将它们归结为几何形式,因为这样可以让我们使用我们的直觉.我们的直觉是我们最有力的武器。特别是在向学生或是同事讲解一种数学时可以看得很清楚。当你讲解一个很长而且很有难度的论证,最后使学生明白了。学生这时会说些什么呢?他会说“我看到了(我懂了)!”在这里看见与理解是同义词,而且我们还可以用“知觉”这个词来同时形容它们,至少这在英语里是对的,把这个现象与其他语言作对比同样有趣。我认为有一点是很基本的:人类通过这种巨大的能力和视觉的瞬间活动获取大量的信息,从而得以发展,而教学参与其中并使之完善。

在另一方面(也许有些人不这样认为),代数本质上涉及的是时间。无论现在做的是哪一类代数,都是一连串的运算被一个接着一个罗列出来,这里“一个接着一个”的意思是我们必须有时间的概念。在一个静态的宇宙中,我们无法想象代数,但几何的本质是静态的:我可以坐在这里观察,没有什么变化,但我仍可以继续观察。然而,代数与时间有关,这是因为我们有一连串的运算,这里当我谈到“代数”时,我并不单单指现代代数。任何算法,任何计算过程,都是一个接着一个地给出一连串步骤,现代计算机的发展使这一切看得很清楚。现代计算机用一系列0和1来反映其信息并由此给出问题的答案。

代数涉及的是时间的操作,而几何涉及的是空间。它们是世界互相垂直的两个方面,并且它们代表数学中两种不同的观念。因此在过去数学家们之间关于代数和几何相对重要性的争论或者对话代表了某些非常非常基本的事情。

当然只是为了论证是哪一边输了,哪一边胜利了,这并不值得。当我考虑这个问题时,有一个形象的类比:“你愿意成为一个代数学家还是一个几何学家?”这个问题就象问:“你愿意是聋子还是瞎子?”一样.如果人的眼睛盲了,就看不见空间;如果人的耳朵聋了,就无法听见,听觉是发生在时间之中的,总的来说,我们还是宁愿二者都要。

在物理学,也有一个类似的、大致平行的关于物理概念和物理实验之间的划分。物理学有两个部分:理论——概念,想法,单词,定律——和实验仪器。我认为概念在某种广义的意义下是几何的,这是因为它们涉及的是发生在真实世界的事物。另一方面,实验更象一个代数计算。人们做事情总要花时间,测定一些数,将它们代入到公式中去。但是在实验背后的基本概念却是几何传统的一部分。

将上述二分叉现象用更哲学或者更文学的语言来说,那就是对几何学家而言,代数就是所谓的“浮士德的奉献”。正如大家所知道的,在歌德的故事里,浮士德通过魔鬼可以得到他所想要的(就是一个漂亮女人的爱),其代价是出卖他的灵魂,代数就是由魔鬼提供给数学家的供品。魔鬼会说:“我将给你这个有力的机器,它可以回答你的任何问题。

你需要做的就是把你的灵魂给我:放弃几何,你就会拥有这个威力无穷的机器”(现在可以把它想象成为一台计算机!).当然我们希望同时拥有它们,我们也许可以欺骗魔鬼,假装我们出卖灵魂,但不真地给它。不过对我们灵魂的威胁依然存在,这是因为当我们转入代数计算时,本质上我们会停止思考,停止用几何的观念来考虑问题,不再思考其含义。

在这里我谈论代数学家的话重了一些,但是基本土,代数的目标总是想建立一个公式,把它放到一个机器中去,转动一下把手就可以得到答案.也就是拿来一个有意义的东西,把它化成一个公式,然后得到答案.在这样的一个过程中,人们不再需要思考代数的这些不同阶段对应的几何是什么。就这样,洞察力丢掉了,而这在那些不同的阶段都是非常重要的.我们绝不能放弃这些洞察力!最终我们还是要回到这上面来的,这就是我所谈到的浮士德的奉献.我肯定这种讲法尖锐了一点。

几何和代数的这种选择导致能融合二者的一些交叉课题的产生,并且代数和几何之间的区别也不象我讲的那样直截了当和朴实无华.例如,代数学家们经常使用图式(diagram)。而除了几何直觉,图式又能是什么呢?

通用的技术

现在我不想再谈论太多就内容来划分的主题,而想谈谈那些依照已经使用的技术和常见方法所确定的主题,也就是我想描述一些已经广泛应用于众多领域的常见方法。第一个就是: 同调论 。

历史上同调论是作为拓扑学的一个分支而发展起来的。它涉及到以下情形。现有一个复杂的拓扑空间,我们想从中得到它的一些简单信息如计算它的洞或者类似事物的个数,

得到某些与之联系的可加的线性不变量等。这是一种在非线性条件下关干线性不变量的构造。从几何的角度来看,闭链可加可减,这样就得到了所谓的一个空间的同调群.同调论,作为一种从拓扑空间获取某些信息的基本代数工具,是在本世纪上半叶发现的。这是一种从几何中获益匪浅的代数。

同调概念也出现在其他一些方面。其另一个源头可以追溯到Hilbert及其关于多项式的研究中,多项式是非线性的函数,它们相乘可以得到更高次数的多项式。正是Hilbert那伟大的洞察力促使他来讨论“理想”,具有公共零点的多项式的线性组合.他要寻找这些理想的生成元.生成元可能有很多。他审视它们之间的关系以及关系之间的关系.于是他得到这些关系的一个分层谱系,这就是所谓的“Hilbert合系”。Hilbert的这个理论是一种非常复杂的方法,他试图将一个非线性的情形(多项式的研究)化为线性情形。本质上来讲,Hilbert构造了一个线性关系的复杂体系.能够把象多项式这样的非线性事物的某些信息纳入其中。

这个代数理论实际上是与上述拓扑理论平行的,而且现在它们已融合在一起构成了所谓的“同调代数”.在代数几何学中,本世纪五十年代最伟大的成就之一是层的上同调理论的发展及在解析几何学中的扩展,这是由Leray,Cartan,Serre和Grothendieck等人组成的法国学派取得的。从中我们可以感受到一种既有Riemann-Poincaré的拓扑思想,又有Hilbert的代数思想,再加上某些分析手段的融合。

这表明同调论在代数的其它分支也有着广泛的应用。我们可以引入同调群的概念,它通常是与非线性事物相关的线性事物。我们可以将之应用于群论,例如,有限群,以及李代数:它们都有相应的同调群。在数论方面,同调群通过Galois群产生了非常重要的应用。因此在相当广泛的情形下同调论都是强有力的工具之一,它也是二十世纪数学的一个典型的特征。

K-理论

我要谈的另外一个技术就是所谓的“K-理论”。它在很多方面都与同调论相似,它的历史并不很长(直到二十世纪中叶才出现,尽管其起源的某些方面也许可以追溯到更早一些),但它却有着很广泛的应用,已经渗透进了数学的许多部分。K-理论实际上与表示理论紧密相联,有限群的表示理论,可以讲,起源于十九世纪.但是其现代形式——K-理论却只有一个相对较短的历史。K-理论可以用下面的方式来理解:它可以被想成是应用矩阵论的一种尝试。我们知道矩阵的乘法是不可交换的,于是我们想构造矩阵可换的或是线性的不变量。迹,维数和行列式都是矩阵论中可换的不变量,而K-理论即是试图处理它们的一种系统的方法,它有时也被称为“稳定线性代数”。其思想就是,如果我们有很多矩阵,那么把两个不可换的矩阵A和矩阵B放在不同块的正交位置上,它们就可换了,因为在一个大的空间里,我们可以随意移动物体。于是在某些近似情况下,这样做是很有好处的,足以让我们得到一些信息,这就是作为一个技术的K-理论的基石。这完全类似于同调论,二者都是从复杂的非线性情形获取线性的信息。

在代数几何中,K-理论是由Grothendieck首先引入的,并且取得了巨大的成功,这些与我们刚刚谈到的层理论密切相关,而且也和他在Riemann-Roch定理方面的工作有紧密联系。

在拓扑学方面,Hirzebruch和我照搬了这些思想并且将它们应用到一个纯粹的拓扑范畴内。从某种意义下来说,如果Grothendieck的工作与Hilbert在合系方面的工作有关,那么我们的工作更接近于Riemann-Poincaré在同调方面的工作,我们用的是连续函数,而他用的是多项式.K-理论也在椭圆算子的指标理论和线性分析的研究中起了重要作用。

从另外一个不同的角度,Milnor,Quillen和其他人发展了K-理论的代数方面,这在数论的研究中有着潜力巨大的应用.沿着这个方向的发展导致了许多有趣问题的产生。

在泛函分析方面,包括象Kasparov在内的许多人的工作将连续的K-理论推广到非交换的C*-代数情形。一个空间上的连续函数在函数乘积意义下形成一个交换代数。但是在其他情形下,自然地产生了类似的关于非交换情形的讨论,这时,泛函分析也就自然而然地成为了这些问题的温床。

因此,K-理论是另外一个能够将相当广泛的数学的许多不同方面都能用这种比较简单的公式来处理的领域,尽管在每一个情形下,都有很多特定于该方面且能够连接其他部分的非常困难的,技巧性很强的问题。K-理论不是一个统一的工具,它更象是一个统一的框架,在不同部分之间具有类比和相似。

这个工作的许多内容已经被Alain Connes推广到“非交换微分几何”。

非常有趣的是,也就是在最近,Witten通过他在弦理论方面(基础物理学的最新思想)的工作发现许多很有趣的方法都与K-理论有关,并且K-理论看起来为那些所谓的“守恒量”提供了一个很自然的“家”。虽然在过去同调论被认为是这些理论的自然框架,但是现在看起来K一理论能提供更好的答案.

李群

另一个不单单是一项技术、而且是具有统一性的概念是李群。现在说起李群,我们基本上就是指正交群,酉群,辛群以及一些例外群,它们在二十世纪数学历史中起了非常重要的作用。它们同样起源于十九世纪.SophusLie是一位十九世纪的挪威数学家。正如很多人所讲的那样,他和Fleix Klein,还有其他人一起推动了“连续群理论”的发展.对Klein而言,一开始,这是一种试图统一处理Euclid几何和非欧几何这两种不同类型几何的方法。虽然这个课题源于十九世纪,但真正起步却是在二十世纪,作为一种能够将许多不同问题归并于其中来研究的统一性框架,李群理论深深地影响了二十世纪。

我现在来谈谈Klein思想在几何方面的重要性。对于Klein而言,几何就是齐性空间,在那里,物体可以随意移动而保持形状不变,因此,它们是由一个相关的对称群来控制的。Euclid群给出Euclid几何而双曲几何源于另一个李群.于是每一个齐性几何对应一个不同的李群。但是到了后来,随着对Riemann的几何学工作的进一步发展,人们更关心那些不是齐性的几何,此时曲率随着位置的变化而变化,并且空间不再有整体对称性,然而,李群仍然起着重要的作用,这是因为在切空间中我们有Euclid坐标,以至于李群可以出现在一种无穷小的层面上。于是在切空间中,从无穷小的角度来看,李群又出现了,只不过由于要区分不同位置的不同点,我们需要用某种可以处理不同李群的方式来移动物体。这个理论是被Eile Cartan真正发展起来的,成为现代微分几何的基石,该理论框架对于Einstein的相对论也起着基本的作用。当然Einstein的理论极大地推动了微分几何的全面发展。

进入二十世纪,我前面提到的整体性质涉及到了在整体层面上的李群和微分几何。一个主要的发展是给出所谓的“示性类”的信息,这方面标志性的工作是由Borel和Hirzebruch给出的,示性类是拓扑不变量并且融合三个关键部分:李群,微分几何和拓扑,当然也包含与群本身有关的代数。

在更带分析味的方向上,我们得到了现在被称为非交换调和分析的理论。这是Fourier理论的推广,对于后者,Fourier级数或者是Fourier积分本质上对应于圆周和直线的交换李群,当我们用更为复杂的李群代替它们时,我们就可以得到一个非常漂亮、非常精巧并且将李群表示理论和分析融为一体的理论.这本质上是Harish-Chandra一生的工作。

在数论方面,整个“Langlands纲领”,现在许多人都这样称呼它,紧密联系于Harish-Chandra理论,产生于李群理论之中。对于每一个李群,我们都可以给出相应的数论和在某种程度实施Langlands纲领。在本世纪后半叶,代数数论的一大批工作深受其影响.模形式的研究就是其中一个很好的例证,这还包括Andrew Wiles在Fermat大定理方面的工作。

也许有人认为李群只不过在几何范畴内特别重要而已,因为这是出于连续变量的需要。然而事实并非如此,有限域上的李群的类似讨论可以给出有限群,并且大多数有限群都是通过这种方式产生的。因此李群理论的一些技巧甚至可以被应用到有限域或者是局部域等一些离散情形中。这方面有许多纯代数的工作,例如与George Lusztig名字联系在一起的工作。在这些工作中,有限群的表示理论被加以讨论,并且我已经提到的许多技术在这里也可以找到它们的用武之地。

有限群

上述讨论已把我们带到有限群的话题,这也提醒了我:有限单群的分类是我必须承认的一项工作。许多年以前,也就是在有限单群分类恰要完成之时,我接受了一次采访,并且我还被问道我对有限单群分类的看法,我当时很轻率地说我并不认为它有那么重要.我的理由是有限单群分类的结果告诉我们,大多数单群都是我们已知的,还有就是一张有关若干例外情形的表.在某种意义下,这只不过是结束了一个领域。而并没有开创什么新东西,当事物用结束代替开始时,我不会感到很兴奋。但是我的许多在这一领域工作的朋友听到我这么讲,理所当然地会感到非常非常不高兴,我从那时起就不得不穿起“防弹衣”了。

在这项研究中,有一个可以弥补缺点的优点。我在这里实际上指的是在所有的所谓“散在群”(sporadic groups)中,最大的被赋予了“魔群”名字的那一个。我认为魔群的发现这件事本身就是有限单群分类中最叫人兴奋的结果了。可以看出魔群是一个极其有意思的动物而且现在还处于被了解之中。它与数学的许多分支的很大一部分有着意想不到的联系,如与椭圆模函数的联系,甚至与理论物理和量子场论都有联系。这是分类工作的一个有趣的副产品。正如我所说的,有限单群分类本身关上了大门,但是魔群又开启了一扇大门。

物理的影响

现在让我把话题转到一个不同的主题,即谈谈物理的影响。在整个历史中,物理与数学有着非常悠久的联系,并且大部分数学,例如微积分,就是为了解决物理中出现的问题而发展起来的。在二十世纪中叶,随着大多数纯数学在独立于物理学时仍取得了很好的发展,这种影响或联系也许变得不太明显.但是在本世纪最后四分之一的时间里,事情发生了戏剧性的变化,让我试着简单地评述一下物理学和数学,尤其是和几何的相互影响。

在十九世纪,Hamilton发展了经典力学,引入了现在称为Hamilton量的形式化。经典力学导出现在所谓的“辛几何”.这是几何的一个分支,虽然很早已经有人研究了,但是实际上直到最近二十年,这个课题才得到真正的研究.这已经是几何学非常丰富的一部分。几何学,我在这里使用这个词的意思是指,它有三个分支:Riemann几何,复几何和辛几何,并且分别对应三个不同类型的李群。辛几何是它们之中最新发展起来的,并且在某种意义下也许是最有趣的,当然也是与物理有极其紧密联系的一个,这主要因为它的历史起源与Hamilton力学有关以及近些年来它与量子力学的联系.现在,我前面提到过的、作为电磁学基本线性方程的Maxwell方程,是Hodge在调和形式方面工作和在代数几何中应用方面工作的源动力。这是一个非常富有成果的理论,并且自从本世纪三十年代以来已经成为几何学中的许多工作的基础。

我已经提到过广义相对论和Einstein的工作。量子力学当然更是提供了一个重要的实例.这不仅仅体现在对易关系上,而且更显著地体现在对Hilbert空间和谱理论的强调上。

以一种更具体和明显的方式,结晶学的古典形式是与晶体结构的对称性有关的。第一个被研究的实例是发生在点周围的有限对称群,这是鉴于它们在结晶学中的应用。在本世纪中,群论更深刻的应用已经转向与物理的关系,被假设用来构成物质的基本粒子看起来在最小的层面上有隐藏的对称性,在这个层面上,有某些李群在此出没,对此我们看不见,但是当我们研究粒子的实际行为时,它们的对称性就显现无遗了。所以我们假定了一个模型,在这个模型当中,对称性是一个本质性的要素,而且目前那些很普遍的不同理论都有一些象SU(2)和SU(3)那样的基本李群融入其中并构成基础的对称群,因此这些李群看起来象是建设物质大厦的砖石。

并不是只有紧李群才出现在物理中,一些非紧李群也出现在物理中,例如Lorentz群.正是由物理学家第一个开始研究非紧李群的表示理论的。它们是那些能够发生在Hilbert空间的表示,这是因为,对于紧群而言,所有不可约表示都是有限维的,而非紧群需要的是无穷维表示,这也是首先由物理学家意识到的。

在二十世纪的最后25年里,正如我刚刚完成阐述的,有一种巨大的从物理学的新思想到数学的渗透,这也许是整个世纪最引人注目的事件之一,就这个问题本身,也许就需要一个完整的报告,但是,基本上来讲,量子场论和弦理论已经以引人注目的方式影响了数学的许多分支,得到了众多的新结果、新思想和新技术.这里,我的意思是指物理学家通过对物理理论的理解已经能够预言某些在数学上是对的事情了。当然,这不是一个精确的证明,但是确有非常强有力的直觉、一些特例和类比所支持。数学家们经常来检验这些由物理学家预言的结果,并且发现它们基本上是正确的,尽管给出证明是很困难的而且它们中的许多还没有被完全证明。

所以说沿着这个方向,在过去的25年里取得了巨大的成果.这些结果是极其细致的.这并不象物理学家所讲的“这是一种应该是对的东西”。他们说:“这里有明确的公式,还有头十个实例(涉及超过12位的数字)”。他们会给出关于复杂问题的准确答案,这些决不是那种靠猜测就能得到的,而是需要用机器计算的东西,量子场论提供了一个重要的工具,虽然从数学上来理解很困难,但是站在应用的角度,它有意想不到的回报。这是最近25年中真正令人兴奋的事件。

在这里我列一些重要的成果:SimonDona1dson在四维流形方面的工作;Vaughan-Jones在扭结不变量方面的工作;镜面对称,量子群;再加上我刚才提到的“魔群”。

这个主题到底讲的是什么呢?正如我在前面提到过的一样,二十世纪见证了维数的一种转换并且以转换为无穷维而告终,物理学家超越了这些,在量子场论方面,他们真正试图对广泛的无穷维空间进行细致的研究,他们处理的无穷维空间是各类典型的函数空间,它们非常复杂,不仅是因为它们是无穷维的,而且它们有复杂的代数、几何以及拓扑,还有围绕其中的很大的李群,即无穷维的李群,因此正如二十世纪数学的大部分涉及的是几何、拓扑、代数以及有限维李群和流形上分析的发展,这部分物理涉及了在无穷维情形下的类似处理.当然,这是一件非常不同的事情,但确有巨大的成功。

让我更详尽地解释一下,量子场论存在于空间和时间中.空间的真正的意义是三维的,但是有简化的模型使我们将空间取成一维.在一维空间和一维时间里,物理学家遇到的典型事物,用数学语言来讲,就是由圆周的微分同胚构成的群或者是由从圆周到一个紧李群的微分映射构成的群。它们是出现在这些维数里的量子场论中的两个非常基本的无穷维李群的例子,它们也是理所当然的数学事物并且已经被数学家们研究了一段时间。

在这样一个1+1维理论中,我们将时空取成一个Riemann曲面并且由此可以得到很多新的结果。例如,研究一个给定亏格数的Riemann曲面的模空间是个可以追溯到上个世纪的古典课题。而由量子场论已经得到了很多关于这些模空间的上同调的新结果。另一个非常类似的模空间是一个具有亏格数g的Riemann曲面上的平坦G-丛的模空间。这些空间都是非常有趣的并且量子场论给出关于它们的一些精确结果。特别地,可以得到一些关于体积的很漂亮的公式,这其中涉及到Zeta函数的取值。

另一个应用与计数曲线(counting curve)有关。如果我们来看给定次数和类型的平面代数曲线,我们想要知道的是,例如,经过那么多点究竟有多少曲线,这样我们就要面临代数几何的计数问题,这些问题在上个世纪一直是很经典的。而且也是非常困难的。现在它们已经通过被称为“量子上同调”的现代技术解决了,这完全是从量子场论中得到的。或者我们也可以接触那些关于不在平面上而在弯曲族上的曲线的更加困难的问题,这样我们得到了另一个具有明确结果的被称为镜面对称的美妙理论,所有这些都产生于1+1维量子场论。

如果我们升高一个维数,也就是2-维空间和1-维时间,就可以得到Vaughan-Jones的扭结不变量理论.这个理论已经用量子场论的术语给予了很美妙的解释和分析。

量子场论另一个结果是所谓的“量子群”。现在关于量子群的最好的东西是它们的名字.明确地讲它们不是群!如果有人要问我一个量子群的定义,我也许需要用半个小时来解释,它们是复杂的事物,但毫无疑问它们与量子理论有着很深的联系它们源于物理,而且现在的应用者是那些脚踏实地的代数学家们,他们实际上用它们进行确定的计算。

如果我们将维数升得更高一些,到一个全四维理论(三加一维),这就是Donaldson的四维流形理论,在这里量子场论产生了重大影响.特别地,这还导致Seiberg和Witten建立了他们相应的理论,该理论建立在物理直觉之上并且也给出许多非同寻常的数学结果。所有这些都是些突出的例子.其实还有更多的例子。

接下来是弦理论并且这已经是过时的了!我们现在所谈论的是M一理论,这是一个内容丰富的理论,其中同样有大量的数学,从关于它的研究中得到的结果仍有待于进一步消化并且足可以让数学家们忙上相当长的时间。

历史的总结

我现在作一个简短的总结。让我概括地谈谈历史:数学究竟发生了什么?我相当随意地把十八世纪和十九世纪放在了一起,把它们当做我们称为古典数学的时代,这个时代是与Euler和Gauss这样的人联系在一起的,所有伟大的古典数学结果也都是在这个时代被发现和发展的。有人也许认为那几乎就是数学的终结了,但是相反地,二十世纪实际上非常富有成果,这也是我一直在谈论的。

二十世纪大致可以一分为二地分成两部分。我认为二十世纪前半叶是被我称为“专门化的时代”,这是一个Hilbert的处理办法大行其道的时代,即努力进行形式化,仔细地定义各种事物,并在每一个领域中贯彻始终。正如我说到过的,Bourbaki的名字是与这种趋势联系在一起的.在这种趋势下,人们把注意力都集中于在特定的时期从特定的代数系统或者其它系统能获得什么。二十世纪后半叶更多地被我称为“统一的时代”,在这个时代,各个领域的界限被打破了,各种技术可以从一个领域应用到另外一个领域,并且事物在很大程度上变得越来越有交叉性。我想这是一种过于简单的说法,但是我认为这简单总结了我们所看到的二十世纪数学的一些方面。

二十一世纪会是什么呢?我已经说过,二十一世纪是量子数学的时代,或者,如果大家喜欢,可称为是无穷维数学的时代。这意味着什么呢?量子数学的含义是指我们能够恰当地理解分析、几何、拓扑和各式各样的非线性函数空间的代数,在这里,“恰当地理解”,我是指能够以某种方式对那些物理学家们已经推断出来的美妙事物给出较精确的证明。

有人要说,如果用天真幼稚的方式(naive way)来研究无穷维并问一些天真幼稚的问题,通常来讲,只能得到错误的答案或者答案是无意义的,物理的应用、洞察力和动机使得物理学家能够问一些关于无穷维的明智的问题,并且可以在有合乎情理的答案时作一些非常细致的工作,因此用这种方式分析无穷维决不是一件轻而易举的事情。我们必须沿着这条正确的道路走下去。我们已经得到了许多线索,地图已经摊开了:我们的目标已经有了,只不过还有很长的路要走。

还有什么会发生在二十一世纪?我想强调一下Connes的非交换微分几何.Alain Connes拥有这个相当宏伟的统一理论.同样,它融合了一切.它融合了分析、代数、几何、拓扑、物理、数论,所有这一切都是它的一部分。这是一个框架性理论,它能够让我们在非交换分析的范畴里从事微分几何学家通常所做的工作,这当中包括与拓扑的关系。要求这样做是有很好的理由的,因为它在数论、几何、离散群等等以及在物理中都有(潜力巨大的或者特别的)应用。一个与物理有趣的联系也刚刚被发现。这个理论能够走多远,能够得到什么结果,还有待进一步观察.它理所当然地是我所期望的至少在下个世纪头十年能够得到显著发展的课题,而且找到它与尚不成熟的(精确)量子场论之间的联系是完全有可能的。

我们转到另一个方面,也就是所谓的“算术几何”或者是Arakelov几何,其试图尽可能多地将代数几何和数论的部分内容统一起来。这是一个非常成功的理论。它已经有了一个美好的开端,但仍有很长的路要走.这又有谁知道呢?

当然,所有这些都有一些共同点。我期待物理学能够将它的影响遍及所有地方,甚至是数论:Andrew Wiles不同意我这样说,只有时间会说明一切。

这些是我所能看到的在下个十年里出现的几个方面,但也有一些难以捉摸的东西:返回至低维几何.与所有无穷维的富有想象的事物在一起,低维几何的处境有些尴尬。从很多方面来看,我们开始时讨论的维数,或我们祖先开始时的维数,仍留下某些未解之谜。维数为2,3和4的对象被我们称为“低”维的.例如Thurston在三维几何的工作,目标就是能够给出一个三维流形上的几何分类,这比二维理论要深刻得多.Thurston纲领还远远没有完成,完成这个纲领当然将是一个重要的挑战。

在三维中另外一个引人注目的事件是Vaughan-Jones那些思想本质上来源于物理的工作。这给了我们更多的关于三维的信息,并且它们几乎完全不在Thurston纲领包含的信息之内。如何将这两个方面联系起来仍然是一个巨大的挑战,但是最近得到的结果暗示两者之间可能有一座桥,因此,整个低维的领域都与物理有关,但是其中实在有太多让人琢磨不透的东西。

最后,我要提一下的是在物理学中出现的非常重要的“对偶”。这些对偶,泛泛地来讲,产生于一个量子理论被看成一个经典理论时有两种不同的实现。一个简单的例子是经典力学中的位置和动量的对偶。这样由对偶空间代替了原空间,并且在线性理论中,对偶就是Fourier变换.但是在非线性理论中,如何来代替Fourier变换是巨大的挑战之一。数学的大部分都与如何在非线性情形下推广对偶有关.物理学家看起来能够在他们的弦理论和M一理论中以一种非同寻常的方式做到了这一点。他们构造了一个又一个令人叹为观止的对偶实例,在某种广义的意义下,它们是Fourier变换的无穷维非线性体现,并且看起来它们能解决问题,然而理解这些非线性对偶性看起来也是下个世纪的巨大挑战之一。

我想我就谈到这里。这里还有大量的工作,并且我觉得象我这样的一个老人可以和你们这么多的年轻人谈谈是一件非常好的事情;而且我也可以对你们说:在下个世纪,有大量的工作在等着你们去完成。


分类: 数学 标签:

关于阅读的几点小建议

2015年7月25日 1 条评论

如果你发现自己已经好长时间没读书,而且没有任何负罪感的时候,你就必须知道,你已经堕落了。不是说书本本身特了不起,而是读书这个行为意味着你没有完全认同于这个现世和现实,你还有追求,还在奋斗,你还有不满,你还在寻找另一种可能性,另一种生活方式。

 —— 北大教授陈平原
mp5308016_1425885723298_10
        莎翁曾说,生活里没有书籍,就好像没有阳光;智慧里没有书籍,就好像鸟儿没有翅膀。可见书籍对我们的重要性,而我们这个曾经以“万般皆下品,唯有读书高”闻名于世的民族,而今却是世界上购书量、读书量最少的国家。因为信息爆炸,我们养成了一种叫做“碎片化”、“浅阅读”的快餐式阅读方式和习惯,刷微博、看微信、各类电子书、有声阅读神器,看似大家的阅读量可能是在增加,但阅读质量却不一定能得到保证,本人觉得真正的阅读还是要系统化才好。
        关于如何阅读,可借鉴的好的方法有很多很多,在此,本人 根据平时的阅读经验,大致整理了关于如何读书的几点心得体会,和大家一起分享交流,算是抛砖引玉。

mp5308016_1425885723298_11

       第一,博取众长。
       古今中外,在某个领域有所建树的大家,几乎都懂得博取众长。比如美国诗人艾略特,他博识多才,广泛涉猎了文学、历史、宗教和东方文化等领域,最终获得了诺贝尔文学奖。民国时期的章太炎大学者,研究范围涉及小学、历史、哲学、政治、佛学、医学等等,著述甚丰。而我们平时看书,往往根据个人喜好和专业方向加以选择,比如本人,喜好文学,认为生物学物理学的书籍都是“天书”,看不懂;而喜欢自然科学的,可能又觉得诗歌小说都是胡编乱造,毫无实用价值。日久天长,我们的视野可能会受之影响,变得比较狭窄。记不清是谁说的了,“当以蜂为模范,博览群书而匠心独运,融化百花以成一味,皆有来历而别成面目。”大意是说,读书要像蜜蜂那样,采集百花之精华,才能酿造出清甜的蜂蜜。因此,我们阅读的时候,最好不要仅仅局限于自己的专业或者爱好,尽量博取众长,拓宽视野。加大自己的知识面,建立丰厚的知识积淀和洞察力、鉴别力。
mp5308016_1425885723298_12
        
         第二,选择性阅读。
        上文“博取众长”,我们谈到阅读的维度,而从数量来讲,书海浩瀚,即使我们穷其一生,也读不完所有的书籍,加之如今图书出版门槛低到无下限,许多书籍滥竽充数,面对眼花缭乱的图书市场,我们必须擦亮眼睛,选择一些适合自己阅读的书籍。至于如何选择,就因人而异了,比如本人比较喜欢购买人文历史、国学、经典名著、专业领域、工作相关的书籍,大多时候会比较注重哪家出版社和作者、以及翻译版本。除了书籍本身的选择,还有阅读载体的选择,文学、科普类的可以利用碎片化阅读电纸书,环保还是要提倡的,但对于专业性的需要系统化学习的书籍,个人建议最好阅读纸质读物,并认真做好读书笔记。
 1749085505281623300
         第三,精读和泛读。
         从阅读经验来看,我们知道,有的书只需染指,有的可囫囵吞枣,有的则要细嚼慢咽。就拿儒家经典之作《论语》来说,这部书微言大义,每一句话积淀的意义底蕴都非常深厚。比如“子曰,’凤鸟不至,河不出图,吾已矣夫‘。”(《论语。子函》)在这里,黄河出图,是传说伏羲时代,黄河中有龙马背负八卦图出现,预示圣君将要出世。如果我们不知道这里暗含的意思,只是从字面上去泛泛而论,那么就会差之毫厘谬以千里了。所以,对《论语》、《庄子》、《诗经》等这一类的国学经典之作,我们应该字斟句酌,且琢且磨。当然,对于专业领域的书籍,比如理工科,也当如此。
        如果只是为了扩充知识面,看一些科普、管理类等作品,则可效仿陶潜先生的“好读书,不求甚解”,进行泛读即可;如果觉得是对自己的工作学习大有裨益的书籍,我们则不妨写书札,做摘录和读书笔记等。
 U11794P1275DT20150113162201
        第四,消化和吸收。
        袁枚在“读书作文之法”上曾说过,教人读书,不但要“破其卷”,更要“取其神”。所谓“破卷取神”,无论我们只是走马观花地泛读或逐字逐句地精读,最终都要取其精华去其糟粕,加以思考和理解,及时写出读后感,进行归纳、总结、生成属于自己的东西来。可借助纸质笔记或在线笔记、博客等载体,将自己的读后感与人分享,在探讨、交流中,碰撞出更多的火花,共同促进成长和提高。
QQ截图20150725165240
         第五,化书本知识为性灵体悟。
        从实践来看,我们大致可以把读书概括为:学习、吸收、消化、总结、沉淀、提升(应用)等7个步骤,“腹有诗书气自华,最是书香能致远。”我觉得其中沉淀和提升是最为关键的环节。虽然对于看过的书,很多时候我们可能只记得一些吉光片羽,甚至会淡忘很多,但这丝毫不影响我们阅读的意义,比如我们小时候读《安徒生童话》《格林童话》,能够记起的故事大致就那么几个,但从中获得的对这个世界的善良和爱,却是我们成长路上永不磨灭的光芒。
         虽然读的书并不是很多,但书籍给予我的,并不在于识了多少字,读了多少书,重要的是,在这个过程中形成的:对知识的渴望、对未知的谦卑,对自然的敬畏,以及对生活的热爱。
         非常赞同杨澜的一个说法:也许读过的东西有一天会全部忘掉,但正是这个忘掉的过程,塑造了一个人的知识结构和举止修养。
         暂且罗列以上几点,欢迎补充。

 


分类: 非IT 标签:

iOS delegate 页面刷新技巧,传值传事件

2015年7月24日 没有评论

先看两张图片:

Snip20150724_2Snip20150724_1

在ios开发的时候都会遇到这样一个问题:数据列表显示在first这个页面上,在second页面添加了数据,切换回first页面的时候,新加入的数据还没有同步,这时有的app会自动执行刷新动作,或则由用户手动刷新,那如何在second添加数据之后马上刷新first页面的数据呢?接下来就讲下这个技巧。

一个比较重要的类:Manager,可以叫单例类,或则叫单件类(叫法很混乱)。它有一个static对象,这就是为什么它叫单例的原因。这个对象的作用是,当在second页面中点击+这个button的时候,会通过这个对象调用一个函数如下:

-(void)addDate

{

NSTimeInterval time = [[NSDate date] timeIntervalSince1970];

NSString* string = [NSString stringWithFormat:@”%f”,time];

[self.firstDateSource refreshData:string];

}

这个函数的功能是去触发refreshData这个事件,并且把数据string传过去,也就是让first页面刷新数据的页面。当然这个函数与first页面看起来没有什么联系。那看看Manager的头文件如下:

@protocol FirstDelegate <NSObject>

@required

-(void)refreshDate:(NSString*)str;

@end

@interface Manager : NSObject

@property(nonatomic,assign)id<FirstDelegate> firstDataSource;

+(Manager*)SharedManager;

-(void)addDate;

@end

可以看到头文件里面定义了一个FirstDelegate的firstDateSource(delegate的基本用法就不在赘述),在first页面里面设置firstDataSource = self,并且函数refresh属性为required,需要在first页面实现这个函数。这样就解决了上面的问题,当刷新数据的时候会触发first页面中的这个函数实现数据刷新。

这样当点击加按钮的时候,数据被加上去了,切换回first页面数据已经刷新。

Snip20150724_6Snip20150724_5

 

这里用的是模拟数据的方式实现这个技巧。接下来说当有服务器的时候,当点击+button的时候改变服务器数据,完成之后调用manager的addata函数,这里去请求服务器的数据(已经改变的数据),然后触发refreshData,将服务器回来的数据列表当作例子中的string传如到first页面。这样就解决了服务器数据改变,不管现在程序在哪个页面,都会触发刷新数据,然后更新first页面,也就增加了数据同步的用户体验。

 

demo git下载地址:http://code.huihoo.com/ios-modules/delegatedemo


分类: Apple 标签:

Nature重磅:Hinton、LeCun、Bengio三巨头权威科普深度学习

2015年7月23日 没有评论

本文选自Nature,机器之心翻译出品。

翻译|微胖、汪汪、张之乎、Kara、Siouxsie、小力、孟婷、桑夏、张楠、安隐、Rainbow、赤龙飞。

校对|微胖、Fatlucas、孟婷。

借助深度学习,多处理层组成的计算模型可通过多层抽象来学习数据表征( representations)。这些方法显著推动了语音识别、视觉识别、目标检测以及许多其他领域(比如,药物发现以及基因组学)的技术发展。利用反向传播算法(backpropagation algorithm)来显示机器将会如何根据前一层的表征改变用以计算每层表征的内部参数,深度学习发现了大数据集的复杂结构。深层卷积网络(deep convolutional nets)为图像、视频和音频等数据处理上带来突破性进展,而递归网络(recurrent nets )也给序列数据(诸如文本、语言)的处理带来曙光。

机器学习为现代生活诸多方面带来巨大动力:从网页搜索到社交网络内容过滤再到电商网商推荐,在相机、智能手机等消费品中也越来越多见。机器学习系统被用来识别图像中的物体、将语音转为文本,根据用户兴趣自动匹配新闻、消息或产品,挑选相关搜索结果。这类被应用程序越来越多地采用的技术,叫做深度学习。

传统机器学习技术在处理原始输入的自然数据方面能力有限。几十年来,建构模式识别或机器学习系统需要利用严谨的工程学和相当丰富的专业知识设计出一个特征提取器,它能将原始数据(例如图像像素值)转化成适于内部描述或表征的向量( vector ),在提取器中,学习子系统(通常是一个分类器)可以检测或分类输入模式。

表征学习(representation learning)是这样一套学习方法:输入原始数据后,机器能够自动发现检测或分类所需的表征信息。深度学习是一种多层描述的表征学习,通过组合简单、非线性模块来实现,每个模块都会将最简单的描述(从原始输入开始)转变成较高层、较为抽象的描述。通过积累足够多的上述表征转化,机器能学习非常复杂的函数。就分类任务来说,更高层的表征会放大输入信号的特征,而这对区分和控制不相关变量非常关键。比如,图片最初以像素值的方式出现,第一特征层级中,机器习得的特征主要是图像中特定方位、位置边沿之有无。第二特征层级中,主要是通过发现特定安排的边缘来检测图案,此时机器并不考虑边沿位置的微小变化。第三层中会将局部图像与物体相应部分匹配,后续的层级将会通过把这些局部组合起来从而识别出整个物体。深度学习的关键之处在于:这些特征层级并非出自人类工程师之手;而是机器通过一个通用(general-purpose)学习程序,从大量数据中自学得出。

某些根深蒂固的问题困扰了人工智能从业者许多年,以至于人们最出色的尝试都无功而返。而深度学习的出现,让这些问题的解决迈出了至关重要的步伐。深度学习善于在高维度的数据中摸索出错综复杂的结构,因此能应用在许多不同的领域,比如科学、商业和政府。此外,除了图像识别和语音识别,它还在许多方面击败了其他机器学习技术,比如预测潜在药物分子的活性、分析粒子加速器的数据、重构大脑回路、预测非编码DNA的突变对基因表达和疾病有何影响等。也许,最让人惊讶的是,在自然语言理解方面,特别是话题分类、情感分析、问答系统和语言翻译等不同的任务上,深度学习都展现出了无限光明的前景。

在不久的将来,我们认为深度学习将取得更多成就,因为它只需要极少的人工参与,所以它能轻而易举地从计算能力提升和数据量增长中获得裨益。目前正在开发的用于深层神经网络的新型学习算法和体系结构必将加速这一进程。

监督式学习

不管深度与否,机器学习最普遍的形式都是监督式学习(supervised learning)。比如说,我们想构造一个系统,它能根据特定元素对图片进行分类,例如包含一栋房子、一辆车、一个人或一只宠物。首先,我们要收集大量包含有房子、车、人或宠物的图片,组成一个数据集(data set),每张图片都标记有它的类别。在训练时,每当我们向机器展示一张图片,机器就会输出一个相应类别的向量。我们希望的结果是:指定类别的分数最高,高于其他所有类别。然而,如果不经过训练,这将是不可能完成的任务。为此,我们通过一个目标函数来计算实际输出与期望输出之间的误差或距离。接下来,为了减小误差,机器会对其内部可调参数进行调整。这些可调参数常被称为「权重」(weight),是实数,可看做定义机器输入-输出功能的「门把手」。在一个典型的深度学习系统中,可能存在着成千上亿的可调权重及用以训练机器的标记样本。

为了正确地调整权重矢量( weight vector),学习算法会计算出一个梯度矢量( gradient vector)。对每一个权重,这个梯度矢量都能指示出,当权重略微增减一点点时,误差会随之增减多少量。接着,权重矢量就会往梯度矢量的反方向进行调整。

从所有训练范例之上,平均看来,目标函数( objective function)可被视为一片崎岖的山地,坐落于由权重组成的高维空间。梯度矢量为负值的地方,意味着山地中最陡峭的下坡方向,一路接近最小值。这个最小值,也就是平均输出误差最小之处。

在实践中,大多数业内人士都是用一种被称为「随机梯度下降」(SGD – Stochastic Gradient Descent)的算法(梯度下降Grident Descent 是「最小化风险函数」以及「损失函数」的一种常用方法,「随机梯度下降」是此类下的一种通过迭代求解的思路——译者注)。每一次迭代包括以下几个步骤:获取一些样本的输入矢量( input vector),计算输出结果和误差,计算这些样本的平均梯度,根据平均梯度调整相应权重。这个过程在各个从整个训练集中抽取的小子集之上重复,直到目标函数的平均值停止下降。它被称做随机(Stochastic)是因为每个样本组都会给出一个对于整个训练集( training set)的平均梯度(average gradient)的噪音估值(noisy estimate)。较于更加精确的组合优化技术,这个简单的方法通常可以神奇地快速地找出一个权重适当的样本子集。训练过后,系统的性能将在另外一组不同样本(即测试集)上进行验证,以期测试机器的泛化能力( generalization ability) ——面对训练中从未遇过的新输入,机器能够给出合理答案。

很多当今机器学习的实际应用都在人工设定的特征上使用「线性分类」(linear classifiers)。一个「二元线性分类器」(two-class linear classifier)可以计算出特征向量的「加权和」(weighted sum)。如果「加权和」高于阈值,该输入样本就被归类于某个特定的类别。

二十世纪六十年代以来,我们就知道线性分类只能将输入样本划分到非常简单的区域中,即被超平面切分的半空间。但是,对于类似图像及语音识别等问题,要求「输入-输出函数」(input–output function)必须对输入样本的无关变化不敏感,比如,图片中物体的位置,方向或者物体上的装饰图案,又比如,声音的音调或者口音;与此同时「输入-输出函数」又需要对某些细微差异特别敏感(比如,一匹白色的狼和一种长得很像狼的被称作萨摩耶的狗)。两只萨摩耶在不同的环境里摆着不同姿势的照片从像素级别来说很可能会非常地不一样,然而在类似背景下摆着同样姿势的一只萨摩耶和一只狼的照片在像素级别来说很可能会非常相像。一个「线性分类器」(linear classifier),或者其他基于原始像素操作的「浅层(shallow)」分类操作是无论如何也无法将后者中的两只区分开,也无法将前者中的两只分到同样的类别里的。这也就是为什么「浅层」「分类器(classifiers)」需要一个可以出色地解决「选择性-恒常性困境」( selectivity–invariance dilemma)的「特征提取器」(feature extractor)—— 提取出对于辨别图片内容有意义的信息,同时忽略不相关的信息,比如,动物的姿势。我们可以用一些常规的非线性特征来增强「分类器」(classifiers)的效果,比如「核方法」(kernel methods),但是,这些常规特征,比如「高斯核」(Gaussian Kernel)所找出来的那些,很难泛化( generalize )到与训练集差别别较大的输入上。传统的方法是人工设计好的「特征提取器」,这需要相当的工程技巧和问题领域的专业知识。但是,如果好的「特征提取器」可以通过「通用学习程序(General-Purpose learning procedure)」完成自学习,那么这些麻烦事儿就可以被避免了。这就是深度学习的重要优势。

图1| 多层神经网路和反向传播。

a. 一个多层神经网络(如图所示相互连接的点)能够整合(distort)输入空间(图中以红线与蓝线为例)让数据变得线性可分。注意输入空间的规则网格(左侧)如何转被隐藏单元(中间)转换的。例子只有两个输入单元、两个隐藏单元和一个输出单元,但事实上,用于对象识别和自然语言处理的网络通常包含了数十或成千上万个单元。(本节引用改写自 C. Olah (http://colah.github.io/).)

b. 导数链式法则告诉我们,两个微小增量(即x关于y的增量,以及y关于z的增量)是如何构成的。x的增量Δx导致了y的增量Δy,这是通过乘以∂y/∂x来实现的(即偏导数的定义)。同样,Δy的变化也会引起Δz的变化。用一个方程代替另一个方程引出了导数的链式法则( the chain rule of derivatives),即增量Δx如何通过与∂y/∂x及 ∂z/∂x相乘使得z也发生增量Δz。当x,y 和 z都是向量时这一规律也同样适用(使用雅克比矩阵)。

c. 这个公式用于计算在包含着两个隐层和一个输出层的神经网络中的前向传输,每个层面的逆向传递梯度都构成了一个模组。在每一层,我们首先计算面向每个单元的总输入值z,即上一层的输出单元的加权和;然后,通过将一个非线性函数f(.)应用于z来得出这个单元的输出。为了简化流程,我们忽略掉一些阈值项(bias terms)。在神经网络中使用的非线性函数包含了近些年较为常用的校正线性单元(ReLU) f(z) = max(0,z),以及更传统的 sigmoid函数,比如,双曲线正切函数, f(z) = (exp(z) − exp(−z))/(exp(z) + exp(−z)) 和 逻辑函数f(z) = 1/(1 + exp(−z)).

d. 该公式用于计算反向传递。在每一个隐藏层中,我们都会计算每个单元输出的导数误差,即上述层中上一层所有单元输入的导数误差的加权总和。 然后,将关于输出的导数误差乘以函数f(z)的梯度(gradient),得到关于输入的导数误差。 在输出层中,通过对成本函数进行微分计算,求得关于输出单元的误差导数。因此我们得出结论 yl – tl 如果对应于单元l的成本函数是 0.5(yl – tl) 2 (注意tl是目标值)。一旦∂E/∂zk已知,那么,就能通过yj ∂E/∂zk调整单元j的内星权向量wjk。


图2 | 卷积网络的内部。一个典型的卷积网络架构的每一层(水平)输出(不是过滤器)应用到一个萨摩耶犬的图像(图2左下方,RGB输入(红绿蓝),下方右侧)。 每一个长方形图片都是一张对应于学习到的输出特征的特征地图,这些特征可以在图片的各个位置被侦测到。信息流是从下往上的,低级的特征充作导向性边际检测因子( edge detectors),每个输出图像类都会被计算出一个分值。ReLU,整流线性单元。

深度学习架构由简单模组多层堆叠而成,全部(或绝大部分)模组都从事学习,大部分会计算非线性的输入输出映射。堆叠架构中的每个模组都会转换它的输入,同时增强可选择性和所呈现状态的一致性。 通过多个非线性层面(例如,深度5-20层),系统可以实现对于输入数据的极其微小细节的敏感性功能 — 例如,区别开白色的狼和萨摩耶犬 — 并且对于较大的无关变量会不敏感(例如,主体周围的环境、姿势、光照条件和周围物体。)

训练多层架构的反向传播算法

从最早的模式识别开始,研究者们就一直试图用可训练的多层网络代替人工设计特征,尽管这种解决方案很简单,直到20世纪80年代中期,它才得到人们的广泛认可。事实证明,多层架构可以通过简单的随机梯度下降法得以训练。只要模组是由它们的输入值及其内部权重构成的相对平滑的函数(relatively smooth functions),人们就可以使用反向传播算法来计算梯度。20世纪70至80年代,几个不同的研究小组分别发现这一方法确实可行、有用。

计算一个目标函数关于一个多层堆叠模组的权重梯度的反向传播过程,只不过是导数链式法则的一个实际应用。其中关键之处在于,关于模组输入值的函数的导数(或梯度),可以借助关于该模组的输出值(或序列模组的输入值)的梯度反向计算出来(图1)。反向传播方程可在所有模组中传播梯度时被反复应用,从顶部(top)(神经网络产生预测的那一层)输出开始,一直到底部(bottom)(被接收外部输入的那一层)。这些梯度一经计算,就可直接计算出关于每个模组权重的梯度。

深度学习的许多应用,都会使用前馈神经网络架构( feedforward neural network architectures)(图1)——该架构可学习将一个固定大小的输入映射到(例如,一幅图像)到一个固定大小的输出上(例如,每种分类的概率)。从一层到下一层,单元组计算其前一层输入的加权总和,并通过一个非线性函数输出结果。目前,最受欢迎的非线性函数是整流线性单元(ReLU),一个简单的半波整流器f(z) = max(z, 0)。在过去的几十年里,神经网络使用的是更平滑的非线性,比如,tanh(z)或1 /(1 + exp(−z)),但ReLU在多层网络中的学习速度通常更快,可允许在没有无监督预训练(without unsupervised pre-training)的情况下进行深度监督网络训练。不在输入或输出层中的单元通常被称为隐层单元(hidden units)。隐层可被看作是以非线性方式变换输入,从而使所有类别在最后一层变得线性可分( linearly separable by the last layer)(图1)。

20世纪90年代末,神经网络和反向传播被机器学习社区大量遗弃,同时也被计算机视觉和语音识别领域忽略。人们普遍认为,学习有用的、多层级的、几乎不靠先验知识的特征提取器并不现实可行。尤其是,人们通常认为简单的梯度下降法会深陷局部极小的泥潭——在这种权重配置当中,除非进行大的改动,否则很难降低平均误差。

实践中,对大型网络而言,局部极小几乎不构成问题。无论初始条件如何,系统基本总能得到质量非常相似的解决方案。最近的理论和实证研究结果均有力地表明,总的来说,局部极小不是一个严重问题。相反,解空间( landscape)充满了大量梯度为0的鞍点( saddle points ),且在多数维度中表面向上弯曲,少数维度中表面向下弯曲。分析结果似乎表明,向下弯曲的鞍点在整体中占比相对较小,但这些鞍点的目标函数值大多相近。因此,算法陷入这些鞍点(不能继续寻优),无关紧要。

2006年前后,加拿大高级研究所(CIFAR)聚集了一批研究人员,他们重燃了人们对深度前馈网络的兴趣。这些研究人员引入无监督学习程序——无需标记数据便可创建特征检测器层。各层特征检测器的学习目标便是在下一层重构或模拟特征检测器(或原始输入)的活动。利用这种重构学习目标来「预训练(pre-training)」几层复杂度递增的特征检测器,深层网络的权重可以被初始化为合理值。接着,最终层的输出单元可被添加到网络顶端,整个深度系统可被微调至使用标准的反向传播。在识别手写数字或检测行人时,特别是当标记的数据量非常有限的时候,这一程序非常有效。

这种预训练的方法的首次重要应用是在语音识别上,这之所以可行归功于便于编程的GPUs的诞生,它让研究人员可以用10到20倍的速度训练神经网络。2009年,这个方法被用来计算一段声音采样中提取短时系数窗口对应的一系列概率值,这些概率值反映出由窗口中帧表示语音各个段落的可能性。在小词汇表的标准语音识别测试上,这种方法的训练效果打破纪录,很快它又发展到打破大词汇表的标准语音测试纪录。

到2012年,2009年以来的各种深度网络一直的得到多个主要语音研究小组持续开发并被布局在安卓手机上。对于较小数据集来说,无监督预训练有助于防止过拟合( overfitting), 当标注数据样本小( number of labelled examples is small)或需要迁移( in a transfer setting )——有很多源领域的标注数据样本但缺少目标领域的标注数据样本——的时候,深度网络的泛化( generalization)效果显著提升。深度学习重新获得认识,人们发现,预训练阶段只是小规模数据集的必需品。

然而,还有一种特殊类型的深度前馈网络( deep feedforward network),不仅更易训练而且泛化能力要比那些相邻两层完全相连的神经网络强大很多。这就是卷积神经网络 (ConvNet)。 在神经网络「失宠 」的日子里,卷积神经网络在实践运用中获得许多成功,最近已被计算机视觉领域广泛采用。

卷积神经网络

卷积神经网络最初是用来处理多维数组数据,比如,一张由三个2D数组组成、包含三个彩色通道像素强度的彩色图像。大量的数据模式都是多个数组形式:1D用来表示信号和序列信号包括人类语言;2D用来表示图片或声音;3D代表视频或有声音的图像。卷积神经网络利用自然信号特征的核心理念是:局部连接(local connections),权重共享,池化(pooling)和多网络层的使用。

典型的卷积神经网络的架构(图二)包括一系列阶段:最初的几个阶段由卷积层和池化层组成,卷积层的单元被组织到特征图(feature map)中,每个单元通过一组被称作滤波器(filter bank)的权值被连接到前一层的特征图的局部数据块。接下来,得到的局部加权和会传递至一个非线性函数,例如ReLU。同一个特征图中的所有单元共享相同的滤波器,不同特征图使用不同滤波器。采用这种架构有两方面的原因。首先,在诸如图像这样的数组数据中,数值与附近数值之间通常是高度相关的,容易生成易被探测到的局部特征(motif)。其次,图像和其他类似信号的局部统计特征通常又与位置无关,易言之,出现在某处的某个特征也可能出现在其他任何地方,因此,不同位置的单元会共享同样的权值并且可以探测相同模式。数学上,由一个特征图完成的过滤操作是一个离线的卷积,卷积神经网络由此得名。

和卷积层用来探测前一层中特征之间的局部连接不同,池化层的作用则是对语义相似的特征进行合并。由于构成局部主题的特征之间的相对位置关系不是一成不变的,可以通过粗粒度检测每个特征的位置来实现较可靠的主题识别。一个池化层单元通常会计算一个或几个特征图中一个局部块的最大值,相邻的池化单元则会移动一列或一行从小块读取输入,这种设计不仅减少了数据表征需要的维数,而且也能对数据小规模的偏移、扭曲保持不变。两到三个卷积层,非线性层和池化层被叠加起来,后面再加上更多的卷积和全连接层。在卷积神经网络的反向传播算法和在一般深度网络上一样简单,能让所有滤波器中的权值得到训练。

多数自然信号都是分级组合而成,通过对较低层信号组合能够获得较高层的信号特征,而深度神经网络充分利用了上述特性。在图像中,线条组合形成图案,图案形成部件,部件组成物体。类似的层次结构存在于由声音到电话中的语音及文本形成过程,音素组成音节,音节组成单词,单词组成句子。当输入数据在前一层中的位置有变化的时候,池化操作让这些特征表示对变化具有鲁棒性。

卷积神经网络中的层次的卷积和汇聚的灵感直接来源于视觉神经科学中的简单细胞和复杂细胞的经典概念,并且其整体架构让人想起视觉皮层腹侧通路的LGN-V1-V2-V4-IT层次结构。当向卷积神经网络模型和猴子同时展示相同的画面时,卷积神经网络的高级单元被激活,解释了猴子颞下皮层随机设置的160个神经元的变化。卷积神经网络有着神经认知机的基础,两者的体系结构有些类似,但是,卷积神经网络没有诸如反向传播的那种端对端的监督学习算法。原始的1D卷积神经网络被称为「延时神经网络(time-delay neural net )」,用于识别语音和简单的单词。

早在20世纪90年代初,卷积网络就已有非常广泛的应用 ,最开始延时神经网络被用在语音识别和文档阅读上。文本阅读系统使用了受过训练的延时神经网络以及一个实现了语言约束的概率模型。到20世纪90年代末,该系统能够读取美国超过十分之一的支票。随后,微软发明了许多基于卷积神经网络的光学字符识别和手写识别系统。卷积神经网络在20世纪90年代初就被尝试用于包括脸、手、面部识别的自然图像目标检测中。

使用深层卷积网络进行图像识别

从21世纪初开始,卷积神经网络就被成功用于检测、分割和物体识别以及图像各区域。这些应用都使用了丰富的标签数据,比如,交通标志识别、生物图像(特别是神经链接组学方面)分割、面部探测、文本、行人和自然图像中的人体的检测。近些年来,卷积神经网络的一项重要成功应用就是人脸识别。

值得注意的是,图像可以在像素级别上被标记,这样就能被用于诸如自主移动机器人(autonomous mobile robots)和无人驾驶汽车等技术中。像Mobileye和NVIDIA 这些公司正在将这些基于卷积神经网络的方法应用于即将面世的汽车视觉系统中。其他重要的应用程序涉及到自然语言理解和语音识别。

尽管取得了这些成就,但在2012年ImageNet竞争之前,卷积神经网络在很大程度上并未获得主流计算机视觉和机器学习团体的青睐。当深层卷积网络被应用于来源于包含1000个不同类型约100万个图像的数据集中,它们取得了惊人的成果,错误率仅是当时最佳方法的一半。该成功源于高效利用了GPUs和ReLUs、一项新的被称为「dropout 」的正规化技术( regularization technique )以及分解现有样本产生更多训练样本的技术。成功给计算机视觉领域带来一场革命。如今,卷积神经网络几乎覆盖所有识别和探测任务,在有些任务中,其表现接近人类水平。最近一个令人震惊的例子,利用卷积神经网络结合递归网络模块来生成图像标题( image captions )(如图3)。

图3 |从图像到文本。将递归神经网络(RNN)生成的标题作为额外输入,深度卷积神经网络(CNN)会从测试图片中提取表征,再利用训练好的RNN将图像中高级( high-level )表征「翻译成 」标题(上图)。当RNN一边生成单词(黑体所示),一边能将注意力集中在输入图像的不同位置(中间和底部;块状越亮,给予的注意力越多)的时候,我们发现,它能更好地将图像「翻译成」标题。

当前的卷积神经网络由10~20层ReLUs,数百万个权值及数十亿个连接组成。两年前,训练如此庞大的网络可能需要数周时间,而随着硬件、软件和算法并行化(algorithm parallelization)的进步,训练时间已经缩短至几个小时。

卷积神经网络的视觉系统良好表现促使包括谷歌、Facebook、微软、IBM、雅虎、推特和Adobe在内的多数主要科技公司以及数量激增的创业公司开始启动研发项目,部署基于卷积神经网络的图像识别产品和服务。

卷积神经网络易于在芯片或现场可编程门列阵(FPGA)中得以高效实现。为了实现智能手机、相机、机器人和无人驾驶汽车上的实时视觉应用,NVIDIA、Mobileye、因特尔、高通和三星等许多公司都正在开发卷积神经网络芯片。

分布式表征和语言处理

深度学习理论显示,与不适用分布式表征的经典学习算法相比,深度网络有两处异常明显的优势。这些优势源于节点权重(the power of composition)以及底层数据生成分布具有适当的组成结构。第一,学习分布式表征能够将通过训练而学习获得的特性值泛化为新的组合(例如,n元特征有2n 组合可能)。第二,深度网络中的表征层相互组合带来了另一个指数级优势的潜力(指数性的深度)。

多层神经网络的隐藏层学会以一种易于预测目标输出的方式来再现网络输入。一个很好的示范就是训练多层神经网络根据局部文本中的前述语句预测下一个词。文本的每个词表示成网络中的N分之一向量,也就是说,每个成分的值为1,余下的为0。在第一层中,每个字创建一个不同模式的激活或单词向量(如图4所示)。在语言模型中,网络中的其他层学习如何将输入的单词向量转化成输出单词向量来预测下一个单词,也能用来预测词汇表中单词作为文本中下一个单词出现的概率。正如学习分布表征符号文本最初展示的那样,网络学习了包含许多激活节点(active components )、且每一个节点都可被解释成一个单词独立特征的单词向量。这些语义学特征并没有在输入时被清晰表现出来。而是在学习过程中被发现的,并被作为将输入与输出符号结构化关系分解为微规则(micro-rules)的好方法。当词序列来自一个大的真实文本语料库,单个微规则并不可靠时,学习单词向量也一样表现良好。当网络被训练用于预测新文本中的下一个词时,一些单词向量非常相似,比如Tuesday和Wednesday,Sweden和Norway 。这种表征被称为分布式表征,因为它们的元素(特性)并非相互排斥,且它们构造信息与观测到的数据变化相对应。这些单词向量由所习得的特性组成,这些特性并非由科学家们事先决定而是由神经网络自动发现。现在,从文本中习得的单词向量表征被非常广泛地使用于自然语言应用。

表征问题是逻辑启发与神经网络启发认知范式争论的核心问题。在逻辑启发范式中,一个符号实体表示某一事物,因为其唯一的属性与其他符号实体相同或者不同。它并不包含与使用相关的内部结构,而且为理解符号含义,就必须与审慎选取的推理规则的变化相联系。相比之下,神经网络使用大量活动载体( big activity vectors)、权重矩阵和标量非线性,实现一种快速「直觉 」推断,它是轻松常识推理的基础。

在介绍神经语言模型前,语言统计模型的标准方法并没有使用分布式表征:它是基于计算短符号序列长度N(称为N-grams,N元文法)出现的频率。N-grams可能出现的次数与VN一致,这里的V指的是词汇量的大小,考虑到词汇量大的文本,因此需要更庞大的一个语料库。N-grams把每一个词作为一个原子单位,因此它不能在语义紧密相关的单词序列中,一概而论,但是,神经语言模型可以实现上述功能,因为它们将每个单词与真实特征值的向量关联起来,并且语义相关的单词在该向量空间中更为贴近。(如图4)。


图4|已完成学习的单词向量的可视化展现。左边介绍了为了建模语言而习得的词汇表征,通过使用 t-SNE算法[103]非线性映射至二维空间中以便于观察。右边是一个由实现英-法互翻的递归神经网络学习短语的二维空间表示。由图可知,语义或排序相似的单词表征映射较为接近 。词汇的分布式表征通过使用反向传播获得,以此来学习每个单词的表征形式及预测目标数量的功能,比如序列中的后续单词(如语言建模)或者翻译文字的全部序列(机器翻译)。

递归神经网络

最初引入反向传播时,最令人激动的应用便是训练递归神经网络(简称RNNs)。对于那些需要序列连续输入的任务(比如,语音和语言),RNNs是上乘之选(图5)。RNNs一次处理一个输入序列元素,同时维护隐式单元中隐含着该序列过去所有元素的历史信息的「状态向量」。当我们考虑隐式单元在不同的离散时间步长的输出,就好像它们是在多层网络深处的不同神经元的输出(图五,右)如何利用反向传播训练RNNs,一目了然。

RNNs是非常强大的动力系统,但训练它们也被证实存在一些问题,因为反向传播梯度在每个时间间隔内或增长或下降,因此,一段时间之后通常会导致结果激增或者降为零。

因先进的架构和训练的方式,RNNs不仅被证实擅长预测文本中下一个字符或句子中下一个单词,还可应用于更加复杂的任务。例如,某时刻阅读英文句子中的单词后,一个英语的「编码器」网络将被生成,从而帮助隐式单元的最终状态向量很好地表征句子所传达的思想。这种「思想向量(thought vector)」可以作为一个集大成的法语「编码器」网络的初始化隐式状态(或额外的输入),其输出为法语翻译首单词的概率分布。如果从概率分布中选择一个特定首单词作为编码网络的输入,将会输出翻译句子中第二个单词的概率分布,依此类推,直到停止选择为止。总体而言,这一过程是根据英语句子的概率分布而生成的法语单词序列。这种近乎直接的机器翻译方法的表现很快和最先进(state-of-the-art)的方法不相上下,同时引发人们对于理解句子是否需要使用推理发掘内部符号表示质疑。这与日常推理中涉及到根据合理结论类推的观点是匹配的。

除了将法语句子翻译成英语句子,还可以学习将图片内容「翻译」为英语句子(如图3)。编码器是一种在最后隐层将像素转换为活动向量的深度卷积网络。解码器是一种类似机器翻译和神经网络语言模型的递归神经网络。近年来,引发了人们对深度学习该领域的热议。RNNs一旦展开(如图5),可被视作是所有层共享同样权值的深度前馈神经网络。虽然它们的主要目的是长期学习的依赖性,但有关理论和经验的例证表明很难学习并长期储存信息。

为了解决这一问题,一个扩展网络存储的想法出现。第一种方案是采用了特殊隐式单元的LSTM,该自然行为便是长期的保存输入。一种类似累加器和门控神经元的称作记忆细胞的特殊单元:它通过在下一个时间步长拥有一个权值并联接到自身,从而拷贝自身状态的真实值和累积外部信号,但这种自联接是另一个学习并决定何时清除记忆内容的单元的乘法门所操控。

LSTM网络最终被证明比传统的递归神经网络(RNNs)更为有效,尤其是,每一个时间步长内有若干层时,整个语音识别系统能够完全一致地将声学转录为字符序列。目前,LSTM网络及其相关形式的门控单元同样也用于编码与解码网络,并在机器翻译中表现良好。

过去几年里,几位学者提出一些不同的方案来增强RNNs存储器模块。这些建议包括,神经图灵机——通过加入RNNs可读可写的“类似磁带”的存储来增强网络,而记忆网络中的常规网络通过联想记忆来增强。记忆网络在标准的问答基准测试中表现良好,记忆是用来记住稍后要求回答问题的事例。

除了简单记忆化、神经图灵机和记忆网络被用于通常需要推理和符号操作的任务以外,还可以教神经图灵机「算法」。除此以外,他们可以从未排序的输入符号序列(其中每个符号都有与其在列表中对应的表明优先级的真实值)中,学习输出一个排序的符号序列。可以训练记忆网络用来追踪一个设定与文字冒险游戏和故事的世界的状态,回答一些需要复杂推理的问题。在一个测试例子中,网络能够正确回答15句版的《指环王》中诸如「Frodo现在在哪?」的问题。


图5 |一个递归神经网络在时间中展开的计算和涉及的相关计算。人工神经元(例如,隐式样单元分组节点在时间t的标准值下)获得其他神经元的输入——在之前的步骤中(黑色区域呈现,代表一步延迟,如左)。这样,一个递归神经网络可由xt的输入序列元素,映射到一个输出序列与元素ot,每次ot值取决于所有前面的xtʹ(tʹ≤t)。相同的参数(U,V矩阵W)在每步中使用。许多其他结构是可行的,包括一个变体的网络可以生成的输出序列(例如,词语),每一个都作为下次的输入步骤。反向传播算法(图1)可以直接应用于计算机图形展开网络,并对所有的标准陈述和参数,计算其总误差的导数(例如,生成正确的输出序列的对数概率)。

深度学习的未来

无监督学习促进了人们重燃对深度学习的兴趣,但是,有监督学习的成功盖过了无监督学习。虽然我们没有关注这方面的评论,但是,从长远来看,我们还是期望无监督学习能够变得更加重要。(因为)人类和动物的学习方式大多为无监督学习:我们通过观察世界来发现它的结果,而不是被告知每个对象的名称。

人类视觉是一个智能的、基于特定方式的利用小或大分辨率的视网膜中央窝与周围环绕区域对光线采集成像的活跃的过程。我们希望机器视觉能够在未来获得巨大进步,这些进步来自于那些端对端的训练系统,并集合卷积神经网络(ConvNets)和递归神经网络(RNNs),利用强化学习来决定走向。结合了深度学习和强化学习的系统尚处在婴儿期,但是,在分类任务上,它们已经超越了被动视觉系统,并在尝试学习操作视频游戏方面,产生了令人印象深刻的结果。

未来几年,理解自然语言会是深度学习产生巨大影响的另一个领域。我们预测,当它们学习了某时刻选择性地加入某部分的策略,那些使用递归神经网络(RNNs)的系统将会更好地理解句子或整个文档。

最终,人工智能的重大进步将来自将表征学习与复杂推理结合起来的系统。尽管深度学习和简单推理已经用于语音和手写识别很长一段时间了,我们仍需要通过大量向量操作的新范式替换基于规则的字符表达操作。


分类: AI-BI-ML-DL-NLP 标签: