存档

‘Data Center’ 分类的存档

全球顶尖大数据人才Top20

2015年7月31日 1 条评论

作者:t

数据科学家是21世纪最性感的工作,因为21是大数据世纪,而大数据时代企业需要能够将数据转化为商业能力的“数据领袖”。对于大多数企业来说,优秀的数据科学家灿若星辰却又一将难求,大数据分析人才的招聘更是企业人力资源部门的噩梦。传说中的数据科学家都长什么样?本文为大家推荐二十位顶尖大数据人才,请您感受一下。

以下内容来自199IT

Pinterest数据科学家安德莉亚•伯班克

Pinterest数据科学家

Pinterest是一家以图片为主的社交网络,数据科学家安德莉亚•伯班克主要负责该公司的A/B测试,评估公司网站、APP的外观或功能变化会对 它的6000万全球用户产生哪些影响。如果Pinterest网站上的某个小模块让你想邀请朋友也来玩一玩,或是某一封它发来的推荐邮件让你关注了更多话 题,那么这很可能就是伯班克团队的那只“看不见的手”起了作用。她在今年三月的一次行业会议上表示:“为了今后能为几十亿用户提供服务,我们已经针对几百 万用户做了数百次试验。”试验还拓展到了Pinterest自身的运营上。伯班克最大的成就之一,就是给Pinterest的其他员工赋权,让他们也能开 展试验。她表示:“以前只有一个故障点,但也只有一个知识点,现在不同了。”——Andrew Nusca

0xdata公司物理学家、黑客阿诺•康代尔

Oxdata数据科学家

阿诺•康代尔从小就生长在一个科研氛围浓厚的环境中。他出生于瑞士一个叫做下锡根塔尔的小村子,这个村子恰好位于拥有欧洲顶级粒子加速实验室的保罗谢 尔学院(Paul Scherrer Institute)和欧洲大陆最著名的科技院校苏黎士联邦理工学院(ETH Zürich)之间。在学习粒子物理学和超级计算机学期间,康代尔曾经在电脑上建立过宇宙的模型。后来他搬到美国加利福尼亚州,在斯坦福大学直线加速器中 心的全国加速实验室中工作(SLAC National Accelerator Laboratory),后来又开始创业,成为Skytree公司的创始工程师,并且设计了几套高性能的机器学习算法。现在他是Oxdata公司h2o数 据分析平台的核心开发者,他开发的这个h2o平台,被编程社区GitHub的成员誉为最优秀的开源Java机器学习项目,而且它还可以兼容流行的统计编程 语言——R语言。他在Oxdata公司的头衔是“物理学家兼黑客”。——Robert Hackett

Hortonworks联合创始人阿兰•默西

Hortonworks联合创始人

阿兰•默西最早在雅虎公司(Yahoo)工作,现在已然用途极广的开源存储和处理软件Hadoop在那时尚处于早期原型阶段。默西的团队的任务就是扩展 Hadoop的功能,让它用于雅虎的网页搜索。于是默西研发了一个名叫YARN的资源负载管理系统,它的作用大致相当于Hadoop的一个操作系统。默西 表示:“第一版的Hadoop看起来就像还在用Notepad的Windows,但是我们真正想要的是能用Powerpoint、Word和Excel的 Windows。”这正是YARN的魅力所在:它允许用户向Hadoop中插入多种应用以存储各类信息。默西表示:“我家里有两个孩子,但YARN就像是 我的第三个孩子。”——Robert Hackett

NuoDB首席执行官巴里•莫里斯

NuoDB首席执行官

很多科技公司都想发起一场技术革命,但是很少能获得上一波技术革命领导者的支持。马萨诸塞州剑桥市的NuoDB公司却一举网罗了上一波数据库革命“四 大天王”的其中之三——Ingres公司前CEO加理•摩根泰勒、Sybase公司前CEO米切尔•克兹曼、Informix公司前CEO罗杰•斯普尔。 只有最后一名“天王”,也就是甲骨文(Oracle)的CEO弃权了,但他也身在投资人之列。这么一家名不见经传的公司何以有这么大的号召力?因为 NuoDB的技术解决了一个多年来被行业视为“圣杯”的问题:如何让一个数据库在多个服务器上运行。“关键在于用更多的机器,而不是更大的机器。”该公司 CEO巴里•莫里斯表示:“那个问题听起来虽然简单,但一直没得到解决。”DuoDB公司成立于2010年,现在这家公司已经签下了一个大客户——欧洲第 二大软件厂商达索系统公司(Dassault Systèmes)。另外莫里斯认为,公司正在飞速朝着一个“新的聚焦点”迈进。他认为DuoDB将走上舞台的中央。“它的意义不在于数据的规模或运行速 度,而在于形成一种数据导向型模式。持续改进的能力才是它的革命性所在。”——Andrew Nusca

Beats Music 公司大数据工程总监布莱恩•罗格斯基

Beats Music大数据工程总监

要想让布莱恩•罗格斯基谈谈他在Beats Music公司的工作细节真是不容易,不过Beats Music刚被苹果(Apple)收购,考虑到苹果一向神神秘秘的作风,倒也没什么可奇怪的。(这笔交易于今年五月宣布,上周五完成。)不过罗格斯基依然 是三句话不离本行。他表示,现在企业都有兴趣更深入地进行实时数据分析,而且也有兴趣在企业内部加大数据的分享力度。另外很多公司也想利用大数据提高 APP的个性化体验。那么罗格斯基打算如何在Beats公司跟上这股潮流呢?他表示:“你必须自己理解其中的奥妙。由于我目前的角色,我对这个问题不能说 太多,现在还是说说大趋势吧。”——Robert Hackett

雅虎实验室研究员达尼埃尔•凯西亚

雅虎实验室研究员

小时候,达尼埃尔•凯西亚最想当一名警察,为此他还买了一辆玩具摩托车。不过现在在雅虎实验室(Yahoo Labs),他对城市的了解绝对细致入微——尽管只是在数码层面上。凯西亚拥有计算机科学博士学位和麻省理工学院(MIT)城市研究专业的博士后学位。目 前他主要进行广域的城市研究。比如他构建了一款游戏,问人们喜欢哪种城市景观,然后把评分放在Facebook上进行病毒式传播。凯西亚会对结果进行研 究,以确定人们喜欢或不喜欢哪种城市景观,以便最终设计出更好、更漂亮的城市。他认为:“计算机科学就是一门构建工具的学问。我想做一些新的事情,一些能 对现实造成影响的事。而全球有超过一半的人口都住在城市里。”——Shalene Gupta

微软研究院计算生态与环境科学小组负责人德鲁•帕维斯

微软研究员计算生态与环境科学小组负责人

微软(Microsoft)内部有一个叫做“比尔评论”(Bill Reviews)的保留节目,也就是员工们可以在创始人兼董事长比尔•盖茨面前提出自己的创意。当微软研究院剑桥实验室(Microsoft Research’s Cambridge Labs)的计算机学负责人史蒂夫•艾默特在一次“比尔评论”中提出,要由剑桥实验室出资,在公司内部建立一个生态学研究小组时,“那真是一次糟糕得出名 的会议。”——时任普林斯顿大学(Princeton University)生态学家的德鲁•帕维斯如是说。但是最后比尔•盖茨改变了主意,很快微软聘请了帕维斯作为这个小组的领头人,负责建立地球生态系统 的预测模型。自从微软的“蓝天”研究部门成立后,帕维斯已经带领科研团队开发了一个模拟地球所有生命的“马丁利模型”。这个项目可谓雄心勃勃,虽然有些 “唐吉诃德”色彩,但它的部分成果说不定最终也能应用于实际。帕维斯表示:“国民经济中发生的每一件事,都可以放在一定的环境因素中考量。”他随口道出全 世界面临的几大最严重的挑战,包括人口老龄化、癌症、食品安全、气候变化和替代能源等问题。对于生态学和生物学,帕维斯补充道:“这些东西将成为21世纪 经济的核心驱动力。”

IBM沃森与认知烹饪小组高级软件工程师弗罗里安•皮内尔

IBM认知烹饪小组高级软件工程师

自从IBM的“智能”电脑系统沃森(Watson)在电视智力节目Jeopardy中战胜了人类对手之后,IBM还想试试它到底能把智能计算的边界推 到多远。最近IBM决定让沃森进军烹饪界。作为一名受过专业训练的厨师,弗罗里安•皮内尔也是IBM的“认知烹饪”团队的一员。皮内尔表示:“我们之所以 把重点放在美食上,是因为美食是大家都关心的东西,而且我们可以很容易地创造出原型产品。现在我能把对食物和计算机科学的热情融合在一起,这令我大喜过 望。”这个团队首先从各种食材和调料着手,但是他们研发的各种食物的组合呈指数级增长,催生出了大量潜在的美食食谱。比如在今年德州奥斯汀的SxSW大会 上,沃森系统就在IBM的美食卡车上发明了一种澳洲巧克力卷饼,食材包括巧克力、牛肉糜、青豆和大豆。听起来虽然是一道很难吃的菜,不过皮内尔却表示: “它大获成功,非常好吃。所以我们的目的就是要启发用户,帮助他们开发他们自己永远想不到的美食配方。”——Robert Hackett

Cloudera公司首席科学家,西奈山医院基因与基因组学助理教授汉默巴切

Cloudera首席科学家

身为西奈山医院(Mount Sinai Hospital)基因与基因组学的助理教授,杰夫•汉默巴切虽然没有这个专业的博士学位,但丰富的经验让他绝对称职。他曾是Facebook最优秀的数 据学家之一,后来他放弃了被广告渗透到各个角落的社交媒体业,成了Cloudera公司的首席科学家。Cloudera是一家基于Apache Hadoop平台的企业软件供应商。现在汉默巴切又与西奈山医院的基因与基因组学负责人埃里克•沙特合作,试图把大数据分析带入到医疗保健领域。沙特指 出:“他正在定义一个新的领域,以后这个领域将成为一门会发放博士学位的学问。现在没有任何一门学科在教授他所做的事。”汉默巴切正在构建管理和运算人体 健康数据所需要的基础架构,以建立更好的医学预测模型。沙特表示:“对于医疗业和医疗机构来说,现在正是他们开始启用大数据分析引擎的时机。我们和杰夫这 样的人才合作,充分说明了医学将来的走向。”——Robert Hackett

CloudFlare联合创始人米歇尔•扎特琳

CloudFlare联合创始人

如果说互联网也有它自己的中央情报局,那么这块招牌可能要落到CloudFlare公司身上。这家旧金山的公司监控着全球5%的网络流量。公司创始人 之一米歇尔•扎特琳2009年在哈佛大学(Harvard University)遇到了另外两个合作伙伴——马休•普林斯和李•霍洛维,并于同年创办了这家公司。CloudFlare扮演了一个网站与恶意用户之 间的缓冲区的角色。如果CloudFlare判定一名用户为友好用户,它就会加快他所享受的服务的速度。如果它判定一名用户为垃圾邮件发送者或者机器人程 序,它就会降低他的服务速度,或者是要求对方输入验证码。扎特琳表示:“十年以前,我知道我想成为一个大而重要的团队的一份子,但当时我并不确切地知道这 意味着什么。但是现在我感到很幸运,因为我找到了CloudFlare。我想象不出还有比帮助客户更好地经营他们的业务更好的事了。”——Shalene Gupta

Jawbone数据副总裁莫妮卡•罗加蒂

Jawbone数据副总裁

在Jawbone公司,莫妮卡•罗加蒂有两个职责。首先是弄清楚该公司的Up智能腕表收集的数据都代表了什么。其次,构建以智能方式使用这些数据的新 产品。罗加蒂表示:“我们发现了关于我们如何睡觉、活动和进食的许多新的信息,它们都是之前无法发现的。以前我们只能对100个人进行睡眠研究,但是现在 我们可以研究10万个人的睡眠信息。”也就是说,罗加蒂和她的团队能够了解人们为什么会失眠。比如华盛顿的居民可能会因为一次总统就职典礼而兴奋难眠;伊 斯坦布尔的居民可能会因为中东爆发的抗议而睡不着觉;笃信天主教的罗德岛居民可能因为教皇的辞职而失眠——然后,该公司可以把这些信息反馈到Up智能腕表 上,并调整他们的行为。罗加蒂指出:“我们充分地利用了这些数据反映出的见解,并且利用它们来鼓励人们保持最佳水平。”——Andrew Nusca

施乐欧洲研究中心高级研究员欧诺•佐伊特

施乐欧洲研究中心高级研究员

孩提时代,欧诺•佐伊特梦想着成为一名乐高积木的设计师。8岁时,他拥有了人生中的第一台电脑,它点燃了一个男孩对人工智能的兴趣。如今佐伊特已经进 入施乐欧洲实验室(Xerox Labs Europe)工作,他研究的重点是如何缓解洛杉矶的交通拥堵。佐伊特表示:“我们对停车问题了解的不多,因为它需要大量时间来观察。”为此,佐伊特的团 队在全市各处的停车场安装了大量传感器。传感器收集的信息会反馈到一款智能手机应用上,这样司机就可以随时了解哪些停车场已经停满了,哪些停车场的车位还 空着。更妙的是,城市可以根据这些数据调节这些停车场的停车费,以降低高度拥堵地区的车流量。自从这个项目在2012年问世以来,洛杉矶的交通拥堵已经缓 解了10%。——Shalene Gupta

Eventbrite公司工程副总裁帕特里克•普尔斯

Eventbrite

帕特里克•普尔斯曾经告别科技业整整五年,这期间他转行做了一名职业扑克玩家。不过职业扑克市场在2010年萎缩得非常厉害,于是他决定重返科技行 业。他并不为他的选择后悔,他说:“分析数据跟玩扑克很像。你玩了几千手牌,你也了解了人,你也处理了数据,而且你会留心寻找一些显眼的东西。这些都是共 通的。”在Eventbrite网络售票公司里,普尔斯和他的团队开了一个推荐系统,能够根据用户已经浏览的内容,向他们推荐他们可能感兴趣的大型活动。 这个系统的反响很不错,现在每周大约有100万人在Eventbrite上购票,其中近半数都是回头客。普尔斯的下个项目,是要想出怎样才能最好地卖掉需 要预订座位的活动的门票。

Dropbox首席科学家西尔瓦诺斯•李

Dropbox首席科学家

有“神童”之称的西尔瓦诺斯•李只花了短短两年时间,就从斯坦福大学获得了计算机科学与数学的双学位。他在毕业后直接进入了金融行业,但是科技业的诱 惑还是太强了,于是他在2012年加盟Dropbox。凭借其商业背景和科技知识,他成立了一支团队,专门从事数据学研究。他曾经负责过一个叫做 Project Harmony的通讯软件,它使Dropbox的用户可以实时查看其他用户对共享文档的修改,并可与其进行讨论。另一个跟销售有关的项目是查看是否有来自 同一家公司的员工在同时使用Dropbox,如果有就为他们提供超值套餐。西尔瓦诺斯•李的老板王晨立(音译)表示:“他的背景横跨科技、数学和商业实 务,非常难得。这使他的数据科学研究鹤立鸡群。”——Shalene Gupta

Airbnb软件工程师苏拉比•古普塔

Airbnb软件工程师

苏拉比•古普塔非常喜欢旅行,经常替亲朋好友规划旅行线路。作为斯坦福大学(Stanford University)计算机科学专业毕业的研究生,她对摘要的艺术非常着迷——仅仅短短数语就能尽得其要,而无需阅读整篇文字。早先古普塔在谷歌 (Google)工作期间就曾研究过租房服务公司Airbnb。她对Airbnb的数据所能提供的可能性很感兴趣,于是她主动联系了Airbnb跳槽到这 家公司。短短四个月后,她就显著改进了Airbnb的搜索引擎。现在古普塔正在试图压缩Airbnb的所有列表,创建摘要,以便用户可以迅速了解不同城市 的风情。她表示:“总的目标就是,当人们旅行时,我们怎样把他们吸引到Airbnb来?当他们想去旅行的时候,我们怎样让他们获得我们的信息?”—— Shalene Gupta

美国运通GMS IM平台与大数据项目副总裁斯瓦蒂•辛格

美国运通GMS IM平台与大数据项目副总裁

斯瓦蒂•辛格的技术背景几乎无懈可击,其中包括从杜克大学(Duke University)获得的机器学习博士学位。但她的性格却热衷经商。她是美国运通(American Express)MyOffers服务背后的主要智囊,这项服务旨在让美国运通的会员在需要的时候获得他们想要的东西。比如现在是中午,你又恰好想吃墨西 哥菜,美国运通就会送你一张附近墨西哥餐厅的优惠券。她负责的另一个工具可以让商家比较自己的年度表现。她的老板塞斯特里•杜尔瓦苏拉表示:“她有很强的 技术背景,但是她也可以像一个领导者一样,和其他领导谈事情。每次我们讨论数据的时候,她都在场。”——Shalene Gupta

Adobe Digital Index首席分析师塔玛拉•加夫尼

Adobe Digital Index首席分析师

塔玛拉•加夫尼利用数据来预测未来。在Adobe数字系统公司,她的团队负责从使用Adobe云服务的用户那里反馈的数据来预测各种问题,比如哪部片 子会获得奥斯卡奖,哪部大片会卖座,在冬季购物季有多少人会在网上购物等等。她的预测也的确非常了不起,在去年的圣诞购物季,加夫尼团队的预测只比实际情 况低了1个百分点。她的经理朱莉•麦肯蒂表示:“她对科技的理解再加上她对人的行为的兴趣,使她非常与众不同。她好奇心很强,喜欢对数据划分模式、追踪线 索,对事情的演变提出假设。”加夫尼的下一个项目,是对各种移动购物应用进行预测。——Shalene Gupta

Rent the Runway首席分析官维贾伊•苏伯拉马尼安

Rent the runway首席分析官

第一眼看去,在这样一家经营时尚业务的公司里,维贾•苏伯拉马尼安的工作貌似并不光鲜。不过作为时装租赁服务Rent the Runway的首席分析官,恐怕很少有人对女性时尚潮流的理解比他更深了。2010年,他加入公司不久后,便构建了一个评估模型,能够估算漏掉的需求、产 品寿命以及库存服饰的使用场合。由于公司每个季度都要从时装设计师那里购入成卡车的时装首饰租给顾客,因此维贾的模型可以说给公司省了一大笔钱。他表示: “如果你把三个数据来源放在一起,你就可以建立一个体现购物习惯的模型框架。它告诉我们应该去找哪种风格的衣服,才最有可能让我们穿出明星范。”——当然 还有尽量要避免哪种搭配。维贾的下一个项目是整合Unlimited反馈的新型数据——Unlimited是该公司为了进军日常便服领域而推出的一个项 目。维贾表示:“我们的经典模型都围绕着你要去的重大场合。你可能穿衣比较前卫,但如果你出席正式场合,你自己的穿衣风格就不重要了,重要的是适应场合。 而Unlimited则是理解用户穿衣风格的开始。”——Andrew Nusca

ShareThis数据科学副总裁曲艳

ShareThis数据科学副总裁

很多人可能很难相信,曲艳(音译)的工作影响了95%的美国读者。曲艳在社交网站公司ShareThis开发了一个叫做“社交质量指数” (Social Quality Index)的指标,可以衡量围绕一定网络内容的社交活动,并帮助广告主和出版商锁定目标群体。曲艳表示:“技术方面并不难,难的是怎样发现一个商业问 题,然后把技术应用上去。”曲艳在卡耐基梅隆大学(Carnegie Mellon University)获得了自然语言处理专业博士学位。在进入ShareThis工作前,她还曾领导过美国在线(AOL)的 Advertising.com的Advance Research研究团队。现在,她很喜欢迎接移动电话带来的挑战,而且手机也不允许网站植入cookies来确认重复访客。这些都需要曲艳收集更多的数 据。——Shalene Gupta

Data Collective公司管理合伙人扎卡里•博格

Data Collective

早在2011年的时候,扎卡里•博格与马特•奥克多就在旧金山湾区成立了一家风投公司,专门关注大数据领域的创业,这种眼光在当时无疑是非同一般的。 从那时起,这家公司的业务也随着大数据的浪潮而水涨船高。博格表示:“成本曲线很快就被越过了。急速下降的成本使这些新方法得以冲击那些旧的行业。”今 年,该公司又推出了自己的第三支基金,使它的总融资额达到将近2.5亿美元。该公司把赌注押在了短期借贷创业公司LendUp,以及内存数据库服务 MemSQL等新锐公司上。据说MemSQL要比市面上现有的内存数据库便宜得多也快得多。博格表示:“科技为广大的市场和行业开放了前所未有的投资机 会。我们的一个观点是,每个部门和行业都会被科技彻底扰乱,真是令人兴奋。”——Andrew Nusca

原文链接:http://www.ctocio.com/bigdata/18296.html


分类: Data Center 标签:

开发者成功使用机器学习的十大诀窍

2015年7月21日 没有评论

在提供发现埋藏数据深层的模式的能力上,机器学习有着潜在的能力使得应用程序更加的强大并且更能响应用户的需求。精心调校好的算法能够从巨大的并且互不相同的数据源中提取价值,同时没有人类思考和分析的限制。对于开发者而言,机器学习为应用业务的关键分析提供了希望,从而实现从改善客户体验到提供产品推荐上升至超个性化内容服务的任何应用程序。

机器学习

想要在应用程序中成功地融入机器学习的开发者,需要注意以下的一些关键要点:

1. 算法使用的数据越多,它的精度会更加准确,所以如果可能要尽量避免抽样。机器学习理论在预测误差上有着非常直观的描述。简而言之,在机器学习模型和最优预测(在理论上达到最佳可能的误差)之间的预测误差的差距可以被分解为三个部分:

  • 由于没有找到正确函数形式的模型的误差
  • 由于没有找到最佳参数的模型的误差
  • 由于没用使用足够数据的模型的误差

如果训练集有限,它可能无法支撑解决这个问题所需的模型复杂性。统计学的基本规律告诉我们,如果我们可以的话,应该利用所有的数据而不是抽样。

2. 对给定的问题选择效果最好的机器学习算法是决定成败的关键。例如,梯度提升树(GBT)是一个非常受欢迎的监督学习算法,由于其精度而被业内开发人员广泛使用。然而,尽管其高度受欢迎,我们也不能盲目的把这种算法应用于任何问题上。相反,我们使用的算法应该是能够最佳地拟合数据特征同时能够保证精度的算法。

为了证明这个观点,尝试做这样一个实验,在数据集 the popular text categorization dataset rcv1上测试GBT算法和线性支持向量机(SVM)算法,并比较两者的精度。我们观察到在这个问题上,就错误率而言,线性SVM要优于GBT算法。这是因为在文本领域当中,数据通常是高维的。一个线性分类器能够在N-1维当中完美的分离出N个样本,所以,一个样本模型在这种数据上通常表现的更好。此外,模型越简单,通过利用有限的训练样本来避免过拟合的方式学习参数,并且提供一个精确的模型,产生的问题也会随之越少。

另一方面,GBT是高度非线性的并且更加强大,但是在这种环境中却更难学习并且更容易发生过拟合,往往结果精度也较低。

3. 为了得到一个更好的模型,必须选择最佳的的算法和相关的参数。这对于非数据科学家而言可能不容易。现代的机器学习算法有许多的参数可以调整。例如,对于流行的GBT算法单独的就有十二个参数可以设置,其中包括如何控制树的大小,学习率,行或列的采样方法,损失函数,正则化选项等等。一个特有的项目需要在给定的数据集上为每一个参数找到其最优值并且达到最精准的精度,这确实不是一件容易的事。但是为了得到最佳的结果,数据科学家需要训练大量的模型,而直觉和经验会帮助他们根据交叉验证的得分,然后决定使用什么参数再次尝试。

4. 机器学习模型会随着好的数据而变得更好,错误的数据收集和数据处理会降低你建立预测和归纳的机器学习模型的能力。根据经验,建议仔细审查与主题相关的数据,从而深入了解数据和幕后数据的生成过程。通常这个过程可以识别与记录、特征、值或采样相关的数据质量问题。

5. 理解数据特征并改进它们(通过创造新的特征或者去掉某个特征)对预测能力有着高度的影响。机器学习的一个基本任务就是找到能够被机器学习算法充分利用的丰富特征空间来替代原始数据。例如,特征转换是一种流行的方法,可以通过在原始数据的基础上使用数学上的转换提取新的特征来实现。最后的特征空间(也就是最后用来描述数据的特征)要能更好的捕获数据的多复杂性(如非线性和多种特征之间的相互作用),这对于成功的学习过程至关重要。

6. 在应用中,选择合适的灵感来自商业价值的目标函数/损失函数对于最后的成功至关重要。几乎所有的机器学习算法最后都被当成是一种优化问题。根据业务的性质,合理设置或调整优化的目标函数,是机器学习成功的关键。

以支持向量机为例,通过假设所有错误类型的权重相等,对一个二分类问题的泛化误差进行了优化。这对损失敏感的问题并不合适,如故障检测,其中某些类型的错误比重可能比其它类型的要高。在这种情况下,建议通过在特定的错误类型上,增加更多的惩罚来解释它们的权重,从而调整SVM的损失函数。

7. 确保正确地处理训练数据和测试数据,如此当在生产中部署该模型时,测试数据能够模拟输入数据。例如,我们可以看到,这对于时间依赖性数据是多么的重要。在这种情况下,使用标准的交叉验证方法进行训练,调整,那么测试模型的结果可能会有偏差,甚至会不准确。这是因为在实施平台上它不能准确的模拟输入数据的性质。为了纠正这一点,在部署时我们必须仿照模型来部署使用。我们应该使用一个基于时间的交叉验证,用时间较新的数据来验证训练模型。

8.  部署前理解模型的泛化误差。泛化误差衡量模型在未知数据上的性能好坏。因为一个模型在训练数据上的性能好并不意味着它在未知的数据上的表现也好。一个精心设计的模拟实际部署使用的模型评估过程,是估计模型泛化误差所需要的。

一不留心就很容易违反交叉验证的规则,并且也没有一种显而易见的方法来表现交叉验证的非正确性,通常在你试图寻找快捷方式计算时发生。在任何模型部署之前,有必要仔细注意交叉验证的正确性,以获得部署性能的科学评估。

9. 知道如何处理非结构化和半结构化数据,如文本、时间序列、空间、图形或者图像数据。大多数机器学习算法在处理特征空间中的数据时,一个特征集代表一个对象,特征集的每一个元素都描述对象的一个特点。在实际当中,数据引进时并不是这种格式化的形式,往往来自于最原始的格式,并且最后都必须被改造成机器学习算法能够识别的理想格式。比如,我们必须知道如何使用各种计算机视觉技术从图像中提取特征或者如何将自然语言处理技术应用于影片文本。

10. 学会将商业问题转换成机器学习算法。一些重要的商业问题,比如欺诈检测、产品推荐、广告精准投放,都有“标准”的机器学习表达形式并且在实践当中取得了合理的成就。即使对于这些众所周知的问题,也还有鲜为人知但功能更强大的表达形式,从而带来更高的预测精度。对于一般在博客和论坛中讨论的小实例的商业问题,适当的机器学习方法则不太明显。

如果你是一个开发者,学习这十个通往成功的诀窍可能似乎是一个艰难的任务,但是不要气馁。事实上,开发者不是数据科学家。认为开发人员可以充分利用所有的机学习工具是不公平的。但是这并不意味着开发人员没有机会去学习一些有水准的数据科学从而改进他们的应用。随着适当的企业解决方案和自动化程度的提高,开发人员可以做模型构建到实施部署的一切事情,使用机器学习最佳实践来保持高精度。

自动化是在应用程序中扩展机器学习的关键。即使你能够供得起一批小的数据科学家团队和开发者携手合作,也没有足够的人才。像Skytree的AutoModel(自动化模型)能够帮助开发者自动地确定最佳的参数并且使得算法得到最大的模型精度。一个易于使用的接口可以引导开发人员通过训练加工,调整并且测试模型来防止统计上的错误。

自动化机器学习过程,有许多方式,包括数据科学家或开发者的人工智能原理,允许算法去思考,学习并且承受更多的建模重任。也就是说,认为数据科学家能够从机器学习中解耦是错误的,特别是在关键任务模型上。谨防这种能够简单使用机器学习功能的承诺,即能够在不需要正确复杂的思考下或者可扩展的应用技术下就使用机器学习——这通常并不会得到高预测精度和机器学习提供的高商业价值结果。更糟糕的是,在应用程序中使用不好的模型实际上可能会适得其反,并迅速在其用户之间建立不信任的产品或服务。

文章来自CSDN 英文原文: 10 keys to successful machine learning for developers (译者/刘帝伟 审校/刘翔宇、朱正贵 责编/周建丁)

作者简介:Alexander Gray,Skytree首席技术官,佐治亚理工学院计算机学院副教授,主要致力于大规模数据集的机器学习算法技术研发,1993年开始在NASA喷气推进实验室机器学习系统小组从事大规模科学数据的工作。

 


分类: Data Center 标签:

NetApp 十大技术提高数据中心能效

2008年3月16日 没有评论

IT专家网本文将为您揭示 NetApp 专家设计自身数据中心时的十大技术,以帮助客户通过同样的方法降低自身数据中心的能耗。这十大技术包括:

  • 测量以便控制
  • IT 系统虚拟化及整合
  • 管理数据
  • 避免系统过度冷却现象
  • 合理设计空间布局
  • 不断改进热隔离
  • 充分利用自然冷却
  • 尽量减少电力变换损耗
  • 利用废热
  • 定期监测和调整

分类: Data Center 标签: ,

“云计算”存储架构: 集群NAS

2007年12月21日 没有评论

现在有一种普遍的看法就是集群NAS系统将会成为通用的云存储架构;Google特有的Google集群服务器和DAS架构可以满足Google的搜索需 求。集群NAS系统更具有普遍应用性,需要为文件提供较大的全球命名空间,为组织排列成千上万万个文件、文件保护和文件访问提供合理的系统架构。

Google不需要SAN,它没有配置全球NAS架构,取而代之的是上千个配置了廉价DAS的Linux服务器设备,并将信息内容存储到自己的Google File System(GFS)中。这样,存储智能化就有效地从阵列控制器转移到文件系统中了。而逐渐取代传统的基于控制器的阵列存储。对于SAN和NAS存储厂商来说这确实是个坏消息。

云计算存储要求一种不同的文件系统, 目前Google的GFS 和 Sun的ZFS满足此类要求。

目前,已有很多厂商竞相角逐云计算市场,领先者有Google , Amazon, Sun, Isilon

全文


Sun 数据中心参考指南

2007年12月3日 没有评论

从2000年到2005年,数据中心的能耗翻了一番。根据一些分析家的预测,在不久的将来,基础设施的能耗将超过硬件本身。在《财富》评选的500位IT执行官中,有41%都认为“能耗”和“散热”是本公司数据中心所面临的主要问题。

Sun 正在积极开展生态和经济创新,以帮助用户节省数据中心的能量、空间和成本,同时保护好环境。绿色计算已呈现上升趋势。

Sun 数据中心参考指南综合介绍如何通过Sun的最佳实践和能效技术来创建一个生态经济的数据中心。有很高的参考价值,共86页英文

下载 PDF: http://docs.huihoo.com/data-center/sun-datacenter-reference-guide-wp.pdf


Sun 推出超级计算系统: Sun Constellation System

2007年11月15日 没有评论

近日, Sun 推出全新 HPC 解决方案 : 引领新一代千亿级计算解决方案发展的是 Sun Constellation 系统,它是世界上首个开放 HPC 体系结构,能够从局部群集一直扩展到世界上最大的超级计算机。系统可以扩展到最多 13,834 个节点。这种规模的群集的最高性能可达两个 petaFLOPS,内存容量可达 1.8 PB,存储容量可达 0.7 EB,光纤的每秒传输速度可达 1 petabit,延时低于 700ns。它是当今市面上性能最出色的系统,并且可进行扩展并达到两倍于 IBM BlueGene 的性能。

Sun Constellation 系统还具有下列主要组件: