buy online retin-a overnight without rx, and buy cheap amoxil purchased online without prescription, and buying cheap premarin with free fedex overnight, and buying cheap diflucan (fluconazole) cod saturday delivery, and buy online taking too much synthroid medication, and cheap pharmacy clomid twin, and purchase with no prescription order zovirax (acyclovir) creditcard, and order online buy generic wellbutrin cheap no membership, and cheap online will generic available valtrex in toronto, and cheap pharmacy order cheap order propecia online, and order online no prescription hydrochlorothiazide online pharmacy, and pharmacy cheapest accutane ultrum, and pharmacy cheapest cheap doxycycline without rx, and ordering online where to buy norvasc, and buy cheapest prozac for sale cod, and buy online where can i buy flagyl online, and buying cheap acyclovir xr purchase online cheap, and purchase with no prescription forum paxil, and ordering online best buy lipitor, and buy cheapest arimidex buy without a prescription, and pharmacy cheapest bactrim overnight delivery cheap, and generic medications buy neurontin online no membership, and order cheap baclofen side effects, and order online price zithromax, and pharmacy cheapest where to buy lasix without a prescription, and

存档

作者存档

帮程序员减压放松的10个良心网站!

2015年8月25日 没有评论

relax-1

同学们工作之余,不妨放下微博跟朋友圈,来这10个网站感受一下看着就醉了的情境.今天推荐的网站,利用代入感强的图片与音频,迅速帮你抹平焦虑,获得平和心态,特别献给改稿千遍的设计师们。

1.  Calm

这是同类型中最火的网站了,站如其名,「平和」,通过自然的图像(阳光下的暖流、淙淙的小溪等)与缓缓的音乐,帮你在短时间内放松下来。

左侧有时间设定,从 2 分钟到 20 分钟,右底部可以改变音频、图像,调节音量等。还有 IOS 客户端下载呦。

 

2.  Do Nothing For 2 Minutes

「木头人,两分钟」,这是一个简单到极致的网站,当你打开的时候,自动开始计时,这时间你不能触碰键盘和鼠标,否则 2 分钟会重置。

你需要做的,就是放下手头的工作,静静地享受潮声,这也很棒,不是吗?两分钟足够你冷静下来,休息一下了。

 

3.  Get Relaxed

如果两分钟不足以让你彻底放松,试试这个。如下图,打开网站后,头枕着双手往后仰,欣赏自然风光,聆听网站为你精心挑选的音乐。

图像 3 秒一换,有 15 种,每种持续大概 2 – 4 分钟,现在,开始吧!

提醒:网站有简陋广告,稍微影响体验。

 

4.  LoungeV Studio

前三个都是图像,现在来个新鲜的。这个网站提供高清的自然风光视频 + 音乐。有沙滩、瀑布、水下景色等等,网站背景是一个温馨的客厅,右侧有视频可选,对喜欢看视频的同学来说,还是蛮不错的。

 

5.  A Soft Murmur

这个网站太棒了!小编玩了好久都舍不得停下来。网站让你自由创造美妙的声音。你可以通过混合不同的声音(雨声、火柴燃烧的声音、打雷声、海潮声…..不一而足。但是,总有一款令你爱不释手!)当然,声音的大小也可以自己调节。

如果你对混合的声音非常满意,也可以分享到脸书、谷歌等….

 

6.  Nature Sounds For Me

这个比上面那个界面稍逊,但是玩起来更嗨!它提供的声音除了以上的自然类声音,还有很多你想不到的:绵羊咩咩、骏马跺脚喷气、不同的鸟叫声,甚至是心脏跳动、厨房叮当的声音,不仅令人身临其境,而且搭配起来简直不能更欢乐!

当然,它还有 IOS 客户端。

 

7.  Noisli

这个网站根据你的情绪变化,选择不同的音乐和背景颜色。颜色大多朴素平和,背景声音也有对应的图标可以选择。还有一点贴心的设计是,网站右侧有便签本,你可以一边享受静谧时光一边随手记点事。

为了造福大众,网站还提供 IOS 版。

 

8.  Soundrown

网站一进去,有 3 个关键词:放松、专注、逃离。的确,它成功做到了这一点。它有 10 种不同的声音帮助你放松心情,也可以混合使用。不同的声音对应不同的背景,网站非常有设计感,相信你会重新回来体验一次。

 

9.  The Thoughts Room

一句话简洁:世界的秘密——树洞类网站。你可以在这里向全世界倾诉你的任何想法,网站支持 37 种语言,不过看了一下,没有中国…

 

10.  Raining.Fm

有时候,我们需要的仅仅是一点点雨声来帮助我们平静。网站专门提供雨声,因为单一,所以也更加专业。网站有 3 种不同的雨声类型,右侧有定时器可以在你放松时提醒你,简单也好用的一个网站,赞一个。

 

原文出处:http://www.uisdc.com/website-make-you-relax#

分类: 非IT 标签:

全球顶尖大数据人才Top20

2015年7月31日 1 条评论

作者:t

数据科学家是21世纪最性感的工作,因为21是大数据世纪,而大数据时代企业需要能够将数据转化为商业能力的“数据领袖”。对于大多数企业来说,优秀的数据科学家灿若星辰却又一将难求,大数据分析人才的招聘更是企业人力资源部门的噩梦。传说中的数据科学家都长什么样?本文为大家推荐二十位顶尖大数据人才,请您感受一下。

以下内容来自199IT

Pinterest数据科学家安德莉亚•伯班克

Pinterest数据科学家

Pinterest是一家以图片为主的社交网络,数据科学家安德莉亚•伯班克主要负责该公司的A/B测试,评估公司网站、APP的外观或功能变化会对 它的6000万全球用户产生哪些影响。如果Pinterest网站上的某个小模块让你想邀请朋友也来玩一玩,或是某一封它发来的推荐邮件让你关注了更多话 题,那么这很可能就是伯班克团队的那只“看不见的手”起了作用。她在今年三月的一次行业会议上表示:“为了今后能为几十亿用户提供服务,我们已经针对几百 万用户做了数百次试验。”试验还拓展到了Pinterest自身的运营上。伯班克最大的成就之一,就是给Pinterest的其他员工赋权,让他们也能开 展试验。她表示:“以前只有一个故障点,但也只有一个知识点,现在不同了。”——Andrew Nusca

0xdata公司物理学家、黑客阿诺•康代尔

Oxdata数据科学家

阿诺•康代尔从小就生长在一个科研氛围浓厚的环境中。他出生于瑞士一个叫做下锡根塔尔的小村子,这个村子恰好位于拥有欧洲顶级粒子加速实验室的保罗谢 尔学院(Paul Scherrer Institute)和欧洲大陆最著名的科技院校苏黎士联邦理工学院(ETH Zürich)之间。在学习粒子物理学和超级计算机学期间,康代尔曾经在电脑上建立过宇宙的模型。后来他搬到美国加利福尼亚州,在斯坦福大学直线加速器中 心的全国加速实验室中工作(SLAC National Accelerator Laboratory),后来又开始创业,成为Skytree公司的创始工程师,并且设计了几套高性能的机器学习算法。现在他是Oxdata公司h2o数 据分析平台的核心开发者,他开发的这个h2o平台,被编程社区GitHub的成员誉为最优秀的开源Java机器学习项目,而且它还可以兼容流行的统计编程 语言——R语言。他在Oxdata公司的头衔是“物理学家兼黑客”。——Robert Hackett

Hortonworks联合创始人阿兰•默西

Hortonworks联合创始人

阿兰•默西最早在雅虎公司(Yahoo)工作,现在已然用途极广的开源存储和处理软件Hadoop在那时尚处于早期原型阶段。默西的团队的任务就是扩展 Hadoop的功能,让它用于雅虎的网页搜索。于是默西研发了一个名叫YARN的资源负载管理系统,它的作用大致相当于Hadoop的一个操作系统。默西 表示:“第一版的Hadoop看起来就像还在用Notepad的Windows,但是我们真正想要的是能用Powerpoint、Word和Excel的 Windows。”这正是YARN的魅力所在:它允许用户向Hadoop中插入多种应用以存储各类信息。默西表示:“我家里有两个孩子,但YARN就像是 我的第三个孩子。”——Robert Hackett

NuoDB首席执行官巴里•莫里斯

NuoDB首席执行官

很多科技公司都想发起一场技术革命,但是很少能获得上一波技术革命领导者的支持。马萨诸塞州剑桥市的NuoDB公司却一举网罗了上一波数据库革命“四 大天王”的其中之三——Ingres公司前CEO加理•摩根泰勒、Sybase公司前CEO米切尔•克兹曼、Informix公司前CEO罗杰•斯普尔。 只有最后一名“天王”,也就是甲骨文(Oracle)的CEO弃权了,但他也身在投资人之列。这么一家名不见经传的公司何以有这么大的号召力?因为 NuoDB的技术解决了一个多年来被行业视为“圣杯”的问题:如何让一个数据库在多个服务器上运行。“关键在于用更多的机器,而不是更大的机器。”该公司 CEO巴里•莫里斯表示:“那个问题听起来虽然简单,但一直没得到解决。”DuoDB公司成立于2010年,现在这家公司已经签下了一个大客户——欧洲第 二大软件厂商达索系统公司(Dassault Systèmes)。另外莫里斯认为,公司正在飞速朝着一个“新的聚焦点”迈进。他认为DuoDB将走上舞台的中央。“它的意义不在于数据的规模或运行速 度,而在于形成一种数据导向型模式。持续改进的能力才是它的革命性所在。”——Andrew Nusca

Beats Music 公司大数据工程总监布莱恩•罗格斯基

Beats Music大数据工程总监

要想让布莱恩•罗格斯基谈谈他在Beats Music公司的工作细节真是不容易,不过Beats Music刚被苹果(Apple)收购,考虑到苹果一向神神秘秘的作风,倒也没什么可奇怪的。(这笔交易于今年五月宣布,上周五完成。)不过罗格斯基依然 是三句话不离本行。他表示,现在企业都有兴趣更深入地进行实时数据分析,而且也有兴趣在企业内部加大数据的分享力度。另外很多公司也想利用大数据提高 APP的个性化体验。那么罗格斯基打算如何在Beats公司跟上这股潮流呢?他表示:“你必须自己理解其中的奥妙。由于我目前的角色,我对这个问题不能说 太多,现在还是说说大趋势吧。”——Robert Hackett

雅虎实验室研究员达尼埃尔•凯西亚

雅虎实验室研究员

小时候,达尼埃尔•凯西亚最想当一名警察,为此他还买了一辆玩具摩托车。不过现在在雅虎实验室(Yahoo Labs),他对城市的了解绝对细致入微——尽管只是在数码层面上。凯西亚拥有计算机科学博士学位和麻省理工学院(MIT)城市研究专业的博士后学位。目 前他主要进行广域的城市研究。比如他构建了一款游戏,问人们喜欢哪种城市景观,然后把评分放在Facebook上进行病毒式传播。凯西亚会对结果进行研 究,以确定人们喜欢或不喜欢哪种城市景观,以便最终设计出更好、更漂亮的城市。他认为:“计算机科学就是一门构建工具的学问。我想做一些新的事情,一些能 对现实造成影响的事。而全球有超过一半的人口都住在城市里。”——Shalene Gupta

微软研究院计算生态与环境科学小组负责人德鲁•帕维斯

微软研究员计算生态与环境科学小组负责人

微软(Microsoft)内部有一个叫做“比尔评论”(Bill Reviews)的保留节目,也就是员工们可以在创始人兼董事长比尔•盖茨面前提出自己的创意。当微软研究院剑桥实验室(Microsoft Research’s Cambridge Labs)的计算机学负责人史蒂夫•艾默特在一次“比尔评论”中提出,要由剑桥实验室出资,在公司内部建立一个生态学研究小组时,“那真是一次糟糕得出名 的会议。”——时任普林斯顿大学(Princeton University)生态学家的德鲁•帕维斯如是说。但是最后比尔•盖茨改变了主意,很快微软聘请了帕维斯作为这个小组的领头人,负责建立地球生态系统 的预测模型。自从微软的“蓝天”研究部门成立后,帕维斯已经带领科研团队开发了一个模拟地球所有生命的“马丁利模型”。这个项目可谓雄心勃勃,虽然有些 “唐吉诃德”色彩,但它的部分成果说不定最终也能应用于实际。帕维斯表示:“国民经济中发生的每一件事,都可以放在一定的环境因素中考量。”他随口道出全 世界面临的几大最严重的挑战,包括人口老龄化、癌症、食品安全、气候变化和替代能源等问题。对于生态学和生物学,帕维斯补充道:“这些东西将成为21世纪 经济的核心驱动力。”

IBM沃森与认知烹饪小组高级软件工程师弗罗里安•皮内尔

IBM认知烹饪小组高级软件工程师

自从IBM的“智能”电脑系统沃森(Watson)在电视智力节目Jeopardy中战胜了人类对手之后,IBM还想试试它到底能把智能计算的边界推 到多远。最近IBM决定让沃森进军烹饪界。作为一名受过专业训练的厨师,弗罗里安•皮内尔也是IBM的“认知烹饪”团队的一员。皮内尔表示:“我们之所以 把重点放在美食上,是因为美食是大家都关心的东西,而且我们可以很容易地创造出原型产品。现在我能把对食物和计算机科学的热情融合在一起,这令我大喜过 望。”这个团队首先从各种食材和调料着手,但是他们研发的各种食物的组合呈指数级增长,催生出了大量潜在的美食食谱。比如在今年德州奥斯汀的SxSW大会 上,沃森系统就在IBM的美食卡车上发明了一种澳洲巧克力卷饼,食材包括巧克力、牛肉糜、青豆和大豆。听起来虽然是一道很难吃的菜,不过皮内尔却表示: “它大获成功,非常好吃。所以我们的目的就是要启发用户,帮助他们开发他们自己永远想不到的美食配方。”——Robert Hackett

Cloudera公司首席科学家,西奈山医院基因与基因组学助理教授汉默巴切

Cloudera首席科学家

身为西奈山医院(Mount Sinai Hospital)基因与基因组学的助理教授,杰夫•汉默巴切虽然没有这个专业的博士学位,但丰富的经验让他绝对称职。他曾是Facebook最优秀的数 据学家之一,后来他放弃了被广告渗透到各个角落的社交媒体业,成了Cloudera公司的首席科学家。Cloudera是一家基于Apache Hadoop平台的企业软件供应商。现在汉默巴切又与西奈山医院的基因与基因组学负责人埃里克•沙特合作,试图把大数据分析带入到医疗保健领域。沙特指 出:“他正在定义一个新的领域,以后这个领域将成为一门会发放博士学位的学问。现在没有任何一门学科在教授他所做的事。”汉默巴切正在构建管理和运算人体 健康数据所需要的基础架构,以建立更好的医学预测模型。沙特表示:“对于医疗业和医疗机构来说,现在正是他们开始启用大数据分析引擎的时机。我们和杰夫这 样的人才合作,充分说明了医学将来的走向。”——Robert Hackett

CloudFlare联合创始人米歇尔•扎特琳

CloudFlare联合创始人

如果说互联网也有它自己的中央情报局,那么这块招牌可能要落到CloudFlare公司身上。这家旧金山的公司监控着全球5%的网络流量。公司创始人 之一米歇尔•扎特琳2009年在哈佛大学(Harvard University)遇到了另外两个合作伙伴——马休•普林斯和李•霍洛维,并于同年创办了这家公司。CloudFlare扮演了一个网站与恶意用户之 间的缓冲区的角色。如果CloudFlare判定一名用户为友好用户,它就会加快他所享受的服务的速度。如果它判定一名用户为垃圾邮件发送者或者机器人程 序,它就会降低他的服务速度,或者是要求对方输入验证码。扎特琳表示:“十年以前,我知道我想成为一个大而重要的团队的一份子,但当时我并不确切地知道这 意味着什么。但是现在我感到很幸运,因为我找到了CloudFlare。我想象不出还有比帮助客户更好地经营他们的业务更好的事了。”——Shalene Gupta

Jawbone数据副总裁莫妮卡•罗加蒂

Jawbone数据副总裁

在Jawbone公司,莫妮卡•罗加蒂有两个职责。首先是弄清楚该公司的Up智能腕表收集的数据都代表了什么。其次,构建以智能方式使用这些数据的新 产品。罗加蒂表示:“我们发现了关于我们如何睡觉、活动和进食的许多新的信息,它们都是之前无法发现的。以前我们只能对100个人进行睡眠研究,但是现在 我们可以研究10万个人的睡眠信息。”也就是说,罗加蒂和她的团队能够了解人们为什么会失眠。比如华盛顿的居民可能会因为一次总统就职典礼而兴奋难眠;伊 斯坦布尔的居民可能会因为中东爆发的抗议而睡不着觉;笃信天主教的罗德岛居民可能因为教皇的辞职而失眠——然后,该公司可以把这些信息反馈到Up智能腕表 上,并调整他们的行为。罗加蒂指出:“我们充分地利用了这些数据反映出的见解,并且利用它们来鼓励人们保持最佳水平。”——Andrew Nusca

施乐欧洲研究中心高级研究员欧诺•佐伊特

施乐欧洲研究中心高级研究员

孩提时代,欧诺•佐伊特梦想着成为一名乐高积木的设计师。8岁时,他拥有了人生中的第一台电脑,它点燃了一个男孩对人工智能的兴趣。如今佐伊特已经进 入施乐欧洲实验室(Xerox Labs Europe)工作,他研究的重点是如何缓解洛杉矶的交通拥堵。佐伊特表示:“我们对停车问题了解的不多,因为它需要大量时间来观察。”为此,佐伊特的团 队在全市各处的停车场安装了大量传感器。传感器收集的信息会反馈到一款智能手机应用上,这样司机就可以随时了解哪些停车场已经停满了,哪些停车场的车位还 空着。更妙的是,城市可以根据这些数据调节这些停车场的停车费,以降低高度拥堵地区的车流量。自从这个项目在2012年问世以来,洛杉矶的交通拥堵已经缓 解了10%。——Shalene Gupta

Eventbrite公司工程副总裁帕特里克•普尔斯

Eventbrite

帕特里克•普尔斯曾经告别科技业整整五年,这期间他转行做了一名职业扑克玩家。不过职业扑克市场在2010年萎缩得非常厉害,于是他决定重返科技行 业。他并不为他的选择后悔,他说:“分析数据跟玩扑克很像。你玩了几千手牌,你也了解了人,你也处理了数据,而且你会留心寻找一些显眼的东西。这些都是共 通的。”在Eventbrite网络售票公司里,普尔斯和他的团队开了一个推荐系统,能够根据用户已经浏览的内容,向他们推荐他们可能感兴趣的大型活动。 这个系统的反响很不错,现在每周大约有100万人在Eventbrite上购票,其中近半数都是回头客。普尔斯的下个项目,是要想出怎样才能最好地卖掉需 要预订座位的活动的门票。

Dropbox首席科学家西尔瓦诺斯•李

Dropbox首席科学家

有“神童”之称的西尔瓦诺斯•李只花了短短两年时间,就从斯坦福大学获得了计算机科学与数学的双学位。他在毕业后直接进入了金融行业,但是科技业的诱 惑还是太强了,于是他在2012年加盟Dropbox。凭借其商业背景和科技知识,他成立了一支团队,专门从事数据学研究。他曾经负责过一个叫做 Project Harmony的通讯软件,它使Dropbox的用户可以实时查看其他用户对共享文档的修改,并可与其进行讨论。另一个跟销售有关的项目是查看是否有来自 同一家公司的员工在同时使用Dropbox,如果有就为他们提供超值套餐。西尔瓦诺斯•李的老板王晨立(音译)表示:“他的背景横跨科技、数学和商业实 务,非常难得。这使他的数据科学研究鹤立鸡群。”——Shalene Gupta

Airbnb软件工程师苏拉比•古普塔

Airbnb软件工程师

苏拉比•古普塔非常喜欢旅行,经常替亲朋好友规划旅行线路。作为斯坦福大学(Stanford University)计算机科学专业毕业的研究生,她对摘要的艺术非常着迷——仅仅短短数语就能尽得其要,而无需阅读整篇文字。早先古普塔在谷歌 (Google)工作期间就曾研究过租房服务公司Airbnb。她对Airbnb的数据所能提供的可能性很感兴趣,于是她主动联系了Airbnb跳槽到这 家公司。短短四个月后,她就显著改进了Airbnb的搜索引擎。现在古普塔正在试图压缩Airbnb的所有列表,创建摘要,以便用户可以迅速了解不同城市 的风情。她表示:“总的目标就是,当人们旅行时,我们怎样把他们吸引到Airbnb来?当他们想去旅行的时候,我们怎样让他们获得我们的信息?”—— Shalene Gupta

美国运通GMS IM平台与大数据项目副总裁斯瓦蒂•辛格

美国运通GMS IM平台与大数据项目副总裁

斯瓦蒂•辛格的技术背景几乎无懈可击,其中包括从杜克大学(Duke University)获得的机器学习博士学位。但她的性格却热衷经商。她是美国运通(American Express)MyOffers服务背后的主要智囊,这项服务旨在让美国运通的会员在需要的时候获得他们想要的东西。比如现在是中午,你又恰好想吃墨西 哥菜,美国运通就会送你一张附近墨西哥餐厅的优惠券。她负责的另一个工具可以让商家比较自己的年度表现。她的老板塞斯特里•杜尔瓦苏拉表示:“她有很强的 技术背景,但是她也可以像一个领导者一样,和其他领导谈事情。每次我们讨论数据的时候,她都在场。”——Shalene Gupta

Adobe Digital Index首席分析师塔玛拉•加夫尼

Adobe Digital Index首席分析师

塔玛拉•加夫尼利用数据来预测未来。在Adobe数字系统公司,她的团队负责从使用Adobe云服务的用户那里反馈的数据来预测各种问题,比如哪部片 子会获得奥斯卡奖,哪部大片会卖座,在冬季购物季有多少人会在网上购物等等。她的预测也的确非常了不起,在去年的圣诞购物季,加夫尼团队的预测只比实际情 况低了1个百分点。她的经理朱莉•麦肯蒂表示:“她对科技的理解再加上她对人的行为的兴趣,使她非常与众不同。她好奇心很强,喜欢对数据划分模式、追踪线 索,对事情的演变提出假设。”加夫尼的下一个项目,是对各种移动购物应用进行预测。——Shalene Gupta

Rent the Runway首席分析官维贾伊•苏伯拉马尼安

Rent the runway首席分析官

第一眼看去,在这样一家经营时尚业务的公司里,维贾•苏伯拉马尼安的工作貌似并不光鲜。不过作为时装租赁服务Rent the Runway的首席分析官,恐怕很少有人对女性时尚潮流的理解比他更深了。2010年,他加入公司不久后,便构建了一个评估模型,能够估算漏掉的需求、产 品寿命以及库存服饰的使用场合。由于公司每个季度都要从时装设计师那里购入成卡车的时装首饰租给顾客,因此维贾的模型可以说给公司省了一大笔钱。他表示: “如果你把三个数据来源放在一起,你就可以建立一个体现购物习惯的模型框架。它告诉我们应该去找哪种风格的衣服,才最有可能让我们穿出明星范。”——当然 还有尽量要避免哪种搭配。维贾的下一个项目是整合Unlimited反馈的新型数据——Unlimited是该公司为了进军日常便服领域而推出的一个项 目。维贾表示:“我们的经典模型都围绕着你要去的重大场合。你可能穿衣比较前卫,但如果你出席正式场合,你自己的穿衣风格就不重要了,重要的是适应场合。 而Unlimited则是理解用户穿衣风格的开始。”——Andrew Nusca

ShareThis数据科学副总裁曲艳

ShareThis数据科学副总裁

很多人可能很难相信,曲艳(音译)的工作影响了95%的美国读者。曲艳在社交网站公司ShareThis开发了一个叫做“社交质量指数” (Social Quality Index)的指标,可以衡量围绕一定网络内容的社交活动,并帮助广告主和出版商锁定目标群体。曲艳表示:“技术方面并不难,难的是怎样发现一个商业问 题,然后把技术应用上去。”曲艳在卡耐基梅隆大学(Carnegie Mellon University)获得了自然语言处理专业博士学位。在进入ShareThis工作前,她还曾领导过美国在线(AOL)的 Advertising.com的Advance Research研究团队。现在,她很喜欢迎接移动电话带来的挑战,而且手机也不允许网站植入cookies来确认重复访客。这些都需要曲艳收集更多的数 据。——Shalene Gupta

Data Collective公司管理合伙人扎卡里•博格

Data Collective

早在2011年的时候,扎卡里•博格与马特•奥克多就在旧金山湾区成立了一家风投公司,专门关注大数据领域的创业,这种眼光在当时无疑是非同一般的。 从那时起,这家公司的业务也随着大数据的浪潮而水涨船高。博格表示:“成本曲线很快就被越过了。急速下降的成本使这些新方法得以冲击那些旧的行业。”今 年,该公司又推出了自己的第三支基金,使它的总融资额达到将近2.5亿美元。该公司把赌注押在了短期借贷创业公司LendUp,以及内存数据库服务 MemSQL等新锐公司上。据说MemSQL要比市面上现有的内存数据库便宜得多也快得多。博格表示:“科技为广大的市场和行业开放了前所未有的投资机 会。我们的一个观点是,每个部门和行业都会被科技彻底扰乱,真是令人兴奋。”——Andrew Nusca

原文链接:http://www.ctocio.com/bigdata/18296.html

分类: Data Center 标签:

GitHub靠什么推倒了谷歌和微软?

2015年7月27日 1 条评论

 

github

Github办公室一角 图片:Wired

不要把鸡蛋放在一个篮子里

十年前,开源软件思想尚未颠覆技术世界,开源社区依然相对小众。但开源Linux操作系统已占据在华尔街和其他地方的众多计算机上,证明了与大众分享软件源代码可以创造巨大的价值和利润。程序员们想创建新的开源项目时,通常只会将之建立在极客气息浓厚的SourceForge网站,但这个网站有时并不靠得住。

克里斯·迪波纳,这位长发飘飘的谷歌开源大师,很担心全世界的开源软件会毁在同一个篮子里。“只有一个地方,那就是SourceForge。”他说道。

因此,像很多其他公司一样,谷歌创建了它自己的开源项目网站——谷歌代码(Google Code)。谷歌在Linux和其他开源软件的基础上建立了自己的网上帝国,为开源世界提供了SourceForge之外的又一选择,它试图确保开源精神 持续发展,在网上传播这一信仰。

但是,GitHub出现了,以开源精神更快传播者的身份。

3月初,谷歌宣布:十年之久的谷歌代码即将关闭。这一决策并不让人意外。过去三年多来,谷歌已经将大约一千个项目从网站上移出。但它的官方葬礼还是值得注意的。谷歌代码已是苟延残喘,因为开源世界的主要力量如今都将代码放在GitHub上。GitHub是旧金山一家古怪的初创公司设立的同名网站。谷 歌代码中撤出的上千个项目现在几乎全部在GitHub安了家。

有人争辩说谷歌开设谷歌代码有其他更自私的原因:它想要掌控权,或者说它想将尽可能多的数字资源放在自己的机器上(就像这家公司一直以来的做法)。 但最终,GitHub脱颖而出。GitHub超越了SourceForge,超越了谷歌,超越了其他前辈,以一种更彻底的方式令软件开发民主化大众化。而 这恰是软件开发界最有价值的硬通货。

GitHub:程序员的兴奋剂

上线仅仅7年,GitHub就网罗了几近9百万注册用户。每个月,另有大约2千万非注册用户访问它。Alexa网站排名查询结果中,GitHub位列全球百家最流行网站榜单之上。

GitHub的广受欢迎是极不平凡的,因为它基本上就是个软件开发人员专用的网站,而不是大众找寻名人八卦、宠物视频或社交闲聊的网站。

“看看最流行网站榜单,你能从上面找出一些社交网站,30个网站巨头谷歌旗下的站点,一堆媒体门户,以及GitHub。”——布莱恩·道尔,GitHub战略副总裁。

讽刺的是,GitHub的成功正是由于开源世界的大量自由代码又重回到一个集中的资源库。不过,这一次,与绝大多数其他程序员一样,迪波纳对于所有 东西都放在一个地方感到很开心。拥有一个集中的地点可以使人们更加容易地在几乎任何事情上通力合作。而由于GitHub独特的设计,“鸡蛋都放在同一个篮 子里”这种事也不像SourceForge那样令人焦虑。“GitHub意义重大,但也不是说你就卡在那儿了。”迪波纳说。

将所有代码都集中存放的同时,GitHub也将之放在各处。这自相矛盾的悖论正展现了开源软件之美,也阐述了为什么它对技术的未来如此重要。

Git准备好了

该怎样解释这个悖论呢?归根结底,一切源于Git——GitHub用作基石的版本控制软件。Linux之父李纳斯·托沃兹(Linus Torvalds)为了更好地开发Linux而在2005年创建了Git。Git让人们可以在同一时间对同一版本的Linux代码进行操作,而又不相互冲 突,发生越俎代庖事件。

简言之,Git可以让任何人毫无困难地下载一份Linux源代码副本到他们自己的机器上,做出修改,然后,觉得满意了就将修改的部分上传回 Linux的集中代码库。而且Git可以令每个人做出的修改都无缝融合起来。“这就是Git的精髓,而GitHub的精髓是它理解了Git的精髓。”

GitHub建立了一个使其他软件项目也可以像Linux项目一样运作的网站,普通程序员都能很容易地掌握网站的使用。经历了开源革命的技术网站Slashdot主编Rob “CmdrTaco” Malda说:“GitHub真的很优雅。它是个性感摩登的接口。”

现在,几乎所有人都将自己的开源代码项目放在GitHub上,包括谷歌、脸谱、推特,甚至微软这个开源软件界曾经非常讨厌的家伙。最近几个月,微软开放了某些它最重要的源代码,放在GitHub上而不是使用它自己的开源网站CodePlex。

S. “Soma” Somasegar,微软开发工具事业部全球资深副总裁,为软件开发者们照管着微软庞大的开发工具集的人。他表示,CodePlex将继续运营,其他资源 库,如SourceForge和BitBucket,也将继续经营下去。“我们想确保它一直在那里,提供一种选择。”但他也承认,GitHub是放置像 Microsoft .NET这样的项目的唯一选择。“我们想在开发者的地盘上与他们交流。而开源社区,很大程度上,在GitHub。”

私有遇见公开

而且,多亏了迪波纳所谓的“Git的精髓”,开源社区同样可以脱离GitHub行动。由于Git,程序员们不仅可以在从事某个特定项目时把代码移动 到自己的机器上,还能很容易地“分支”代码,创建新的独立的项目。他们可以保持部分代码私密,而在GitHub上公开其他部分。或者干脆全部公开。

Git和GitHub,显而易见,不仅仅是开源软件专属物。他们也能用于私有代码。你可以随意将私有代码公开,也可以再私有回来。你可以单干,也可以借助大家的力量。这就是开源的精髓。

谷歌灵活运用了Git各种特性。它的划时代编程语言Go语言就放置在GitHub上,而且是完全公开的。一个叫Kartes的项目位于GitHub的一个私有库中,但后来被用于公开项目Kubernetes。Chrome浏览器则建在谷歌内部的一个私有Git服务上。

在微软,运作模式几乎完全一样。微软内部通过像Visual Studio和Team Foundation Server这样的工具使用Git。但它也在GitHub上公开分享代码。而且通过为全球用户提供像Visual Studio和Team Foundation Server这样的工具,微软实际上也是将Git推向其他领域的一员。Somasegar估测大约有20%的微软客户现在正不同程度地使用Git。

开发者即人民

况且,软件开发人员社区也不再微小。毫不夸张地说,他们就是驱动世界的人。道尔说,GitHub位列百佳,”这告诉了我,软件已经变得像文字一样重要了。”

谷歌工程师,帮忙监管开源Angular项目的Igor Minar称,开发者社区已成长得太过庞大,以致GitHub如今疲于应付为大型项目提供合适的管理工具。Angular是存于GitHub上的一个大型项目,参与人员高达上万人。

开发者遍布世界各地。他们中太多人上GitHub,为上千万的开源项目做贡献。Minar认为GitHub就像一个义卖集市,你可以在里面找到任何 想要的代码,而且大多是免费的。“如果你需要什么东西,就去GitHub。你能在那儿找到想要的。”总之,开源时代拉开大幕。而最终,这意味着我们可以比 以前快得多地建设、塑造和改善我们的世界。”

文章来自IT经理网

关于阅读的几点小建议

2015年7月25日 1 条评论

如果你发现自己已经好长时间没读书,而且没有任何负罪感的时候,你就必须知道,你已经堕落了。不是说书本本身特了不起,而是读书这个行为意味着你没有完全认同于这个现世和现实,你还有追求,还在奋斗,你还有不满,你还在寻找另一种可能性,另一种生活方式。

 —— 北大教授陈平原
mp5308016_1425885723298_10
        莎翁曾说,生活里没有书籍,就好像没有阳光;智慧里没有书籍,就好像鸟儿没有翅膀。可见书籍对我们的重要性,而我们这个曾经以“万般皆下品,唯有读书高”闻名于世的民族,而今却是世界上购书量、读书量最少的国家。因为信息爆炸,我们养成了一种叫做“碎片化”、“浅阅读”的快餐式阅读方式和习惯,刷微博、看微信、各类电子书、有声阅读神器,看似大家的阅读量可能是在增加,但阅读质量却不一定能得到保证,本人觉得真正的阅读还是要系统化才好。
        关于如何阅读,可借鉴的好的方法有很多很多,在此,本人 根据平时的阅读经验,大致整理了关于如何读书的几点心得体会,和大家一起分享交流,算是抛砖引玉。

mp5308016_1425885723298_11

       第一,博取众长。
       古今中外,在某个领域有所建树的大家,几乎都懂得博取众长。比如美国诗人艾略特,他博识多才,广泛涉猎了文学、历史、宗教和东方文化等领域,最终获得了诺贝尔文学奖。民国时期的章太炎大学者,研究范围涉及小学、历史、哲学、政治、佛学、医学等等,著述甚丰。而我们平时看书,往往根据个人喜好和专业方向加以选择,比如本人,喜好文学,认为生物学物理学的书籍都是“天书”,看不懂;而喜欢自然科学的,可能又觉得诗歌小说都是胡编乱造,毫无实用价值。日久天长,我们的视野可能会受之影响,变得比较狭窄。记不清是谁说的了,“当以蜂为模范,博览群书而匠心独运,融化百花以成一味,皆有来历而别成面目。”大意是说,读书要像蜜蜂那样,采集百花之精华,才能酿造出清甜的蜂蜜。因此,我们阅读的时候,最好不要仅仅局限于自己的专业或者爱好,尽量博取众长,拓宽视野。加大自己的知识面,建立丰厚的知识积淀和洞察力、鉴别力。
mp5308016_1425885723298_12
        
         第二,选择性阅读。
        上文“博取众长”,我们谈到阅读的维度,而从数量来讲,书海浩瀚,即使我们穷其一生,也读不完所有的书籍,加之如今图书出版门槛低到无下限,许多书籍滥竽充数,面对眼花缭乱的图书市场,我们必须擦亮眼睛,选择一些适合自己阅读的书籍。至于如何选择,就因人而异了,比如本人比较喜欢购买人文历史、国学、经典名著、专业领域、工作相关的书籍,大多时候会比较注重哪家出版社和作者、以及翻译版本。除了书籍本身的选择,还有阅读载体的选择,文学、科普类的可以利用碎片化阅读电纸书,环保还是要提倡的,但对于专业性的需要系统化学习的书籍,个人建议最好阅读纸质读物,并认真做好读书笔记。
 1749085505281623300
         第三,精读和泛读。
         从阅读经验来看,我们知道,有的书只需染指,有的可囫囵吞枣,有的则要细嚼慢咽。就拿儒家经典之作《论语》来说,这部书微言大义,每一句话积淀的意义底蕴都非常深厚。比如“子曰,’凤鸟不至,河不出图,吾已矣夫‘。”(《论语。子函》)在这里,黄河出图,是传说伏羲时代,黄河中有龙马背负八卦图出现,预示圣君将要出世。如果我们不知道这里暗含的意思,只是从字面上去泛泛而论,那么就会差之毫厘谬以千里了。所以,对《论语》、《庄子》、《诗经》等这一类的国学经典之作,我们应该字斟句酌,且琢且磨。当然,对于专业领域的书籍,比如理工科,也当如此。
        如果只是为了扩充知识面,看一些科普、管理类等作品,则可效仿陶潜先生的“好读书,不求甚解”,进行泛读即可;如果觉得是对自己的工作学习大有裨益的书籍,我们则不妨写书札,做摘录和读书笔记等。
 U11794P1275DT20150113162201
        第四,消化和吸收。
        袁枚在“读书作文之法”上曾说过,教人读书,不但要“破其卷”,更要“取其神”。所谓“破卷取神”,无论我们只是走马观花地泛读或逐字逐句地精读,最终都要取其精华去其糟粕,加以思考和理解,及时写出读后感,进行归纳、总结、生成属于自己的东西来。可借助纸质笔记或在线笔记、博客等载体,将自己的读后感与人分享,在探讨、交流中,碰撞出更多的火花,共同促进成长和提高。
QQ截图20150725165240
         第五,化书本知识为性灵体悟。
        从实践来看,我们大致可以把读书概括为:学习、吸收、消化、总结、沉淀、提升(应用)等7个步骤,“腹有诗书气自华,最是书香能致远。”我觉得其中沉淀和提升是最为关键的环节。虽然对于看过的书,很多时候我们可能只记得一些吉光片羽,甚至会淡忘很多,但这丝毫不影响我们阅读的意义,比如我们小时候读《安徒生童话》《格林童话》,能够记起的故事大致就那么几个,但从中获得的对这个世界的善良和爱,却是我们成长路上永不磨灭的光芒。
         虽然读的书并不是很多,但书籍给予我的,并不在于识了多少字,读了多少书,重要的是,在这个过程中形成的:对知识的渴望、对未知的谦卑,对自然的敬畏,以及对生活的热爱。
         非常赞同杨澜的一个说法:也许读过的东西有一天会全部忘掉,但正是这个忘掉的过程,塑造了一个人的知识结构和举止修养。
         暂且罗列以上几点,欢迎补充。

 

分类: 非IT 标签:

盘点业内十大顶级开源ERP系统

2015年7月21日 1 条评论

OenERP

1.  OpenERP  :提供全面的ERP和CRM模块

最为开源ERP中的重量级产品,OpenERP对于大多数企业来说都提供了足够的可扩展性,同时还提供了销售管理、销售点管理、采购、库存管理、财务管理、项目管理、制造、人力资源等等功能模块。OpenERP开发的初衷是为了提供SAP、Microsoft Dynamics等、CRM、人力资源管理、销售点管理、项目管理等众多方面。

OpenERP使用Python开发,数据库采用开源的PostgreSQL,它的核心和所有模块都是开放源代码的,采用GNU GPL开源协议。你可以自由使用、修改和发布,只要你也保证开源即可。

任何有一定技术基础的专业人员都可以下载和安装OpenERP,每月的订阅费只要39美元,任何企业都可以承担得起。订阅费包括安装包、自动升级和bug修复、在线托管和2小时的技术支持。

 

Openbravo

2.  Openbravo :功能极大丰富,但近年发展势头呈下降趋势

Openbravo的产品理念基于强调业务灵活性,是一个基于web的可扩展ERP系统,可以在任何网页浏览器中运行,目前在各行业已经拥有超过6000家企业用户。
Openbravo ERP系统所包括的功能可实现生产管理、仓库管理、销售管理、财务管理。同时内置CRM(客户关系管理)和BI(商业智能)。

 

ERP5

3.  ERP5 :面向行业用户和政府部门关键任务的可靠性和成熟度

ERP5是一个基于web的全功能的ERP系统,采用了最新的软件技术开发,其面向文档的技术方法独特且富有创新性,其功能包括客户关系管理、生产管理、供应链管理、产品设计管理、财务管理、人力资源管理、电子商务等多个模块。

ERP5开源ERP项目的创始者和推动者——法国Nexedi公司在不同领域有效的展开了ERP5的应用,比如航空,服装,银行,医疗及政府机构。ERP5被应用于非洲,亚洲,欧洲,南美及北美的不同规模的企业。 ERP5的开源特质不仅削减了软件许可证费用, 并提供了完全自由的软件更新,而且可以根据客户的商业需求进行独立于销售方的系统定制。

值得注意的是,2013年11月Nexedi在上海外高桥自由贸易区投资成立了“纳宇软件科技”公司,成为第一个正式进入中国市场的Top10开源ERP厂商。

 

NewImage

4.  Apache OFBiz:全面的企业软件框架

OFBiz是Apache的顶级开源项目,提供了创建基于最新JavaEE/XML规范和技术标准,构建大中型企业级、跨平台、跨数据库、跨应用服务器的多层、分布式电子商务类Web应用系统的框架。

OFBiz不仅是一个产品及订单管理系统,它还提供了一整套功能,涵盖企业所需的方方面面。除了管理产品及其相关内容(如电子商店)外,Apache OFBiz还能履行许多其它重要角色,包括客户关系管理、项目进度、计费管理、人力资源管理以及订单管理。

compiere
5.  Compiere:面向中小企业的ERP&CRM“云ERP”

Compiere的开发者Consona自夸Compiere是当今最实施成本最低、适用性最强和最现代化的ERP系统。
通过Compiere,你只需短短几小时就可以使用申购-采购-发票-付款、报价-订单-发票-收款、产品与定价、资产管理、客户关系、供应商关系、员工关系、财务管理、经营业绩分析等强大功能了。

值得注意的是,Compiere可以托管在亚马逊EC2云端运行,这也是首个支持云端部署的ERP系统。

 

webERP

6.  webERP:完全基于web的中小企业财务&ERP系统

顾名思义,WebERP是完全在线运行的ERP系统,可以在包括IE、火狐、Chrome等各种浏览器中运行。WebERP的开发者表示WebERP最适合的行业是制造业和经销商,零售业使用WebERP需要与第三方POS软件集成。

WebERP是一套ERP与财务管理软件,它支持多公司、多币种、多税种、多库存管理;权限角色管理便于员工、客户和供应商使用;订单管理支持发 票的跟踪与管理;销售费用管理及强大的销售分析功能,为管理者提供决策支持;提供全面的财务特性包括总帐、应收/应付帐目等,且拥有简单易于操作的Web 界面。

中小企业会发现WebERP非常简单高效,但对于大型企业来说WebERP的功能还不够强大。WebERP目前可以从Sourceforge下载。

 

opentaps
7.  opentaps:电商和零售的最爱

Opentaps全面集成了ERP和CRM套件功能,支持电商、库存管理、供应链管理和财务管理。此外Opentaps还提供可靠的业务报告和商业智能系统,而且还原生支持移动设备访问。

OpenTaps是在OFBiz基础上开发的开源的ERP及CRM企业级应用平台,其包含一个完整的应用程序套件,可与移动、商业集成。它支持客户关系管理、订单管理、存活和仓库、购买和支持链自动化、在线和卖点存储、帐户和财务管理等。

OpenTaps基于Java开发,支持大部分主流关系型数据,包括MySQL、PostgreSQL、Oracle、Sybase与Microsoft SQL Server等。 Opentaps的价格为600美元/用户,最低起售为10用户版本。

 

dolibarr

8.  Dolibarr:用户社区活跃的免费开源ERP系统

Dolibarr的特点是拥有一个活跃的用户社区,其商业模式类似苹果iTunes应用商店:Dolibarr系统本身完全免费,但是一些流行的模块或插件如项目管理、数字文档等则需要用户从从Dolibarr应用商店下载。

 

aDempiere
9.  ADempiere:回归纯粹的开源社区模式,近年发展势头呈现上升态势,值得关注

2006年,一些Compiere ERP的开发者不满公司主导的商业模式,另起炉灶成立了ADempiere。

ADempiere是一个由开源社区所领导的ERP 项目。由于Compiere是由公司为主导,虽然开放源码,但是在语言本地化以及文件数据都需要透过商业服务付费取得。而 ADempiere 的整个项目(包括源码、说明文件)都以开放的方式发布。

PostBooks

10.  PostBooks:商业ERP的孪生兄弟

PostBooks是xTuple公司推出的一套开源ERP软件,简单易用,适合各种规模企业,尤其是中小企业。Postbooks最初是为制造业编写的应用,但随着时间推移逐渐增加了CRM和财务等模块。PostBooks是xTuple商业ERP产品的开源版本,xTuple的多个商业产品都与开源版本共享相同的源码,例如xTuple Standard、xTuple Manufacturing和xTuple Enterprise。

Postbooks的可视化客户端可运行于Linux、MAC和Windows上(基于Qt组件库),使用的是PostgreSQL数据库,支持国际化。 PostBooks包含了会计、销售、CRM、购买、产品定义、清单、OpenRPT(一个强大的开源报告撰写工具)等模块。

文章出自http://www.ctocio.com/hotnews/17865.html

分类: Apache, OpenSolaris 标签: ,

开发者成功使用机器学习的十大诀窍

2015年7月21日 没有评论

在提供发现埋藏数据深层的模式的能力上,机器学习有着潜在的能力使得应用程序更加的强大并且更能响应用户的需求。精心调校好的算法能够从巨大的并且互不相同的数据源中提取价值,同时没有人类思考和分析的限制。对于开发者而言,机器学习为应用业务的关键分析提供了希望,从而实现从改善客户体验到提供产品推荐上升至超个性化内容服务的任何应用程序。

机器学习

想要在应用程序中成功地融入机器学习的开发者,需要注意以下的一些关键要点:

1. 算法使用的数据越多,它的精度会更加准确,所以如果可能要尽量避免抽样。机器学习理论在预测误差上有着非常直观的描述。简而言之,在机器学习模型和最优预测(在理论上达到最佳可能的误差)之间的预测误差的差距可以被分解为三个部分:

  • 由于没有找到正确函数形式的模型的误差
  • 由于没有找到最佳参数的模型的误差
  • 由于没用使用足够数据的模型的误差

如果训练集有限,它可能无法支撑解决这个问题所需的模型复杂性。统计学的基本规律告诉我们,如果我们可以的话,应该利用所有的数据而不是抽样。

2. 对给定的问题选择效果最好的机器学习算法是决定成败的关键。例如,梯度提升树(GBT)是一个非常受欢迎的监督学习算法,由于其精度而被业内开发人员广泛使用。然而,尽管其高度受欢迎,我们也不能盲目的把这种算法应用于任何问题上。相反,我们使用的算法应该是能够最佳地拟合数据特征同时能够保证精度的算法。

为了证明这个观点,尝试做这样一个实验,在数据集 the popular text categorization dataset rcv1上测试GBT算法和线性支持向量机(SVM)算法,并比较两者的精度。我们观察到在这个问题上,就错误率而言,线性SVM要优于GBT算法。这是因为在文本领域当中,数据通常是高维的。一个线性分类器能够在N-1维当中完美的分离出N个样本,所以,一个样本模型在这种数据上通常表现的更好。此外,模型越简单,通过利用有限的训练样本来避免过拟合的方式学习参数,并且提供一个精确的模型,产生的问题也会随之越少。

另一方面,GBT是高度非线性的并且更加强大,但是在这种环境中却更难学习并且更容易发生过拟合,往往结果精度也较低。

3. 为了得到一个更好的模型,必须选择最佳的的算法和相关的参数。这对于非数据科学家而言可能不容易。现代的机器学习算法有许多的参数可以调整。例如,对于流行的GBT算法单独的就有十二个参数可以设置,其中包括如何控制树的大小,学习率,行或列的采样方法,损失函数,正则化选项等等。一个特有的项目需要在给定的数据集上为每一个参数找到其最优值并且达到最精准的精度,这确实不是一件容易的事。但是为了得到最佳的结果,数据科学家需要训练大量的模型,而直觉和经验会帮助他们根据交叉验证的得分,然后决定使用什么参数再次尝试。

4. 机器学习模型会随着好的数据而变得更好,错误的数据收集和数据处理会降低你建立预测和归纳的机器学习模型的能力。根据经验,建议仔细审查与主题相关的数据,从而深入了解数据和幕后数据的生成过程。通常这个过程可以识别与记录、特征、值或采样相关的数据质量问题。

5. 理解数据特征并改进它们(通过创造新的特征或者去掉某个特征)对预测能力有着高度的影响。机器学习的一个基本任务就是找到能够被机器学习算法充分利用的丰富特征空间来替代原始数据。例如,特征转换是一种流行的方法,可以通过在原始数据的基础上使用数学上的转换提取新的特征来实现。最后的特征空间(也就是最后用来描述数据的特征)要能更好的捕获数据的多复杂性(如非线性和多种特征之间的相互作用),这对于成功的学习过程至关重要。

6. 在应用中,选择合适的灵感来自商业价值的目标函数/损失函数对于最后的成功至关重要。几乎所有的机器学习算法最后都被当成是一种优化问题。根据业务的性质,合理设置或调整优化的目标函数,是机器学习成功的关键。

以支持向量机为例,通过假设所有错误类型的权重相等,对一个二分类问题的泛化误差进行了优化。这对损失敏感的问题并不合适,如故障检测,其中某些类型的错误比重可能比其它类型的要高。在这种情况下,建议通过在特定的错误类型上,增加更多的惩罚来解释它们的权重,从而调整SVM的损失函数。

7. 确保正确地处理训练数据和测试数据,如此当在生产中部署该模型时,测试数据能够模拟输入数据。例如,我们可以看到,这对于时间依赖性数据是多么的重要。在这种情况下,使用标准的交叉验证方法进行训练,调整,那么测试模型的结果可能会有偏差,甚至会不准确。这是因为在实施平台上它不能准确的模拟输入数据的性质。为了纠正这一点,在部署时我们必须仿照模型来部署使用。我们应该使用一个基于时间的交叉验证,用时间较新的数据来验证训练模型。

8.  部署前理解模型的泛化误差。泛化误差衡量模型在未知数据上的性能好坏。因为一个模型在训练数据上的性能好并不意味着它在未知的数据上的表现也好。一个精心设计的模拟实际部署使用的模型评估过程,是估计模型泛化误差所需要的。

一不留心就很容易违反交叉验证的规则,并且也没有一种显而易见的方法来表现交叉验证的非正确性,通常在你试图寻找快捷方式计算时发生。在任何模型部署之前,有必要仔细注意交叉验证的正确性,以获得部署性能的科学评估。

9. 知道如何处理非结构化和半结构化数据,如文本、时间序列、空间、图形或者图像数据。大多数机器学习算法在处理特征空间中的数据时,一个特征集代表一个对象,特征集的每一个元素都描述对象的一个特点。在实际当中,数据引进时并不是这种格式化的形式,往往来自于最原始的格式,并且最后都必须被改造成机器学习算法能够识别的理想格式。比如,我们必须知道如何使用各种计算机视觉技术从图像中提取特征或者如何将自然语言处理技术应用于影片文本。

10. 学会将商业问题转换成机器学习算法。一些重要的商业问题,比如欺诈检测、产品推荐、广告精准投放,都有“标准”的机器学习表达形式并且在实践当中取得了合理的成就。即使对于这些众所周知的问题,也还有鲜为人知但功能更强大的表达形式,从而带来更高的预测精度。对于一般在博客和论坛中讨论的小实例的商业问题,适当的机器学习方法则不太明显。

如果你是一个开发者,学习这十个通往成功的诀窍可能似乎是一个艰难的任务,但是不要气馁。事实上,开发者不是数据科学家。认为开发人员可以充分利用所有的机学习工具是不公平的。但是这并不意味着开发人员没有机会去学习一些有水准的数据科学从而改进他们的应用。随着适当的企业解决方案和自动化程度的提高,开发人员可以做模型构建到实施部署的一切事情,使用机器学习最佳实践来保持高精度。

自动化是在应用程序中扩展机器学习的关键。即使你能够供得起一批小的数据科学家团队和开发者携手合作,也没有足够的人才。像Skytree的AutoModel(自动化模型)能够帮助开发者自动地确定最佳的参数并且使得算法得到最大的模型精度。一个易于使用的接口可以引导开发人员通过训练加工,调整并且测试模型来防止统计上的错误。

自动化机器学习过程,有许多方式,包括数据科学家或开发者的人工智能原理,允许算法去思考,学习并且承受更多的建模重任。也就是说,认为数据科学家能够从机器学习中解耦是错误的,特别是在关键任务模型上。谨防这种能够简单使用机器学习功能的承诺,即能够在不需要正确复杂的思考下或者可扩展的应用技术下就使用机器学习——这通常并不会得到高预测精度和机器学习提供的高商业价值结果。更糟糕的是,在应用程序中使用不好的模型实际上可能会适得其反,并迅速在其用户之间建立不信任的产品或服务。

文章来自CSDN 英文原文: 10 keys to successful machine learning for developers (译者/刘帝伟 审校/刘翔宇、朱正贵 责编/周建丁)

作者简介:Alexander Gray,Skytree首席技术官,佐治亚理工学院计算机学院副教授,主要致力于大规模数据集的机器学习算法技术研发,1993年开始在NASA喷气推进实验室机器学习系统小组从事大规模科学数据的工作。

 

分类: Data Center 标签: