visit online pharmacy and buy norvasc online, after that buy cheap wellbutrin online no prescription, and cheapest valtrex no prescription. Get your discount in pharmacy when buy arimidex online, and buy lasix without prescription. Make sure your are secure when you buy neurontin online without prescription, and buying cheap retin-a no prescription online. Best place to order flagyl online without prescription, and order cheap zovirax online no prescription, and order cheap zovirax no prescription. Go to the best pharmacy online to buy baclofen online, and purchase clomid online with no prescription, and buy diflucan without a prescription online, and purchase with no prescription premarin 15 mg online. Get a discount when buy doxycycline online no prescription, and buy cheap acyclovir online no prescription
buy online retin-a overnight without rx, and buy cheap amoxil purchased online without prescription, and buying cheap premarin with free fedex overnight, and buying cheap diflucan (fluconazole) cod saturday delivery, and buy online taking too much synthroid medication, and cheap pharmacy clomid twin, and purchase with no prescription order zovirax (acyclovir) creditcard, and order online buy generic wellbutrin cheap no membership, and cheap online will generic available valtrex in toronto, and cheap pharmacy order cheap order propecia online, and order online no prescription hydrochlorothiazide online pharmacy, and pharmacy cheapest accutane ultrum, and pharmacy cheapest cheap doxycycline without rx, and ordering online where to buy norvasc, and buy cheapest prozac for sale cod, and buy online where can i buy flagyl online, and buying cheap acyclovir xr purchase online cheap, and purchase with no prescription forum paxil, and ordering online best buy lipitor, and buy cheapest arimidex buy without a prescription, and pharmacy cheapest bactrim overnight delivery cheap, and generic medications buy neurontin online no membership, and order cheap baclofen side effects, and order online price zithromax, and pharmacy cheapest where to buy lasix without a prescription, and

数学的深渊,你在哪里?

2017年8月8日 没有评论

喜欢数学的同学,可收藏 :)

分类: 数学 标签:

在开源项目中如何学习的主题交流

2017年8月2日 没有评论

2017年7月31日,周一晚上8点30分。Allen带来了主题为《如何在开源项目中学到更多》的交流。以下是主持人如梦初醒整理的问答实录,记录了作者和读者问答的时刻。

内容提要:

  • 开源软件是不是不能卖钱?
  • 维基百科和谷歌好用是好用,但我的经验是,只有你明确了解到一个关键词,去按图索骥的效果才比较好。请问你在搜索的提取关键词上,有什么心得吗?
  • 很多问题在官方文档上有写。可问题在于,有些写得不那么明显的问题,是不能直接找到答案的。还有一些则是属于知识与知识之间暗的部分,新人就是在这里有所缺失,才令他无法直接从官方文档中提取到想要的信息。对这方面的问题,如何通过提问的方式让有经验的人解答?这里的要点是什么?
  • 为什么灰狐网站上可以存在大量高质量的文档,如何收集整理的?
  • 开源软件如何赚钱,以及避免被别人无偿拿走赚钱,心态该如何调整?
  • 如何完整的学习一个开源项目,例如docker,并把它用到工作中?
  • 你参加过哪些比较好的开源会议?一般是在哪里得知这些消息的?
  • 如果要从事开源项目的话,一个人的精力毕竟是有限的,那么如何最大程度吸引其他人也参与到自己的开源项目里?又如何与这些志同道合的开发者建立良好的关系?
  • 把公司项目来源会不会有法律上面问题?
  • 请问开源的界限在哪里?比如我认为一个开源项目中某一个功能实现的思路很好,就在我自己的项目中按这种思路实现了,那这样是否必须在我的项目中注明引用?

问:开源软件是不是不能卖钱?

答:需要根据不同的开源许可协议,你可以在开源软件的基础上集成分发一个商业版本进行销售。如:大数据Hadoop和云平台OpenStack都有多个商业分发版。都在卖钱,而且这些公司活得很好。目前,Apache v2的许可协议商业非常友好。


问:维基百科和谷歌好用是好用,但我的经验是,只有你明确了解到一个关键词,去按图索骥的效果才比较好。请问你在搜索的提取关键词上,有什么心得吗?

答:我大致的方法:使用多个搜索引擎,对比搜索结果,然后整合维基、Twitter、知乎、开源项目文档等信息,并使用wiki和teambition等很多工具帮助我管理相关信息。我个人体会,从我的角度来看知乎可作为维基百科的深度补充。做技术的需要有身翻墙本领。

https://github.com/getlantern/lantern, 蓝灯,可用。


问:很多问题在官方文档上有写。可问题在于,有些写得不那么明显的问题,是不能直接找到答案的。还有一些则是属于知识与知识之间暗的部分,新人就是在这里有所缺失,才令他无法直接从官方文档中提取到想要的信息。如何通过提问的方式让有经验的人解答?这里的要点是什么?

答:我个人体会,首先看官方文档,在这个基础上,再搜索一下有没有类似的问题已经被其它人提及并得以解决。若没有,就自己先动手实践。其实,很多常见问题可通过不停实践加以解决。另外,在选型开源项目时,官方的文档也是一个重要的选型指标。

建议:新人,大家刚接触一个新事物新东西,都会是这个状态。多看文档和多实践、先跳过新人这个阶段。


问:为什么灰狐网站上可以存在大量高质量的文档,如何收集整理的?

答:我收集整理这些文档,有10几年了。当时,只是为了方便自己查找,后来也给大家带来很多方便,就不停做这件事,现在有400多个G的文档内容。举个例子:很多网站下一个ppt,需要注册、积分等,灰狐网站上的所有信息,全部可以直接访问和下载。我会注意版权方面的问题,收集的都是自由、开放的资源。


问:开源软件如何赚钱,以及避免被别人无偿拿走赚钱,心态该如何调整?

答:开源了,就保持开放心态。有人用、有人clone分支、拿去赚钱,你应该感到开心。这个时代变了,好的开源软件太多太多,有人看上你的开源项目,你就开心吧。我经常给自己和团队成员讲,有人关注和使用你的开源软件,是给你脸、给面子。想想看,一个开源软件无人问津是痛苦的一件事,就像一个大姑娘走出去没人搭理一样。

开源软件如何赚钱,学习Redhat、OpenStack和Hadoop商业公司的做法。在开源软件的基础上做商业版、企业版,深耕领域,做好服务。若个人,就做相关服务、插件、扩展、皮肤等。如:网站Theme就是一个不错的商业模式。最近很好的王者荣耀卖皮肤的商业模式,你可借鉴,给开源项目更好用的交互界面和样式等。


问:如何完整的学习一个开源项目,例如docker,并把它用到工作中?

答:开源项目最好的学习过程就是把它用起来,因为在用的过程中能发现很多问题,公司现在没用,就自己先实验。

我个人的学习一个开源项目路径:先拉通看遍文档、安装环境、读源代码、做笔记、找一个应用方向做实践;推动自己所在公司采用此项目,进行更大规模的实践。若自己时间充裕,可参与项目,补充文档、中文翻译、Bug提交等等。


问:你参加过哪些比较好的开源会议?一般是在哪里得知这些消息的?

答:因为我在成都,若成都有相关的开源会议,我基本都会去参加。因为喜欢,多交些朋友。北上广,开源会议很多,最近刚结束的OpenStack中国就非常棒,估计群里有人刚参加过。

信息来源:infoq、开源中国、微信公众号(搜自己感兴趣的开源项目,有关活动它都会推)等。


问:如果要从事开源项目的话,一个人的精力毕竟是有限的,那么如何最大程度吸引其他人也参与到自己的开源项目里?又如何与这些志同道合的开发者建立良好的关系?

答:首先,你的项目有好的发展方向,先搜索一遍开源圈,不要重复发明轮子。你也可考虑在一个不错的开源项目基础上做扩展和增强,不用从零做起。从零做起,时间周期很长。开源项目很讲究社区运营,这里有一些参考:OpenStack,Apache,Python等基金会运做方式。个人建议,先让自己参与一个存在的开源项目里,做贡献,最后成为commiter。然后熟悉整个过程后,再启动自己的开源项目,这样项目容易成功。

若你做Java,想努力成为一个很不错的开发者,可参与到Apache基金会的一个项目,有近100个Java项目,可选择一个,从bug提交、文档、测试环节入手。不要从Apache热门项目入手,可先从一个稍微冷一点的项目入手。

把这些开发流程和社区运营理顺后再考虑。另外,还有要根据自己特点和优势,若编码很厉害,就努力成为已有项目的开发者也是不错的发展方式,不一定一定要自己启动一个开源项目。开源项目要成功运营也很重要,而你擅长编码就做开发者。


问:把公司项目来源会不会有法律上面问题?

答:若公司内部项目都是自己公司的就不存在法律问题。若有其他公司的版权就存在,这也是当时OpenSolaris迟迟开源的一个重要原因。公司若开源,选择Apache v2许可不错,它商业很友好。


问:请问开源的界限在哪里?比如我认为一个开源项目中某一个功能实现的思路很好,就在我自己的项目中按这种思路实现了,那这样是否必须在我的项目中注明引用?

答:若有代码引用,就注明遵循许可协议。若是借鉴思路,为表感谢,可在项目中写明从何处借鉴。一个基本思路:就是尊重开发者和原作者。相互尊重、彼此信任,能更好的推动开源项目发展。多泡泡Debian,OpenStack,Apache,GNU等社区,多感受下。

如何在开源项目中学到更多

2017年8月2日 没有评论

当前,开源、开放、协作、分享,已成业界共识,开源软件成为软件交付的主要方式。互联网巨头们都在各自领域打造自己的开源生态系统,Google的Android已经是全球最大智能手机生态系统。它的Kubernetes、TensorFlow也有望成为容器时代和机器学习的Android。Facebook、Amazon、Microsoft、国内的互联网巨头也紧随其后,纷纷布局自己的开源生态系统。这股潮流还将继续下去,对于我们大多数人,如何跟上脚步也就变得异常重要,本期话题就试着从以下几个方面与大家进行探讨:

一、懂得协作:维基百科, Apache, GNU/Linux, OpenStack 基金会的成功经验

 

维基百科大家应该都比较熟悉,经常查资料,它也是我每天用得最多的服务。

维基百科是一个现象,是互联网大规模协作的先驱。

维基百科证实了大规模协作是如何改变一切的,也衍生出一种新的经济形态:维基经济学,它对商业社区产生深远影响。

维基经济学是一门新的科学和艺术:它以四个新法则为基础:开放、对等、共享、全球运作。

最近非常火的共享经济,可以说是维基经济学更大规模的商业实践,GitHub正通过协作方式汇集全球程序员的智慧。

GNU/Linux

自由、开源的代名词,也是有史以来最成功、影响最深远的开源生态系统。

大家平时可关注和使用Linux两大类发行版:Debian/Ubuntu和Redhat/CentOS。

我个人最喜欢的是Debian,因为它的社群契约和愿景,庞大的生态系统(超过51000个软件包),还因为它的标识。

大家可想想为什么是Debian和炉石传说? ​​​​

 因为生命轮回 :)

Apache基金会

历史悠久, 因为Apache Web Server而闻名,曾是全球最广泛使用的Web Server。尽管有Nginx和Microsoft的更多选择,但Apache依旧是Web普适性的代表。

https://news.netcraft.com/archives/category/web-server-survey/

ps: Google的服务器数量有多少?这一直是个谜。

Doug Cutting 在 1999编写了 Lucene,2001加入Apache Jakarta项目,2005成为Apache顶级项目。 Apache Solr 2010加入Lucene子项目,这个一个著名开源搜索引擎项目。2006,Hadoop从Apache Nutch(lucene子项目)启动并开启Hadoop大数据时代。Yahoo在这两个项目扮演重要角色,是最大的贡献者,可惜现在没有Yahoo了。在过去的这10年,开源搜索引擎和大数据在全球范围内大规模部署和运营,并取得巨大成功。

现在围绕Hadoop大数据生态的Apache开源项目有几十个,非常的丰富。几乎可以这样说,你做大数据,一定绕不过Apache项目。

大家可关注两个主要Hadoop发行版,快速体验和了解大数据生态系统。

Hortonworks HDP和Cloudera CDH

OpenStack基金会

2010开源,2017年几乎成为这个星球上发展最快、最大规模的开源项目,仅次于Linux的第二大开源社区。我们都知道云平台在整个互联网和IT工业的重要性,它是基石。OpenStack目前是开源云平台的事实标准,它的发展和想象空间无比巨大。最近与Kubernetes的深度整合,将开启一个全新的时代。

(图片来自:http://www.easystack.cn/escontainer/)

这几个基金会都发展的异常成功,我们需要多想想和仔细思考,如何将自己的职业、工作与开源生态更好的规划下,

下面是一些参考和建议:

《大教堂与集市》是开源运动的《圣经》,颠覆了传统的软件开发思路,影响了整个软件开发领域。 《Apache基金会的运营之道》企业已把自己的开源项目提交Apache并成功孵化升级为顶级项目作为自身开源战略的最佳路线。

一个很核心的原则:ASF不允许企业直接参与Apache项目管理或相关的治理活动。ASF厂商中立,参与仅限于个人,不参杂任何的关系和雇佣状态。

二、学习编程:C++, Java, Python

 

对语言的选择,我们没有偏见,选择适合自己的就是最好的。

我倾向C++、Java、Python三种语言,其实,我对 Fortran、Lisp、Erlang也独有情钟,对它们充满好奇、敬畏与热爱 :)

先说说为什么选择C++、Java、Python这三种语言,因为它们最具代表性。

ps:我们把C/C++放在一起(常常一同使用),所以这三大类语言是目前编程语言前三甲,也是Google的三大官方语言。选择它们,有保障。

此外,还有很多语言值得关注,刚才说的C++、Java、Python可以理解为服务端语言。那平时我们用得最多的App,大家可多多关注和实践Swift、Kotlin,它们是iOS和Android的官方语言,代表着未来。同时,它们有趣,也很有价值。

对于Java,我更多想表达的是JVM生态:Clojure、Scala、Kotlin、Java …

关于语言和相关开源项目,可以更多关注GitHub上的 enter image description here

这是优秀、活跃开源项目的大本营:https://github.com/sindresorhus/awesome 非常非常多,够你学习一辈子的。

C/C++多开发系统支撑软件和编程语言,如:数据库:MySQL、MongoDB;编译器;GCC、LLVM;人工智能:TensorFlow、MXNet;编程语言虚拟机:Swift、OpenJDK HotSpot、HHVM

http://wiki.huihoo.com/wiki/C%2B%2B_ecosystem

Java/JVM撑起了大数据整个基础设施,可关注主要发行版:Hortonworks(HDP)、Cloudera(CDP) 它们都融合Spark。

http://wiki.huihoo.com/wiki/Java_ecosystem

Python是数据分析的首选语言,也是系统粘合剂。

Python完成端到端的开发,从云端到万物互联的终端,Python是全栈开发语言。

Python不仅在云平台(OpenStack)、数据分析站稳了脚,也在物联网全栈开发找到了另一片天地,Python也是物联网系统的胶水语言。

参考:

Python 物联网全栈开发经验教训共享

http://wiki.huihoo.com/wiki/Python_ecosystem

此外,因为JVM和Spark,因为静态类型和函数式编程,Scala具有成为数据科学主导语言的潜力。所以,Python之外,Scala你应该更多关注。

IBM在Spark的发展思路是将Spark视为数据分析的操作系统,Spark发行版可多关注:Databricks。 GrowingIO 技术栈是 Scala, Play, Spark, Kafka, HBase, Elasticsearch

这里也产生了一种商业模式:Apache开源项目的分发版,当然这里对团队和开发者有极高的要求。Apache的每一个顶级项目,都可能通过再分发一个商业版本而获得成功。Hortonworks和Cloudera就是这样的成功代表,OpenStack的商业版本也成就了数家公司。

我自己的机器学习和数据挖掘是从Scikit-learn和Weka入手的,我现在虽没有类似GPU和FPGA的设备,做不了Google、Facebook那样的实验,但我可以先从理论和算法入手,Scikit-learn和Weka提供了很便捷的方式。另外Deeplearning4j可多关注,因为JVM是最大的开发者阵营,而DL4J为JVM生态提供了深度学习解决方案,能快速的融合这个生态。而且DL4J的文档也非常棒,可作为深度学习教科书。

最近我们发起了 Deep learning on HDP 开源项目,它是在HDP大数据平台上开发、部署、运营深度学习基础设施,希望更好融合深度学习和大数据。 ps: 项目思路也适合Cloudera(CDP)等其它Hadoop发行版。

我们基于Apache、OpenStack、GNU/Linux都有很多的实践。

之前一次电商创业项目,我们基于Apache OFBiz和OpenStack,打造了一个全开放的O2O电商平台,网上商城 + 20间实体店。

这是当时的一份技术分享的资料:百货购OFBiz实践,供大家参考。

最后你可关注我们现在努力推动的三个开源项目(MED),也欢迎大家参与,所有项目都开源开放:

M3 营销:市场营销和用户增长:增长用户、增加收入。

E3 应用:企业应用和电商平台:理顺企业业务,沉淀业务数据。

D3 数据:数据分析和机器学习:洞悉数据,增强智能。

做互联网和IT行业,我们从事的技术工作,主要要解决的就是算法、数据、算力三个核心问题。

算法,这个比较偏重个人,涉及编程和数学等知识和技能,自己可通过长时间的积累和实践逐渐丰富和提升。

数据,在大厂这个问题能很好解决,若没在,就需要自己到处收集数据和爬数据。多添置些硬件、一有空就开启爬虫、收集开放数据。通过这些数据去实践数据挖掘、机器学习等实验。

算力,有了编程语言、算法、数据等软资产外,我们还需要更多更强的硬件设备。在大厂这个问题也迎刃而解,若是个人和小团队,就自己Diy机器、攒设备了。

同时,我们发起了一个开源项目:Super Compute Project

本项目意在将超级计算平民化,程序员、初创团队都可拥有自己的小型计算集群和桌面超级计算机,拥有自己的算力。

你可尝试搭建一个树莓派超级计算机,子弹(钱)多些的,可搭建一个Mac Mini集群(堆叠个10台Mini,家里的电源应该可以支撑)。

钱再宽裕的,就DIy自己的GPU、FPGA集群。

一些技术参考,大家可访问灰狐百科资源索引。

https://github.com/huihoo/wiki

三、学会运营:社交网络、增长黑客、数据挖掘

 

社交网络、邮件营销、磁力营销等病毒营销相关概念,连同搜索引擎优化、众包、协作等,共同构成了“黑客增长术”的概念。

是否懂得运用黑客增长术和如何研发产品服务将同等重要。

图片来自:https://www.biaodianfu.com/growth-hacking.html

类似这样的定义还有很多,简单讲增长黑客是个跨界人才。是游走在产品、运营、研发、设计、用研等环节间的多面手,是介于极客、发明家和广告狂人之间的角色,是个复合型人才。

增长黑客要干什么事?增长目标给出了答案:

(图片来自:slidemodel.com)

AARRR转化漏斗模型:Acquisition(获取用户)、Activation(激发活跃)、Retention(提高留存)、Revenue(增加收入)、Referral(传播推荐)

大家可依照这5个环节,进行一次次实操,逐渐形成自己的最佳实践,创建属于自己的增长模型。

有了这些模型目标,我们需要借助一些工具帮助我们达成目标。

因为一切用数据说话,所以增长黑客最核心的就是数据分析工具。

工具有很多,这里推荐新媒体运营的“增长黑客”数据分析工具箱

知乎上数据分析工具的讨论:

https://www.zhihu.com/topic/19569775/hot

从我个人的角度来看,NLP是数据挖掘最直接和广泛的应用范畴,也是你进入人工智能领域一个非常好的切入点,它所需要的各类成本也相对较低(如硬件等),而且我们每天接触最多的也是各种媒体内容,当然现在视频内容也非常多,所以计算机视觉你也可更多关注。

参考:《社交网站的数据挖掘与分析》

有了目标和工具,接下来就是开干。我推荐的几个数据分析方向,供大家参考:

英雄联盟的数据分析

除了自己使用和搭建数据分析环境外,也可借助外部的SaaS服务快速切入增长黑客领域。

  • GrowingIO为产品和运营打造的数据分析服务。
  • 网易七鱼 以云客服为核心,较为传统。

四、模仿大牛:自由软件和开源圈是技术大牛们出没的地方, GitHub,技术会议

GitHub和各类开源基金会聚焦了众多的技术大牛,去找找他们,技术会议让你有机会近距离和大牛交流。

知乎这几年发展迅猛,大量牛人、大咖纷纷入驻,直接关注他们。知乎的话题质量很高,是对维基百科的深度补充。

我关注的部分技术牛人,供参考:

另外,有关增长黑客,知乎上可关注他们:

五、享受人生:自由、开放、协作、分享

 

自由、开放、协作、分享这是灰狐的发展理念,这个理念很多年前就作为我们行事的准则,如何更好达成,我们也在不断实践和探索中。

自由

现实世界,自由不易。对我们来讲,获得自由意味着更多。

我们希望自己和更多人都能过上自由的生活。

虽然,现实很残酷,但理想不变。

我们会不断践行各种自由形态下的自由工作、自由学习、自由生活。

开放

开放心态、开放业务和基础架构、抱团取暖。大家想想看,若没有类似OpenStack云平台和Hadoop大数据这样的开源平台,我们普通人和一般公司是很难切入这些领域的,单独一家公司也是几乎不可能开发出这样规模的软件堆栈的。

对人和事,我们都需要保持开放包容的心态,不轻易否定一个人和一件事,去融合平衡好周围的人和事。

这里有我6年前写得一篇博客《从开源到开放,新的商业模式》供大家参考。

协作

这是个协作的时代,我们崇拜天才、英雄,但现在已不再是一个人的时代了。 所有的商业和组织都在寻找高效的协作方式,因为协作正在改变世界。

分享

生命即为分享 Life is for sharing 我们相信人的天性是乐于分享的 – Share and Enjoy!

共享经济其实也可以简单理解为一种分享经济。

好了,就先分享到这,谢谢大家。接下来,期待与你的更多交流与协作。

JVM世界,它们可更多关注

2016年4月15日 没有评论

最近拟了下要使用的语言和框架,主要以Java和Scala为核心,供大家参考。

Image Image Image Image

Image ImageImageImage

http://openjdk.java.net/ JVM世界的核心语言 OpenJDK @ 灰狐百科

http://scala-lang.org/ 面向对象的函数式编程 Scala @ 灰狐百科

https://github.com/akka/akka 高并发、容错、事件驱动基础设施 Akka @ 灰狐百科

https://github.com/playframework/playframework Java & Scala Web框架 Play @ 灰狐百科

http://spark.apache.org/ 大数据、快数据 Spark @ 灰狐百科

https://github.com/lagom/lagom 微服务框架

https://github.com/slick/slick  函数关系型映射

https://github.com/typesafehub/activator  Scala, Akka, Play 工具

此外,作为JVM世界的Lisp方言,大家重点关注Clojure。

http://wiki.huihoo.com/wiki/Clojure 了解下。

后端数据存储、数据库强力推荐 Apache Cassandra

分类: Java 标签:

2016年,这50家创业公司将真正改变世界

2016年1月13日 没有评论

2016年最有前景的50家美国创业企业,主要集中在技术领域和互联网领域,你值得收藏。

来源:猎云网

2016-1-25

1、Docker:创造了一个全新的行业

2、Cloudera:企业最爱的大数据软件

3、Nutanix:颠覆了人们购买数据中心硬件的方式

4、Docusign:取代了纸质签名

5、Mirantis:云操作系统巨头

6、Zuora:云计算计费服务产品领导者

7、Tenable:打破融资记录

8、Okta:云计算时代密码与安全服务领导者

9、Slack:迄今为止成长最快的企业应用

10、GitHub:软件开发者的必备网站

11、Databricks:十年来最重要项目的守护者

12、Checkmarx:帮助开发人员撰写更加安全稳定的应用

13、Illumio:最令人放心的数据保护专家

14、MuleSoft:干掉了大块头

15、Blue Jeans Network:让在线视频会议更加简单

16、Qualtrics:商业云调查平台

17、Insidesales:销售人员的预测引擎

18、Tanium:黑客发起攻击时第一时间发出警报

19、Optimizely:让优化服务更简单

20、Xamarin:快速简单制作企业移动应用

21、CloudFlare:互联网的“数字保镖”

22、Apttus:简化销售报价流程

23、Stripe:主宰在线支付的隐形公司

24、Gainsight:让企业更了解客户

25、Adaptive Insights:取代Excel电子表格

2016-26-50

26、DigitalOcean:与Amazon Web Services分庭抗礼

27、Tidemark:让海量数据条理清晰

28、Sprinklr:帮助企业管理社交媒体

29、AppAnnie:把应用分析提升到一个全新的水平

30、Tintri:为大企业提供更快的数据存储解决方案

31、Udacity:只要有决心,人人都可以成为程序员

32、Bracket:帮助企业管理多云端平台

33、Qumulo:让大数据尽在掌握之中

34、Hedvig:Facebook数据开发者的数据存储公司

35、Cumulus Networks:改变计算机网络行业

36、CrowdStrile:提供更智能的企业网络安全

37、6sense:精准预测谁会买你的产品

38、Confluent:实时的大数据决策

39、Interana:用Facebook管理好友的方式帮助企业管理数据

40、Twillo:应用交流背后的神秘API

41、MixPanel:发现参与指标

42、Payoneer:让小型企业的跨国支付更加简便

43、Stack Exchange:专为专家提供帮助

44、SimilarWeb:网络-移动应用分析世界的大明星

45、Mesosphere:把操作系统带入数据中心

46、HackerOne:软件里的守望者

47、Realm:移动应用数据库

48、CoreOS:Docker的劲敌

49、AtScale:让大数据的使用更简单

50、GitLab:让程序员团结起来

分类: Internet & IT & Life 标签:

【百度徐伟】视觉、语言以及人工智能展望

2015年9月14日 没有评论

来源:新智元

参考:百度深度学习实验室

主持人高亮:百度有一位科学家在几个指标下超过了谷歌,超过了微软,成为世界第一。但是这位科学平时比较低调,很少在公开场合发表演讲,这次在百度世界大会组委会的不断努力下,我们终于请他为我们这次的分论坛来做压轴的演讲嘉宾。下面有请百度研究院的杰出科学家徐伟博士,为大家介绍百度在人工智能方面的最新进展!

baidu-world-2015-01

徐伟:谢谢主持人,我叫徐伟,我在百度深度学习实验室,最早开始在清华大学从事人工智能的研究,到现在已经20多年的时间,我感觉最激动的时间是从加入百度开始的。两年多的时间里面,我有幸和百度的同事一起参与了对于人工智能的快速推进,并且推动百度众多的产品,我们能够把最先进的人工智能技术应用到百度的6亿用户里面,这是我觉得非常激动人心的地方。

今天我介绍一下百度最近在人工智能方面的一些研究。包括计算机视觉、语音以及人工智能的应用。

人工智能是一个非常火热的概念,人工智能的讨论有一个非常坚实的技术进步作为基础。最近我们看到是在语音识别、图像识别和传统的人工智能路径上面,都取得了过去几十年不敢想象的进步。这体现了我们对于人工智能未来的期望。

是什么造成了这样巨大和快速的进步呢?一个很主要的研究是大数据和我们能够处理大数据的计算能力。像我们小孩要学习语言一样,我们教他一段时间,通过非常多的交流小孩能够把语言学好,这是因为内在的一些复杂结构需要大量的数据才能够体现出来,但是只有大数据也不够的,我们要教他说话,所以我们还需要一个非常强有力的学习方法。

深度学习有多层次的结构,能够把大数据里面的信息充分地挖掘出来。深度学习和大数据的结合,成为了这次人工智能潮浪的巨大推动力。

baidu-world-2015-02

PADDLE,是百度的深度学习平台。我们在百度有非常多的产品都使用了深度学习技术。这些产品有着有非常多的数据类型,比如说离散的数据,图像的数据,文字的数据,以及数据分析的组合,这些我们可以很好的支持。针对于百度海量的数据资源和应用资源,PADDLE平台都能非常好的支持不同的训练。PADDLE支持灵活的配置,可以根据我们的应用的不同的需求,灵活方便地推出各种不同的深度学习模型的结构,比如说我们可以把这样的网络结合在一起,构造成一个模型,处理图像和文字结合的一些问题。

baidu-world-2015-03

正是因为我们有了非常通用、非常灵活和非常强大的一个深度学习平台,深度学习在百度各种各样的产品里面,得到了非常广泛的应用。这是百度非常核心的两个产品,一个是百度的网页搜索,另外一个是百度的广告排序,这两个产品里面,使用了深度学习以后,它们在搜索的相关性和广告的点击率都有非常大的提升。

除了一些核心产品,还有一些你不太能想到的地方。应用深度学习后,数据中心的管理,病毒的检测,给我们带来了非常大的受益。还有其他的很多的产品都用上了我们的深度学习模型,因为时间有限,就不一一介绍了。

baidu-world-2015-04

随着大数据在深度学习的使用,我们开始看到机器在一些问题上已经逐渐接近甚至超越了人类水平。比如说语音识别在搜索这样的短文本输入上面,已经做得很好了。在这个方面,人的单字错误率现在是8%,我们现在最好的是语音识别系统单字错误率6%,比人还好。另外一个方面是人脸识别,在这个应用上,现在机器人已经做到好很多了。LFW是国际通用人脸测试的评估,是用机器人判断,包括百度在内的一些公司和学校都已经做到了比人还好的识别效果,尤其百度的识别错误率只有0.23%,是世界上目前最好的结果。

baidu-world-2015-05

刚才提到了,百度已经把这么好的人脸识别技术通过API Store开放给大家使用了。开发者使用这样的API可以非常方便的实现人脸注册和认证的功能,我们还提供了整套和配套的SDK,眨眼、张嘴、转头的动作都可以通过系统的人脸认证。

baidu-world-2015-06

另外,我们也开发文字识别技术。在使用了深度学习以后,我们文字识别的应用范围和准确度都有了非常大的提高。比如说可以检测弯曲的文字,还有倾斜视角的文字,还有非常模糊的一些英文和中文,也可以正确地识别。还有比如说公式这样非常复杂结构的文字,也能够正确地处理。

在一些感知问题上,百度用深度学习已经取得非常大的进步。但是我们也知道,人区别于动物一个最大的特点是语言理解能力,接下来我给大家介绍一下百度使用深度学习在语言理解方面的一些具体的进展。

baidu-world-2015-07

这是一个传统的语言理解系统示意图,一开始有语法分析,有词语标注的信息,还有句法分析,最后通过这样的句法树提供语音分析的结果,这样一个流程非常像我20多年前在学校学习英文的时候,非常重视语法的概念,实际上这种学习效果非常不理想,我觉得我个人的英文让这样的学习方法给害了。我们也知道小孩学习英文,实际上不需要语法这样的东西,可以做到非常流利、自然的使用理解母语。

说到这里,我要给大家介绍一下深度学习里面一个非常重要的思想,就是叫做端到端的学习,我们要抛弃人为的硬性分解,还有人为的特征构造,直接通过一个完整的模型,直接学习,这样的思想前面已经用到语音识别,图像识别的任务里面去,剖析了这些特征的东西,取得了几年前完全不可想象的巨大的成功。

baidu-world-2015-08

在百度我们首先把这样的思想用到语言标注里面去,通过这样一个多层的利用网络,直接像小孩学习语言一样,不需要任何的语法分析,直接从文字的训练,直接到这样的关系,取得了非常好的结果。世界上首次不需要语法分析取得了比传统语法分析方法更好的结果。

baidu-world-2015-09

端到端的学习另外一个非常成功的应用是机器翻译,通过这么一个整体的深度学习模型,直接学习从原语言到目标语言的对应关系。今年5月份的时候,百度又首次发布了统计和深度学习的翻译系统,对我们的信息翻译有了非常巨大的提升,如果大家感兴趣的话,可以到百度翻译了解一下。

baidu-world-2015-10

人类语言是一个抽象的东西,是我们对所看到的、听到的和感受到的世界的描述。在百度我们提出把图像识别、语言理解还有语言生成这样传统人工智能上不同的分支,非常紧密地结合在一起,用统一的神经元网络,机器人直接学习和所看到的世界之间的关系。这样一个学习方法,非常像我们小孩学习一样,非常的自然。我们可以想像在不久的将来,我们都可以像教小孩那样教机器人做这样的事情。

这里是我们把图像和语言统一应用的例子,第一个例子是看图说话,机器人看到这样的图以后,可以读出这是一辆火车沿着森林里面的路行驶,第二个例子是冲浪板是什么颜色的,机器人通过对图和问题的理解,可以说出正确的答案,说是黄色的。我们这样的语言和图像的统一的模型,不仅可以理解单一的、静止的图像,也可以理解这样的动态的视频,看到这个视频以后,可以描述说是这是一只狗在桶里玩。

baidu-world-2015-11

百度花了很大的努力来开发人工智能的技术,最终的目的就是为了让我们的生活变得更加美好。今天上午的时候,王劲为大家介绍了DuLight,这款产品就是出于这样的理想诞生的,DuLight是百度深度学习实验室最新开发的可穿戴智能设备,上面集成了图像识别、人脸识别、语音识别、语言理解的核心人工智能技术。我们目的是帮助盲人更好地生活。依托于百度、百度大脑,DuLight可以自动描述,帮助他了解周围环境。另外还有识别纸币面值的功能,解决实际生活问题。还有非常好的人脸识别技术,可以对摄像头的人脸做出识别,让我们更好地融入社会。

baidu-world-2015-12

百度作为一个搜索引擎公司,最重要的使命是让我们的方便便捷地找到信息和服务。比较注重打扮的女生,经常会有这样的烦恼,看到一个漂亮的衣服,自己非常喜欢,不知道什么地方去买。百度的人工智能,让这件事情变得非常容易了,只需要把带有服装的照片上传到百度,百度大脑可以通过连接到电商资源里面,找到最相似的服装,并且直接可以到电商平台进行购买,非常地方便和快捷。

我们看到百度已经把人工智能用到产品的方方面面,我们可以有更好的产品,而更好的产品会给我们带来更多的用户和更大量的数据,更多的数据通过百度大脑强大的深度学习能力,可以给我们带来更强的智能,反过来又会让我们得到更好的产品。这是一个正循环,随着时间的推移,百度大脑的智能会越来越强,我们自然会问,我们现在离图像识别的人工智能还有多远?

baidu-world-2015-13

人工智能的概念是在1955年的时候,由著名的四名计算机科学家提出来,他们要用十个人花两个月时间,对人工智能做出重大的提升,显然回过头来看,他们是大大低估了实现人工智能的难度。半个多世纪过去了,我们现在终于看到了一些人工智能的希望。我们是不是真的离人工智能很近了?其实还不是这样。

baidu-world-2015-14

现在的人工智能还缺少非常重要的几个能力,第一个就是小数据的学习能力,今天大家可能听到非常多的大数据,我现在说小数据的学习能力,大家会觉得有一些奇怪,其实不是这样,我们现在的深度学习算法需要成千上万的图像才能认识一个物体,而小孩只需要教几次。我们需要做到,在非常大量的数据里学到非常好的表述,这样才能通过少量数据快速学习。现在我们在这方面相当缺乏。

另外一个方面,人工智能还缺少自主探索环境进行学习的能力,就像小孩一样,一生下来就有非常强的好奇心,不断地动、摸、爬、咬各种各样的东西,做破坏性的行为。小孩就是在这样的过程中不断感知和认识周围的世界,并且不断的成长。我们现在人工智能还缺乏这样的能力。

还有一个方面,现在的人工智能还缺乏通过和人的自然交流进行学习的能力。我们知道人可以在探索环境的过程当中不断的学习,也通过与人的交流学习非常多的知识。

我们现在还有一些非常困难的东西需要解决,百度的研究者正在积极探索这些问题。我们离真正的人工智能还有相当长的一段路,但是我觉得人工智能未来一定是非常光明的。因为我们已经看到百度和其他很多技术公司,已经把人工智能应用到生活的方方面面,我们正在经历一场人工智能的变革。我希望大家能够加入我们,一块去研究最新的、最先进的人工智能技术,或者使用我们的产品,为我们人工智能的成长提供点点滴滴的数据,我希望大家能够和我们一起创造人工智能的美好未来,谢谢大家。

 

分类: AI-BI-ML-DL-NLP 标签: