问:未来 3~5 年内,哪个方向的机器学习人才最紧缺?

未来 3~5 年内,哪个方向的机器学习人才最紧缺?

答:未来 3~5 年内,哪个方向的机器学习人才最紧缺?

阿萨姆机器学习/集成学习/异常检测收录于 :知乎圆桌 · ::

谢学弟邀:) 既然已经身在工业界,那么我就谈谈工业界未来几年需要什么样的机器学习人才。不谈学术界主要还是因为大部分人最终不会从事研究,而会奋斗在应用领域。相较而言,工业界对人才的需求更加保守,这和学术界不同。这受限于很多客观因素▃▌▍▎,如硬件运算能力、数据安全、算法稳定性、人力成本开支等。

这个答案可能更适合两类人: 1. 在读的学生朋友 2. 工作不久想要转行机器学习的朋友。特别厉害的技术大牛建议探索适合自己的路线,而我只能谈一谈适合大部分人的路线。但在回答前,我还是忍不住吐槽一下那种简单回答“深度学习”,“大数据”,“NLP”,“机器视觉”的人。这每一个领域的小方向都多如牛毛,以自然语言处理(NLP)为例,细分有自然语言生成、自然语言理解,还有不同语言的语言模型。任何一个方向花几十年研究也不为过,只给出几个字的答案和买彩票有什么区别...

因此大部分机器学习实践者还是该脚踏实地。━┃ツ盲目追逐热点很容易跌进陷阱,而巩固基础、寻找自己擅长的领域和机器学习交叉点可以帮助你在未来的就业市场变得炙手可热,成为工业界最紧缺的人才。

0. 背景

工业界未来需要什么样的机器学习人才?老生常谈,能将模型应用于专业领域的人,也就是跨领域让机器学习落地的人★☆⊿※。有人会问现在我们不就需要这样的人吗?答案是肯定的,我们需要并将长期需要这样的人才,现阶段的机器学习落地还存在各种各样的困难。这样的需求不会是昙花一现,这就跟web开发是一个道理★☆⊿※,从火热到降温也经过了十年的周期。┆¢?£ ∞★×↙一个领域的发展有特定的周期,机器学习的门槛比web开发高而且正属于朝阳期,所以大家致力于成为“专精特定领域”的机器学习专家不会过时◢︼【】。

什么是特定领域的机器学习专家?举个例子,我以前曾回答“人工智能是否会替代财务工作者”时提到我曾在某个公司研究如何用机器学习自动化一部分审计工作,但遇到的最大困难是我自己对审计的了解有限,而其他审计师对我的工作不是非常支持导致进展缓慢。●Θ◤◥所以如果你有足够的机器学习知识,并对特定领域有良好的理解,在职场供求中你肯定可以站在优势的那一边♂♀▼≈。以我的另一个回答为例「阿萨姆:反欺诈(Fraud Detection)中所用到的机器学习模型有哪些?」,特定领域的知识帮助我们更好的解释机器学习模型的结果,得到老板和客户的认可,这才是算法落了地卐√↖↗。能写代码、构建模型的人千千万,但理解自己在做什么,并从中结合自己的领域知识提供商业价值的人少之又少┅┇〓▂。所以调侃一句,◢︼【】哪个方向的机器学习人才最紧缺?答:每个领域都需要专精的机器学习人才,你对特定领域的理解就是你的武器▃▌▍▎。

当然,给喂鸡汤不给勺很不厚道,所以我也会给出一些具体建议。再次申明,我的建议仅给以就业为目的的朋友,走研究路线我有不同的建议,本文不再赘述。

1. 基本功

说到底机器学习还是需要一定的专业知识,这可以通过学校学习或者自学完成。但有没有必要通晓数学,擅长优化呢?我的看法是不需要的,大前提是需要了解基本的数学统计知识即可,更多的讨论可以看我这个答案「阿萨姆:如何看待「机器学习不需要数学,▏┈┊♂很多算法封装好了,调个包就行」这种说法?」。最低程度下我建议掌握五个小方向,对于现在和未来几年内的工业界够用了←→◎☉。再一次重申,┆¢?£ ∞★×↙我对于算法的看法是大部分人不要造轮子,不要造轮子,不要造轮子!只要理解自己在做什么,知道选择什么模型,直接调用API和现成的工具包就好了。

回归模型(Regression)。学校的课程中其实讲得更多的都是分类,但事实上回归才是工业届最常见的模型。比如产品定价或者预测产品的销量都需要回归模型。现阶段比较流行的回归方法是以数为模型的xgboost,预测效果很好还可以对变量重要性进行自动排序。而传统的线性回归(一元和多元)也还会继续流行下去,因为其良好的可解释性和低运算成本。如何掌握回归模型?建议阅读Introduction to Statistical Learning的2-7章,并看一下R里面的xgboost的package介绍↘○⊕◣。分类模型(Classification)★☆⊿※。这个属于老生常谈了,但应该对现在流行并将继续流行下去的模型有深刻的了解。举例,随机森林(Random Forests)和支持向量机(SVM)都还属于现在常用于工业界的算法。可能很多人想不到的是,逻辑回归(Logistic Regression)这个常见于大街小巷每一本教科书的经典老算法依然占据了工业界大半壁江山━┃ツ 。这个部分推荐看李航《统计学习方法》,挑着看?喽杂Φ哪羌刚录纯伞?神经网络(Neural Networks)。我没有把神经网络归结到分类算法还是因为现在太火了,有必要学习了解一下。随着硬件能力的持续增长和数据集愈发丰富,神经网络的在中小企业的发挥之处肯定会有。三五年内,这个可能会发生。┆¢?£ ∞★×↙但有人会问了,神经网络包含内容那么丰富,比如结构,比如正则化,比如权重初始化技巧和激活函数选择,我们该学到什么程度呢?我的建议还是抓住经典,掌握基本的三套网络: a. 普通的ANN b. 处理图像的CNN c. 处理文字和语音的RNN(LSTM)。对于每个基本的网络只要了解经典的处理方式即可,具体可以参考《深度学习》的6-10章和吴恩达的Deep Learning网课(已经在网易云课堂上线)。◢︼【】数据压缩/可视化(Data Compression & Visualization)。在工业界常见的就是先对数据进行可视化,比如这两年很火的流形学习(manifold learning)就和可视化有很大的关系。工业界认为做可视化是磨刀不误砍柴工↘○⊕◣,把高维数据压缩到2维或者3维可以很快看到一些有意思的事情,可能能节省大量的时间。●Θ◤◥学习可视化可以使用现成的工具,如Qlik Sense和Tableau,也可以使用Python的Sklearn和Matplotlib。无监督学习和半监督学习(Unsupervised & Semi-supervised Learning)。工业界的另一个特点就是大量的数据缺失,大部分情况都没有标签。以最常见的反诈骗为例,有标签的数据非常少。所以我们一般都需要使用大量的无监督,或者半监督学习来利用有限的标签进行学习。多说一句,强化学习在大部分企业的使用基本等于0,估计在未来的很长一阵子可能都不会有特别广泛的应用。

基本功的意义是当你面对具体问题的时候,你很清楚可以用什么武器来处理。而且上面介绍的很多工具都有几十年的历史,依然历久弥新。所以以3-5年的跨度来看,这些工具依然会非常有用,甚至像CNN和LSTM之类的深度学习算法还在继续发展迭代当中︻〖〗┄。无论你现在还在学校还是已经开始工作,←→◎☉ 掌握这些基本的技术都可以通过自学在几个月到一两年内完成。

2. 秘密武器

有了基本功只能说明你可以输出了,怎么才能使得你的基本功不是屠龙之术?必须要结合领域知识,这也是为什么我一直劝很多朋友不要盲目转机器学习从零做起。▏┈┊♂而学生朋友们可以更多的关注自己感兴趣的领域,思考如何可以把机器学习运用于这个领域。比如我自己对历史和哲学很感兴趣卐√↖↗,常常在思考机器学习和其他文科领域之间的联系,也写过一些开脑洞的文章「 带你了解机器学习(一): 机器学习中的“哲学”」。

而已经有了工作/研究经验的朋友,要试着将自己的工作经历利用起来。举例,不要做机器学习里面最擅长投资的人,而要做金融领域中最擅长机器学习的专家,这才是你的价值主张(value proposition)♀⊙☉√★。最重要的是,━┃ツ机器学习的基本功没有大家想的那么高不可攀,没有必要放弃自己的本专业全职转行,沉没成本太高。通过跨领域完全可以做到曲线救国,化劣势为优势,你们可能比只懂机器学习的人有更大的行业价值。

举几个我身边的例子,我的一个朋友是做传统软件工程研究的,前年他和我商量如何使用机器学习以GitHub上的commit历史来识别bug●Θ◤◥,这就是一个很好的结合领域的知识。如果你本身是做金融出身,在你补足上面基本功的同时,就可以把机器学习交叉运用于你自己擅长的领域,做策略研究,我已经听说了无数个“宣称”使用机器学习实现了交易策略案例。︻〖〗┄虽不可尽信,但对特定领域的深刻理解往往就是捅破窗户的那最后一层纸,只理解模型但不了解数据和数据背后的意义,导致很多机器学习模型只停留在好看而不实用的阶段

换个角度思考,不同领域的人都有了对机器学习的理解能更好的促进这个技术落地,打破泡沫的传言━┃ツ。而对于大家而言,不用再担心自己会失业,还能找到自己的角度在这个全民深度学习的时代找到“金饭碗”。所以我建议各行各业的从业者不必盲目的转计算机或者机器学习,而应该加深对本专业的了解并自学补充上面提到的基本功,自己成为这个领域的机器学习专家。┅┇〓▂

3. 弹药补给

没有什么不会改变,这个时代的科技迭代速度很快。从深度学习开始发力到现在也不过短短十年,所以没有人知道下一个会火的是什么?以深度学习为例,这两年非常火的对抗生成网络(GAN),多目标学习(multi-lable learning),迁移学习(transfer learning)都还在飞速的发展▏┈┊♂ 。有关于深度学习为什么有良好泛化能力的理论猜想文章在最新的NIPS听说也录了好几篇。这都说明了没有什么行业可以靠吃老本一直潇洒下去,我们还需要追新的热点。♂♀▼≈但机器学习的范围和领域真的很广,上面所说的都还是有监督的深度学习,无监督的神经网络和深度强化学习也是现在火热的研究领域。↘○⊕◣所以我的建议是尽量关注、学习了解已经成熟和已经有实例的新热点,不要凡热点必追。

如果你有这些基本功和良好的领域结合能力,三年五年绝不是职业的瓶颈期,甚至十年都还太早。科技时代虽然给了我们很大的变革压力,但也带给了我们无限的可能。技术总会过时,热点总会过去,但不会过去的是我们不断追求新科技的热情和对自己的挑战←→◎☉。

欢迎来到机器学习的世界 ?????


紫杉:

两天前看这个问题的时候还只有寥寥百人关注,今天就猛增到2000多人。这个问题本身是很赞的,学以致用才是最好的。

这个问题不是很好回答♀⊙☉√★。前一半问题是“哪个方向”,↘○⊕◣似乎讲的是领域和研究方向,后一半问题“最紧缺人才”,又和就业有关。所以我的回答尽量把这两方面兼顾♀⊙☉√★,先谈就业和工业界紧缺的人才,再说说学术界缺少的人才。

我最近被两个前辈抓到他们的创业公司做暑期实习,公司是什么最好就不说了,但除我之外还骗来了一个清华的本科生(从北京骗到了硅谷)。两位前辈一个是Sebastian Thrun(赛巴斯提安·特龙)的学生,一位是Stefano Ermon的学生,去年在AAAI拿了个最佳论文的奖。

我虽然对工业界一直都不太熟悉♂♀▼≈,但借这个机会算是好好看到了一番目前人工智能创业公司的有趣情景。虽然不一定能当做借鉴,但一些经验对目前在校或者刚离校的学生来讲也许会有帮助。●Θ◤◥

能灵活解决问题的人很缺

在我被抓去之前,他们有另外一个名叫Daniel(丹尼尔)的研究生帮忙,丹尼尔也是一位人工智能方向的研究生。丹尼尔负责的模块是文本的聚类算法。我对聚类算法一窍不通,之前还把KNN和K-means搞混了。公司创始人Zayd(札德)告诉我,他们的文本簇群(cluster)总是有问题,丹尼尔调整聚类算法的参数已经6个月,但是根本没办法提升质量。

我用了一周的时间读丹尼尔的代码(够慢了吧,完全赶不上很多国内的优秀学生),然后打开Jupyter Notebook开始一点点的做分析,最后发现丹尼尔把文本距离的算法做错了,任何从事自然语言处理的人都明白edit distance(编辑距离)的首选就是莱文斯坦距离(Levenshtein距离),就算不是做自然语言处理的,这个距离在计算机界也用的很多。但这个距离压根不存在于丹尼尔的任何代码中。然后我把这一行加入进去,代码跑了5小时,最后给札德说:我做完了,检查质量吧。

一周后,丹尼尔就被炒鱿鱼了……然后公司的另一个创始人Russel(罗素)开始到处宣传我用了一周解决了别人六个月都解决不了的问题。★☆⊿※(当然卐√↖↗,丹尼尔最后找到了一份谷歌的工作,开开心心的做机器人去了)

举这个例子想说明一件事:(创业公司真是没有安全感?)要建立起在某个领域的直觉和精通。这个精通并不单单是掌握一两个(甚至是好几个)算法就可以了的。深度学习总爱鼓吹一个模型解决所有问题,但是等你真正进入公司后才发现这基本是不可能的。

基础是必须扎实的,这个基础最好是某一个领域将近20-30年的知识的积累。只会跑个LSTM是肯定不行的。

2. 能专精一个领域的人才也很缺

这里要讲另外一个同学的例子了,他的名字叫伊森,从伊利诺伊香槟毕业,在我校读了两年计算机研究生,跟在航天航空工程学院的Mykel Kochendefer(麦克·寇克德福尔)教授麾下做了一段时间的研究,是一位非常优秀︻〖〗┄,有自学能力的学生。

暑假刚开始的时候,我在帕罗奥图的街上偶然遇见他,因为有过一面之缘,打了招呼后顺带聊了聊现状,当我告诉他我加入了札德的公司的时候,他说他几天后要跟札德面试。

我在回答开头剧透了,伊森没能应聘成功。在这里分享的意义是★☆⊿※,伊森的背景和很多进入人工智能领域的人很相似。下面这一段是我和他的对话:

我:“你最擅长的人工智能领域是什么呢?”

伊森:“我什么都会(jack-of-all-trades)。”

(评论:这很容易误导招聘者让他们觉得你样样都不专精)

我:“你在寇克德福尔教授那里做了什么样的研究呢?”

伊森:“我给无人机搭建了一个服务器,用了Kafka做流处理。卐√↖↗”

(评论:这句话暴露缺乏研究经历)——虽然Kafka也还算是有趣

我:“怎样的工作在你看来最有趣呢?”

伊森:“我想有机会把最前沿的算法应用在公司的业务中。”

(评论:算法没有前沿与不前沿之分,只有合适与不合适之分)

我:“你理想的工作岗位是什么呢?”

伊森:“我其实最想当人工智能的产品经理。”

(评论:其实产品经理的收入不如程序员哦)

最后伊森问了我一个问题,如何在一周内精通自然语言处理,然后我只能告诉他我不知道。

举这个例子的意思是,伊森是一个聪明人,有很强的工程背景(伊利诺伊香槟的计算机系很不错),但是却不一定是机器学习/人工智能创业公司的最理想人才,为什么呢?因为在学校阶段没有在实验室做研究型工作,也没有足够的实践经验。他找错了教授(抱错了大腿)。寇克德福尔教授没有给他任何研究性质的工作,◢︼【】于是他用了两年宝贵的时光学习了如何搭建服务器←→◎☉,如何使用Kafka。

当然,如果想要做普通的工程师岗位,任何(不论大小)公司都缺优秀的后端工程师,但如果想应聘机器学习方面的岗位,或者和算法、研发比较接近,那么搭建平台或者服务器的“研究”经历就是不够的。

如果本科有个很好的学校,或者特别擅长学习,这一类的优秀人才很容易陷入每一个领域都想学学的陷阱。▃▌▍▎再加上“大公司要专才,小公司要全才”一类的宣传,很容易觉得如果每方面都学一点,那么一定会被创业公司喜爱。

事实上机器学习的底层模型原理都是类似的,与其在应用层(比如机器控制、视觉、语言、语音)等瞎晃,还不如去把底层原理弄清楚。人工智能的创业公司,和普通的网页或者手机应用公司还是有区别的。这些公司更看重学生在学术领域的成绩,因为目前大部分人工智能的模型是没法直接搬到工业场景的。

3. 能够把学术模型转化成工业模型的人才很缺

这里要讲一个成功案例,Nihil (尼希尔)是另一个我认识的研究生,也是从伊利诺伊香槟大学毕业。尼希尔其实比我年纪大好几岁,但长着一张娃娃脸,他之前在LinkedIn(领英)做大规模搜索(Scaled Search),专门负责把理论算法扩大到工业场景中,擅长搭建后台,有很强的工程背景。两年的斯坦福计算机硕士后,现在被Snapchat找去做大规模视频搜索算法。

无论是我还是札德,在和他交流后都很想让他跳槽来我们这里工作。

也许你想问,他和伊森的区别是什么?两个人看起来不都差不多,都是以做服务器或后端为主,为什么尼希尔是大家想要的人才▃▌▍▎,伊森并不完全算是?因为经历和背景,在领英这样的大公司做高吞吐高负荷的算法所积累的技能,是一个实验室的无人机平台无法企及的。

任何人都可以跑一个LSTM,但是当训练数据有超过1000万条的时候,LSTM需要跑3天才能见完所有的数据,在这个情况下,你该怎么做?除了在多个GPU上并行以外,还可以进行算法上的改进,LSTM是所谓的线性时间度 O(n)的算法,可以换成像ByteNet这样的sub-linear时间度 算法。

谷歌最近发了一篇通报,说他们的工程师团队经过一年的努力,终于把WaveNet(某个能够生成高仿真人声的模型)速度提升到了一秒钟生成二十秒钟的人的说话声音,比学术模型快1000倍。我当时看了这篇文章后,在网上随手搜了搜,发现谷歌没有公开任何加速的细节,究竟是如何做到的,他们并没有说。Awni Hannan(奥尼·哈南),我的一个前辈,之前和吴恩达教授在百度硅谷工作,说他大概能猜测到谷歌为了优化所做的一些事情。┆¢?£ ∞★×↙但不难想象,这很有可能是一系列的优化,从硬件,从计算,▏┈┊♂从部署等等进行的细致优化。这样的细节虽然有“学术”价值,但从这里开始,大部分公司都不再会公开细节,让中小型公司(创业公司)难以望其项背。

这样的场景就需要有研究背景的人才,能够阅读业内最新的论文,还能够结合学术前沿切实的解决工业上的难题。◢︼【】深度学习50%是学术,50%是工程。这个领域的学术大牛,像是Justin Johnson(贾斯汀·强森),Andrej Karpathy(安德烈·卡帕西)(两人都是斯坦福CS231N的讲师)都是很强的工程能手︻〖〗┄。

题外话:能够研究深度学习理论的人才

去年暑假我上凸优化的时候,当时我的老师Stephen Boyd(史蒂芬·波伊德)就说,当年(80年代)凸优化刚火的时候,学术界和工业界齐头并进,但大部分优秀论文都集中在学术界,用凸优化的框架建立算法,然后应用在各种数据集上,取得一个又一个辉煌的成果。但随着时间推移,没过十年,学术界在数据和应用就已经赶不上工业界了。当然,学术界既没有足够多的机器,也没有财力去搜集大量的数据,当工业界开始用资本大规模投入的时候,学术界自然就战胜不了工业界了。

我们现在已经可以看到苗头了,DeepMind,谷歌,OpenAI,微软,FAIR等各大公司抢占人工智能高地,大量的发出论文,传统的强校诸如CMU或斯坦福都比不上这些大公司的势头和影响力。━┃ツ这个情况在3-5年后很有可能会恶化。

也许很多人觉得深度学习的理论就是数学,理论根本不能有任何实践产出,何必研究理论呢?还不如写网页前端或者做个手机App呢。

我今年听了Philip Thomas(菲利普·托马斯)的一个讲座,讲的是安全增强学习(Safe RL),这个讲座讲了一个案例,他们想要通过增强学习来自动调解糖尿病病人的给药泵,这个泵给药给多了,病人就要截肢,给少了病人就要直接休克死。高不成低不就的典型代表。目前这种泵的算法是一个简单的微分方程,能保证不会少给药,但是经常会多给药,导致很多重度糖尿病都要被截肢。

菲利普的这个项目就是要尝试着用增强学习来得到一个优良的自动调整模型┅┇〓▂。这个项目立意很好,━┃ツ救人一条腿胜造七级浮屠嘛,但是菲利普问了在座的我们一个问题:“你们知道现在这些增强学习的算法,需要多少次试验才能调出一个成功的模型吗?”

需要上百万次参数调整后,才能得到一个很好的模型。你总不能对几百万糖尿病患者说:“为了所有现在以及未来的糖尿病患者,你们去死吧。” 而且更重要的是,增强学习算法经常不能保证每一次参数改变后都能让模型变得更好:

这就像是说,我不知道这一颗药让你更健康还是让你死掉(或截肢),但是为了实验效果,你最好给我吃下去。

为了真正的把增强学习应用在医疗领域,需要通过概率理论,通过各种Bound(边界)去证明一个算法能切实的每次都达到更好的效果。这就是理论对工业界的指导,也是理论在应用领域的胜利。♀⊙☉√★

每个机器学习的领域,不论是自然语言处理、机器视觉、机器人其实都是这样的人才紧缺规律,找到自己最适合的缺口才是最重要的。这可以是能够将一个算法高度并行化,在上百块GPU上运行的工程人才,也可以是在高危领域(比如无人驾驶、医疗)保证安全第一的理论人才。♂♀▼≈这两块区域在未来的3-5年内都会急缺人才。↘○⊕◣

-------------------

最后总结一下,说了这么多,希望能对各位的选择有帮助←→◎☉。


李浩Data Scientist:进入工业界时间不长,这里主要讨论一下之前找工作面试,以及自己工作一个月以来的一些想法。先说背景,我在国内读的本科,在德国完成了硕士学习,专业都是通信,然后一年半前开始自学机器学习,深度学习,计算机视觉等方面的知识,同时参加Kaggle 的比赛,找工作期间投的都是欧洲这边Data Scientist 的职位,●Θ◤◥ 现在在法兰克福一家创业公司从事数据科学在物联网方面应用的工作。这里主要介绍一些面试期间的情况,因为在欧洲这边找机器学习方面的工作,基本都会在面试期间做一个时间不等的案例分析,案例的方向基本就是公司机器学习应用的业务方向。Adidas总部,申请的第一家公司,前两轮面试之后,会被分配一个一周的案例分析,给的数据是过去两年阿迪达斯各个产品包括,鞋子┅┇〓▂ ,衣服等在欧洲各个国家的销售情况,然后一些和产品本身相关的属性信息,任务是给出接下来几个月的各个产品的销售,盈利情况。◢︼【】 要求用多种模型实现卐√↖↗。Trivago总部,trivago是一个专业于酒店预订服务的全球酒店搜索引擎,該网站对来自很多酒店预订网站、以及酒店的报价进行比较,给出的案例分析时间一周,案例是个比较典型的点击预测Mini project,要求就是对给出的测试集做预测,在给定的Metrics下精度越高越好。Creditech,一家中型的提供信用卡相关服务的公司,给的案例是典型的信用卡欺诈预测,时间24个小时,数据是blind过的,而且要求必须用R实现,因为好像虽然目前在机器学习领域Python占绝对的主导,但是在和经济相关的领域,R还是颇为流行的。EY,也就是国际四大会计事务所之一的安永,案例也是一周┆¢?£ ∞★×↙,不过案例和机器学习没什么关系,给出的数据是欧洲各个国家进出德国的数据,然后做一些简单的数据分析,没有涉及任何机器学习算法模型。▏┈┊♂ Seamless Machine Learning,一家位于英国剑桥的做算法交易的小创业公司,前面三轮电话视频面试后最后一轮会去他们在剑桥的办公室跟着团队一起工作两天♀⊙☉√★,做一个Mini Project▃▌▍▎,因为还在等签证期间已经确定了现在这个公司的职位,所以没有去参加最后一轮面试,不过通过之前几轮的面试,大致了解到他们一个业务是构建机器学习模型,预测比赛赔率,比如他们在其中一个面试中问我,如果去构建一个模型,预测网球比赛当中其中一方的胜率,需要搜集哪些数据,可能会用到什么模型。然后我现在的公司,Record Evolution,提供物联网端到端技术方案的数据科学公司,我现在做的一个项目是尝试构建机器学习模型,来预测汽车刹车过程中的某种特定的噪声,分析原因,然后想办法消除噪声。还有一些其他的面试,不过,大体上类似,就不再赘述了。在找工作投简历期间我就发现,如果决定了去工业界之后,可以选择的面特别广,像我上面提到的,你既可以去一个纯互联网公司,▏┈┊♂去做用户点击预测这样的工作,也可以去会计事务所去做机器学习在税务方面的应用,或者去研究所做某种CT图的分析,然后预测某种疾病发生的概率。在欧洲这边很多很多的传统企业都在试图在本来的产品线中集成机器学习,更好的利用本来积累的数据来开拓增长点,这里不要求你紧跟学术界每天最新研究的进展,也不要求像Kaggle比赛已经在数据已经非常规范的情况下,穷尽一切可能提高百分点,而是去和具体的业务相结合,运用机器学习在业务当中,不清楚国内的情况,不过欧洲这边现在传统企业有点数据的都在试图朝这个方向走。在工业界更多的是需要应用机器学习在一些传统的领域,在这个工程中会需要掌握一些domain的知识,当然并不要求你是这个领域的专家,更多的是去利用本来已经产生却没有被充分利用的数据然后增加可能的销售增长也好,开展新的业务方向也好。不过,接下来才是我要说的重点,我之前的背景主要是机器学习的各种算法,但是,我进现在的公司已经超过一个月了,目前还没接触任何机器学习算法的任何工作,一直都在设计算法,标注数据,搜集,清理数据,配置Cluster,做着Data Engineer的工作,不过这个可能是因为小公司,每个人要做的,负责的面比较广,大公司每个人做的会更加细分一些,这个也是我选择小公司的其中一个原因。不过如果选择进入工业界的话,在纠结算法性能能不能提高0.0001%之余,多去玩玩Spark,跑跑Cluster还是挺有帮助的。以上。▃▌▍▎

小赖sqLai多媒体/信息检索/自由剪辑师/全栈pm/业余运动员/b-boy:商业导向来说,依然还是信息检索底下这些小领域,包括推荐系统啊,计算广告之类的。深度学习,强化学习━┃ツ,生成模型这些新思路新想法在这些领域上才刚有一点点小进展,可挖的空间相当大●Θ◤◥。

Eggod听了一耳朵:

随便一点己见,有人说NLP人才少,我估计吧,应该是因为很多人以为NLP成熟了吧,siri都能读懂我的话了那还不成熟?我一直感觉NLP终归有有上限,但就某些免费或收费的库或者服务来说┆¢?£ ∞★×↙ 。那还是差的远了...NLP毕竟是我们臆想中那个人工智能的真正界面,就像整个计算机的用户界面一样。我幻想过一点小场景,比如滴滴打车的界面直接统一变成一个siri一样的语音界面,我就跟他说,我要去哪,我只有多少钱,我要多久。他就自动生成单子,这才叫用户体验,你设计个再精妙的UI那也比不上这种操作的用户体验。我感觉有太多的应用可以收成一个语音界面了。这也只是NLP实际改变生活的一个场景而已,并且这场景其实也就值那点钱,也就是个半痛半痒的点。★☆⊿※ 但NLP其他的领域,自动化的客服,舆情,教育,←→◎☉网络监控,这么多领域,这可就值钱了。NLP很值钱的,并且也是人工智能里那些理论现在落地后比较实际的领域。▃▌▍▎其他你说做金融模型所以人科大讯飞才被评为中国最有创造力的公司?忘了是啥头衔,反正还行。其实在知乎上问也挺没必要的,你看大厂们BATJM巴拉巴拉这些厂子们都在往哪个方向布局,铺地,你就明白了。

至于大厂们铺无人驾驶...恩...为了股价吧...不然我也想不出来了,无人驾驶最重要是国家政策啊┅┇〓▂,国家想着真搞无人驾驶,得花多少钱,这法律,交规和道路的修改可是我在掏钱,我掏这钱,交通部分会少多少岗位,会有多少人当不了司机失业的,运输业?蒙俣嗌偃耍岣缁岽炊嗌倏赡艿牟晃榷ǎ腋冻稣饷炊啵降渍饨煌ㄊ鹿誓懿荒芗跎伲馍缁岬氖找婺懿荒苊植拐庑┩度耄懿荒艽次夜鶪DP的提升。这就很麻烦了,在中国,无人驾驶肯定是不好推的,你要一步一步来,那得多少年,也只能说,这事儿不是技术牛不牛逼的问题,这个事儿,重点不在技术上。


元峰创造力至上:可能题主也是一个想要找到研究方向的学生吧。本人也是学生,●Θ◤◥结合自己的一点点认识,抛砖引玉一下吧。机器学习是一个大类,作为学生,不能说我掌握了决策树,SVM,随机森林,Kmeans等算法就算合格的MLer了吧。机器学习有太多细分的领域,下面列一下能想到的吧。如果按照最高层面来说。┅┇〓▂当前有监督学习已经研究的差不多了,研究人员更多的在研究弱监督学习和无监督学习,它们寻求在有标记样本量较少的情况下取得高性能━┃ツ。这也是为什么增强学习和生成对抗网络(GAN)这两年大火的原因吧。按照研究领域来分1.计算机视觉大类CV里面包含的子领域也很多,各个子领域也都是深似海,有很多可以深挖的方向。①图像分类,检测,分割这些在有监督情况下,在大数据集上,都是研究的差不多的了,当前的主要问题是如何在弱监督的情况下也能做到媲美有监督情况下的性能。另外,这些检测,分割算法,最近在医疗行业也大展拳脚了▏┈┊♂。②人脸识别,行人重识别(re identification),跟踪这个在监控安防领域估计大有发展前途,如何解决暗光,遮挡情况下的识别仍旧是一个挑战↘○⊕◣。这种领域应该在工业界大有发展空间估计这也是商汤,旷视等公司研究的重中之重吧卐√↖↗。③模型压缩当前的深度学习模型太大,无法在移动端高效运行,也有很多学者和工程师在研究如何精简模型,如MobileNet,ShuffleNet,或者在理论上减少计算量。♀⊙☉√★2.自然语言处理当前,NLP中的翻译也是一个主流方向,人机对话,聊天机器人也有很大改进空间,应用也非常广。另外,语音识别也算是一个大方向吧。3.数据挖掘这个不多说,基本上所有的大公司,都需要数据模式分析,用户画像吧。学生把数据挖掘作为方向,起码工作机会应该非常多4.推荐系统当前,不管是购物,视频,音乐网站,都需要优秀的推荐系统来提升用户体验,感觉这个领域作为研究方向也不错。~~~再有想到的随时加上。

京东刘艳光京东无人机产业中心负责人:

从人才紧缺的角度来看,机器学习未来3-5年,在哪个方向容易落地,恰好这个方向又能很好的跟实际应用场景相结合,创造巨大的利润空间,那么这个市场和技术,就会导致人才的大量紧缺。

从目前技术发展来看,机器学习领域学术界发展大热,工业界的研究也是趋之若鹜◢︼【】,但对于市场来说,↘○⊕◣ 与之相配套的上下游产业还没有完全成熟,★☆⊿※未来1-3年内┆¢?£ ∞★×↙,应该还是一个积累期和探索期♂♀▼≈,这个时期内,在与机器学习相结合的的一些垂直行业,可能会出现井喷式的爆发,如语音识别技术,图像识别技术,翻译软件等

还有现在比较火的slam技术,结合扫地机器人,环境感知传感器等●Θ◤◥。随着5G时代的到来,︻〖〗┄数据传输带宽和传输时延将会有一个或几个数量级的增长,物联网技术将会逐渐铺开

将来万物互联,每一个物体都是一个信息采集节点,数据量将会比现在的互联网时代呈指数级增长,大数据的条件具备了,就为机器学习算法发挥力量提供了行业基础,真实世界和虚拟世界的契合度进一步增加,我觉得3-5年后,与服务,健康,交互,卐√↖↗分析等相关的产业,机器学习结合具体的场景应用,将会有非常广阔的空间。

那时候,机器学习的基础框架,会逐渐趋于成熟,就跟现在的操作系统一样,程序员不用特别关注里面的运行机制,只需要基于这样的平台或者框架,来做场景应用就可以了。

所以,将来我觉得,懂机器学框架,同时又能深入结合某个专业领域知识的人,能够跟场景模型紧密结合系统和专业,最吃香。

与其问将来机器学习那个方向吃香,倒不如转变转变思路,想想将来那个行业吃香,社会发展的趋势是什么?人们现在在高度发展的互联网时代,当这些都成为常态后,人们的精神诉求在哪里。

我觉得从我亲身感受来说,我更加在意的是,如何获取到自身的一个真实的状态,●Θ◤◥能够对自己进行更加精细和理性的管理←→◎☉。比如说通过小米手环等检测自身健康状态,合理的时间分配,对自己的精神状态,行为进行数据分析◢︼【】。这些都可以通过机器学习的手段,进行更加深入的分析。┆¢?£ ∞★×↙ 这种分析跟现在的分析不一样,这种分析不应该只是提现你现在状态,▏┈┊♂还应该能指导你下一个状态★☆⊿※。

(以上为个人见解,欢迎来讨论)


霍华德新加坡国立大学 电子及计算机工程系博士:我觉得是NLP-----------------------------------------------被吐槽了,再补充分一点。NLP是自然语言处理的简写。︻〖〗┄NLP为什么好,我从两个方面来说。工业界:NLP的业务是最稳定的,传统业务搜索 广告 推荐系统 用户画像 大量用到NLP技术,业界对NLP人才的需求是很稳固的,未来3-5年稳中有升。别的人工智能技术,例如自动驾驶,并没有稳固的业务,要搞个五年,证明不可行,那怎么办?学术界:NLP作为人工智能完全的课题,包含人工智能里的所有难点,现在还只是自然语言处理,离自然语言理解还有距离,还有重大课题需要突破,完全值得奋斗终身。

京东肖军:我觉得有两类人才最紧缺,一是能够快速提供正确的解决方案的机器学习工程师,二是研究前沿问题的 机器学研究者,身处工业界,因此我主要说下第一类。一.能够快速提供正确的解决方案的机器学习工程师关于机器学习方面的研究有很多,但是真正能实现营收的是能够使机器学习落地的项目,这些工程师熟 悉多种语言,API和数据格式,以便能够使用任何开源代码或者是第三方代码♂♀▼≈。知道在什么样的人力资源 和项目时间的条件下,什么技术最有用。而这一类人才同时需要具备数据分析、算法选择、特征工程、交叉验证和解决问题的能力。因此,这一类人才需要具以下几个技能:1.Python/C++/R/Java: 精通这些语言,Python对于机器学习来说,是最重要的语言,而C++主要用来提升代码速度。━┃ツ2.概率统计:机器学习的一大部分是基于这个理论,比如贝叶斯、高斯混合模型等等,都需要对概率有 一个确切的理解。3▃▌▍▎。应用数学和算法:对于像支持向量机这样的判别模型,你需要对算法理论有一个深刻的理解。即使你 可能永远也不需要从头开始实现一个SVM,但它有助于理解算法是如何工作的。需要了解像凸优化,梯度 下降,拉格朗日,偏微分方程等卐√↖↗。4.分布式计算:目前大多数机器学习工作需要使用大型数据集♀⊙☉√★。不能在一台机器上处理这些数据,必须 在整个集群上分发它◢︼【】。二.研究前沿问题的机器学习研究者这一类人才通常是解决一些不寻常的问题,他们会在现有算法的基础上,提出更好的解决方法。能够为 技术做出卓越的贡献。●Θ◤◥

知乎用户:庙里的博士僧:

最缺做理论的 不是做模型的


立党朋克:

最紧缺的,还是打着人工智能旗号,为整个人工智能学术界和工业界指点江山的自媒体、营销号、战略家们。


知乎用户:知乎小透明:

标数据的人才。

因为人工智能的重点是人工。


刘炳源漫山遍野的春天何时到来:

目前最欠缺的是懂机器学习的产品人才,把技术真正落地。引用初敏老师的一段话:“最后,我觉得现在非常缺少产品设计方面的人才。之前说人工智能技术人员很欠缺,现在产品人员更欠缺。现在如果你想做一个人工智能产品,如果你自己没有技术,外接第三方的技术都能满足。所以在这种情况下缺的是什么样的人呢?是能将各个技术的各个应用信手拈来的人,知道技术的局限在哪里,能够扬长避短,以客户的角度思考问题,设计产品的人▏┈┊♂。”


xjames somebody转CSer, 计量爱好者,教育关怀者♀⊙☉√★,科幻痴迷者,管理实践者:

我本来只是想写个评论到 @紫杉 的回答下面,但因为被知乎说我 评论发布失败,我决定我copy & paste 到这里来。︻〖〗┄

为啥我觉得你说的并不对。。。唉。┆¢?£ ∞★×↙。可能是我个人的偏见吧。你要是说真的把researcher/phd的skillset捋一捋卐√↖↗,真的比master高出哪些吗?

1.follow paper的习惯和储量,

2.分解问题,主动找potential solution的能力

3.扎实的基本功,特别是理论的,数学方面的。

a) 我觉得,其实这些特征,master也可以跳一跳,接受一定训练后也可以达到。

b)我也并不觉得,在其他答案中说到的domian knowledge的作用很大,这是很费时去学学而已,多花时间理解就可以了

c)说到伊森,我没觉得他哪里不够好~ 做工程性的,就不好?为啥被定义成 没抱对大腿?所以正确的抱大腿的方式是?

不好意思哈~ 我在看你写你interview 伊森,自动带入自己回答问题,我觉得我 response 和伊森 就差不多。所以难免站在 伊森的角度替他说话。我就想问,你prefer Nihil的原因里,有什么工作职能是Nihil能做,但是伊森 不能胜任的呢?我特别好奇这点,←→◎☉麻烦你展开说说可以吗?linkedin本身就用kafka很多,伊森正好也有这方面的经验,所以他到底为什么不qualify?

我对data scientist的理解或者定位是▃▌▍▎,他只是加强版的software engineer。我不care你让我做什么,因为我什么都能做!前端,后端,kafka,spark,modeling,甚至有时候做多了,自己也都混了,我的意思是,我觉的 they are equally one part of my system. 你真的觉得你学会了这些以后,上述这些东西做起来 有什么区别吗?你不也 不design/develop algo,不也仅仅是把各个component连在一起,你真的觉得,有什么特别深刻的,特别本质的区别吗?(我不是怼任何人哈,我也是很好奇,我思考很久,从没得到过答案,可能我的样本太小,有sample bias)。

咱们做 ML project做多了的人,其实不还是就翻来覆去那几类算法,你觉得我们真的contribute什么了吗?我们只是掉包而已,或者把 已用的algorithm套用到这个context上去。 唉。。。不好意思,反问句太多,不是冲你哈,欢迎被大家各种怼★☆⊿※ ,附加案例是最好的┅┇〓▂。

我再说说我理解的software engineer,分解它的skill set后boil down to 。

1)data structure & algo

2) 熟悉各种工具,包括programming language syntax,各种config

3) 对system怎么搭建起来的,有个逻辑上的概念和理解(比如了解web = server 端+ client 端,不一定非要理解tcp/ip什么的)

4)工程性的习惯和技能,e.g.爬坑,也就是知道去哪里搜答案;持续学习,缺什么补什么;理解agile,version control什么的

而我所谓的data scientist,actually whatever you call it, 我认为是加强版的software engineer。

也就是在上述基础上,有collateral

5)domain knowledge,毕竟大部分时间都是在要数据,︻〖〗┄理解数据,甚至就算 不count清洗数据,也要花很大比例的时间去各个department沟通,协调数据。

6)统计建模方面,毕竟CS出身的,统计background一般理论不是很深,也不care理论,可能后继乏力。

7)其他,这个其它里面可能就包含 我上面提到的,researcher/phd高于 master的skillset。包括

1.follow paper的习惯和储量,

2.分解问题,主动找potential solution的能力

3.扎实的基本功,特别是理论的,数学方面的。

但是,如果你认真观看这三条的话,如果你不是phd仍然有机会 增加这三点技能树

1.follow paper的习惯和储量,master & phd both can enroll research level course which requires you to read paper, replicate and do improvement.

2. 分解问题,主动找potential solution的能力, 如上,课上可以锻炼

3. 扎实的基本功,特别是理论的,数学方面的。 如果你的本科或者之前的背景,更偏理科,而不是工科的话,其实扎实的基本功你内心是不畏惧的,catch up的话,心里是不虚的。只是再选选课,review一下而已。

我自己乱说的,不知道,你怎么理解,看待的?


长胖水之恋小码农一个:

一不小心进了这个坑,就斗胆回答一下。

背景:微博机器学习研发工程师,自认为比较核心,其他人不一定认可,◢︼【】 :)

机器学习(包括深度学习,以下提到机器学习自然包含深度学习)最近几年由于计算能力的大幅度增长(GPU),从以前课本上和实验室开始走进我们的日常生活,这一波应该主要推动力量还是各大互联网公司,抓住这个思路,就大概能知道目前和短期内的一个方向。

资本决定前进速度,机器学习必然会被最先投入到各个互联网公司最赚钱的业务线。国内互联网经济收入大体在以下几个领域:

游戏类电子商务广告

以上三个大领域共同面临的问题可能主要有:

数据挖掘,从大数据中提取对自己业务线有价值的数据用户特征产品自身特征(比如微博的特征)环境特征(热点变化)数据理解自然语言理解多媒体数据的理解个性化推荐用户体验提升广告插入领域发现

去年开始,┅┇〓▂ 也面试了很多候选人,但是总体感觉是这样的

泛计算机方向的同学,对数学,尤其是算法、模型、优化方法方面比较欠缺数理方向的同学,工程实现能力上略欠火候

最稀缺的,应该是能解决问题的,★☆⊿※能够实现从算法理解、模型解释、工程实现三者统一的算法工程师。


路克猪膜科学与技术专业:

转一条马毅老师的微博:

一周多的“会议季”总算顺利结束了。♂♀▼≈听完Yann Lecun↘○⊕◣ ,Harry Shum和Jitendra Malik的talks,┆¢?£ ∞★×↙感觉人工智能目前以及下一步做的都越来越接近自动控制和系统工程领域里的任务。Error Correction (back prop), Constrained Optimization (resnet), Feedback and Closed-Loop Systems (online/reinforcement learning), Adaptive Optimal Control (deep learning), State Space Models (recurrent networks), Feedforward (unsupervised learning) 等等重要的系统设计概念和方法会在人工智能领域获得新生。感觉自己以前的自动控制理论和机器人背景将来会越来越有用武之地。建议目前机器学习的同学多学一些系统理论(尤其是反馈控制和系统辨识);而自动化的同学多学一些机器学习(尤其是data intensive computing的技术)。↘○⊕◣系统理论及计算平台将是未来智能系统的两大基石。←→◎☉


匿名用户::

说的应该是工业界吧。

公司当然最缺的就是能用机器学习创造出实际价值的人才,简言之,能给他们赚钱的。

CV目前最成熟,不过问题在于,DL的介入让CV的门槛降低,原来大量的领域知识在工程上被简化成了对于几种常用网络结构的测试和拼凑━┃ツ,入门难度并没有想象的高,能否长期的制造岗位需求,这个需要观望。

NLP看起来会有持续的需求,毕竟和互联网公司的业务贴近,风险和机遇都在于能否重现DL在CV上体现出来对于性能的革命性的提升,如果可以那这个领域就会爆炸,成为新的基础级别技术;不行那就继续当昂贵且无用的玩具,吊口气等着下个泡沫。

最后总结,机器学习只是锦上添花,最后还是要和工程能力匹配才能形成最大价值◢︼【】。


知乎用户:黑科技理工男, 工业级移动机器人:

垂直领域模型 + 机器学习.

随着通用型机器学习技术的普及, 国外各大互联网公司, 国内BAT的AI, ML平台都已开放.

几乎80%的高级程序员, 50%的中级程序员, 20%的前端工程师, 都开始学习并能略有使用AI平台.

这种情况下, 很快会带来低端AI程序员的贬值, 大家又都白学了.

但是, 业务, 永恒的业务.

进入一个行业, 在一个垂直领域, 好好做, 学习该行业的技术知识, 产业现状, 管理模式, 统计要点, 分析方法, 这些信息, 能保证有地方需要你.

试想; 一个 化工行业, 成本核算 的机器学习人才, 失业的概率小; 紧缺的周期长.

这时, 你想去化工行业, 设备监控, 的机器学习, 转行也可以.

---- 业务, 带感的业务!

中国制造需要一群扎实的工匠, 在浮躁的人工智能泡沫里, 做一个稀缺的人才.


GordonNLP/IR/NLG/Coreference resolution 菜鸟:

NLP 深度学习在一定程度上并不是很适合去解决NLP问题,深层次的语义问题解决了会推动很多领域的进步


邹瑞波CV是个大坑,慎入:我答一个视觉slam+深度学习

相关推荐:www.599828.com 阳光在线企业邮局 www.rg6899.com www.126926.net www.5533.net 注塑机 订阅号 印刷器材
以上未来 3~5 年内,哪个方向的机器学习人才最紧缺?来源于知乎,如需具体信息可以点击未来 3~5 年内,哪个方向的机器学习人才最紧缺?_知乎.
问题:未来 3~5 年内,哪个方向的机器学习人才最紧缺?
链接:http://www.weilaiman.cn/zhihu/124.html
库尔德人想要怎样的未来?
未来应留在美国还是回国生活?