极光日报
首发于极光日报
机器学习领域值得关注的 10 位 Quora 大咖

机器学习领域值得关注的 10 位 Quora 大咖

简评:这篇文章基于 Quora 上「机器学习」话题下阅读量最高的作者,数据统计至 2017 年 6 月 25 日。

1. Håkon Hapnes Strand, Data Scientist

回答摘选:机器学习中记住高级公式有多重要?

To what extent does Håkon Hapnes Strand feel that it's important to memorise advanced formulae in machine learning algorithms?

记住公式并不是什么特别重要的事情,事实上可能会产生相反的效果。
如果你了解机器学习算法的工作原理,并且是从底层上真正理解它,那么你应该可以自己导出公式。在实践中,公式都能查询得到,并不需要可以背诵。
记公式可能会给你一个错觉,让你误以为明白了公式背后的原理。


2. Roman Trusov, Facebook AI Research Intern 2016

回答摘选:应该购置一个好的 GPU 学习深度学习吗?

Should you spend money to buy a good GPU for studying deep learning? (I’m not referring to production runs.)

如果你是打算认真研究深度学习,那么就去买吧。了解架构或算法与使这些架构或算法正常工作是两个截然不同的事情,实践是检验真理的唯一标准。
最好不要去买多个便宜的 GPU 来学习,除非你的框架支持分布式计算,不然的话后面会相当难受。
对于现代架构的训练,CPU 无法代替 GPU。假如说一个非常好的 CPU 要几个星期来训练的话,那 GPU 一晚上就能训练完网络,像消费级的 i5 甚至会更慢。


3. Zeeshan Zia, PhD in Computer Vision and Machine Learning

回答摘选:怎样准备计算机视觉科学家的面试?

How does one prepare for a computer vision research scientist interview?

会有一些编程问题,以及计算机视觉和机器学习相关的基本问题,这部分大约占 50%。另外 50% 没有技术问题。通常情况下,如果你自己编程并定期参加会议,那么不需要为这部分太担心。如果你想准备一下这部分,可以刷几天 C++。

面试官想知道的两件事情是:
1)你是否可以作为独立研究员工作
2)你对软件开发工作的预期是否与职位本身相符


4. Ian Goodfellow, AI Research Scientist

回答摘选:使用 GAN 生成图像有什么问题?

What are some problems or motivations of generating images using GAN?

你可以使用 GAN 来:

1)生成模拟训练数据和模拟训练环境
2)填补缺少的数据
3)用半监督学习训练分类器(分类器同时从已标记和未标记的数据中学习...,并且使用 GAN 的话,还同时从完全虚构的数据中学习)
4)做监督学习,其中监督信号表示多个正确答案中的任何一个都可以接受,而不仅为每个训练示例提供一个具体的回答
5)用统计生成代替成本高的模拟
6)从来自生成模型的后验分布取样
7)学习对其他任务有用的嵌入


5. Clayton Bingham, Worked as Data Analyst at Informatics firm, Neural Engineering Researcher

回答精选:机器学习的趋势是什么?

What's trending in machine learning (outside of deep learning)?

我不知道有什么趋势,但我知道在主流机器学习之外一个强大的方法,被证明具有很强的灵活性、可解释性和在 VLSI / FPGA 硬件中相对容易实现的优势。
理解 Volterra 序列如何工作的最简单的方法是,它是一系列数字滤波器,用于预估从输入信号到适当的输出的转换。卷积核(滤波器)的形状,时间延迟和数量组成了必须估计的模型的特征,以便对复杂系统的行为进行准确的预测。

Volterra核:


6. Xavier Amatriain Former ML researcher, now leading Engineering at Quora

回答摘选:什么是训练机器学习模型的最佳实践?

What are some best practices for training machine learning models?

好的指标:
1)应该容易比较不同的模型
2)应该尽可能容易理解和解释

最好是跟踪你关心的每个用户细分的指标(例如新用户,旧用户,非常活跃的用户,区域设置....)
在测试集上测量你的指标(不是训练,也不是验证)


7. Chomba Bupe, develops machine learning algorithms

回答摘选:在分类方法中,可以添加类和训练样本而无需重新训练所有数据的方法,除了 K 最近邻法还有哪些?

Are there classification methods besides K Nearest Neighbors for which you can add classes and training samples without retraining all the data?

迁移学习(transfer learning)
例如,可以用一个预训练的网络,在顶部额外添加一个简单分类器,并且只对新的训练样本训练这个分类器,同时保留预训练的权重。这在相关任务的实践中表现良好。
不过,迁移学习存在局限性,要想让它工作得好,需要确保新的样本具有与原始样本相似的分布。


8. Liang Huang, Ph.D. Computer Science, University of Pennsylvania (2008)

回答摘选:在 AI 深度学习中,谁是继 Hinton,Lecun 和 Bengio 之后的顶尖研究人员?

In AI deep learning, who would you say are the top researchers after Hinton, Lecun, and Bengio?

这个问题本身就是不成立的。我们都知道,Schmidhuber 的贡献与 Hinton,Lecun 和 Bengio 的贡献相比,起码是同等重要的。

DL 中只有两个关键指标:
1)CNN(Fukushima-LeCun)
2)LSTM(Schmidhuber)

其他一切,包括 Hinton 和 Bengio 的工作,相比他们都是次要的。这并不是说他们的工作不重要,他们在推广 NN 方面是非常重要的,但如果是说诺贝尔奖经常强调的「原创想法」,那么就是 LeCun,更早的 Fukushima 和 Schmidhuber。如果有深度学习的诺贝尔奖,那么应该选这些人。


9. Yoshua Bengio, Head of Montreal Institute for Learning Algorithms, Professor @ U. Montreal

回答摘选:如何进行机器学习的研究,只从 Coursera 或 edX 获取知识够吗?

How can one go about doing research in Machine Learning, provided one has the required knowledge gained from MOOCs in Coursera or edX?

当然不够。你需要认真实践。例如,尝试重现你感兴趣的一些论文的结果,参加 Kaggle 竞赛等。然后尝试作为访问学者、实习生或研究生加入学术实验室,与其他学生和研究人员合作进行深度学习的研究。


10. Shehroz Khan, ML Researcher, Postdoc @U of Toronto

回答摘选:机器学习的学位是难度最大的吗?

Is machine learning the hardest degree to undertake?

在我念博士期间,有来自中国的本科生(后来成为了硕士生,现在是博士生),他很轻松就能解决任何一个机器学习问题。他是个天才,我觉得对他来说任何事情都是可能的。我很震惊。
万事开头难。但当你完成了这件事,难度就变得微不足道了。对于数学家来说,机器学习的博士可能很简单。对于生物学家来说,可能就会十分难! 如果你没有足够的技能,背景知识,兴趣,激情以及毅力...任何学科的博士都不容易。对我来说,超出我所在领域的任何程度的知识都是艰难的。
特别致敬研究基础科学的人 —— 数学,物理,化学,生物学,艺术,人文,心理学等等……

原文链接:

Top 10 Quora Machine Learning Writers and Their Best Advice

分类收藏:

产品 | 设计 | 技术 | HackLife | Photography

推荐阅读:
Keras | 深度学习获取帮助的九种渠道zhuanlan.zhihu.com图标

编辑于 2018-11-06

文章被以下专栏收录

    简介:每日导读(或翻译)三篇优质英文文章,内容 80% 涉及硅谷/编程/科技/,期待共同成长。