小鹏专业课 | 你看不到的机器学习(二)

小鹏专业课 | 你看不到的机器学习(二)

嗨,鹏友们,大家好,又到了一个愉快的周五,小鹏汽车又如期送上了机器学习系列文章的第二期!

在第一篇文章中,我们硬核科普了“当我们谈论机器学习的时候我们在谈论什么”:

小鹏汽车:小鹏专业课 | 当我们谈论机器学习的时候我们在谈论什么?(一)zhuanlan.zhihu.com图标

第一篇:介绍-当我们谈论机器学习的时候我们在谈论什么?(2019.07.26)

第二篇:应用-你看不到的机器学习(2019.08.02这一期,就是本期啦)

第三篇:挑战-好吧,机器学习不过如此

第四篇:学习-从被动学习到主动学习

第五篇:技巧-深度学习的昨天,今天,明天

第六篇:总结-你可能不知道,AI有17种门派


在第二篇文章中,我们主要来聊一聊机器学习的应用。

为了不浪费大家宝贵的玩手机时间,一些很火热的话题,例如人脸识别、自动驾驶、语音助手、游戏AI,这里就不介绍了,因为相关文章太多,日常生活已经能直观感受到它们的存在。

今天我们只谈一谈,那些你平时不太看到的机器学习应用,开始吧!

对作者感兴趣的,请关注我们的小伙伴:

知乎用户www.zhihu.com图标

* 金融领域

金融可能是最适合做机器学习的领域之一,因为金融交易的过程中会产生大量且准确的历史数据(例如报表,账单,交易记录,等等),看到第一期文章的鹏友都知道,数据对于机器学习的意义:

然而除此之外,数据的质量也同样重要。好数据不是万能的,没有好数据是万万不能的。俗话说“Junk in, junk out”,如果喂给机器学习系统质量很差的数据,那么得到的模型性能也不会太好。很多不熟悉机器学习的人对其抱有过高的期待,大多是没有意识到,要充分发挥一个机器学习算法的能力,必须先收集足够多的数据并做精细的挑选和处理。这种对数据质量的依赖关系延伸出许多超出机器学习算法本身的问题,例如训练数据可能存在的不平衡性导致系统形成偏见(system bias),或者训练好的模型被要求适应不同的应用场景(transfer learning),等等。

尽管面临着数据波动大,难以挑选合适的模型等各种挑战,机器学习早已被用于审批贷款,估计风险等金融业务——比手机银行APP,客服机器人还要早[1]。2017年摩根大通的一份关于大数据和人工智能战略的报告指出,未来一个优秀的金融投资机构必须发展机器学习投资系统,以适应金融的数据化和智能化[2]。

2019年面向北美450位金融专业人士的调查显示,机器学习在金融领域的应用越来越普遍[6]

以下介绍三个近年来越来越普遍的金融应用:

** 虚拟投资顾问

基于机器学习算法的虚拟投资顾问已经可以替你管理投资了。只需要告诉它你打算花多少钱投资,目标收益是多少,以及可承受风险的范围,那么就可以帮你选择最优的投资组合,根据你的需求和市场的变化调整策略,以尽可能实现目标收益。

这种虚拟投资顾问无疑是双赢的策略。对于客户,你不多花一分钱或者很少的钱就能收获看起来还不错的投资建议,而对于银行,这种增值服务更容易吸引资金并且增加用户黏度。


**反金融诈骗

金融诈骗案例不一而足。以往通过一套人工设计的极其复杂的规则来识别异常的金融操作(例如信用卡盗刷),但新的诈骗方法花样百出,传统方法很难跟上节奏。

借助数据驱动的机器学习算法,可以不断利用市场和用户的海量数据更新诈骗检测模型,保证高质量的检测和误报率。并且,反欺诈模型可以利用足够多的信息来主动发现诈骗案件而不是事后才发现,从而快速响应,及时止损。这样不仅降低了各方的财务风险,也提高了客户满意度,塑造了品牌。


** 量化交易

量化交易是指利用计算机科学和金融工程等方法实现金融操作的模式,其重点在于量化:任何时刻做的决策都有数据作为支撑。

不得不说这和一部分散户股民采用的拍脑门大法形成鲜明对比。

量化交易的过程中,机器学习模型能够处理金融数据,学习特征,鉴别、分析、预测可能的投资机会,从而自动构建交易策略。

这种模式有两个优点:

一是永远冷静、客观、稳定,相比之下人类的决策多少受性格和情绪的影响,即便是最优秀的人类交易员难免也有情绪化的时候;

二是推动了高频交易的发展。我们都知道每分每秒市场都在上下波动,高频交易能在极端的时间窗口内(在美国最快是几十纳秒的级别[3])自主寻找低买高卖的机会并完成交易。虽然一单利润往往很薄(例如20块钱买进股票,在几十毫秒以后以20.01块卖出,一股赚一分),但一天能完成几百万次这样的交易,收入极为可观。

这种模式在人工交易的时代是无法想象的,而机器学习算法和其他信息技术的发展让高频交易获得超额回报成为可能。


* 自然科学领域

自然科学的重要属性是探索,通常意味着大量重复性的实验,而实验环境可能是艰苦甚至危险的(例如居里夫人发现镭,实验中长期受辐射罹患白血病,其论文手稿至今日都要穿防护服才能阅读[4])。我们希望更高效安全地进行科研探索,甚至完成仅靠人力所不能及的成果。

机器学习作为一种工具,在过去的的几十年里帮助人类延拓知识的边界。


** 化学/生物学

最前沿的化学和生物学经常面临着合成新物质的挑战,例如特定功能的新材料,新药,甚至是人工生命体。

当科学家探索新物质的组成、结构和性质时,往往要通过实验尝试和验证,可惜结果大概率都是失败,整个研发过程缓慢并且成本高昂。借助机器学习算法,可以让计算机学习物质组成、结构和性能之间的关系,从人类所不能理解的数据里提取出有用的信息,进而根据物质结构预测其性质。

虽然这种预测不一定完全准确,但可以作为参考,帮助科研人员排除掉不太有希望的物质结构,甚至从中获取科学性的灵感。

从上世纪90年代开始,化学家已经在研发新的药品时成功利用机器学习算法(神经网络、随机森林、或者支持向量机,等等)量化分子结构和性能之间的关系(Quantitative Structure Activity Relationship, QSAR)[5],从而针对性地选择有潜力的结构。

而现在这一届科学家们更加会玩:MIT的研究人员根据氨基酸分子质量和二级结构把抹香鲸的肌红蛋白“转换”成了音乐,并认为这能让深度神经网络更好地理解蛋白质的结构数据,从而帮助他们按需生成新的蛋白结构[7]。这种转换本质上是一种特征工程的方法。你可能看不懂复杂的氨基酸结构,但你可以听听它们变成音乐以后的样子:

听听氨基酸变成音乐的亚子https://www.zhihu.com/video/1140635734225580032


* 天文学

人类从没停止过仰望星空,在我们头顶上可能是最神秘的数据集。

长久以来,天文学家努力寻找宇宙中新的星系团(Galaxy Cluster),相关的研究对理解暗物质和暗能量有重要意义。但随着观测距离增加,识别星系团越来越困难。

例如下面这张引力透镜拍摄的宇宙图片,右上方三个放大到像素级的图片里微弱的红色区域构成了宽约850光年的Abell 2744星系团[8]。而现代天文望远镜每天会产生TB级别类似的观测图像。在这种极端情况下,不论是人眼还是传统的图像处理方法都十分乏力。但是借助机器学习的方法,我们可以高效处理观测数据,在以往所不及的尺度上探索宇宙中的天体。来自Lancaster University的科学家近期就公布了一种基于深度学习的寻找星系团的方法Deep-CEE,并表示目标用这种方法在未来发现上千个新的星系团[9]。

依靠肉眼完全无法辨认的Abell 2744星系团[8]。在无数宇宙观测图像里寻找特定天体无疑大海捞针。


总结

不管你是否看得到,机器学习已被用在社会的方方面面,正在且真实地推动世界改变。

总体来看,机器学习应用表现出了一种范式:永远是数据驱动,通过对大量数据的学习,让人类原本的工作更高效(例如投资管理,反诈骗,合成新物质),甚至取得了人力不能达到的成果(例如高频交易,探索更广袤的宇宙)。

然而,数据驱动意味着对数据的依赖;给人类赋能是机遇还是挑战?这暗示了机器学习存在的局限和背后的争议。

在之后的文章里,我们将聊一聊,看起来光鲜的机器学习可能也“不过如此”。


参考资料

  1. Machine Learning in Finance–Present and Future Applications emerj.com/ai-sector-ove
  2. Kolanovic, Marko, and R. T. Krishnamachari. "Big data and AI strategies: Machine learning and alternative data approach to investing." JP Morgan Global Quantitative & Derivatives Strategy Report (2017).
  3. 高频交易已经竞争到纳秒级 zhuanlan.zhihu.com/p/56
  4. 史上最危险的论文 | 混乱博物馆 zhuanlan.zhihu.com/p/39
  5. Is machine learning overhyped? cen.acs.org/physical-ch
  6. The machine learning trends transforming finance refinitiv.com/perspecti
  7. Translating molecules into music helps humans and AI understand proteins chemistryworld.com/news
  8. NASA’s Hubble Finds Extremely Distant Galaxy Through Cosmic Magnifying Glass nasa.gov/press/2014/oct
  9. Chan, Matthew C., and John P. Stott. "Deep-CEE I: Fishing for Galaxy Clusters with Deep Neural Nets." arXiv preprint arXiv:1906.08784 (2019).
编辑于 2019-08-16