HanLP-词法分析概述

HanLP-词法分析概述

前边的文章中提到过要对HanLP工具进行详细的说明。本来打算后边的文章介绍实践,但是迫于无法用现成的语料,而且现在的工作没有开发机,习惯了用开发机做实际的项目,等我资金充沛了买个16G的台式机再做打算吧。接下来的几周,将详细介绍一下HanLP中有关词法的工具,主要是分词、词性标注、实体识别。包括原理的介绍,适当时候直接分析Java代码,对于用Python的小伙伴只要你明白基本的编程方法就可以了,本来NLP里也没有太多太难的编程。我是一个C系出身的,本身并不排斥任何语言,但是很不愿意听见太多的名词,更不愿意看没水平的代码,这个之前已经讨论过了。

今天的核心内容就是一张表,之后我们会按照这张表的内容进行介绍。当然我还是推荐大家直接关注HanLP作者的github官网hankcs/HanLP。之所以不找C/C++的实现,是因为当前没有一个中文库是用C/C++写的,还有就是现在工作周围的人只会Java,不过周围全是做数据交互的,我觉得做这些的才叫调包侠,写多了这些程序的人,一个习惯就是爱起名字,各种名字,我觉得他们都挺奇怪的,简单的东西复杂化是他们的特性。反倒觉得真正做web的不管是.net还是java web的工程师大多比较谦虚,就是这些做数据存储交互的,个个儿自我感觉良好,就像没有他们不知道的。

最后说一点儿对当前NLP面试的感想吧。我最近没有面试的打算,不过倒是回忆了一下之前的面试。我这里写的基本不是面试成功的经验,是哪些通过面试就可以不去考虑的公司。第一块儿电话面试,这种面试最好不要透露太多信息给他们,有些没道德的公司会乱问你工作经历过的某家公司的情况,比如团队有几个人,你觉得你在那里的能力水平,你的等级等等。这种问题跟你的业务我看是基本没关系,所以遇到这种问题直接告诉不想回答。第二块面试+笔试。对于那种不问业务问题,做没用数据结构题的直接pass。还有一种是套你的业务方法,一旦感觉到有这方面倾向的时候,直接pass。


好了,今天的内容就到这里了,希望大家喜欢。另外,专栏的关注人数达到23人了,我会继续坚持写下去,直到达到100篇文章。

发布于 2019-04-01

文章被以下专栏收录