在过去的几年里自然语言处理已经发展成为一项革命性的技术,在数据科学和人工智能研究.自然语言处理的目标是处理和利用文本和语音数据来创建智能机器和产生见解。它的目标是制造能够与人类讨论复杂话题的机器。简单地说,NLP是人工智能和计算语言学.在这篇文章中,我们将看看NLP的就业市场,所需的技能,理想的学习路径,和薪水,自然语言处理的职业道路,自然语言处理工作在印度,NLP的工作薪水等。
表的内容
什么是自然语言处理(NLP)?
自然语言处理(NLP)是一种帮助计算机理解人类语言的技术。它是人工智能最大的分支之一,由于语音和文本数据的多样性,在它内部有广泛的方法。
当涉及到处理人类语言的非结构化数据集时,计算机需要额外的支持,这些语言包括不同的语法语言、语法、俚语和方言。NLP使用数据和数学来帮助你设计计算机,使它们能够理解和解释自然的表达。
读人工智能、ML、大数据、NLP、物联网和区块链技术入门指南.
自然语言处理的两个重要功能
自然语言处理的两个重要功能是情绪分析和文本分类.
情绪分析在大量的文本收集中识别情绪或主观意见。它适用于:
- 客户满意度:给定客户的数据,例如客户评论,情感分析识别客户的情绪和意见。
- 信誉的新闻
- 概念/实体提取
文本分类是一个基于语言的文档摘要,包括搜索和索引、内容警报和重复检测。在文本分类中,有手动分类和自动分类。对于手工分类,人工注释器解释文本的上下文并进行相应的分类。对于自动分类,机器学习(ML), NLP和其他技术,以更快和更经济的方式自动分类文本。
NLP中的其他方法包括主题发现建模、上下文提取、语音到文本和文本到语音翻译以及文档摘要:
1.话题发现模型-准确捕捉文本集合的含义和主题,并应用优化和预测
2.背景提取-自动从基于文本的来源拉结构化信息。
3.语音到文本和文本到语音的翻译-将语音命令转换为书面文本,反之亦然
4.文档摘要-关系建模,自动生成大型文本的概要。多伦多-蓝鸟队,纽约-洋基队
(空间)NLP的应用程序
NLP解决方案为从数字通信到医疗保健、医药、金融、营销和零售等不同行业的组织提供了巨大的价值。以下是当今行业中NLP最常见的一些应用:
- 拼写检查(如语法)
- 聊天机器人
- 文本分类
- 自动摘要生成
- 语言识别
- 情绪分析
- 市场情报
- 虚拟辅助(如Alexa和Siri)
- 自动语言翻译(如谷歌翻译,微软/Skype翻译)
NLP是如何工作的?
NLP引擎依赖于以下元素来处理查询-
- 意图-构建会话式用户界面的核心概念,并被识别为用户想要实现的任务或用户想要解决的问题陈述。
- 话语,当用户提到一个意图时,他们可以向聊天机器人输入各种不同的句子实例。
- 实体.它们包括与用户意图相关的所有特征和细节。这可能包括地点、日期、时间等。
- 上下文.这有助于在整个用户会话中保存和共享不同的参数。
- 会话.这基本上涵盖了用户对话的开始和结束。
NLP领域已经成为令人难以置信的多学科领域,将符号范式(基于一组规则进行模式匹配)和随机范式(从统计和概率中提取)结合在一起。
以下是按行业划分的NLP目前的一些使用方式:
- 医学——总结医生的账单记录;互操作性(跨提供商移动不同格式的医疗记录)
- 法律-改进和更相关的法律文件查找/研究
- 金融行业/银行业-基于情绪、世界新闻或社交媒体的可操作的见解
为什么我们需要NLP?
语言是高度模糊的——它依靠微妙的暗示和上下文来传达意思。计算机在解决模糊性方面做着巨大的斗争。因此,他们在没有充分理解语境的情况下,如常识和文化,就在进行解释意义的艰苦斗争。
在日常对话中,我们传达信息时并不考虑大脑如何将如此多的非结构化数据转换成有用的信息。然而,对于机器来说,理解人类的语言是非常困难的。
我们被文本包围着。想想你每天能看到多少文字:
- 迹象
- 菜单
- 电子邮件
- 短信
- 网页
- 还有更多……
这个名单是无穷无尽的。
现在想想演讲。
作为一个物种,我们彼此交流的次数可能比书写的次数还要多。学习说可能比学习写更容易。声音和文字是我们相互交流的方式。
考虑到这类数据的重要性,我们必须有方法来理解和推理自然语言,就像我们对其他类型的数据所做的那样。
“这个新领域的目标是让计算机执行包括人类语言在内的有用任务,比如实现人机交流、改善人与人之间的交流,或者只是对文本或语音进行有用的处理。”
(空间)人类语言对机器来说很难
如果我说,“我爱鸡肉”。对于软件或电脑来说,一开始很难理解我的意思是“我爱吃鸡肉”,而不一定是和鸡肉谈恋爱。
同样,如果有人说“我喜欢开飞机”。
那么,那个人“喜欢参与驾驶飞机的行为吗?”或者他是在表达“对借助翅膀在空中飞行的人造飞行器的欣赏?”
(空间)NLP需求和就业市场
随着智能设备使用的增加,云解决方案的采用,以及基于NLP的应用程序来改善客户服务,定义了NLP市场的增长,专家们正在探索在未来几年释放其全部潜力的方法。
NLP是2021年最需要掌握的7项技术技能之一.到2025年,全球NLP市场预计将超过340亿美元,年复合增长率为21.5%。
读计算语言学:与印度理工学院- kharagpur和ISI-Kolkata博士学者Vandana的问答.
(空间)NLP工程师/科学家做什么?
NLP旨在赋予机器理解人类自然语言的能力。NLP工程师和科学家主要负责设计和开发机器和应用程序,这些机器和应用程序可以学习人类语言的说话模式,并将口语翻译成其他语言。
我们的目标是帮助机器像人类一样自然地理解人类语言。公司通常聘请NLP工程师承担以下任务:
- 设计一种能够理解人类语言并完成动作的设备。
- 创造能够分析和生成人类语言的计算机,包括语音功能。
- 编写计算机程序和应用程序来理解人类口语。
NLP职位及薪金
在美国,平均年薪在7.5万美元到11万美元之间。在印度,有1 - 4年工作经验的人,NLP的年薪从4卢比到9卢比不等。下图是英国和欧洲国家NLP的薪资情况。
2021年NLP工作的顶级技能
NLP科学家的主要工作是教机器如何理解人类语言的细微差别。因此,他们必须精通至少一种语言的语法、拼写和语法(越多越好)。
此外,他们应该具备基本的数据科学和机器学习(ML)技能。以下是针对当前就业市场的顶级NLP技能列表。
- fastText
- PyTorch
- 宽大的
- AdaptNLP
- PySpark & SparkNLP
- 伯特
- 拥抱的脸
- CoreNLP
- GPT-3
- Seq2seq (TensorFlow)
- Alexa的API
- NLTK
- Scikit-Learn
- Python
- 其他编程语言(如R, Java, Julia)
如何学习NLP(理想的学习路径)
以下是7个月学习NLP的典型结构化学习路径:
先决条件(Month-0):
- 数据科学Python
- 统计数据
- 数据展示与分析
- 线性回归
- 逻辑回归
- 决策树算法
- k倍交叉验证奇异值分解
第一个月:熟悉文本数据
- 文本挖掘
- 正则表达式
- 文本预处理
- 文本数据的探索性分析
- 文本数据的元特征提取
第2个月:计算语言学和词向量
- 提取语言特征
- 向量空间中的文本表示
- 主题建模
- 信息提取
第3个月:NLP的深度学习
- 神经网络
- 优化算法
- 递归神经网络
- PyTorch
第4个月:面向NLP的深度学习模型
- 用于文本分类的rnn
- 用于NLP的卷积神经网络(CNN)模型
Month-5:连续的造型
- 语言建模
- Sequence-to-Sequence建模
第6个月:NLP的迁移学习
- ULMFiT
- 变形金刚
- Pre-trainer大型语言模型
- 微调预训练模型
第7个月:聊天机器人和音频处理
- 聊天机器人
- 音频处理
自然语言处理(NLP)顶级在线课程
在Coursera上为NLP提供最佳在线课程
在Python中使用NLP和TF-IDF创建Wordcloud
(空间)Udemy NLP最佳在线课程(含折扣)
(空间) (空间)特色图片来源:CanopyLab