l 課程介紹:
自然語言處理(簡稱 NLP)是計算機科學和人工智能研究的一個重要方向,研究計算機和理解和運用人類語言進行交互的問題,它是集語言學、機器學習、統計學、大數據于一體的綜合學科。
本課程主要介紹了NLP中的常用知識點:分詞、詞法分析、句法分析、向量化方法、經典的NLP機器學習算法,還重點介紹了NLP中最近兩年來基于大規模語料預訓練的詞嵌入模型及應用。同時本課程偏重于實戰,不僅系統地介紹了 NLP的知識點,還講解如何實際應用和開發,每章節都有相應的實戰代碼。
l 課程時間:4天
l 學習對象
1.希望從事NLP工作的IT技術人員、開發人員等。
2.高校、科研院涉及NLP工作的學生和研究人員。
l 學習目標:
1.掌握NLP基礎;
2.分詞;詞法、句法分析
3.文本向量化
4.HMM與CRF
5.基于深度學習NLP算法;
6.神經語言模型
7.詞嵌入方法
8.基于大規模語料預訓練的詞嵌入
l 課程大綱
第一天:傳統的NLP
一、NLP基礎知識
1、自然語言處理簡介
2、中文NLP的主要任務
3、常見的NLP系統
4、NLP的研究機構與資源
二、中文分詞
1、基于字符串匹配的分詞
2、統計分詞法與分詞中的消歧
3、命名實體識別
4、常用分詞工具:JIEBA
三、文本的相似性
1、VSM
2、TF-IDF
3、初步情感分析
四、隱馬爾科夫模型
1、形式化定義
2、三個問題
3、評估問題與向前向后算法
4、解碼問題:維特比算法
5、學習問題:Baum-Welch算法
五、條件隨機場
1、最大熵原理
2、無向圖模型
3、最大團上的勢函數
4、工具:CRF
第二天:從傳統到現代
一、從LSA到LDA
1、LSA與SVD分解
2、pLSA
3、LDA
二、神經網絡語言模型
1、維數的詛咒
2、n-gram語言模型
3、NNLM的具體實現
4、改進的思路
三、word2vec
1、one-hot與Distributed
2、CBOW
3、skip-gram
4、Hierachical Softmax
5、Negative Sampling
四、循環神經網絡(RNN)
1、RNN的基礎架構
2、RNN的示例
3、LSTM
4、GRU
第三天:預訓練模型之一(變形金剛、芝麻街、獨角獸及其他)
一、GloVe
1、與word2vec的區別
2、統計共現矩陣
3、用GloVe訓練詞向量
二、Transformer
1、所有你需要的僅僅是“注意力”
2、Transformer中的block
3、自注意力與多頭注意力
4、位置編碼(為什么可以拋棄RNN)
三、三大特征抽取器的比較
1、CNN、RNN與Transformer的比較
2、融合各種模型
四、Elmo
1、雙向語言模型
2、工作原理
3、Elmo的應用場景
五、GPT
1、“一定會有人用它干壞事”
2、GPT的內部架構
3、Transformer的演示
4、自注意力機制的改進
5、GPT的應用場景
第四天:預訓練模型之二(站上BERT的肩頭)
一、BERT的前世今生
1、之前介紹的模型回顧
2、現代NLP的最新應用場景
3、條條大路通BERT
二、BERT詳解
1、原理與方法
2、BERT的應用場景
3、BERT源碼簡介
三、站在BERT肩膀上的新秀們
1、ERNIE
2、XLnet