• 1. 1深度学习在自然语言处理的应用张俊林 畅捷通股份有限公司 2014.10.3
  • 2. 2大纲深度学习简介 基础问题:语言表示问题 Word Embedding 不同粒度语言单元的表示 字符/单字/单词/短语/句子/文档 值得重点关注的模型 RAE/Tensor Network/卷积网络 NLP的应用 语言模型 中文分词 知识挖掘 情感计算 机器翻译 Paraphrase IR 探讨与思考
  • 3. 3深度学习(表示学习)
  • 4. 4深度学习(表示学习)
  • 5. 5Layer-Wise Pre-Training
  • 6. 6Denoising Autoencoder
  • 7. 7自然语言交互的时代
  • 8. 8大纲深度学习简介 基础问题:语言表示问题 Word Embedding 不同粒度语言单元的表示 字符/单字/单词/短语/句子/文档 值得重点关注的模型 RAE/Tensor Network/卷积网络 NLP的应用 语言模型 中文分词 知识挖掘 情感计算 机器翻译 Paraphrase IR 探讨与思考
  • 9. 9One-Hot 表示One Hot表示在传统NLP中很常用 Similarity(dog,cat)=0
  • 10. 10Word Embedding词向量:单词的分布向量表示(Distributional Representation) 词向量表征了单词使用上下文中的句法语义特征 One-Hot的字面匹配到DR的语义匹配 Similarity(dog,cat)>Similarity(dog,the)Similarity(“the dog smiles.”,“one cat cries.”)
  • 11. 11无监督训练获得单词的WE-word2vec单词:苹果
  • 12. 12无监督训练获得单词的WE-word2vec单词:长颈鹿
  • 13. 13无监督训练获得单词的WE-word2vec单字:张
  • 14. 14无监督训练获得单词的WE-word2vec单字:雯
  • 15. 15无监督训练获得单词的WE-word2vec单字:葱
  • 16. 16Word2vecCBOW:
  • 17. 17word2vecSkip-Gram:
  • 18. 18word2vecCBOW+ Hierarchical Softmax
  • 19. 19word2vecCBOW+Negative Sampling最大化:st:正例负例
  • 20. 20不同粒度语言单元的表示-字符/单字字符上下文向量 英文:捕获构词法中文:捕获字搭配 英文拓展:字符N-Gram 中文拓展:单字N-Gram?
  • 21. 21不同粒度语言单元的表示-短语/句子/文档方法一:单词词向量取和(Summrization) 很多情况都做此种简化处理 过于简单,但是仔细思考有一定道理 方法二:单词词向量加权求和 Huang’s Work 权重:类似于IDF 方法三:RNN
  • 22. 22不同粒度语言单元的表示-短语/句子/文档方法四:Matrix-Vector NN
  • 23. 23不同粒度语言单元的表示-短语/句子/文档方法五:卷积神经网络
  • 24. 24大纲深度学习简介 基础问题:语言表示问题 Word Embedding 不同粒度语言单元的表示 字符/单字/单词/短语/句子/文档 值得重点关注的模型 RAE/Tensor Network/卷积网络 NLP的应用 语言模型 中文分词 知识挖掘 情感计算 机器翻译 Paraphrase IR 探讨与思考
  • 25. 25RAE(Recursive AutoEncoders)推导短语及句子级别的Word Embedding表示
  • 26. 26Neural Tensor Networks表达多个实体之间的关系 /两个单词之间某种操作
  • 27. 27Neural Tensor Networks
  • 28. 28卷积网络( Convolutional Deep Neural Network )全局特征选择与融合/不定长转换为定长表示
  • 29. 29大纲深度学习简介 基础问题:语言表示问题 Word Embedding 不同粒度语言单元的表示 字符/单字/单词/短语/句子/文档 值得重点关注的模型 RAE/Tensor Network/卷积网络 NLP的应用 语言模型 中文分词 知识挖掘 情感计算 机器翻译 Paraphrase IR 探讨与思考
  • 30. 30语言模型
  • 31. 31语言模型Bilinear-LM
  • 32. 32语言模型RNNLM
  • 33. 33深度学习用于中文分词-思路1
  • 34. 34深度学习用于中文分词-思路2
  • 35. 35深度学习用于中文分词两者思路基本相同 基于字的Word Embedding+三层神经网络+BEMS标记序列分类 思路2引入全局的Viterbi解码(分类后处理) 效果:和主流分词算法效果接近 CRF/Maxent+二元特征 类似思路同样可以套用到POS/NER/Parser等场景 这是利用Word Embedding解决NLP问题最直观的NLP应用思路 考虑探索下非标准三层神经网络结构的复杂模型
  • 36. 36深度学习用于知识挖掘两大类问题 现有知识库的新知识推理 CYC,WordNet,FreeNet…… 目前的文献做法大思路基本一致 已知实体用Word Embedding表示 实体关系用Tensor Network建模 后向传播+SGD训练 从自由文本中挖掘结构化知识
  • 37. 37现有知识库的新知识推理
  • 38. 38现有知识库的新知识推理最小化目标函数:正例:负例:
  • 39. 39从自由文本中挖掘结构化知识整体结构词法级特征
  • 40. 40从自由文本中挖掘结构化知识句子级特征抽取:卷积网络
  • 41. 41机器翻译(通用模型)最常见的通用模型:Encoder-Decoder ModelEncoderDecoder语义向量
  • 42. 42机器翻译(Encoder-Decoder具体例子)ACL2014 Best Paper:Fast and Robust Neural Network Joint Models for Statistical Machine Translation网络结构语言模型翻译模型
  • 43. 43机器翻译-很多地方可以引入DL单词对齐 短语对齐 短语重排序 语言模型 翻译模型 联合模型 翻译结果重排序 ……………单词对齐
  • 44. 44情感计算核心的两个问题 句子级的Word Embedding表示 前面讲过这个问题 如何将情感倾向编码到各级Word Embedding中 半监督或者监督学习:通过训练过程将情感倾向编码到WE结构中
  • 45. 45Paraphrase(整体框架)S1:The judge also refused to postpone the trial date of Sept. 29.S2: Obus also denied a defense motion to postpone the September trial date. Paraphrase的问题:Semantic(S1)=Semantic(S2)?
  • 46. 46Paraphrase(RAE)Darling!I’m here!Darling!I’m here!
  • 47. 47Paraphrase(Dynamic Pooling)应用拓展:很明显这个方法可以照搬不动放到QA问题匹配中 (一篇灌水论文就此诞生了!) 欧式距离:越小越好
  • 48. 48DL for IR一种直观的方法
  • 49. 49DL for IR一种没那么直观的方法
  • 50. 50大纲深度学习简介 基础问题:语言表示问题 Word Embedding 不同粒度语言单元的表示 字符/单字/单词/短语/句子/文档 值得重点关注的模型 RAE/Tensor Network/卷积网络 NLP的应用 语言模型 中文分词 知识挖掘 情感计算 机器翻译 Paraphrase IR 探讨与思考
  • 51. 51探讨与思考与传统方法比较DL的优势所在 抛掉特征选择步骤 简洁地融入语义级特征 很多应用可以直接绕过NLP的中间场景比如POS,句法,减少错误累加 语言长程依赖容易建模:词向量+卷积网络 可以解决语言模型的数据稀疏问题:15-Gram 很多场景如果优化速度非常快,方便应用的工程化实用化
  • 52. 52探讨与思考目前研究模式中最基础和重要的问题 短语、句子、段落、文档级别的有效Word Embedding表示 文档级别表示很多应用直接受益:分类,IR等 问题:文档级别采用低维表示,是否丢失细节信息?只能作为辅助手段?句子级别的低维表示很有意义,最关键。 如何更能体现“深度”的思想 目前还说不上很Deep:WE为主 是否有除了“Word Embedding”外更Deep的模式? 目前看DL在NLP哪些方面好哪些一般? 涉及语义处理的应用:表现好 不涉及太多语义的应用:State-of-the-art 说明什么? Word Embedding已经把传统ML方法使用特征融合进去了 语义级别特征效果体现明显
  • 53. 53探讨与思考与CRF的比较及区别与联系 CRF:线性 VS DL:非线性 CRF:高维离散特征 VS: DL:低维连续特征 结论:非线性模型对于低维连续特征有效,对高维离散特征无效 DL在推荐系统方面应用方法的思考 不成熟的初步思路 我个人看好DL在NLP方面的作用 与传统方法比有明显优点 发展初期:机会多、挑战大 NLP方向博士生的黄金时代 非常容易想到很多New Idea 一把新的锤子,很多钉子可以去敲
  • 54. 54广告时间
  • 55. 55Thanks!