自然语言处理入门1

在网上搜了一些资料,放在这里当作备份。

自然语言处理研究内容

自然语言处理(简称NLP),是研究计算机处理人类语言的一门技术,包括:

  1. 句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧。
  2. 信息抽取:从给定文本中抽取重要的信息,比如,时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来,就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。涉及到实体识别、时间抽取、因果关系抽取等关键技术。
  3. 文本挖掘(或者文本数据挖掘):包括文本聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基于统计机器学习的。
  4. 机器翻译:把输入的源语言文本通过自动翻译获得另外一种语言的文本。根据输入媒介不同,可以细分为文本翻译、语音翻译、手语翻译、图形翻译等。机器翻译从最早的基于规则的方法到二十年前的基于统计的方法,再到今天的基于神经网络(编码-解码)的方法,逐渐形成了一套比较严谨的方法体系。
  5. 信息检索:对大规模的文档进行索引。可简单对文档中的词汇,赋之以不同的权重来建立索引,也可利用1、2、3的技术来建立更加深层的索引。在查询的时候,对输入的查询表达式比如一个检索词或者一个句子进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。
  6. 问答系统: 对一个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。
  7. 对话系统:系统通过一系列的对话,跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。同时,为了体现个性化,要开发用户画像以及基于用户画像的个性化回复。

Fundamental Problems of Statistical Natural Language Processing

  • Classification: assigning a label to a string, $ s \rightarrow c $
    • Text classification
    • Sentiment analysis
  • Matching: matching two strings
    • Search
    • Question answering
    • Dialogue (single turn)
  • Translation: transforming one string to another
    • Machine translation
    • Speech recognition
    • Hand writing recognition
    • Dialogue (single turn)
  • Structured Prediction: mapping string to structure
    • Named entity extraction
    • Part of speech tagging
    • Sentence parsing
    • Semantic parsing
  • Markov Decision Process: deciding next state given previous state and action
    • Dialogue (multi turn, task dependent)

语系与语支

  • 印欧语系:
    • 希腊语,
    • 拉丁语族/罗曼语族:
      • 意大利-达尔马提亚语支:意大利语,
      • 高卢-罗曼语支:法语,加泰罗尼亚语
      • 伊比利亚-罗曼语支:西班牙语、葡萄牙语
      • 东罗曼语支:罗马尼亚语,
    • 日耳曼语族
      • 西日耳曼语支高地德语. :德语,
      • 西日耳曼语支低地法兰克语. :荷兰语,
      • 西日耳曼语支盎格鲁-弗里西语. :英语,
      • 北日耳曼语支西北欧语. :冰岛语,挪威语
      • 北日耳曼语支东北欧语. :丹麦语,瑞典语
    • 斯拉夫语族Rich morphology.
      • 东斯拉夫语支:俄语,乌克兰语
      • 西斯拉夫语支:波兰语,捷克语,斯洛伐克语,
      • 南斯拉夫语支:克罗地亚语,塞尔维亚语,斯洛文尼亚语
      • 东南斯拉夫语支:保加利亚语,
  • 汉藏语系
    • 汉语族:汉语
    • 藏缅语族:藏语,缅甸语,
  • 阿尔泰语系Rich morphology.
    • 蒙古语族:蒙古语
    • 突厥语族:维吾尔语,乌兹别克语,哈萨克语,土耳其语,
  • 日本语系:日语
  • 乌拉尔语系:匈牙利语,芬兰语
  • 亚非语系
    • 闪米特语族:阿拉伯语,希伯来语

词性标注(Part-of-speech tagging)

  1. ADJ:形容词。比如,new,good,high,special,big,local。
  2. ADV:副词。比如,really,already,still,early,now。
  3. CNJ:连词。比如,and,or,but,if,while,although。
  4. DET:限定词。比如,the,a,some,most,every,no。
  5. EX:存在量词。比如,there,there’s。
  6. FW:外来词。比如,dolce,ersatz,esprit,quo,maitre。
  7. MOD:情态动词。比如,will,can,would,may,must,should。
  8. N:名词。比如,year,home,costs,time,education。
  9. NP:专有名词。比如,Alison,Africa,April,Washington。
  10. NUM:数词。比如,twenty-four,fourth,1991,14:24。
  11. PRO:代词。比如,he,their,her,its,my,I,us。
  12. P:介词。比如,on,of,at,with,by,into,under。
  13. TO:词to。比如,to。
  14. UH:感叹词。比如,ah,bang,ha,whee,hmpf,oops。
  15. V:动词。比如,is,has,get,do,make,see,run。
  16. VD:过去式。比如,said,took,told,made,asked。
  17. VG:现在分词。比如,making,going,playing,working。
  18. VN:过去分词。比如,given,taken,begun,sung。
  19. WH:Wh限定词。比如,who,which,when,what,where,how。

句法依存分析(dependency parsing)

  1. 主谓关系:SBV:我送她一束花(我<–送)。
  2. 动宾关系:VOB:我送她一束花(送–>花)。
  3. 间宾关系:IOB:我送她一束花(送–>她)。
  4. 前置宾语:FOB:他什么书都读(书<–读)。
  5. 兼语:DBL:他请我吃饭(请–>我)。
  6. 定中关系:ATT:红苹果(红<–苹果)。
  7. 状中结构:ADV:非常美丽(非常<–美丽)。
  8. 动补结构:CMP:做完了作业(做–>完)。
  9. 并列关系:COO:大山和大海(大山–>大海)。
  10. 介宾关系:POB:在贸易区内(在–>内)。
  11. 左附加关系:LAD:大山和大海(和<–大海)。
  12. 右附加关系:RAD:孩子们(孩子–>们)。
  13. 独立结构:IS:两个单句在结构上彼此独立。
  14. 核心关系:HED:指整个句子的核心。

语义依存分析(Syntax parsing)

  1. 施事关系:Agt:我送她一束花(我<–送)。
  2. 当事关系:Exp:我跑得快(跑–>我)。
  3. 感事关系:Aft:我思念家乡(思念–>我)。
  4. 领事关系:Poss:他有一本好读(他<–有)。
  5. 受事关系:Pat:他打了小明(打–>小明)。
  6. 客事关系:Cont:他听到鞭炬声(听–>鞭炮声)。
  7. 成事关系:Prod:他写了本小说(写–>小说)。
  8. 源事关系:Orig:我军缴获敌人四辆坦克(缴获–>坦克)。
  9. 涉事关系:Datv:他告诉我个秘密(告诉我)。
  10. 比较角色:Comp:他成绩比我好(他–>我)。
  11. 属事角色:Belg:老赵有俩女儿(老赵<–有)。
  12. 类事角色:Clas:他是中学生(是–>中学生)。
  13. 依据角色:Accd:本庭依法宣判(依法<–宣判)。
  14. 缘故角色:Reas:他在愁女儿婚事(愁–>婚事)。
  15. 意图角色:Int:为了金牌他拼命努力(金牌<–努力)。
  16. 结局角色:Cons:他跑了满头大汗(跑–>满头大汗)。
  17. 方式角色:Mann:球惺惺滚进空门(慢慢<–滚)。
  18. 工具角色:Tool:她用砂锅熬粥(砂锅<–熬粥)。
  19. 材料角色:Malt:她用小米熬粥(小米<–熬粥)。
  20. 时间角色:Time:唐朝有个李白(唐朝<–有)。
  21. 空间角色:Loc:这房子朝南(朝–> 南)。
  22. 历程角色:Proc:火车正在过长江大桥(过–> 大桥)。
  23. 趋向角色:Dir:部队奔向南方(奔–>南)。
  24. 范围角色:Sco:产品应该比质M (比–>质量)。
  25. 数量角色:Quan:一年有365天(有–>天)。
  26. 数量数组:Qp:三本书(三–>本)。
  27. 频率角色:Freq:他每天看书(每天<–看)。
  28. 顺序角色:Seq:他跑第一(跑–>第一)。
  29. 描写角色:Desc(Feat):他长得胖(长–>胖)。
  30. 宿主角色:Host:住房面积(住房<–面积)。
  31. 名字修饰角色:Nmod:栗戈里大街(果戈里<–大街)。
  32. 时间修饰角色:Tmod:星期一上午(星期一<–上午)。
  33. 反角色:r+main role:打篮球的小姑娘(打篮球<–姑娘)。
  34. 嵌套角色:d+main role:爷爷看见孙子在跑(看见–>跑)。
  35. 并列关系:eCoo:我喜欢唱歌和跳舞(唱歌–>跳舞)。
  36. 选择关系:eSelt:您是喝茶还是喝咖啡(茶–>咖啡)。
  37. 等同关系:eEqu:他们三个人一起走(他们–>三个人)。
  38. 先行关系:ePrec:首先,先。
  39. 顺承关系:eSucc:随后,然后。
  40. 递进关系:eProg:况且,并且。
  41. 转折关系:eAdvt:却,然而。
  42. 原因关系:eCau:因为,既然。
  43. 结果关系:eResu:因此,以致。
  44. 推论关系:elnf:才,则。
  45. 条件关系:eCond:只要,除非。
  46. 假设关系:eSupp:如果,要是。
  47. 让步关系:eConc:纵使,哪怕。
  48. 手段关系:eMetd。
  49. 目的关系:ePurp:为了,以便。
  50. 割舍关系:eAban:与其,也不。
  51. 选取关系:ePref:不如,宁愿。
  52. 总括关系:eSum:总而言之。
  53. 分叙关系:eRect:例如,比方说。
  54. 连词标记:mConj:和,或。
  55. 的字标记:mAux:的,地,得。
  56. 介词标记:mPrep:把,被。
  57. 语气标记:mTone:吗,呢。
  58. 时间标记:mTime:才,曾经。
  59. 范围标记:mRang:都,到处。
  60. 程度标记:mDegr:很,稍微。
  61. 频率标记:mFreq:再,常常。
  62. 趋向标记:mDir:上去,下来。
  63. 播入语标记:mPars:总的来说,众所周知。
  64. 否定标记:mNeg:不,没,未。
  65. 情态标记:mMod:幸亏,会,能。
  66. 标点标记:mPunc:,。!。
  67. 重复标记:mPept:走啊走(走–>走)。
  68. 多数标记:mMaj:们,等。
  69. 实词虚化标记:mVain。
  70. 离合标记:mSepa:吃了个饭(吃–>饭),洗了个澡(洗–>澡)。
  71. 根节点:Root:全句核心节点。

END