【说话处理惩罚与Python】1.1文本和单词

    添加时间:2013-5-14 点击量:

    【媒介】
    天然说话:日常交换应用的说话
    NLP:Natural Language Processing

    【第1章 说话处理惩罚与Python】
    1.1说话策画:文本和单词
    根蒂根基入门
    -想要获得我们期望的小数除法,要输入 __future__ import division

    -NLTK数据包
     import nltk
     nltk.download()

    -加载要用的文本
      nltk.book import

    搜刮文本
    -concordance词汇索引,会显示词汇所处的高低文
    text1.concordance(monstrous)

    -similar,查找还有哪些词会呈如今类似的高低文中
    text1.similar(monstrous)

    -common_contexts,容许我们研究两个或者两个以上的词共同的高低文
    text2.common_contexts([monstrous,very])

    -dispersion_plot,断定词汇在文本中的地位,应用离散图来默示地位。
    text4.dispersion_plot([citizens,democracy,freedom,duties,America])

    -不合风格生成文本
    text3.generate()

    计数词汇
    -len(text3)呈现的词和标点符号的个数
    -sorted(set(text3))所有文章呈现的词汇,并且进行排序(词类型,一个词在一个文本中独一无二呈现的情势或者拼写)
    - __future__ import division
     len(text3)/len(set(text3))
     雄厚度测量,每个字均匀被应用的次数
    -text3.count(smote)特定次呈现的次数
    -100text4.count(a)/len(text4)特定的词在文本中占领的百分比
    -定义函数,进行反复运算。
     def lexical_diversity(text):
        return len(text)/len(set(text))
     def percentage(count,total):
        return 100count/total

    我们永远不要期待别人的拯救,只有自己才能升华自己。自己已准备好了多少容量,方能吸引对等的人与我们相遇,否则再美好的人出现、再动人的事情降临身边,我们也没有能量去理解与珍惜,终将擦肩而过。—— 姚谦《品味》
    分享到: