美文网首页
PythonShowMeTheCode(0004): 检查单词个

PythonShowMeTheCode(0004): 检查单词个

作者: tyrone_li | 来源:发表于2016-08-18 20:21 被阅读0次

1. 题目

第 0004 题:任一个英文的纯文本文件,统计其中的单词出现的个数。

2. 效果

#------1.txt-----------
  There are moments in life when you miss only
 one life and one chance to do
 you want to do.is 
isn't don't word_d common

#------输出------------
do: 2
word_d: 1
want: 1
to: 2
is: 1
you: 2
isn't: 1
don't: 1
...
  • 将所有单词按照小写处理
  • isn'tword_d这种应当作为一个单词

3. 实现

# -*- coding:utf-8 -*-
import re


def get_word_dict(file_path=None):
    if file_path is None:
        print("Error")
        return

    word_dict = {}
    with open(file_path, "r", encoding="utf-8") as file:
        for line in file.readlines():
            words = re.findall(r"[a-z\'_-]+\b", line.lower())
            for word in words:
                if word not in word_dict:
                    word_dict[word] = 1
                else:
                    word_dict[word] += 1
    for word, count in word_dict.items():
        print("%s: %d\n" % (word, count))
    return word_dict


if __name__ == "__main__":
    get_word_dic("1.txt")

4. 解决问题

<i>I. 无法识别isn't这样的单词</i>
在正则匹配时需要在加入一个\b来作为单词边界。

<i>II. 读取文件出现编码错误</i>
open()函数中加入encoding参数。

相关文章

  • PythonShowMeTheCode(0004): 检查单词个

    1. 题目 第 0004 题:任一个英文的纯文本文件,统计其中的单词出现的个数。 2. 效果 将所有单词按照小写处...

  • 第 0004 题:任一个英文的纯文本文件,统计其中的单词出现的个数。 参考链接:collectionsPython...

  • github/Show me the code (4)

    第 0004 题:任一个英文的纯文本文件,统计其中的单词出现的个数。 模式 描述^ 匹配字符串的开头$ ...

  • 0004-统计英文单词

    代码

  • golang学习---练习4

    第 0004 题:任一个英文的纯文本文件,统计其中的单词出现的个数。 分析:去除非英文字符(空格除外)以空格将文本...

  • Python 练习册 0004、0006题 (统计文本)

    第 0004 题:任一个英文的纯文本文件,统计其中的单词出现的个数第 0006 题:你有一个目录,放了你一个月的日...

  • 第二十七天(3.18)

    今天,不算早起 EnglishPod C0004打卡 单词打卡 终于把之前因事少背的一半补上了,超累的,晚上都在背...

  • python每日一题总结8

    20180625 qzd 每日一题26 -- 有效单词词广场 给定一个单词序列,检查它是否构成一个有效单词广场。一...

  • 2020-04-07

    %0007%0002url1%0002%0003%0002https%0003%0004%0004www.baid...

  • 关闭单词拼写检查

    1.File->Setting2.inspection3.搜索spelling->Typo取消选中

网友评论

      本文标题:PythonShowMeTheCode(0004): 检查单词个

      本文链接:https://www.haomeiwen.com/subject/dcvvsttx.html