python如何实现统计汉字/英文单词数的正则表达式

叶子小小的,碧绿碧绿的,花儿小小的,好可爱。紫红色的玫瑰花在风中翩翩起舞,玫瑰花树枝上还有调皮又可爱的小刺,你可要当心哦!你看,那个大仙人球旁围着8个小仙人球,好像一家人聚在一起,多欢快呀!
思路 •使用正则式 "(?x) (?: [\w-]+ | [\x80-\xff]{3} )"获得utf-8文档中的英文单词和汉字的列表。
•使用dictionary来记录每个单词/汉字出现的频率,如果出现过则+1,如果没出现则置1。
•将dictionary按照value排序,输出。 源码
 
#!/usr/bin/python
# -*- coding: utf-8 -*-
#
#author: rex
#blog: http://iregex.org
#filename counter.py
#created: Mon Sep 20 21:00:52 2010
#desc: convert .py file to html with VIM. import sys
import re
from operator import itemgetter def readfile(f):
with file(f,"r") as pFile:
return pFile.read() def divide(c, regex):
#the regex below is only valid for utf8 coding
return regex.findall(c)
def update_dict(di,li):
for i in li:
if di.has_key(i):
di[i]+=1
else:
di[i]=1
return di def main(): #receive files from bash
files=sys.argv[1:] #regex compile only once
regex=re.compile("(?x) (?: [\w-]+ | [\x80-\xff]{3} )") dict={} #get all words from files
for f in files:
words=divide(readfile(f), regex)
dict=update_dict(dict, words) #sort dictionary by value
#dict is now a list.
dict=sorted(dict.items(), key=itemgetter(1), reverse=True) #output to standard-output
for i in dict:
print i[0], i[1]
if __name__=='__main__':
main()

Tips 由于使用了files=sys.argv[1:] 来接收参数,因此./counter.py file1 file2 ...可以将参数指定的文件的词频累加计算输出。 可以自定义该程序。例如,
•使用
 
regex=re.compile("(?x) ( [\w-]+ | [\x80-\xff]{3} )")
words=[w for w in regex.split(line) if w]
这样得到的列表是包含分隔符在内的单词列表,方便于以后对全文分词再做操作。 •以行为单位处理文件,而不是将整个文件读入内存,在处理大文件时可以节约内存。
•可以使用这样的正则表达式先对整个文件预处理一下,去掉可能的html tags: content=re.sub(r"<[^>]+","",content),这样的结果对于某些文档更精确。

本文python如何实现统计汉字/英文单词数的正则表达式到此结束。如果你曾歌颂黎明,那麽也请你拥抱黑夜。小编再次感谢大家对我们的支持!

您可能有感兴趣的文章
浅析golang 正则表达式

正则表达式如何解决input框固定输入值得格式(金额,特殊字符)

基于xpath选择器、PyQuery、正则表达式的格式清理工具详解

python中如何使用正则表达式将所有符合条件的字段全部提取出来

javascript正则表达式 限1-2位整数,或者至多含有两位小数的写法