优草派  >   Python

Python匹配中文字符串怎么做?Python怎么取出中文字符

罗西汉            来源:优草派

在python之中通过爬虫抓取回来或者是文件读取出来的数据,有些情况下需要将里面的中文字符给单独的取出来。那么今天这一篇文章的内容就是,python使用正则表达式来实现中文字符串匹配并将其取出来的方法操作,感兴趣的话就往下看看吧。

Python匹配中文字符串怎么做?Python怎么取出中文字符

(1)实际上实现这个功能非常简单,这是因为python默认的编码集为万国码Unicode,而且所有能够在计算机上显示并且被使用的文件都是存在于这个编码集之中的。而中文汉字在里面的编码范围是\u4e00-\u9fa5,只需要使用它即可完成中文字符的匹配提取操作,详细代码示例如下所示:

import re
astr = '''aa君埋泉下泥销骨henow,e我寄人间雪满头pom'''
res = re.findall('[\u4e00-\u9fa5]', astr)
print(res)
# 结果
[‘君’埋’泉’下’泥’销’骨’我’寄’人’间’雪’满’头’]

从以上代码运行的结果就可以看出来,正则表达式模块中的方法findall()中的第一个参数为正则匹配模式,第二个参数则是需要匹配的字符串对象。返回的是匹配结果所组成的列表,将所有匹配成功的字符都单独取了出来。

(2)除了以上这种使用Unicode编码范围的方式之外,还能使用中文汉字来表示范围匹配中文,代码如下:

res = re.findall('[一-龥]', astr)

这两个汉字在Unicode编码中对应的就是起始和结束编码,以上就是关于“Python匹配中文字符串怎么做?Python怎么取出中文字符”的全部内容了,希望对你有所帮助。

【原创声明】凡注明“来源:优草派”的文章,系本站原创,任何单位或个人未经本站书面授权不得转载、链接、转贴或以其他方式复制发表。否则,本站将依法追究其法律责任。