이 블로그 검색

2018년 5월 23일 수요일

파이썬 re(한글 정규표현식)

한글 정규 표현식
점선 밑에 부분 복사해서 쓰면 됨
-----------------------------------------
'''한글 코드 범위
ㄱ ~ ㅎ: 0x3131 ~ 0x314e
ㅏ ~ ㅣ: 0x314f ~ 0x3163
가 ~ ?: 0xac00 ~ 0xd7a3





정규식을 사용하여 한글만 가져오기

'''
# -*- coding: utf-8 -*-
import re
#def test():
s='韓子는 싫고, 한글은 nice하다. English ?오 -_-ㅋㅑㅋㅑ ./?!'

hangul = re.compile('[^ ㄱ-ㅣ가-힣]+') # 한글과 띄어쓰기를 제외한 모든 글자
#hangul = re.compile('[^ \u3131-\u3163\uac00-\ud7a3]+')  # 위와 동일
result = hangul.sub('', s) # 한글과 띄어쓰기를 제외한 모든 부분을 제거
print (result)
result = hangul.findall(s) # 정규식에 일치되는 부분을 리스트 형태로 저장

print (result)

댓글 없음:

댓글 쓰기