한글 정규 표현식
점선 밑에 부분 복사해서 쓰면 됨
-----------------------------------------
'''한글 코드 범위
ㄱ ~ ㅎ: 0x3131 ~ 0x314e
ㅏ ~ ㅣ: 0x314f ~ 0x3163
가 ~ ?: 0xac00 ~ 0xd7a3
정규식을 사용하여 한글만 가져오기
'''
# -*- coding: utf-8 -*-
import re
#def test():
s='韓子는 싫고, 한글은 nice하다. English ?오 -_-ㅋㅑㅋㅑ ./?!'
hangul = re.compile('[^ ㄱ-ㅣ가-힣]+') # 한글과 띄어쓰기를 제외한 모든 글자
#hangul = re.compile('[^ \u3131-\u3163\uac00-\ud7a3]+') # 위와 동일
result = hangul.sub('', s) # 한글과 띄어쓰기를 제외한 모든 부분을 제거
print (result)
result = hangul.findall(s) # 정규식에 일치되는 부분을 리스트 형태로 저장
print (result)
댓글 없음:
댓글 쓰기