반응형

정규표현식

출처: 이승혁,「PHP웹프로그래밍가이드」(서울:마이트Press) 2000, pp. 178-182.

정규표현식의 규칙

문자열 패턴을 표현하기 위해 정규 표현식 함수와 함께 사용되는 특수 문자들이 있다. 정규 표현식에 사용되는 이 특수 문자들의 사용법을 먼저 알아보도록 하자

패턴 표현에 사용되는 특수 문자

정규 표현식에서 패턴을 표현하기 위해 사용하는 특수 문자와 규칙은 다음과 같다.

  1. '.' 특수문자

    '.'은 어떤 문자이건 간에 임의의 한 글자를 나타낸다. 예를 들면, 패턴 a.c는 어느 한 문자의 앞 문자가 a이고 뒷 문자는 c인 모든 문자열을 포함한다. 따라서 aac나 abc, acc는 이 패턴에 일치되는 문자열이다. 그러나 .은 반드시 임의의 한 글자만을 대신하기 때문에 a로 시작해 c로 끝나는 문자열 중 두 글자뿐인 ac나 abbc는 이 패턴에 포함되지 않는다.

    사용예 내용 해당 문자열
    s.e s와 e사이에 임의의 한 글자를 갖는 문자열과 일치한다. sae, sbe, sce, sde, …
    .ce ce 앞에 임의의 한 글자를 갖는 문자열과 일치한다. ace, kce, fce, …

     

  2. '*' 특수문자

    '*'는 바로 앞의 문자를 의미하며 그 문자가 없거나 하나 이상임을 나타낸다. 위의 '.'이 그 자체로 임의의 한 글자만을 의미하는 데 반해 '*'는 바로 복수 개의 문자를 나타낼 수 있다. 대신 '*' 앞에는 반드시 문자가 하나 이상 있어야 한다. 만일 "*e"와 같이 '*' 앞에 문자가 없으면 잘못된 패턴으로 인식해 에러가 발생한다.

    사용예 내용 해당 문자열
    s*e e 앞에 s가 없거나 하나 이상 존재하는 모든 문자열을 나타낸다. e, se, sse, ssse, …
    abc* ab 다음에 c가 없거나 하나 이상 존재하는 모든 문자열을 나타낸다. ab, abc, abcc, abccc, …
    h*im im 앞에 h가 없거나 하나 이상 존재하는 모든 문자열을 나타낸다. im, him, hhim, hhhim, …

     

  3. '+' 특수문자

    '+'는 바로 앞의 문자를 의미하여 그 문자가 하나 이상임을 나타낸다. '*'와 마찬가지로 앞에 한 문자가 있어야 하며 이 문자가 최소 하나 이상 존재하는 모든 문자열을 포함한다.

    사용예 내용 해당 문자열
    s+e 문자 e앞에 s가 최소한 하나 이상 존재하는 모든 문자열을 나타낸다. se, sse, ssse, sssse, settle, …

     

  4. '?' 특수문자

    '?'는 바로 앞의 문자가 없거나 혹은 있음을 나타낸다. 예를 들면, s?e는 '?' 앞의 문자 s가 없거나 하나 존재하는 문자열 e나 se를 포함한다.

    사용예 내용 해당 문자열
    th?e t와 e사이에 h가 하나 있거나 혹은 없는 문자열과 일치한다. te, the, their, lotte, …

     

  5. '^' 특수문자

    '^'는 바로 뒤의 문자열을 기준으로 이것과 동일한 문자열로 시작되는 것을 가리킨다.

    사용예 내용 해당 문자열
    ^The The로 시작하는 모든 문자열을 나타낸다. The girl is beautiful!, Theater, …
    ^a?bc bc나 abc로 시작하는 모든 문자열을 나타낸다. bc++ 3.0, abcdef), …
    ^.e e 앞에 한 글자가 존재하는 문자열로 시작하는 모든 문자열을 나타낸다. he, me, request, settle, …
    ^s.e? s와 임의의 한 문자로 시작하고 그 뒤에 문자 e가 하나 있거나 혹은 없는 문자열을 나타낸다. sa, sae, sb, sbe, …

     

  6. '$' 특수문자

    '$'는 문자열의 맨 마지막을 가리킨다.

    사용예 내용 해당 문자열
    a?bc$ bc로 끝나는 문자열 앞에 문자 a가 없거나 하나 존재하는 문자열과 일치한다. eeabc, seebc, bc, …
    t.e$ t와 임의의 한 글자, 그리고 그 다음에 e로 연결되어 끝나는 문자열과 일치한다. onthetoe, bctae, appetitte, …
    s?e+$ 첫 글자는 s나 e로 시작하고 하나 이상의 e로 끝나는 문자열과 일치한다. e, se, ee, eee, see, seee, …
    ^the$ the로 시작해서 the로 끝나는 문자열과 일치한다. 즉, 이 경우는 문자열 자체가 the뿐인 경우에만 일치한다. the

     

  7. '[]' 특수문자

    각괄호 []는 [] 안에 있는 문자열 중에서 하나의 문자만을 의미한다. [] 안에서 범위를 지정할 때는 '-' 문자를 사용한다. 즉, [a-d]는 [abcd]와 동일하며 [0-9]는 [0123456789]와 같은 의미이다.

    사용예 내용 해당 문자열
    [ab]cd acd 또는 bcd를 포함하는 문자열과 일치한다. acd, tacde, "bcd", "tbcde", …
    ^[ab]cd acd 또는 bcd로 시작하는 문자열과 일치한다. acds, bcdt, acdsee32, …
    [a-z] 영문 소문자 한 글자를 포함하는 문자열과 일치한다. a0c2ds, ta123cde, Student, …
    [a-zA-Z] 영문 소문자나 대문자 한 글자를 포함하는 문자열과 일치한다. LINUX, 386AT, …
    [0-9] 십진수 한 자를 포함하는 문자열과 일치한다. a0c2ds, ta123cde, 386, …
    ga[a-z] 하나의 영문 소문자 앞에 ge를 갖는 문자열과 일치한다. LINgazUX, gazzett, …
    ^ab[ce]ef abcef 또는 abdef로 시작하는 문자열과 일치한다. abcef0z, abdef386, …
    ^[a-zA-Z] 영문자로 시작하는 모든 문자열과 일치한다. LINgazUX, abcef0z, …
    [a-z]+ 영문소문자 한 자 이상을 갖는 문자열과 일치한다. tgabcabcef, MySQL, …
    [aA][bB] ab, aB, Ab, AB를 포함하는 문자열과 일치한다. 386ABIT, abcef0z, tgabcabcef, …
    ,[a-zA-Z0-9]$ 콤마와 하나의 영문자 또는 숫자로 끝나는 문자열과 일치한다. abdef38,6, 199,2, …

     

    만일 원하지 않는 문자를 제외한 나머지 문자를 가리킬 때에는 []안의 첫 문자로 '^'를 사용한다.

    사용예 내용 해당 문자열
    [^ab]cd acd와 bcd를 제외하고는 패턴 .cd와 같다. 즉, cd앞에 a나 b를 제외한 하나의 문자를 포함하는 문자열과 일치한다. ccd, scd, 018cd, tgcdcdabcef, gazcd18, …
    s[^ab]t sat와 sbt를 제외하고는 패턴 s.t와 같다. 즉, t 앞에 a나 b를 제외한 임의의 한 문자와 그 앞에 s가 있는 문자열과 일치한다. sct, sdt, tgcdsctda28, settle, …
    [^a-z] 영문 소문자를 제외한 한 글자를 포함한 문자열과 일치한다. MySQL, 386sAB,IT, abcef0z, 199,2, …
    [^a-zA-Z] 영문자를 제외한 한 글자를 포함하는 문자열과 일치한다. 286sAB,IT, gazscd18, abcef0z, 199,2, …
    [^0-9] 숫자를 제외한 한 글자를 포함하는 문자열과 일치한다. settle, gazscd18, LINUX, …

     

  8. '{}' 특수문자

    중괄호 {}는 {} 앞에 있는 문자나 문자열의 개수를 결정한다.

    사용예 내용 해당 문자열
    a{2}b aab를 가진 문자열과 일치한다. 즉, {2}는 {}앞에 있는 문자 a의 개수가 2개임을 의미한다. aab, …
    a{2,}b a의 개수가 최소한 2개 이상인 문자열을 포함하는 문자열과 일치한다. aab, aaab, aaaab, …
    a{1,3}b b앞에 1개부터 3개까지의 a를 갖는 문자열을 포함하는 문자열과 일치한다. ab, aab, aaab, …

     

  9. '()' 특수문자

    둥근괄호 ()는 () 앞에 있는 글자들을 그룹화 한다.

    사용예 내용 해당 문자열
    a(bc){2} a뒤에 bc의 개수가 두 개인 문자열 abcbc를 포함하는 모든 문자열과 일치한다. [bc]가 b 또는 c중 하나를 의미하는 것에 비해 (bc)는 bc를 하나의 그룹으로 처리한다. docabcbctor, tabcbc++, …
    a(bc)* a뒤에 bc가 없거나 하나 이상인 문자열과 일치한다. sea, abcd, abcbcbcbc, …

     

  10. '|' 특수문자

    '|'는 OR 연산자이다.

    사용예 내용 해당 문자열
    he|she he나 she를 포함하는 문자열과 일치한다. he is handsome, she's gone, …
    (he|she)is is 앞에 he나 she를 포함하는 문자열, 즉 heis나 sheis를 포함하는 모든 문자열과 일치한다.  
    (le|li)*ft ft 앞에 le나 li가 없거나 하나 이상인 문자열과 일치한다. mlefto, lft, lelift, fclelelilefte, …
    mo(no)+ mo뒤에 no가 하나 이상인 문자열과 일치한다. mono, monono, mononono, acmonoe, …

     

문자 클래스(character class)

패턴을 [a-z]나 [A-Z], [0-9]로 표현하는 대신 다음과 같이 문자 클래스(character class)로 간단하게 표현할 수도 있다.

  • [[:alpha:]] : 알파벳 문자 중 하나를 의미하며 [a-zA-Z], 또는 [a-Z]와 동일한 표현이다.
  • [[:digit:]] : 숫자 한 자를 의미하며 [0-9]와 동일한 표현이다.
  • [[:alnum:]] : 알파벳 문자나 숫자 중 하나를 의미하며 [a-zA-Z0-9]와 동일한 표현이다.
  • [[:space:]] : 공백 문자 ( )를 의미한다.

정규 표현식에서 특수 문자의 표현

지금까지 정규 표현식에서 사용한 여러 특수 문자를 특수 문자가 아닌 그 문자 자체의 의미로 사용하려면 특수 문자 앞에 역슬래시('\') 문자를 붙여 escape시켜야 한다. 정규 표현식에서 escape시켜야 하는 특수 문자로는 다음과 같은 것들이 있다.

^ . [ ] $ ( ) | * + ? { } \

 

  • \*+ : 문자 '*'이 하나 이상 포함된 모든 문자열과 일치한다. 이것은 정규 표현식에서 사용하는 특수문자 '*'를 '\*'와 같이 escape시킴으로써 문자열에서 '*'가 포함된 문자열을 찾는다.
    예) *notice***, dictsh*eionary
  • \[RE:[1-9][0-9]*\] : "["와 "RE:", 그리고 0을 제외한 하나의 숫자와 0 또는 하나 이상의 0을 포함한 숫자, 그리고 "]"를 순서대로 포함하는 모든 문자열과 일치한다. 즉, 이는 게시판에 답장 글을 올릴 때의 "[RE:12]"와 같은 패턴을 의미한다.
    예) [RE:9], [RE:21]*eionary
  • [*\/+?{}.] : "*"나 "\", "/", "+", "?", "{", "}", "."중 하나를 포함하는 모든 문자열과 일치한다. 특수문자 []안에서는 위의 경우와 달리 예외가 적용된다. 즉, []안에서는 특수 문자를 문자 자체로 표현하기 위해 해당 문자를 별도로 escape시키지 않아도 된다.
    예) [RE:21]*eionary, turboc++, ce{le}brity, hello?, ac/monoe


출처 :

반응형
반응형

본 자료는 일본 @IT(http://www.atmarkit.co.jp/fdb/index/index-db.html#sqlclinic)에 株式会社インサイトテクノロジー의 大道隆久씨가 연재한 SQLクリニック를 번역 재구성한 것입니다.

 

본연재는 SQL의 응용력을 가추고 싶은 엔지니어를 위해 다양한 테크닉을 소개한다. SQL의 기본 구문은 평이한 것이지만, 실무로 활용하려면  교과서적인 기술을 이해하는 것만으로는 불충분하다. 본연재는 저명한 메일 매거진 「오라!오라! Oracle - 듬뿍 검증 생활」을 발행하는 인사이트 테크놀로지의 컨설턴트를 집필진으로 맞이해 SQL의 센스 향상에 도움이 되는 각족 기술을 소개한다. 

 

## 테스트로 사용하는 샘플 테이블은 위의 링크로 부터 다운가능합니다.

 

 

Oracle 10g로 정규표현에 의한 문자열 조작 가능!!!


Oracle Database 10g부터 신규로 추가된 정규 표현 기능은 텍스트 형식 데이터를 취급하기 위한 강력한 툴입니다. 이것으로 SQL를 사용한 문자 데이터를 검색, 조작하는 능력이 큰폭으로 향상됩니다.

 

지금까지는 WHERE구 안에서 “LIKE”와 함께 사용하는 「%」나 「_」등에서 밖에 표현할 수 없었다 이제 애매한 문자열을 정규 표현을 사용해 문자수나 그 종류까지 지정할 수 있게 되었으므로 편리해 졌네요... 

Oracle 10g부터 서포트되는 정규 표현(REGEXP_LIKE, REGEXP_INSTR, REGEXP_SUBSTR, REGEXP_REPLACE 함수)을 소개합니다.

 

Oracle10g로 추가된 새로운 함수


Oracle9i까지 존재했던 함수에 「REGEXP_」를 붙여 정규 표현용의 함수가 준비되었습니다.(표1 참조) 차례로 조작 방법을 확인해 보게습니다. 

함수명칭

구문

설명

REGEXP_LIKE

REGEXP_LIKE(
    열명,
    조건
)

조건(정규 표현)을 사용해 애매한 조건 검색을 실시합니다 .검색 대상열에서는 문자 데이터형을 서포트합니다(CHAR, VARCHAR2, CLOB, NCHAR, NVARCHAR2 및 NCLOB는 서포트합니다만, LONG는 서포트하지 않습니다)

REGEXP_INSTR

REGEXP_INSTR(
    문자열 또는 열명,
    조건
    (,개시 위치)
)

지정한 조건(정규 표현)에 일치하는 부분의 최초의 값을 돌려줍니다.임의에, 검색을 개시하는 개시 위치를 지정하는 것도 가능합니다

REGEXP_SUBSTR

REGEXP_SUBSTR(
    문자열 또는 열명,
    조건
)

지정한 정규 표현에 일치하는 부분 문자열을 뽑아내 결과적으로 돌려줍니다

REGEXP_REPLACE

REGEXP_REPLACE(
    열명 또는 문자열,
    조건,
    치환 문자열
)

지정한 정규 표현에 일치하는 부분을 지정한 다른 문자열로 치환합니다. 복잡한 치환/검색 조작을 가능하게 합니다

표1 정규 표현을 사용하는 함수

 

 

1.REGEXP_LIKE함수

^^^^^^^^^^^^^^^^^^^^^^^^^

정규 표현을 사용해 애매한 조건 검색을 실시할 경우에 이용합니다.

 

構文

 REGEXP_LIKE(열명,조건)

 

 

 

SQL> SELECT * FROM TEST_REGEXP;

COL1
----------
ABCDE01234
01234ABCDE
abcde01234
01234abcde

SQL> SELECT * FROM TEST_REGEXP WHERE REGEXP_LIKE(COL1,'[0-9][A-Z]');

COL1
----------
01234ABCDE

SQL> SELECT * FROM TEST_REGEXP WHERE REGEXP_LIKE(COL1,'[0-9][a-z]');

COL1
----------
01234abcde

리스트1 REGEXP_LIKE 함수를 사용한 fuzzy reference

 

조금 익숙해 지면 이하와 같은 체크 사용도 가능합니다.

 

SQL> ALTER TABLE QA_MASTER ADD CONSTRAINT QA_NO_CHK CHECK
  2  (REGEXP_LIKE(QA_NO,
  3  '^([[:alpha:]]{2}-[[:digit:]]{2}-[[:digit:]]{4})$'));

Table altered.

SQL> INSERT INTO QA_MASTER VALUES('QA-01-0001');

1 row created.

SQL> INSERT INTO QA_MASTER VALUES('00-01-0001');
INSERT INTO QA_MASTER VALUES('00-01-0001')
*
ERROR at line 1:
ORA-02290: check constraint (ORAORA.QA_NO_CHK) violated

리스트2 Q/A관리 마스터에 QA번호를 등록할 때의 서식의 체크

 

이와 같이 허용된 데이터형식만을 체크할수 있습니다.

 

2.REGEXP_INSTR함수

^^^^^^^^^^^^^^^^^^^^^^^^^^

지정한 정규 표현에 일치하는 부분이 몇번째 문자인지를 돌려줍니다.

 

構文
 REGEXP_INSTR(문자열 또는 열명, 조건)

 

 

 

SQL> SELECT COL1,REGEXP_INSTR(COL1,'[0-9]') ,
  2  REGEXP_INSTR(COL1,'%') from TEST_REGEXP;

COL1       REGEXP_INSTR(COL1,'[0-9]') REGEXP_INSTR(COL1,'%')
---------- -------------------------- ----------------------
ABCDE01234                          6                      0
01234ABCDE                          1                      0
@|=)(9&%$#                          6                      8
あいうえ3                           5                      0

6 rows selected.

리스트3 REGEXP_INSTR를 사용한 지정 문자의 위치 검색

 

N번째 문자 이후의 숫자 출력은......

 

SQL> SELECT COL1,REGEXP_INSTR(COL1,'[0-9]',4) FROM TEST_REGEXP;

COL1       REGEXP_INSTR(COL1,'[0-9]',4)
---------- ----------------------------
ABCDE01234                            6
01234ABCDE                            4
abcde01234                            6
01234abcde                            4

리스트4 N번째 문자 이후의 숫자 출력

 

 

3.REGEXP_SUBSTR함수

^^^^^^^^^^^^^^^^^^^^^^^^^^^ 

지정한 정규 표현에 일치하는 부분을 뽑아내 결과적으로 돌려줍니다.

 

構文
 REGEXP_SUBSTR(문자열 또는 열명, 조건)

 

 


SQL> SELECT COL1,REGEXP_SUBSTR(COL1,'[C-Z]+') FROM TEST_REGEXP;

COL1       REGEXP_SUBSTR(COL1,'[C-Z]')
---------- ---------------------------
ABCDE01234 CDE
01234ABCDE CDE
abcde01234
01234abcde

리스트 5 지정한 문자열을 선택


SQL> SELECT COL1,REGEXP_SUBSTR(COL1,'[C-Z]') FROM TEST_REGEXP;

COL1       REGEXP_SUBSTR(COL1,'[C-Z]')
---------- ---------------------------
ABCDE01234 C
01234ABCDE C
abcde01234
01234abcde

리스트 6 해당하는 1 문자만을 선택

 

 

4.REGEXP_REPLACE함수

^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

지정한 정규 표현에 일치하는 부분을 지정한 다른 문자열로 교체합니다.

 

構文
 REGEXP_REPLACE(열명 또는 문자열, 조건, 치환 문자열)

 

 


SQL> SELECT COL1,REGEXP_REPLACE(COL1,'[0-2]+','*') FROM TEST_REGEXP;

COL1       REGEXP_REPLACE(COL1,'[0-2]+','*')
---------- --------------------------------------------------
ABCDE01234 ABCDE*34
01234ABCDE *34ABCDE
abcde01234 abcde*34
01234abcde *34abcde

리스트 7 지정한 부분의 문자를 다른 문자로 치환


 

정규 표현의 다양한 활용 방법


SQL문으로 정규 표현이 가능하게 되어서 지금까지는 약간의 세공(PL/SQL나 조건식의 나열)이 필요함 작업을 간단하게 실현될 수 있게 되었습니다. 예를 들면 전자 메일이나 우편번호(해외등에서는 영문자도 포함된다) 격납열에의 검색·입력 체크도 간단합니다.그 외  데이타베이스 이행시에 문제가 되는 외자의 검출, 불필요한 공백 문자의 검출, 중복어의 출현의 식별 및 문자열의 해석·치환 등에도 위력을 발휘합니다.

 

이상과 같이, Oracle10g의 SQL 조작에 관한 추가된 기능입니다만, 알고 있으면 편리하겠져.. 

(계속 연제됩니다.)

반응형

+ Recent posts