[ 파워쿼리 ] 텍스트 추출하기

2024. 11. 16. 07:59Power BI/파워 쿼리 ( Power Qeury )

728x90
반응형

파워쿼리를 이용한 텍스트 추출 방법을 알아보도록 하겠습니다.

[ 열 추가 ] - [ 추출 ]에 있는 다양한 방법 들에 대해서 알아보도록 하겠습니다.

구분 세부사항 엑셀
길이 문자의 수를 반환  len
처음 음자 선택한 수만큼 처음 문자 반환  left
마지막 문자 선택한 수만큼 마지막 문자 반환 right
범위 선택한 범위만 반환 mid
구분 기호 앞 텍스트 구분 기호 앞의 문자 반환 textafter
구분 기호 뒤 텍스트 구분 기호 뒤의 문자 반환 textbebore
구분 기호 사이 텍스트 구분 기호 사이의 문자 반환 아래 글 참조
 

[ 엑셀 Tip ] 특수 기호 안의 문자 추출하기

엑셀에서 특수 기호 안의 문자를 추출해 보도록 하겠습니다. 데이터를 확인하다 보면 여러 문자가 섞여 있는 경우가 있고 내가 원하는 문자를 추출해야 데이터 가공이 가능한 경우가 있습니다.

sunconnector.tistory.com

 


 

아래와 같은 요일 데이터를 준비해 주었습니다.

보통 아래와 같이 요일일 표현하는데 이 것보다는 짧게 표현하는 경우도 있을 때 사용하는 방법입니다.

 

길이

그럼 먼저 길이를 클릭해 보도록 하겠습니다.

각 글자수는 3글자 이기 때문에 3을 반환하는 것을 볼 수 있습니다.

 

 

그럼 영어 요일과는 어떻게 다를까요?

영어와 한글을 요일의 글자수는 다르기 때문에 길이가 다르게 반환되는 것을 볼 수 있습니다.


처음 문자

그럼 아래에 있는 처음 문자를 클릭해 보도록 하겠습니다.

그럼 아래와 같은 창이 뜨고 여기 1이라고 입력해 보도록 하겠습니다.

 

아래와 같이 주로 사용하는 월, 화....토, 일의 형식의 문자를 만들 수 있는 것을 알 수 있습니다.

그럼 영어는 어떻게 해주면 좋을까요?

 

영어는 아래와 같이 4를 입력해 보도록 하겠습니다.

 

그럼 아래와 같이 영문 요일 요약 문자를 출력 할 수 있습니다.


마지막 문자

이번에는 마지막 문자를 클릭해 보도록 하겠습니다. 

아래와 같은 데이터가 있다고 가정해 보겠습니다.

여기서 요일만 추출하고 싶다고 할 때 사용하는 메뉴입니다.

 

오른쪽에서 3번째 문자가 요일이기 때문에 해당 문자만 추출하기 위해서 3을 입력해 줍니다.

 

아래와 같이 요일문자만 출력된는 것을 볼 수 있습니다.


 

범위 

이번에는 범위를 알아보도록 하겠습니다.

이번에는 아래와 같이 넘버링이 되어 있습니다.

그리고 요일 된 요일을 바로 보고 싶을 때 사용하는 방법입니다.

 

아래와 같은 창이 생성이 되면 아래와 같이 입력해 줍니다.

시작 인덱스 ( 추출을 시작하고 싶은 문자의 위치 ) / 문자 수 ( 추출하고 싶은 문자의 수 )

그럼 앞의 3개의 문자를 건너뛰고 추출하는데 1글자만 추출하겠다는 의미입니다.

 

그럼 아래와 같이 요약된 요일을 출력할 수 있습니다.


구분 기호 앞 텍스트

이번에는 구분 기호에 따른 분류를 하는 방법을 알아보겠습니다.

후배가 데이터를 확장할 때 원래 열 이름을 접두사로 사용 체크를 풀고 해야 하는데 그냥 해 버려서

아래와 같은 데이터가 만들어졌다고 가정하겠습니다.

( 원칙적으로는 헤더가 이렇게 생기는 거지만 Table.ColumnsNames 함수로 List를 만들어 Table로 만들었다고 하겠습니다 )

 

우선 접두사를 알아보도록 하겠습니다.

어느 컬럼에서 확장했는지 알아보는 방법입니다.

"."을 기준으로 문자를 구분하는 방법이기 때문에 구분 기호에는 "."을 입력하고 확인을 눌러 줍니다.

 

 

아래와 같이 Data가 출력이 되는 것을 알 수 있습니다.

 


 구분 기호 뒤 텍스트

이번에는 구분 기호 뒤 문자를 출력해 보도록 하겠습니다.

이번에는 "."을 기준으로 뒤의 문자가 출력된 것을 볼 수 있습니다.

아 근데 만들고 보니 어디서 많이 본 형식입니다.

제 전 글을 보셨으면 아시겠지만 열분할과 동일한 방법인 것 같습니다.

 

[ 파쿼쿼리 ] 다양한 방법으로 열 분할 하기 ( 텍스트 분리하기 )

파워쿼리를 이용한 컬럼을 분리하는 방법을 알아보도록 하겠습니다.텍스트 분리와 같은 원리라고 생각하시면 좋을 것 같습니다.파워쿼리 창에서 [ 홈 ] - [ 열 분할 ]을 눌러보시면 다양한 옵션

sunconnector.tistory.com

 

그럼 해당 컬럼명이 만들어졌기 때문에 해당 컬럼을 드릴다운 하여 List 형식으로 만들어 주겠습니다.

 

 

 

아래와 같이 리스트가 만들어진 데이터는 테이블 컬럼명으로 사용이 가능합니다.

 


구분 기호 사이 텍스트

마지막으로 구분 기호 사이 텍스트를 알아보도록 하겠습니다.

어떻게 보면 이 항목이 엑셀로 구현하기 복잡한 부분을 쉽게 가장 쉽게 할 수 있어

파워쿼리를 사용하는 이유 중 하나가 될 수도 있을 것 같습니다.

다음과 같은 데이터를 준비해 보았습니다.

인터넷에 떠도는 글을 데이터로 만들어 보았습니다.

여기서 자세히 보면 요일에는 대괄호로 감싸져 있는 것을 볼 수 있습니다.

그 안에 있는 글자를 추출해 보도록 하겠습니다.

 

구분 기호 사이 텍스트를 입력해 주고 아래와 같이

시작 구분 기호에 "[" 종결 구분 기호에 "]"를 입력해 주겠습니다.

"["로 시작하는 곳과 "]"로 끝나는 사이의 문자를 출력하겠다는 의미입니다.

 

아래와 같이 요일이 출력되는 것을 볼 수 있습니다.

다한만 문자가 섞여 있을 경우 빠르데 텍스트를 추출하고 데이터 변환이 유용할 것 같습니다.

 


※ 요약 요일명을 바로 출력

위 방법은 꼭 특수문자만 입력하는 것이 아닌 특수 텍스트 기준으로도 구분이 가능합니다.

다음과 같이 시작문자는 그대로 두고 종결 구분 기호를 "요일"로 변경해 보도록 하겠습니다.




그럼 아래와 같이 요약 요일이 바로 출력 되는 것을 알수 있습니다.





728x90
반응형