본문 바로가기
기타 교육/빅데이터_분석실무

1주차 - 함수 및 단어 추출 및 출력

by Royal! 2020. 9. 19.
728x90
반응형

Matrix

nrow로 행 갯수를 지정 할 수 있다.

 

 

 

 


 

c(행,열)로 구성한다.

행은 다나오고 1,3열 출력     ' , ' 로 출력한다.

반대로 출력하는 방법.


grep함수

결과 값을 출력하고 싶으면 value =T 를 쓴다.


숫자로 시작하는 것을 찾는 식


숫자로 시작하지 않는것 출력하는법.

 


paste함수 

 

묶어주는 함수(풀친하다고 생각해라.)


공백을 없애주는 방법.


가운데 '-'넣어주는 방법.


paste00 함수는 알아서 값을 붙여준다.

 

 


a와A를 가진 값을 출력.


실제로는 이렇게 많이 안쓰고 아래와 같이 쓴다.

 

 


nchar 함수 : 문자길이를 알려주는 함수.

 


substr은 위치를 출력해주는 함수(헷갈리지 말자.)


strsplit 분리해주는 함수  ,뒤의 기준으로


stringr패키지 주요함수

str replace: a를 z로 바꾼다.

str replace_all : 모든 a를 z로바꾼다.

gsub:

 


공백을 넣으면 지워진다.

 

 

 


table함수: 문자열 빈도수를 구하는 함수

관련된 sort 및 내림차순 기억해라.


실습은 다음 파일로한다. oracle_alert_testdb.log/

head와 tail함수로 파일의 끝과 처음을 확인해본다.

wordcloud를 만들때는 빈도수를 꼭 체크해줘야한다. 내림차순을 출력을 위해 decreasing을 쓴다.

 

wordcloud 패키지

 

단어를 가운데 크게 배치하려면 random.order = False로 준다.

rot.per=0.5는 가로 , 세로는 1로 준다.

ordered.colors = FALSE는 잘 안 쓴다.

 


 

 

 

 


substr을 추가해주면 이렇게 결과가 바뀐다.

 

Graphics 저장하는 방법. 설정 저장 위치에 자동 저장된다.

 


for문

ex) for(i in 1:5) 

 


함수 만드는 방식.


scan() 입력하는 함수.


함수 안에 scan을 넣을 수 있다. 위에 만들어 놓은 my_f의 함수의 입력 값을 출력한다.


scan으로 문자 입력 방법.


readline()함수


구구단 만들기

 

3을 넣고 나서 출력확인

 

여러개 출력하는 방법.  function + scan


주의!!

return과 print의 차이

return으로 값을 돌려 주는 게 기본이다. 


matrix 행 열의 더하기 




list형식(열이 없다.)

 


행별로 더하고 싶을 때

 


data frame



데이터를 찾을 때 편함. 한 번 입력 해 놓으면 no,name으로 이렇게 쳐도 바로 찾아진다.


연습문제

 


한글 추출. 실습 (KoNLP와 stringr 함수 사)

extractNoun() 명사 추출, 띄어쓰기를 기준으로 명사로 구분한다. 아래처럼 이상하게 출력된다.


사전에 없는 단어는 인식을 못함. 따라서 사전에 데이터를 추가해줘야한다.(지금은 정확히 입력됐지만, 예를 든거다.

 


아래와 같은 함수형태로 사전에 입력해줘야한다.(굉장히 중요한 부분이다.)

 


만약 사전에 추가해야 할 내용이 많을 경우는 추가할 단어를 파일에 저장해 둔 후 저장한다

 

mergeUserDic(data.frame(readLines("mergefile.txt"),"ncn") 형태로 넣어준다. 그러면 파일에 있는 단어가 추가 된다.

 

 


데이터 읽어와서 삭제 및 정렬하는 방법등.

unique는 중복된 행 제거하는 함수이다.

 

 

extractnoun함수는  명사 추출하는 함수이다.

 

 

 

 

 

삭제방법(모든문자, 숫자,공백 을 제외하고 -> 그러면 특수문자가 삭제된다.

gsub함수가 삭제하는 함수이다.

 

unlist로 리스트형태를 풀어주고 삭제한다.

lapply(data6,unique)는 줄안에서 중복되는 단어 제거하는 함수이다.

특수문자가 다 지워졌다.

 

필터방법, 조건이 2개 들어갔다. 그래서 function으로  조건을 묶은 것이다 .nchar은 문자 갯수 출력하는 함수 

gsub으로 data10에 있던 단어를 삭제했다. (중요하다.)

 

데이터를 수백만개를 가지고 오면 정리를 해야하면 이런식으로하면 오래 걸린다. 따라서 밑의 방식으로 쓴다.


for문에 data12를 안 쓰고 12를 쓰는 이유는 다시 for문이 돌아와서 지우는 것이 data11이기 때문이다.

 

아래와 같이 만들어 준다.(nchar 문자 갯수 출력 함수)

data12를 오름차순으로 정렬

 

내림차순으로 정리


 

그래픽으로 출력해본다.

아래와 같이 출력된다.

저장하는 방법 savePlot함수 뒤에 파일 이름을 적는다.

다음과 같이 저장된다.


혼자 다시 제주도여행지.txt로 실습해보기.

 

 

아래의 파일에서 데이터를 추출한다.

여행에 필요없는 제외할 단어들을 다시 재설정.

아래와 같이 출련된다.


이제 카카오톡 대화로 해보고한다.

728x90
반응형

최근댓글

최근글

Royal! © 2024