본문 바로가기
  • Homines, dum docent, discunt
  • Repetitio est Mater Memoriae
  • Dilige et fac quod vis
지식 창고/프로그램

PROQUEST 데이터 내보내기

by Manana Cho 2023. 3. 29.
반응형

Proquest TDM은 ProQuest에서 제공하는 텍스트 데이터 마이닝 도구입니다. 이 도구를 사용하면 대량의 텍스트 데이터를 쉽게 분석하고, 키워드를 추출하며, 문서 간 상관 관계를 파악할 수 있습니다. 특히, 학술 연구나 비즈니스 분야에서 많은 관심을 받고 있습니다.

Studio 기능을 제공하고 있기는 하나, 너무 많은 데이터가 들어가면 무한 로딩 상태가 됨으로;; 차라리 직접 원 데이터를 다운받아 사용하는 것이 마음 편하지만,,,, 그것도 너무 어려워서ㅋㅋㅋㅋㅋ 한다고 한참 고생했습니다. 

 

우선, 저는 메타버스와 관련된 내용을 추출하기 위해 각 데이터베이스에서 데이터를 받아왔습니다. 

Ready for Jupyter 상태가 되면 주피터 노트북을 통해서 데이터를 추출할 수 있습니다. 

그냥 다운 받는 방법은 없냐고요? 네....제가 아는 한 없습니다ㅠㅠㅠㅠ

1) 아래 그림처럼 running 부분을 활성화 시켜주시고 

2) Open Jupyter Notebook 을 눌러주세욧!

그러면 아래처럼 주피터 노트북 화면이 뜹니다. 주의. 매우 느립니다. 

거대한 DB에 접속해 데이터를 빼 내오는 것으로 생각되는데, 그러다보니 할당된 가상 DB에 접속해 데이터를 관리하게 되어서 제 컴퓨터에 추출해낸 데이터가 바로 들어가 있지 않습니다. 

data 에는 추출한 데이터가, 

Getting Started 는 일반적인 python 코드 기반 데이터 추출, 활용에 대한 템플릿이 있습니다. 

그러나, 데이터프레임화 시키지 않고 바로 제동해주는 템플릿을 사용하면, xml document를 하나하나 다운받아야 해서....

개인적으로는 Getting started R로 데이터프레임화 시키고, 다운받는 것을 추천합니다.   

3) Getting started R> R convert  to Dataframe 들어가시면 이런 코드가 뜹니다. 템플릿이 있음으로 하나하나 시행시켜주기만 하면 되나, 3번째 줄은 상황에 맞게 바꾸셔야 합니다. 

4) 앞의 경로는 동일합니다. /home/ec2-user/SageMaker/data/ 까지 디렉토리 작성해주시고, 데이터세트를 정의했던 이름들을 붉은 box 표시한 두 곳에만 작성해서 실행시켜주시면 됩니다. 

 

5) 그리고 아래 끝까지 쭉 실행시켜주시면 맨 아래 라인에 예시 파일이 뜹니다. 이렇게 되면 성공이고, 이 csv화 된 파일은 output files에서 보실 수 있습니다. 

6) 다음으로 만들었던 파일들을 data 파일로 옮겨줍니다. 이유는 그래야 경로 지정할 때 편해서...ㅎㅎㅎ

7) 그 다음, Getting Started 로 가셔서 Getting Started/2022.05.25/ProQuest TDM Studio Manuals에서 Export_Instructions.ipynb 파일로 가신 후, R 파일에 저장되어 있던 파일 경로를 data_to_export='/home/ec2-user/SageMaker/data/데이터파일명.csv')  로 바꿔줍니다. 파일만 됩니다. 폴더가 안 되는 점 참고해주세요!

8) 아래처럼 Upload 응답이 나오면 성공입니다. 가입할 때 사용하셨던 이메일로 파일 다운로드 메세지가 왔을 테니 다운 받아서 활용하시면 됩니다. 

끝^^

반응형

'지식 창고 > 프로그램' 카테고리의 다른 글

LaTex 사용하기(2): VSCODE에서 LaTex 사용하기  (0) 2023.07.12
LaTex 사용하기(1)  (0) 2023.07.12

댓글