웹 파이선 프로그래밍 - Welcome to Dr.Sungwon

#python #anaconda #jupyter-notebook #visual-code #html #css #javascript #http


제목	Quiz#3문제2019-05-09 12:06
작성자	윤수환_조교
QUIZ #3. 하나의 문서를 벡터화 하기 경희는 하나의 문서 안에 있는 모든 단어들을 찾아내어 단어 사전을 만들어 문서를 벡터화 하려고 합니다. 다음 과정은 단어 사전을 만들고 그 사전을 통해 문서를 벡터화 하는 과정 입니다. 1-1. ‘QA.txt’ 파일을 읽고 모든 구분자(‘.’, ‘?’, ‘,’, ‘!’등)을 제거합니다. 또한 파일의 각 행을 시작하는 의미의 시작단어(title:, Q:, A:)들 도 제거합니다. 이때 “ ’ “는 제거하지 않습니다.(영어권에서는 소유격을 나타낼 때 사용하기 때문 입니다.) 1-2. 파일의 모든 단어들을 찾아내고 이 단어들의 중복을 제거하고 abc 순서대로 정렬합니다. 정렬한 단어의 순번을 value로 하여 dictionary로 만듭니다. 1-3. 이 dictionary를 ‘output.vocab’파일로 출력합니다. 이때 출력 포맷은 “key(word) ‘t’ value(index)”로 해주시길 바랍니다. 2-1. 함수 word2idx를 선언하시고 다시 ‘QA.txt’파일을 읽고 그 안의 단어들을 모두 index로 바꿉니다.(‘QA.txt’파일을 읽을 때 구현의 편의를 위해 1-1을 시행합니다.) 2-2. 이렇게 바꾼 문서를 ‘embed.txt’로 출력합니다 ※파일이 unicode로 작성되어 있으니 읽을 때 주의하시길 바랍니다. 마찬가지로 파일을 쓸때에도 unicode로 쓰도록 해주시길 바랍니다.

댓글
작성자(*)
비밀번호(*)
내용(*)

이전	[re]기말고사 관련 궁금한 부분이 있습니다.	drsungwon	2019-05-11
다음	[중간고사] 평가결과 (02분반)	drsungwon	2019-05-09