#python #anaconda #jupyter-notebook #visual-code #html #css #javascript #http 제목Quiz#3문제2019-05-09 12:06작성자윤수환_조교QUIZ #3. 하나의 문서를 벡터화 하기경희는 하나의 문서 안에 있는 모든 단어들을 찾아내어 단어 사전을 만들어 문서를 벡터화 하려고 합니다. 다음 과정은 단어 사전을 만들고 그 사전을 통해 문서를 벡터화 하는 과정 입니다.1-1. ‘QA.txt’ 파일을 읽고 모든 구분자(‘.’, ‘?’, ‘,’, ‘!’등)을 제거합니다. 또한 파일의 각 행을 시작하는 의미의 시작단어(title:, Q:, A:)들 도 제거합니다. 이때 “ ’ “는 제거하지 않습니다.(영어권에서는 소유격을 나타낼 때 사용하기 때문 입니다.)1-2. 파일의 모든 단어들을 찾아내고 이 단어들의 중복을 제거하고 abc 순서대로 정렬합니다. 정렬한 단어의 순번을 value로 하여 dictionary로 만듭니다.1-3. 이 dictionary를 ‘output.vocab’파일로 출력합니다. 이때 출력 포맷은 “key(word) ‘t’ value(index)”로 해주시길 바랍니다.2-1. 함수 word2idx를 선언하시고 다시 ‘QA.txt’파일을 읽고 그 안의 단어들을 모두 index로 바꿉니다.(‘QA.txt’파일을 읽을 때 구현의 편의를 위해 1-1을 시행합니다.) 2-2. 이렇게 바꾼 문서를 ‘embed.txt’로 출력합니다※파일이 unicode로 작성되어 있으니 읽을 때 주의하시길 바랍니다. 마찬가지로 파일을 쓸때에도 unicode로 쓰도록 해주시길 바랍니다. 목록수정삭제답변글쓰기 댓글 [3] 댓글작성자(*)비밀번호(*)내용(*) 댓글 등록 더보기이전[re]기말고사 관련 궁금한 부분이 있습니다.drsungwon 2019-05-11다음[중간고사] 평가결과 (02분반)drsungwon 2019-05-09 Powered by MangBoard | 워드프레스 쇼핑몰 망보드