#python #anaconda #jupyter-notebook #visual-code #html #css #javascript #http

제목Quiz#3문제2019-05-09 12:06
작성자

QUIZ #3. 하나의 문서를 벡터화 하기

경희는 하나의 문서 안에 있는 모든 단어들을 찾아내어 단어 사전을 만들어 문서를 벡터화 하려고 합니다. 다음 과정은 단어 사전을 만들고 그 사전을 통해 문서를 벡터화 하는 과정 입니다.

1-1. ‘QA.txt’ 파일을 읽고 모든 구분자(‘.’, ‘?’, ‘,’, ‘!) 제거합니다. 또한 파일의 각 행을 시작하는 의미의 시작단어(title:, Q:, A:)들 도 제거합니다. 이때 는 제거하지 않습니다.(영어권에서는 소유격을 나타낼 때 사용하기 때문 입니다.)

1-2. 파일의 모든 단어들을 찾아내고 이 단어들의 중복을 제거하고 abc 순서대로 정렬합니다. 정렬한 단어의 순번value로 하여 dictionary로 만듭니다.

1-3. dictionaryoutput.vocab파일로 출력합니다. 이때 출력 포맷은 key(word) ‘t’ value(index)로 해주시길 바랍니다.

2-1. 함수 word2idx를 선언하시고 다시 ‘QA.txt’파일을 읽고 그 안의 단어들을 모두 index로 바꿉니다.(‘QA.txt’파일을 읽을 때 구현의 편의를 위해 1-1을 시행합니다.)

2-2. 이렇게 바꾼 문서를 embed.txt로 출력합니다

파일이 unicode로 작성되어 있으니 읽을 때 주의하시길 바랍니다. 마찬가지로 파일을 쓸때에도 unicode로 쓰도록 해주시길 바랍니다. 

댓글