프로젝트

Home > 소개말 > 프로젝트

프로젝트


Diagramme

위의 다이어그램에서 첫 네단계는 그 중요도에 비해서는 꽤 빠른 속도로 진행되었습니다. 각자의 의견을 제시하면서 저희는 '이상한' 이라는 단어에 주목하게 되었고, 곧 '누군가에게 이상해 보이는 것이 다른이에게는 반드시 그렇지 않다' 라는 결론에 도달하게 되었습니다. 따라서 저희 프로젝트의 주제, 즉 검색단어로 '이상한' 이라는 단어를 선정하게 되었고, 저희가 선택한 각 언어에서 그 단어가 출현하는 환경을 비교하기로 했습니다.

다섯번째 단계는 관련 URL을 수집하는 단계였습니다. URL을 선정하는 기준을 마련 함에 있어서 신문관련 자료들만 수집할 것인지, 블로그도 포함 할 것인지, 몇개의 URL을 표본으로 삼을 것인지 등이 고려되었습니다. 결론적으로 언어당 비슷한 크기의 표본을 얻기위해, 각각의 언어당 검색어를 포함하는 신문기사 URL 70개 수집하기로 하였습니다.

여섯번째 단계인 프로그래밍을 하기에 앞서, 저희는 스크립트의 각 단계에서 하고자 했던 것을 먼저 정리해야 했습니다.

저희의 경우에는 다음의 단계를 거쳤습니다 :

  1. 수집한 URL파일, 결과물, 검색어의 경로가 설정 된 입력파일(parametres.txt)의 경로설정.
  2. 결과물이 쓰여질 출력파일(tableau-final.html)의 경로 설정.
  3. URLS폴더에 들어있는 각각의 파일에 대한 작업.
    • 파일의 각각의 줄, 즉 각각의 URL 읽기
    • URL 다운로드 하기 (curl 명령어)
    • 문자 인코딩 감지하기 (curl 명령어를 사용하거나 정규표현식을 이용해 추출된 웹페이지의 구성문자집합을 찾아내기)
    • 만약, 인코딩이 utf-8인 경우, lynx –dump를 적용하고, 정규표현식으로 검색어를 찾아서, –c명령어를 사용해 그 빈도를 계산.
    • 만약 인코딩이 utf-8이 아니라면, 위의 명령어들을 실행시키기 잎서 iconv 이 인코딩을 식별할 수 있는지 확인한다. (iconv –l 로 iconv 가 식별할 수 있는 인코딩의 리스트를 만들고 정규표현식으로 검색하기)
    • 만약 iconv로 식별되는 인코딩이라면, utf-8로 인코딩 한 뒤, 위의 d의 과정을 거친다. 만약 utf-8이외의 인코딩이면서 iconv로 식별되지 않는 인코딩이라면 아무 것도 할 수 없음.
  4. 출력파일(tableau-final.html)에 결과들을 쓰기.

마지막에 출력되는 결과물 표는 다음의 12가지 항목을 포함합니다:

  1. N° : 표안의 모든 URL 수를 세는 열
  2. URL : 해당 웹사이트로 연결하는 하이퍼링크
  3. Code CURL (코드 CURL) : 만약 이 항목이 200을 나타내면, 웹페이지를 다운로드 하는데 문제가 없었음을 의미함
  4. Statut CURL (CURL 상태) : 네트워크 요청 결과
  5. P.A. (추출 페이지) : 추출된 페이지
  6. Encodage Initial (최초 인코딩) : 추출된 페이지들의 최초 인코딩
  7. DUMP Initial (최초 DUMP) : 따로 인코딩이 필요한 utf-8로 인코딩 되지 않은 DUMP파일
  8. DUMP UTF-8 : utf-8로 인코딩된 DUMP텍스트
  9. Contexte UTF-8 (txt) (utf-8맥락(txt)) : DUMP로 부터 추출된 검색어의 맥락. (검색어가 나타나는 줄 추출)
  10. Contexte UTF-8 (html) (utf-8 맥락(html)) : minigrep프로그램을 이용해 html로 맥락 출력.
  11. Freq MOTIF (검색어 빈도): DUMP파일에서 검색어가 출현하는 수.
  12. Index DUMP(DUMP색인) : DUMP에 있는 모든 단어들과 그 빈도를 기록한 리스트.

일곱번째 단계에서는 어휘소 측정 프로그램인 Trameur 이용해 '이상한'이라는 단어를 포함하는 여러 단어들의 출현들을 분석했고, 인터넷에 있는 몇몇 프로그램을 이용해 단어구름들을 만들었습니다 (DumpGlobal파일들과 ContexteGlobal파일들을 이용함). 저희는 Tagul, Tagxedo, ImageChef, WordClouds 등등의 사이트들을 이용했습니다.

마지막 단계는 저희의 이번학기를 차지한 프로젝트를 소개할 수 있는 이 사이트를 만드는 것이었습니다.


프로젝트

자세히 보기

대상이 된 언어들

자세히 보기