단어사용 빈도 분석

오늘 낮동안 이루어낸 뻘짓.

내 태터 RSS 수집기에 수집된 4580개의 포스트를 대상으로 단어 사용 빈도를 조사한 결과 상위 500개의 결과가 아래와 같이 나왔다. (한글, 영어, 숫자로 이루어진 단어에 한정)

결과보기


그, 수, 이, 있는 등등의 의미없는 단어를 제외하고 명사부분에서 1등은 479회 출현한 영화. 그 뒤를 이어 블로그, PHP, 게임, 인터넷, 일본, 저작권 등등이다. 기대했던 것 보다 평범해서 실망 -_-

그밖에 orz(171회)가 OTL(118회)을 눌렀다는 사실이 나름대로 성과라면 성과;;

태터툴즈 리더를 쓰는 사람은 아래의 파일을 태터툴즈 폴더에 넣고 실행하면 이것처럼 단어 빈도 조사를 할 수 있다. 임시 테이블을 만들어서 처리하는관계로 결과가 출력되기 전에 멈춰버리면 임시 테이블이 그대로 남아버리니 주의..

   덧. 수집된 RSS가 아닌 자기가 쓴 블로그 본문에 대해 조사하고 싶다면 52번째 줄을,
$result = mysql_query("SELECT body FROM t3_".$dbid);
   이렇게 고쳐주면 된다.