본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

포스트의 구조 유사성과 일일 발행수를 이용한 스플로그 탐지
Splog Detection Using Post Structure Similarity and Daily Posting Count

백지현    (중앙대학교 컴퓨터공학과   ); 조정식    (중앙대학교 컴퓨터공학과   ); 김성권    (중앙대학교 컴퓨터공학과  );
  • 초록

    블로그는 웹과 로그의 합성어로, 개개인의 생각이나 관심사 등을 일기처럼 기록할 수 있는 웹 서비스이다. 블로그에는 문자 외에, 그림이나 비디오 파일 등 다양한 컨텐츠를 올릴 수 있다. 일반적으로 블로그의 포스트는 시간상의 역순으로 정렬되어 표현된다. 블로그 검색 엔진은 웹 검색 엔진처럼 블로그를 대상으로 사용자의 질의에 따라 정보를 찾아주는 서비스이다. 블로그 검색 엔진은 때때로 만족스럽지 못한 결과를 내곤 하는데, 이것은 스플로그라고 불리는 블로그 스팸에 의해 발생한다. 스플로그는 다른 블로그나 웹 페이지를 무단 도용하거나 자동으로 생성된 컨텐츠로 구성된 스팸 포스트를 가지고 있다. 스플로그는 검색 엔진의 검색 순위를 높이거나, 회원 가입 사이트로 보다 많은 사람들을 유치하기 위해 사용된다. 본 논문은 스플로그 탐지를 목적으로 한다. 본 논문에서 제안하는 스플로그 탐지 기법은 블로그 포스트의 구조 유사성과 일일 포스트 발행수에 따른 분석으로 토대로 이루어진다. 본 논문에서 제안하는 기법을 바탕으로 한 실험의 결과, 스플로그 탐지에 있어 90% 이상의 높은 정확도를 가지며, 만족할만한 수준을 보여준다.


    A blog is a website, usually maintained by an individual, with regular entries of commentary, descriptions of events, or other material such as graphics or video. Entries are commonly displayed in reverse chronological order. Blog search engines, like web search engines, seek information for searchers on blogs. Blog search engines sometimes output unsatisfactory results, mainly due to spam blogs or splogs. Splogs are blogs hosting spam posts, plagiarized or auto-generated contents for the sole purpose of hosting advertizements or raising the search rankings of target sites. This thesis focuses on splog detection. This thesis proposes a new splog detection method, which is based on blog post structure similarity and posting count per day. Experiments based on methods proposed a day show excellent result on splog detection tasks with over 90% accuracy.


  • 주제어

    웹 .   블로그 .   스플로그 .   웹 스팸.  

  • 참고문헌 (12)

    1. Pranam Kolari, Akshay Java, Tim Finin, Tim Oates, Anupam Joshi, "Detecting Spam Blogs: A Machine Learning Approach," Proceedings of the 21st National Conference on Artificial Intelligence (AAAI 2006), 2006. 
    2. Pranam Kolari, Tim Finin, Akshay Java, Anupam Joshi, "Towards Spam Detection at Ping Servers," ICWSM 2007, 2007. 
    3. Wikipedia, "Spamdexing," Online at http://en.wikipedia.org/wiki/Spamdexing 
    4. Wikipedia, "blog," Online at http://en.wikipedia.org/wiki/Blog 
    5. Dennis Fetterly, Mark Manasse, Marc Najork, "Spam, Damn Spam, and Statistics," Seventh International Workshop on the Web and Databases (WebDB 2004), 2004. 
    6. Zoltan Gyongyi, Hector Garcia-Molina, "Web Spam Taxonomy," 30th International Conference on Very Large Data Bases (VLDB 2004), 2004. 
    7. Thorsten Joachims, "SVMlight," http://svmlight.joachims.org/, 2004. 
    8. Pranam Kolari and Akshay Java and Tim Finin, "Characterizing the Splogosphere," In WWW 2006, 3rd Annual Workshop on the Weblogging Ecosystem: Aggregation, Analysis and Dynamics, 2006. 
    9. Yu-Ru Lin, Hari Sundaram, Yun Chi, Junichi Tatemura, Belle Tseng, "Splog Detection Using Selfsimilarity Analysis on Blog Temporal Dynamics," AIRWeb 2007, 2007. 
    10. Wikipedia, "K-fold cross-validation," Online at http://en.wikipedia.org/wiki/Cross_validation#K-fold _cross-validation 
    11. Wikipedia, "Spam in Blogs," Online at http://en.wikipedia.org/wiki/Spam_in_blogs 
    12. Wikipedia, "Spam Blog," Online at http://en.wikipedia.org/wiki/Spam_blog 

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
  • NDSL :
유료다운로드

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 출판된 논문 + 더보기