이슈크롤러 (Issue Crawler) 사용법 소개

김란우 (사회학과 석사과정, lanukim7 <at> gmail.com)

 

 

 이슈크롤러에 오신 것을 환영합니다. 본 프로그램은 암스테르담 소재의 GOVCOM.ORG 기관에서 만들어졌으며, issuecrawler.net”에서 사용하실 수 있습니다. 이 글은 프로그램에 관한 간략한 소개가 목적이며 더 자세한 사용법 및 질문은 FAQ 사이트에서 보실 수 있고, Scenarios of Use에서는 목적에 맞는 이슈크롤러 사용법을 보실 수 있습니다. Instruction of Use에서는 자세한 소프트웨어 사용법을 보실 수 있습니다.

 본 프로그램은 온라인상의 웹사이트간 링크를 네트워크로 표현하고자 만들어졌습니다. 자동화된 프로그램을 통해 현재 웹상의 링크들을 네트워크로 표현하는 것을 목표로 합니다. 시작 URL을 설정하고, URL에서 연결된 페이지(어디까지 연결될지는 설정 가능합니다)를 찾고, 대상이 된 URL 간의 링크를 찾아 네트워크 데이터 형태로 표현해줍니다. 프로그램 사용환경을 갖추기 위하여, 자바 프로그램이 필요하며 윈도우 비스타에서는 현재 작동하지 않습니다. 파이어폭스(Firefox) 프로그램에서는 별도의 플러그인이 필요하지 않습니다.

 

<간단한 사용방법 및 옵션 소개>

 

 이슈크롤러 홈페이지에 가입한 후, 계정을 받으면 아래와 같은 페이지에 접속하실 수 있습니다. 이슈크롤러 밑에 네 가지의 탭이 있습니다. the Lobby”는 프로그램과 관련한 다양한 뉴스들이 올라오며, Issue Crawler” 탭은 프로그램이 시작되는 페이지이며, Network Manager”는 자신의 계정에 축적된 조사결과를 보여줍니다. Archive”에서는 다른 이들의 연구결과물을 확인할 수 있습니다. 이슈크롤러 프로그램을 실행시키기 위해서는, 이슈크롤러 탭을 누르시면 됩니다. 이 때 “Harvester” 페이지가 뜨며 이 빈 칸에 원하시는 페이지의 URL을 입력하시면 링크 수집이 시작됩니다. 분석대상이 되는 페이지의 수는 최소한 두 개 이상이어야 합니다.

 화면의 오른쪽에 나타난 “Current and Queued Crawls”는 현재 진행되고 있는 이슈크롤러 프로젝트의 현황 및 대기중인 프로젝트의 이름들을 나타내주고 있습니다. 프로그램이 수정 중이거나, 갑자기 프로젝트가 몰릴 경우 2-3일 정도의 기한이 소요될 수도 있습니다. 프로젝트 한 개당 링크가 수집되는 시간은 짧게는 10, 길게는 8시간이 걸릴 수도 있습니다. 시간을 절약하고, 원하는 결과를 최대한 정확히 얻기 위해서는 “Harvester” 페이지에 최대한 링크가 직접적으로 연결된 URL을 넣으시는 것이 좋습니다(: www.site.com/links). 정확한 URL 값이 주소창에 표시되지 않을 경우, 페이지 상에서 오른쪽 클릭을 누르시고 ‘소스보기’에 적힌 값을 넣어주시는 것이 좋습니다. 또한 대형 포털사이트와 같이 다양한 주제가 포함된 주소는 정확한 결과를 얻기 위하여 되도록 피하는 것이 좋습니다.

  

harvester.bmp

 

  빈 창에 URL을 입력하신 후, 계속 진행하시기 위하여 “Harvest” 버튼을 누르시면 됩니다.

그러면 아래와 같은 창이 뜹니다.

 

issuecrawler_launchcrawler

 

 URL이 적힌 창 밑에 프로젝트의 이름을 입력하시고, 아래의 옵션들을 조정해주시면 됩니다.

 

Crawling Methods

 

l  Co-link : Co-link 분석은 크게 두 단계로 나누어집니다. 첫 단계에서는 처음 입력한 URL 중에서 두 개 이상의 링크를 받은 페이지를 찾습니다. 두 번째 단계는 시작 페이지 및 이전 단계에서 수집된 페이지 간의 링크를 찾습니다. 이 옵션을 선택하셨을 경우, 생기는 세팅 옵션은 아래와 같습니다.

 

Settings

-       Privilege Starting Points : 처음 시작할 때 설정한 URL이 프로그램이 반복될 경우(Set iteration” 옵션이 2 이상으로 설정하였을 경우)에도 분석대상으로 설정할지를 결정합니다. 1 이상의 링크만 받더라도 앞으로 반복될 프로그램에서 분석대상으로 남도록 설정합니다.

-       Perform co-link analysis by : site”간의 링크를 구할 것인지, page”간의 링크를 구할 것인지 설정하는 옵션입니다. page”간의 링크를 선택하시는 것이 더 구체적인 결과를 얻으실 수 있습니다.

-       Set iterations : 같은 설정의 이슈크롤러 프로그램을 몇 번 반복해서 실행하는지를 설정합니다. 처음 입력한 URL 및 이 URL로부터 두 개 이상의 링크를 받아 분석대상으로 수집된 URL 모두가 시작 URL(seed URL)로 설정됩니다. 여러 번 반복할수록, 중심성이 강한 노드의 크기가 더 커진다고 볼 수 있습니다. 웹사이트 간의 사회연결망 조사를 하시는 경우, 1”로 설정하시는 것이 좋습니다.

-       Set crawl depth : 하나, , 셋까지의 웹사이트 내 링크를 조사할 깊이 설정이 가능합니다. 처음 입력한 URL 페이지의 경우 “depth”는 0으로 설정됩니다. 여기서 클릭으로 들어갈 수 있는 다음 페이지의 “depth”가 1로 설정됩니다.

 

l  Snowball : Co-link 옵션이 처음 입력한 URL에서 두 개 이상의 링크를 받아야 분석대상이 된다면, 이 옵션에서는 하나의 링크를 받는 주소도 수집됩니다. 처음 입력된 URL에서 연결된 링크를 찾는 단계가 “separation 1단계”입니다. 1단계에서 모인 링크(처음 입력한 URL + 수집된 URL)에서 다시 한 번 연결된 링크를 찾는 단계가 2단계, 같은 작업을 한 번 더하면 3단계가 됩니다. 이처럼 링크를 통해 페이지 수를 ‘눈덩이’처럼 늘려나가는 옵션입니다. 그렇기 때문에 처음 시작 URL을 신중히 결정할 필요가 있습니다.

 

Settings

-       Set degrees of separation : 링크를 찾는 단계를 몇 번 반복할지를 결정합니다.

-       Set crawl depth : 위에서 설명된 바와 같습니다.

 

l  Inter-actor : 처음 입력한 URL 사이의 링크만을 찾도록 하는 옵션입니다. Co-link 옵션이나 Snowball 옵션과는 달리, 노드의 수가 추가로 늘어나지 않습니다.

 

Settings

-       Set crawl depth : 위에서 설명된 바와 같습니다.

-        

 그 외의 옵션들은 크게 조정해주실 필요가 없습니다. exclude from network”는 링크 페이지들 중 필요 없는 부분들을 제거해줍니다. 현재 “download” 혹은 “netscape”와 같은 사이트들이 설정되어 있습니다. 광고와 같이 링크 네트워크에 필요 없는 사이트들을 옵션에 넣어주시면, 결과 해석이 수월해집니다.

 마지막으로, send crawl completion notification to”는 이메일로 결과 완료 여부를 보낼지를 선택하는 옵션이며, name crawl”에서 다시 프로젝트 이름을 넣어주시면 됩니다.

  Launch Crawl”을 누르면 링크 수집이 시작됩니다.

 

 아래의 그림은 결과 화면입니다. Network Details” 옵션에서 자세한 프로젝트 결과를 보실 수 있습니다. Select Network Depiction”에서 결과화면의 모습을 선택하실 수 있습니다. 결과는 시작된 URL에서 연결된 각 링크간의 관계로, N*N의 매트릭스로 설정되어 있습니다. 결과 묘사 밑의 옵션에서는 결과 링크 파일을 .xml 파일 및 Ucinet Netminer 파일 등 다양한 형태의 파일로 출력이 가능합니다. 

 창 오른쪽의 “Scheduler”에서는 정기적인 이슈크롤러 사용여부를 설정할 수 입니다. Date Range”에서 기간을 설정하시고, 매일, 매월 혹은 매년 날짜를 설정하신 후 “Create”를 누르시면 됩니다. Start From”은 처음 설정한 URL인지, 마지막으로 출력된 네트워크 결과를 시작으로 하는지를 설정할 수 있습니다.

 

 networkdetails.JPG

 

2009 2월 이슈크롤러는 프로그램 5주년을 맞아 “Advanced Option”을 새로 추가하였습니다. 결과페이지에서 “Advanced Option”을 선택하시면 아래와 같은 페이지가 나옵니다. 각 옵션의 기능은 다음과 같습니다.

 

l  Choose Nodes to be mapped : 링크수가 많은 최상 몇 순위의 노드만을 대상으로 설정하여 지도에 표기할 수 있습니다.

l  Selection of ties by specificity : 위의 옵션이 노드순위를 대상으로 지도에 표시할 노드를 설정했다면 이 옵션은 링크에 제한을 두어 옵션을 설정합니다. 노드의 질적 관계를 고려하여 관계의 크기를 제한합니다.

l  Selection of ties by frequency : 이 옵션은 링크의 크기를 양적으로 제한하여 설정할 노드를 제한합니다.

l  Size of nodes by : 노드의 사이즈를 이 웹사이트를 관계의 대상으로 설정한 정도만을 나타내는“inlink”만을 대상으로 하는지, 이 노드가 다른 노드를 관계로 설정한 “outlink”까지 포함하는지를 결정합니다.

 

 

advanced option.JPG

 

advanced option” 페이지 혹은 이전 “network details” 페이지에서 “view depiction”을 누르시면 아래와 같은 결과페이지를 보실 수 있습니다. Legend는 어떤 형태의 도메인을 갖고 있는지를 설명해주며, 그 외 자세한 결과 수치들을 보여주고 있습니다. 현재 보여진 페이지를 파일로 저장하기 위해서는 오른쪽 밑의 빨간 동그라미 안의 “Export & Save options” 부분에서 그림을 저장할 “File type”을 설정하시고, Save”를 누르시면 됩니다.

 

 

result.bmp

 프로그램 소개는 이상과 같습니다. 프로그램 사용 및 작동방법에 더 문의가 있으시다면, govcom.org 홈페이지를 참조하시거나, 이 홈페이지의 담당자에게 메일을 보내시면 답을 받으실 수 있습니다.

 좋은 연구 성과 거두시기를 바라겠습니다.