구글블로그 사용법: 로보트.텍스트(Robots.txt)파일 설정하기 - 검색로봇 허용과 차단 설정
로보트 텍스트(robots.txt) 파일은 검색엔진의 접근을 제어 하는 참조명령을 적어 두는 파일이다. 검색엔진 크롤러가 접근하지 않기를 바라는 폴더나 파일 등을 지정하는 것이다. 로보트.텍스트 파일의 위치는 도메인의 루트(root) 즉, 최상위 폴더에 두어야 하므로 웹호스팅 서버의 루트에 접속할 수 있는 권한이 있어야 가능하다.
로보트.텍스트 파일에 적어 둔 접속 제한 명령은 검색엔진의 크롤러에 대한 단순한 지침에 불과하다. 검색엔진이 이 파일의 명령을 무시할 수도 있고, 검색엔진에 따라 이 파일을 이해하지 못하거나 다르게 해석할 수도 있다. 따라서, 표준을 준수하지 않는 무차별적인 악성 검색엔진에게는 아무런 의미가 없다.
구글 블로그는 검색봇을 설정할 수 있는 기능을 제공하므로, 블로거가 자유롭게 검색엔진을 허용하거나 차단할 수 있다. Robots.txt 파일을 작성하는 것도 블로그 설정창에서 쉽게 할 수 있도록 되어 있다.
검색로봇은 수도 없이 많이 있다고 한다. 블로그 글을 등록하고 검색되어 방문자를 늘일 수 있는 경우도 있지만, 나쁜 의도를 가지고 무차별적으로 긁어가는 악성 봇도 있다. 따라서 필요한 검색봇만 허용을 하고 나머지는 차단을 할 필요가 있는 것이다.
검색봇의 접근을 제어하는 파일은 Robots.txt 이며, 도메인 최상위 레벨(root)에 위치하게 된다. 그런데 별도의 도메인으로 호스팅을 하는 블로그가 아니라면, Robots.txt 파일을 제어할 수 없는 것이 일반적이지만, 구글 블로그는 이 기능을 제공한다.
1. Robots.txt 파일 작성하기
Robots.txt 파일에서 검색봇을 제어하는 형식은 다음과 같이 간단하다.
예) 모든 검색봇을 차단
User-agent: *
Disallow: /
※ 별표 '*'는 '모든 로봇'을 뜻하고, 슬래시 '/'는 모든 디렉토리를 뜻한다.
예) 구글봇(Googlebot)만 허용하고 나머지는 모두 차단
예) 구글봇(Gooblebot)과 다음봇(Daumoa)만 허용하고 다른 봇은 모두 차단
예) 모든 봇을 허용
방법은 위와 같이 간단하지만, 어떤 봇을 허용하고 차단할지 생각해 볼 필요가 있다.
글이 일단 검색봇에 읽혀서 등록이 되면, 검색봇 서브에 저장되어 있는 글을 지우기가 쉽지 않거나 사실상 불가능한 경우도 있을 수 있으므로, 필요한 검색봇만 허용을 하고, 나머지는 모두 차단하는 것이 좋지 않은가 싶다.
아래의 표는 잘 알려진 사이트들의 검색봇 목록이다.
위에서 본 것과 같은 방법으로 검색봇의 이름을 적용하여 Robots.txt 파일을 작성하면 된다.
2. 구글 블로그에서 Robots.txt 설정하기
=> 블로그 대시보드 > 설정(Setting) > 검색엔진설정(Search preference) 창으로 간다.
=> 창 아래쪽에 있는 robots.txt 사용자설정(Custom robots.txt)의 [편집: Edit]을 누르면, 아래 그림에서 파란색으로 표시된 것과 같은 설정창이 열린다.
=> 작성한 내용을 입력창에 붙여넣고, 예(Yes)를 선택한 뒤에 저장(Save changes)를 누르면 된다.
=> 그 나머지는 구글블로그에서 자동으로 즉시 처리가 되므로 달리 더 할 일은 없다.
3. Robot.txt 파일 오류 검사하기
검색엔진 제어설정을 해 놓고 제대로 되었는지 걱정스러우면, 다음 사이트에서 오류가 있는지를 확인해 보면 된다. Robots.txt Checker>>
아래 그림은 이 블로그에 구글봇과 네이버봇만 허용하고 다른 봇은 모두 차단하도록 설정하여 Robots.txt 파일 오류검사를 해 본 예이다.
검사할 주소를 넣을 때, 주소뒤에 robots.txt 를 붙여야 오류검사가 된다.
예컨데, http://자신의블로그이름.blogspot.com/robots.txt
로보트.텍스트 파일에 적어 둔 접속 제한 명령은 검색엔진의 크롤러에 대한 단순한 지침에 불과하다. 검색엔진이 이 파일의 명령을 무시할 수도 있고, 검색엔진에 따라 이 파일을 이해하지 못하거나 다르게 해석할 수도 있다. 따라서, 표준을 준수하지 않는 무차별적인 악성 검색엔진에게는 아무런 의미가 없다.
구글 블로그는 검색봇을 설정할 수 있는 기능을 제공하므로, 블로거가 자유롭게 검색엔진을 허용하거나 차단할 수 있다. Robots.txt 파일을 작성하는 것도 블로그 설정창에서 쉽게 할 수 있도록 되어 있다.
검색로봇은 수도 없이 많이 있다고 한다. 블로그 글을 등록하고 검색되어 방문자를 늘일 수 있는 경우도 있지만, 나쁜 의도를 가지고 무차별적으로 긁어가는 악성 봇도 있다. 따라서 필요한 검색봇만 허용을 하고 나머지는 차단을 할 필요가 있는 것이다.
검색봇의 접근을 제어하는 파일은 Robots.txt 이며, 도메인 최상위 레벨(root)에 위치하게 된다. 그런데 별도의 도메인으로 호스팅을 하는 블로그가 아니라면, Robots.txt 파일을 제어할 수 없는 것이 일반적이지만, 구글 블로그는 이 기능을 제공한다.
1. Robots.txt 파일 작성하기
Robots.txt 파일에서 검색봇을 제어하는 형식은 다음과 같이 간단하다.
User-agent: <= 검색봇 이름
Disallow: <= 접근 설정
Disallow: <= 접근 설정
예) 모든 검색봇을 차단
User-agent: *
Disallow: /
예) 구글봇(Googlebot)만 허용하고 나머지는 모두 차단
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
Disallow:
User-agent: *
Disallow: /
예) 구글봇(Gooblebot)과 다음봇(Daumoa)만 허용하고 다른 봇은 모두 차단
User-agent: Googlebot
Disallow:
User-agent: Daumoa
Disallow:
User-agent: *
Disallow: /
Disallow:
User-agent: Daumoa
Disallow:
User-agent: *
Disallow: /
예) 모든 봇을 허용
User-agent: *
Disallow:
Disallow:
방법은 위와 같이 간단하지만, 어떤 봇을 허용하고 차단할지 생각해 볼 필요가 있다.
글이 일단 검색봇에 읽혀서 등록이 되면, 검색봇 서브에 저장되어 있는 글을 지우기가 쉽지 않거나 사실상 불가능한 경우도 있을 수 있으므로, 필요한 검색봇만 허용을 하고, 나머지는 모두 차단하는 것이 좋지 않은가 싶다.
아래의 표는 잘 알려진 사이트들의 검색봇 목록이다.
위에서 본 것과 같은 방법으로 검색봇의 이름을 적용하여 Robots.txt 파일을 작성하면 된다.
검색엔진(검색 봇) 목록 | |
사이트 | 검색봇 이름 |
다음(Daum) | daumoa |
네이버(Naver) | naverbot 또는 Cowbot |
구글 (Google) | Googlebot |
구글 이미지( Google-Image) | googlebot-image |
구글 모바일(Googel-mobile) | googlebot-mobile |
엠에스엔(MSN) | MSNBot |
엠에스엔 이미지(MSN PicSearch) | psbot |
야후(Yahoo) | Slurp |
야후 이미지(Yahoo-Image) | Yahoo-MMCrawler |
야후 브로그(Yahoo-blog) | yahoo-blogs/v3.9 |
알렉사(Alexa/Wayback) | ia_archiver |
바이두(Baidu) | baiduspider |
2. 구글 블로그에서 Robots.txt 설정하기
=> 블로그 대시보드 > 설정(Setting) > 검색엔진설정(Search preference) 창으로 간다.
=> 창 아래쪽에 있는 robots.txt 사용자설정(Custom robots.txt)의 [편집: Edit]을 누르면, 아래 그림에서 파란색으로 표시된 것과 같은 설정창이 열린다.
=> 작성한 내용을 입력창에 붙여넣고, 예(Yes)를 선택한 뒤에 저장(Save changes)를 누르면 된다.
=> 그 나머지는 구글블로그에서 자동으로 즉시 처리가 되므로 달리 더 할 일은 없다.
3. Robot.txt 파일 오류 검사하기
검색엔진 제어설정을 해 놓고 제대로 되었는지 걱정스러우면, 다음 사이트에서 오류가 있는지를 확인해 보면 된다. Robots.txt Checker>>
아래 그림은 이 블로그에 구글봇과 네이버봇만 허용하고 다른 봇은 모두 차단하도록 설정하여 Robots.txt 파일 오류검사를 해 본 예이다.
검사할 주소를 넣을 때, 주소뒤에 robots.txt 를 붙여야 오류검사가 된다.
예컨데, http://자신의블로그이름.blogspot.com/robots.txt