구글블로그 사용법: 로보트.텍스트(Robots.txt)파일 설정하기 - 검색로봇 허용과 차단 설정

로보트 텍스트(robots.txt) 파일은 검색엔진의 접근을 제어 하는 참조명령을 적어 두는 파일이다. 검색엔진 크롤러가 접근하지 않기를 바라는 폴더나 파일 등을 지정하는 것이다. 로보트.텍스트 파일의 위치는 도메인의 루트(root) 즉, 최상위 폴더에 두어야 하므로 웹호스팅 서버의 루트에 접속할 수 있는 권한이 있어야 가능하다.

로보트.텍스트 파일에 적어 둔 접속 제한 명령은 검색엔진의 크롤러에 대한 단순한 지침에 불과하다. 검색엔진이 이 파일의 명령을 무시할 수도 있고, 검색엔진에 따라 이 파일을 이해하지 못하거나 다르게 해석할 수도 있다. 따라서, 표준을 준수하지 않는 무차별적인 악성 검색엔진에게는 아무런 의미가 없다.


구글 블로그는 검색봇을 설정할 수 있는 기능을 제공하므로, 블로거가 자유롭게 검색엔진을 허용하거나 차단할 수 있다. Robots.txt 파일을 작성하는 것도 블로그 설정창에서 쉽게 할 수 있도록 되어 있다.

검색로봇은 수도 없이 많이 있다고 한다. 블로그 글을 등록하고 검색되어 방문자를 늘일 수 있는 경우도 있지만, 나쁜 의도를 가지고 무차별적으로 긁어가는 악성 봇도 있다. 따라서 필요한 검색봇만 허용을 하고 나머지는 차단을 할 필요가 있는 것이다.

검색봇의 접근을 제어하는 파일은 Robots.txt 이며, 도메인 최상위 레벨(root)에 위치하게 된다. 그런데 별도의 도메인으로 호스팅을 하는 블로그가 아니라면, Robots.txt 파일을 제어할 수 없는 것이 일반적이지만, 구글 블로그는 이 기능을 제공한다.


1. Robots.txt 파일 작성하기

Robots.txt 파일에서 검색봇을 제어하는 형식은 다음과 같이 간단하다.
User-agent: <= 검색봇 이름
Disallow: <= 접근 설정


예) 모든 검색봇을 차단

User-agent: *
Disallow: /
※ 별표 '*'는  '모든 로봇'을 뜻하고, 슬래시 '/'는 모든 디렉토리를 뜻한다.


예) 구글봇(Googlebot)만 허용하고 나머지는 모두 차단
User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /


예) 구글봇(Gooblebot)과 다음봇(Daumoa)만  허용하고 다른 봇은 모두 차단
User-agent: Googlebot
Disallow:

User-agent: Daumoa
Disallow:

User-agent: *
Disallow: /


예) 모든 봇을 허용
User-agent: *
Disallow:


방법은 위와 같이 간단하지만, 어떤 봇을 허용하고 차단할지 생각해 볼 필요가 있다.
글이 일단 검색봇에 읽혀서 등록이 되면, 검색봇 서브에 저장되어 있는 글을 지우기가 쉽지 않거나 사실상 불가능한 경우도 있을 수 있으므로, 필요한 검색봇만 허용을 하고, 나머지는 모두 차단하는 것이 좋지 않은가 싶다.

아래의 표는 잘 알려진 사이트들의 검색봇 목록이다.
위에서 본 것과 같은 방법으로 검색봇의 이름을 적용하여 Robots.txt 파일을 작성하면 된다.

검색엔진(검색 봇) 목록
사이트검색봇 이름
다음(Daum)daumoa
네이버(Naver)naverbot 또는 Cowbot


구글 (Google)Googlebot
구글 이미지( Google-Image)googlebot-image
구글 모바일(Googel-mobile)googlebot-mobile


엠에스엔(MSN)MSNBot
엠에스엔 이미지(MSN PicSearch)psbot


야후(Yahoo)Slurp
야후 이미지(Yahoo-Image)Yahoo-MMCrawler
야후 브로그(Yahoo-blog)yahoo-blogs/v3.9


알렉사(Alexa/Wayback)ia_archiver
바이두(Baidu)baiduspider



2. 구글 블로그에서 Robots.txt 설정하기

=> 블로그 대시보드 > 설정(Setting) > 검색엔진설정(Search preference) 창으로 간다.
=> 창 아래쪽에 있는 robots.txt 사용자설정(Custom robots.txt)의 [편집: Edit]을 누르면, 아래 그림에서 파란색으로 표시된 것과 같은 설정창이 열린다.

=> 작성한 내용을 입력창에 붙여넣고, 예(Yes)를 선택한 뒤에 저장(Save changes)를 누르면 된다.
=> 그 나머지는 구글블로그에서 자동으로 즉시 처리가 되므로 달리 더 할 일은 없다.

구글 블로그 Robots.txt 설정하기


3. Robot.txt 파일 오류 검사하기

검색엔진 제어설정을 해 놓고 제대로 되었는지 걱정스러우면, 다음 사이트에서 오류가 있는지를 확인해 보면 된다. Robots.txt Checker>>

아래 그림은 이 블로그에 구글봇과 네이버봇만 허용하고 다른 봇은 모두 차단하도록 설정하여 Robots.txt 파일 오류검사를 해 본 예이다.

검사할 주소를 넣을 때, 주소뒤에 robots.txt 를 붙여야 오류검사가 된다.
예컨데, http://자신의블로그이름.blogspot.com/robots.txt

Robots.txt 파일 오류 검사하기
주인으로 삽시다 !
우리 스스로와 사랑하는 후세대를 위하여 !
사람(人) 민족 조국을 위하여 !!



《조로공동선언 : 2000년 7월 19일 평양》
반제자주 다극세계 창설 - 공정하고 합리적인 국제질서 수립



>> 조선 땅을 점령함 : 점령자(침략자) 미제국 맥아더 포고령

>> 한국인 마루타 : 주한미군 세균전 실체

>> 강제 백신(예방) 접종 : 강제 인구감축 대량학살 무기

>> 끊임없이 전쟁을 부추기는 피아트 머니 - 사기.착취.략탈.강탈 도구

>> 현금금지(캐시리스) 전자화폐(CBDC 씨비디씨) 특별인출권(에스디알)

>> 미국 달러 몰락, IMF SDR 특별인출권 국제기축통화 부상과 금

>> 딮 스테이트 : 그레이트리셋, 유엔 아젠다 2030, 2021, SDG 17, 아이디 2020, 4차산업혁명, 세계경제포럼, 세계화, 신세계질서, 세계단일정부, 세계재편



민족자주 승리에 대한 굳건한 믿음으로, 한미동맹파기! 미군철거!!

주권主權을 제 손에 틀어쥐고, 주인主人으로서 당당하고 재미나게 사는 땅을 만들어, 우리 후세대에게 물려줍시다.