มี 368 บุคคลทั่วไป และ 1 สมาชิก ออนไลน์

พื้นฐานการทำเว็บไซต์
Robots.txt คืออะไรใช้อย่างไร PDF พิมพ์ อีเมล
( 0 Votes )
เขียนโดย Administrator   
วันอังคารที่ 16 มิถุนายน 2009 เวลา 22:18 น.

คำตอบนั้นก็คือ file ที่ช่วยให้เราสามารถสั่งงานไอ้เจ้า Robots น้อยได้เท่านั้นเอง โดย Robots จากทุกที่ไม่ว่าจะเป็นของ Google , MSN , Yahoo ล้วนแล้วแต่ต้องอ่าน file นี้ก่อน file index ด้วยกันทั้งนั้น เพราะอะไรเหรอคับ ก็เพราะว่า file นี้นั้นจะเป็นตัวไปกำหนดว่า เจ้า Robots ที่เข้ามาอ่านนั้นจะสามารถเข้าถึงส่วนไหนได้บ้าง และ ไม่สามารถเข้าถึงส่วนไหนได้บ้าง



ในส่วน Robots.txt ของ joomla
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
หลัก ๆ ก็มีแค่นี้ ส่วนนี้ไม่ต้องแก้ไขอะไรนะครับ ปล่อยไว้เช่นเดิม เพราะเป็นสว่นที่ไม่ต้องการให้ บอทเข้ามาค้นหา อาจจะ กับส่วนหรือลิ้งก์ที่ละเอียดอ่อน หรือข้อมูลลับที่ไม่อยากเปิดเผย เช่น ข้อมูลยูส รหัสผ่าน อาจจะเป็นช่องโหว่ให้ผู้ที่ไม่ประสงค์ดี เข้ามาทำมิดีมิร้ายกับเว็บไซต์ของเรา

มาดูความหมายของคำสั่ง ใน robots.txt
1. ต้องการสั่งงานเจ้า Robot ทุกตัวพิมพ์ประโยคนี้ใน file robots.txt ครับ User-agent: *

2. ต้องการสั้งงานเจ้า Robot แค่เพียงบางตัวก็ทำได้แต่เราต้องรู้ด้วยว่ามันมีชื่ออะไรเช่น
User-agent: Googlebot
User-agent: msnbot
User-agent: Slurp
ซึ่งแต่ละบรรทัดนั้นอาจจะเขียนทั้ง 3 บรรทัดหรือ 2 หรือ 1 ก็ได้คับ
ซึ่งแต่เราอันนั้นก็จะเป็นของเว็บไซต์ดังๆทั้งนั้น นั้นก็คือ
ของ Google , MSN , Yahoo ตามลำดับ

3. เมื่อเรารู้แล้วว่าเราจะสั่งงานกับเจ้า Robot ตัวไหนบ้างจากนี้เราก็มาสั่งมันกันสักที โดยที่เราจะทำการห้ามมันไม่ให้ไปเก็บข้อมูลตรงส่วนไหนบ้างโดยใช้คำสั่ง Disallow เช่น
3.1 ในกรณีที่เราต้องการไม่ให้มันมาเก็บข้อมูลของเราทั้งเว็บไซต์จะใช้คำสั่ง
Disallow: /
3.2 ในกรณีที่เราต้องการไม่ให้มันมาเก็บข้อมูล บาง file <เช่น homework.pdf จะใช้คำสั่ง
Disallow: /homework.pdf
3.3 ในกรณีที่เราไม่ต้องการให้มันมาเก็บข้อมูลของ ทั้ง folder ก็จะใช้คำสั่ง เช่น folder admin ก็จะใช้คำสั่ง
Disallow: /admin/
3.4 ในกรณีที่เราไม่ต้องการให้มันมาเก็บข้อมูลบางชนิดหรือบางนามสกุลก็สามารถทำได้เช่น พวก .pdf ซึ่งเป็น file เอกสารก็สามารถทำได้โดย
Disallow: /*.pdf
3.5 ในกรณีที่เราต้องการห้ามเฉพาะบาง folder ที่อยู่ใน folder ย่อยเท่านั้นก็ทำได้เช่น
Disallow: /images/private_images และนี่คือตัวอย่าง file robots.txt อย่างง่ายๆน่ะคับ
User-agent: *
Disallow: /errors/
Disallow: /images/
Disallow: /file/*.pdf
ซึ่ง ที่เขียน 4 บรรทัด ข้างต้นนี้เราเราก็สามารถนำไปใส่ลงใน file robots.txt ได้เลยจากนั้นก็ up ขึ้น host เพิ่มทำการสั่งงานเจ้า robots น้อยของเราได้จากทุกที่

 

ข้อมูลบางส่วนจาก http://www.forum.huakala.com/index.php?topic=2624.0

การใช้ robots.txt อย่างมีประสิทธิภาพ

ไฟล์ robots.txt จะบอกให้เครื่องมือสำหรับค้นหาเข้าถึงหรือไม่ก่อนที่จะทำการรวบรวมข้อมูลจากบางส่วนของเว็บไซต์คุณ ไฟล์ที่จะต้องตั้งชื่อควรจะวางอยู่ในรากของไซต์

http://www.youdomain.com/robots.txt

 

 

 

แก้ไขล่าสุด ใน วันอังคารที่ 16 มิถุนายน 2009 เวลา 22:39 น.
 

คุณไม่มีสิทธิที่จะโพสต์ข้อคิดเห็น กรุณาล็อคอินหรือลงทะเบียน

RSS 2.0 Joomla Articles
twitter
Creative Commons License