Semalt გთავაზობთ რჩევებს, თუ როგორ უნდა გაუმკლავდეთ ბოტებს, ობობებს და მცოცავებს

საძიებო სისტემის მეგობრული მისამართების შექმნის გარდა, .htaccess ფაილი საშუალებას აძლევს ვებგვერდებს დაბლოკონ კონკრეტული ვებგვერდები თავიანთ ვებსაიტებზე. ამ რობოტების დაბლოკვის ერთი გზაა robots.txt ფაილი. ამასთან, როს ბარბერი, Semalt- ის მომხმარებელთა წარმატების მენეჯერი, აცხადებს, რომ მან დაინახა ზოგიერთი მცოცავი ამ მოთხოვნის უგულებელყოფით. ერთ-ერთი საუკეთესო გზაა .htaccess ფაილის გამოყენება, რომ შეაჩერონ ისინი თქვენი შინაარსის ინდექსის მიზნით.

რა არის ეს ბოტები?

ისინი პროგრამული უზრუნველყოფის ტიპია, რომელსაც საძიებო სისტემები იყენებენ ინტერნეტით ახალი შინაარსის მოსაშორებლად ინდექსაციის მიზნით.

ისინი ასრულებენ შემდეგ დავალებებს:

  • ეწვიეთ ვებ – გვერდებს, რომლებთანაც ხართ დაკავშირებული
  • შეამოწმეთ თქვენი HTML კოდი შეცდომების გამო
  • ისინი დაზოგავენ რა ვებ – გვერდს, რომელსაც თქვენ უკავშირდებით და ხედავენ, თუ რა ვებ – გვერდები აკავშირებს თქვენს შინაარსზე
  • ისინი ინდექსირებას უკეთებენ თქვენს შინაარსს

ამასთან, ზოგიერთი ბოტი მავნეა და მოძებნეთ თქვენს საიტზე ელ.ფოსტის მისამართები და ფორმები, რომლებიც ჩვეულებრივ გამოიყენება არასასურველი შეტყობინებების ან სპამის გასაგზავნად. სხვები კი თქვენს კოდში უსაფრთხოების ხარვეზებს ეძებენ.

რა არის საჭირო ვებ კრაილერების დაბლოკვისთვის?

.Htaccess ფაილის გამოყენებამდე უნდა შეამოწმოთ შემდეგი რამ:

1. თქვენი საიტი უნდა მუშაობდეს Apache სერვერზე. დღესდღეობით, თუნდაც მასპინძელი კომპანიები, რომლებიც ნახევრად წესიერი არიან თავიანთ სამუშაოში, მოგაწვდით საჭირო ფაილს.

2. თქვენ უნდა გქონდეთ წვდომა თქვენს ვებ – გვერდის ნედლეული სერვერის ლოგებში, ასე რომ თქვენ შეგიძლიათ იპოვოთ ის, რაც ბოტებს ეწვივნენ თქვენს ვებ – გვერდებზე.

გაითვალისწინეთ, რომ არ არსებობს გზა, რომლითაც ყველა მავნე ბოტის დაბლოკვას შეძლებთ, სანამ არ დაბლოკავთ ყველა მათგანს, თუნდაც ის, რასაც თვლით, რომ სასარგებლოა. ყოველდღე ახალი ბოტები მოდის, ხანდაზმული ასაკის შეცვლა ხდება. ყველაზე ეფექტური გზაა თქვენი კოდის უზრუნველყოფა და ბოტების გაძნელება.

ბოტების იდენტიფიკაცია

ბოტები შეიძლება იდენტიფიცირდეს IP მისამართით ან მათი "მომხმარებლის აგენტის სტრიქით", რომელსაც ისინი უგზავნიან HTTP თავით. მაგალითად, Google იყენებს "Googlebot".

შეიძლება დაგჭირდეთ ეს სია 302 ბოთლით, თუ უკვე გაქვთ ბოტის სახელი, რომლის დაცვაც გსურთ .htaccess

კიდევ ერთი გზაა სერვერის ყველა ლოგის ფაილის ჩამოტვირთვა და ტექსტური რედაქტორის გამოყენებით მათი გახსნა. მათი ადგილმდებარეობა სერვერზე შეიძლება შეიცვალოს თქვენი სერვერის კონფიგურაციიდან გამომდინარე. თუ ვერ პოულობთ მათ, მოიძიეთ დახმარება თქვენი ვებ მასპინძლისგან.

თუ იცით, რომელი გვერდი ეწვია, ან ვიზიტის დრო, უფრო ადვილია არასასურველი ბოტთან ჩასვლა. ამ პარამეტრებით შეგიძლიათ მოიძიოთ ჟურნალის ფაილი.

ერთხელ, თქვენ მიუთითეთ რა ბოტები გჭირდებათ დაბლოკვისთვის; შემდეგ შეგიძლიათ შეიტანოთ ისინი .htaccess ფაილში. გთხოვთ გაითვალისწინოთ, რომ ბოტის დაბლოკვა საკმარისი არ არის ამის შესაჩერებლად. ეს შეიძლება დაბრუნდეს ახალი IP ან სახელით.

როგორ დავაბლოკოთ ისინი

ჩამოტვირთეთ .htaccess ფაილის ასლი. საჭიროების შემთხვევაში გააკეთეთ სარეზერვო ასლები.

მეთოდი 1: ბლოკირება IP- ით

ამ კოდის ბლოკნოტი ბლოკავს ბოტს IP მისამართის გამოყენებით 197.0.0.1

შეუკვეთეთ უარი, ნებართვა

უარყო 197.0.0.1

პირველი ხაზი ნიშნავს, რომ სერვერი დაბლოკავს ყველა მოთხოვნას, რომელიც თქვენს მიერ მითითებული ნიმუშების შესაბამისია და ყველა სხვას საშუალებას მისცემს.

მეორე ხაზი ეუბნება სერვერს გამოსცეს 403: აკრძალული გვერდი

მეთოდი 2: ბლოკირება მომხმარებლის აგენტების მიერ

უმარტივესი გზაა Apache- ს ხელახლა გადაწერის ძრავის გამოყენება

გადაწერა კიდევ ერთხელ

გადაწერეთ% {HTTP_USER_AGENT} BotUserAgent

ხელახლა გადაწერა. - [F, L]

პირველი ხაზი უზრუნველყოფს, რომ გადაწერის მოდული ჩართულია. მე -2 სტრიქონი არის პირობა, რომელზეც ვრცელდება წესი. მე –4 სტრიქონის "F" სერვერს ეუბნება, რომ დაუბრუნოს 403: აკრძალული ხოლო "L" ნიშნავს, რომ ეს ბოლო წესია.

შემდეგ ატვირთეთ .htaccess ფაილი თქვენს სერვერზე და გადაწერთ უკვე არსებულს. დროთა განმავლობაში, თქვენ დაგჭირდებათ ბოტის IP- ის განახლება. შეცდომის შემთხვევაში, უბრალოდ ატვირთეთ თქვენი სარეზერვო სარეზერვო საშუალება.