Дефиниција на Spidering и Web роботите

Пајаци и веб роботи: Што треба да знаете за да ги заштитите податоците од веб-страницата

Пајаците се програми (или автоматски скрипти) кои "пребаруваат" преку Интернет во потрага по податоци. Пајаците патуваат низ URL адресите на веб-страниците и можат да ги повлечат податоците од веб-страници како е-мејл адреси. Пајаци, исто така, се користат да се хранат информации се најде на веб-сајтови за пребарувачите.

Пајаците, кои исто така се нарекуваат "веб-роботи", бараат интернет, а не сите се пријателски во нивната намера.

Спамери веб-страниците на пајакот да собираат информации

Google, Yahoo!

и други пребарувачи не се единствените заинтересирани за индексирање на веб-страници - така се и scammers и спамери.

Пајаци и други автоматски алатки се користат од спамери за да најдат е-мејл адреси (на интернет оваа практика често се нарекува "берба") на веб-страниците и потоа ги користи за креирање на спам-листи.

Пајаците се исто така алатка што ја користат пребарувачите за да дознаат повеќе информации за вашата веб-страница, но оставиле неконтролирано, веб-сајт без инструкции (или "дозволи") за тоа како да го индексираат вашиот сајт може да претставува голем ризик за безбедноста на информациите. Пајаците патуваат по следните линкови, и тие се многу вешти за наоѓање врски до бази на податоци, програмски датотеки и други информации на кои можеби нема да сакате да имаат пристап.

Веб-администраторите можат да ги видат дневниците за да видат што пајаците и другите роботи ги посетија нивните сајтови. Оваа информација им помага на веб-администраторите да знаат кој е индексирање на нивниот сајт и колку често.

Оваа информација е корисна затоа што им овозможува на веб-администраторите одлично да ја нагодат нивната оптимизација и да ги ажурираат датотеките robot.txt за да забранат одредени роботи од индексирање на нивниот сајт во иднина.

Совети за заштита на вашата веб-страница од несакани роботи роботи

Постои прилично едноставен начин да ги задржите несаканите роботи од вашата веб-страница. Дури и ако не сте загрижени за злонамерните пајаци што ги пребаруваат вашите локации (зачувувањето е-адреса нема да ве заштити од повеќето роботи), сепак треба да им обезбедите на пребарувачите важни инструкции.

Сите веб-страници треба да имаат датотека лоцирана во root директориумот наречена датотека robots.txt. Оваа датотека ви овозможува да ги инструктирате веб-роботите каде што сакате да ги гледаат страниците за индексирање (освен ако не е поинаку наведено во мета податоците на одредена страница за да не се индексираат), ако тие се пребарувач.

Исто како што можете да кажете посакуваните роботи, каде што сакате да ги пребарувате, исто така можете да им кажете каде не можат да одат, па дури и да блокираат одредени роботи од целата своја веб-страница.

Важно е да се има предвид дека добро поставена датотека robots.txt ќе има огромна вредност за пребарувачите и може дури да биде клучен елемент за подобрување на перформансите на вашиот веб-сајт, но некои роботи роботи ќе ги игнорираат вашите инструкции. Поради оваа причина, важно е да го задржите целиот софтвер, приклучоците и апликациите ажурирани во секое време.

Поврзани написи и информации

Поради распространетоста на бербата на информации користени за злогласни (спем) цели, законодавството беше усвоено во 2003 година за да се направат одредени практики незаконски. Овие закони за заштита на потрошувачите спаѓаат под CAN-SPAM Act од 2003 година.

Важно е да одвоите време да прочитате на CAN-SPAM Act ако вашиот бизнис се вклучува во масовно испраќање или собирање информации.

Можете да дознаете повеќе за анти-спам закони и како да се справите со спамери, и што вие како сопственик на бизнис не може да го сторите, читајќи ги следните статии: