در خصوص چگونگی انجام این مهم یعنی پیدا کردن یک کلمه یا ترکیبی از کلمات توسط یک موتور جستجو مقالات متعددی درج نموده ایم . مقاله ای که پیش رو است به قلم شیوا یکی از همکاران و وبلاگنویسان است که با زبانی ساده و به دور از مسایل فنی به ما خواهد آموخت چگونه در عرض چند ثانیه موتور جستجو در میان میلیونها صفحه انبوهی از اطلاعات را در اختیار کاربرمی گذارد
جستجو میان صدها میلیون صفحه
شیوه عملکرد موتورهاى جست وجوى
تفاوت هایى در شیوه عملکرد موتورهاى جست وجوى مختلف وجود دارد، اما همه آنها سه وظیفه اصلى را انجام مى دهند:
در اینترنت، یا بخش هاى برگزیده اى از اینترنت، براساس کلمات مهم جستجو را انجام مى دهند.
یک فهرست از کلماتى که پیداکرده اند و جایى که آنها را پیدا کرده اند، تهیه مى کنند.
این امکان را براى کاربران فراهم مى کنند تا کلمات یا مجموعه اى از کلمات مورد نظر خود را که در فهرست یافت مى شود جست وجو کنند.
موتورهاى جست وجوى اولیه یک فهرست شامل تنها چندصد هزار صفحه و فایل نگهدارى مى کردند و در روز شاید یک یا دو هزار بازدیدکننده داشتند. امروزه یک موتور جست وجوى خوب، صدها میلیون صفحه را فهرست مى کند و در روز پاسخگوى ده ها میلیون جست وجو کننده است. حالا باید ببینیم چگونه این مسئولیت مهم انجام مى شود و چگونه موتورهاى جست وجوى اینترنتى، بخش هاى مختلف را به کار مى برند تا ما بتوانیم اطلاعات مورد نیاز خود را در شبکه بیابید. جستجو میان صدها میلیون صفحه قبل از اینکه یک موتور جستجوگر بتواند به شما بگوید که یک فایل در کجا قرار دارد، باید آن فایل پیدا شود.
روبات اسپایدر spiders
یک موتور جست وجوگر براى یافتن اطلاعات از میان صدها میلیون صفحه که در شبکه وجود دارند، روبات نرم افزارى خاصى به نام spiders را به کار مى گیرد تا لیستى از کلماتى که در سایت هاى شبکه یافت مى شود را ایجاد کند. فرآیندى که یک spider لیست خود را ایجاد مى کند، Web crawling نامیده مى شود. براى ایجاد و نگهدارى یک لیست مفید و مناسب از کلمات، یک spider موتور جست وجوگر باید صفحات بسیار زیادى را بررسى کند. چگونه هر spider مسیرش را در شبکه آغاز مى کند ؟ معمولاً نقطه شروع، لیستى از صفحاتى است که توسط سرورها زیاد استفاده مى شوند و همچنین صفحاتى که مومى تر و معروف تر هستند.
طرز عملکرد یک اسپایدر spiders
spider از یک سایت عمومى شروع مى کند، کلمات موجود در صفحات آن را لیست مى کند و هر لینکى که در آن سایت یافت مى شود را دنبال مى کند. به این طریق سیستم جست وجوگر به سرعت شروع به حرکت مى کند و در بخش هایى که بیشتر از همه مورد استفاده قرار مى گیرد حرکت مى کند. Google.com به عنوان یک موتور جست وجوگر علمى آغاز به کار کرد. سرجى برین و لورنس پیج بیان کرده اند که spiderهاى سیستم آنها با چه سرعتى مى توانند کار کنند. آنها سیستم اولیه خود را به گونه اى ساختند که از چندین spider استفاده کند، معمولاً سه تا در یک زمان. هر spider مى توانست با حدود سیصد صفحه شبکه که در یک زمان باز بودند اتصال برقرار کند. در بهترین عملکرد خود، با استفاده از چهار spider، این سیستم مى توانست در هر ثانیه به صد صفحه متصل باشد و حدود ??? کیلو بایت داده را در هر ثانیه ایجاد کند. براى سرعت بخشیدن به جست وجو، ایجاد سیستمى براى ارائه اطلاعات لازم به spider لازم است. سیستم گوگل اولیه داراى سرورى بود که به فراهم کردن URL ها براى spider ها اختصاص یافته بود. به جاى وابسته بودن به یک فراهم کننده سرویس اینترنتى براى DNS که نام یک سرور را به یک آدرس تبدیل مى کند، گوگل DNS خودش را داشت تا تاخیرها را به حداقل برساند.