قسمت اول
امروزه در اينترنت ميلياردها صفحه حاوي اطلاعات وجود دارد. با آگاهي از نشاني يك سايت يا صفحه به سادگي مي توان به آن دسترسي پيدا كرد و از منابع اطلاعاتي آن استفاده كرد. اما در صورتي كه قصد يافتن اطلاعات خاصي را در اينترنت داشته باشيم از سايتهاي ويژه اي براي اين منظور استفاده مي شود كه به ۲ دسته موتورهاي جستجو (Search Engine) و دايركتوريها
(Directories) تقسيم مي شوند. موتورهاي جستجو از يك ربات نرم افزاري به نام Spiders براي ساخت ليستي از واژه هاي يافت شده در وب سايتها استفاده مي كنند. عمل پردازش ساخت ليست ها توسط Spider را Web crawling مي نامند. يك موتور جستجو:
* اينترنت و يا بخشي از آن را براساس كليدهاي واژه جستجو مي كند.
* از كلمات پيدا شده يك ايندكس به همراه محل مربوط به هر يك ايجاد مي كند.
* به كاربران امكان جستجو براي واژه هاي دلخواه و يا تركيبي از آنها كه در فايل ايندكس موجود مي باشد را مي دهد.
برخي موتورهاي جستجو از چندين Spider همزمان براي ايجاد مقادير اوليه استفاده مي كنند.
به عنوان مثال گوگل از ۳ اسپايدر در هر لحظه استفاده مي كند. هر اسپايدر قادر به نگهداري ارتباط خود با بيش از ۳۰۰ صفحه وب در يك لحظه است. با استفاده از ۴ اسپايدر سيستم فوق قادر به جستجوي ۱۰۰ صفحه در ثانيه و توليد ۶۰۰ كيلوبايت اطلاعات در هر ثانيه است.
با دسترسي Spider به يك صفحه وب، ۲ پارامتر در رابطه آن يادداشت مي شود:
* كلمات موجود در صفحه
* محلي كه كلمات پيدا شده است.
متا تك(Meta tag)
با استفاده از متاتك ها ،ايجادكنندگان صفحات وب مي توانند كلمات كليدي مرتبط با محتواي صفحه را مشخص نمايند و نحوه ايندكس شدن را در موتور جستجو معين مي كنند.
گوگل
(www.google.com)
در فوريه ۱۹۹۹ نسخه آزمايشي اين موتور جستجو ارايه و در دسامبر ۱۹۹۹ رسما افتتاح و راه اندازي شد.
در june سال ۲۰۰۰ با ايجاد يك پايگاه اطلاعاتي بيش از ۵۶۰ ميليارد صفحه فعاليت جدي تري را آغاز و تا پايان همان سال به ۶۰۰ ميليون، در دسامبر ۲۰۰۱ به ۵/۱ بيليون و در آوريل ۲۰۰۲ به بيش از ۲ بيليون صفحه رساند. (در نوامبر ۲۰۰۲ به ركورد تازه ۳ بيليون دسترسي پيدا كرد).
در ابتدا گوگل صفحات وب را جستجو مي كرد اما در سال ۲۰۰۱ با توسعه پايگاه اطلاعاتي خود و اضافه كردن فرمت فايلهاي ديگر نظير PDF - PS - DOC - XLS- TXT- PPT- RTF - ASP و... محبوبيت بيشتري نزد كاربران پيدا كرد.
گوگل با راه اندازي بانك خبر- تصوير- دايركتوري و خريد دامنه فعاليت خود را افزايش داده است.
از گوگل بسياري از سايتها نظير iwon-AoL - سايت جستجوي Netscape و موتور جستجوي پشت صحنه yahoo و Weather underground استفاده مي كنند.
فرامين قابل استفاده در جستجوي گوگل
۱ - :intitle = جستجو در عنوان صفحات Html. اين فرمان با ديگر فرامين جستجو قابل تركيب است مانند: intitle: search Enginesكه مفهوم آن جستجوي Search در عنوان صفحات و ٍEngine در بدنه محتواي صفحات است.
۲- :inurl = جستجو در نشاني اينترنتي صفحات (شامل نام ميزبان وب- مسير و يا نام فايل)
inurl:Tajrish
نمايش لينكهايي كه در نام سايت- مسير يا نام فايل آن كلمه تجريش بكار رفته باشد.
۳- : Allintitle= جستجوي واژه هاي مشخص شده تماما در عنوان صفحات HTML ALLintitle:Training computer
تمامي صفحاتي كه در عنوان آن آموزش و رايانه باشد را جستجو مي كند.
۴- :Link = جستجوي صفحاتي كه لينك به نشاني مورد نظر دارند.
Link: Hamshahri.org
جستجوي ارجاعات به سايت همشهري
۵- : Allinurl= جستجوي صفحاتي كه واژه هاي بكار رفته تماما در URL آن باشد (نام ميزبان وب - مسير با نام فايل)
Allinurl: Search Engine
۶- = Site: جستجو در سايت مورد نظر به كمك موتور جستجوي گوگل
Site: Hamshahri.org Adjigol
جستجو كلمه آجيگل در سايت همشهري
۷- :All in anchor= جستجو صفحاتي كه به واژه مورد نظر لينك دارند.
All in anchor: informatic
جستجو صفحاتي كه به «انفورماتيك» لينك دارند
۷- = Related:جستجوي صفحات ديگري كه الگو مشابه لينك به نشاني اينترنتي مشخص شده دارند.
علائم قابل استفاده در جستجوهاي تركيبي
+ = در شرايط عادي گوگل كلمات عمومي و كاراكترها را نظير an-where- How براي تسريع در جستجو در نظر نمي گيرد براي در نظر گرفتن اين كلمات بايد قبل از آن از علامت + استفاده كرد.
Star War Episode+i
علامت نقل قول («») = با قراردادن يك يا چند واژه در داخل علامت نقل قول دقيقا آن مورد جستجو مي شود.
- در گوگل از Wildcard (* و ؟) نمي توان استفاده كرد.
- گوگل بر روي نوع حروف لاتين (بزرگ يا كوچك) حساسيتي ندارد.
- نيازي به عملگر منطقي AND در جستجوي تركيبي نمي باشد و با مشخص كردن واژه هاي جستجو با يك فاصله به صورت پيش فرض AND عمل خواهد كرد.
جستجوي پيشرفته
در جستجوي پيشرفته محدوده جستجو را مي توان بر روي فيلدهاي مختلفي تعيين كرد كه اين فيلدها عبارتند از:
* تاريخ= ۳ ماه- ۶ ماه و يا سال گذشته
* فرمت فايل= (Adobe Postscipt)PS (Adobe Acrobat PDF)PDF- (Microsoft Excel) Xls- (Microsoft Word) DOC (Microsoft PowerPoint) PPT- (Rich Text Format) RTF اين پارامتر با ۲ حالت نفي يا مثبت قابل جستجو است.
به عنوان مثال Only PPT و يا Don,t PPT
* زبان= براساس يكي از ۳۴ زبان حمايت شده در سايت گوگل
* نام دامنه (Domain)= معين كردن پيوند دامنه Net-org و... با تركيب ۲ پارامتر نفي يا مثبت only و ِDon,t
مانند: Net و Only Hamshahri.org
* مكان جستجو= در عنوان صفحه- در متن صفحه- در نشاني URL و يا در لينك به صفحه
* با همه واژه ها= مشخص كردن تمامي واژه هاي مشخص شده به صورت تركيب AND در جستجو
* با عين عبارت= جستجو براساس عين عبارت مشخص شده و نه تركيب واژه هاي عبارت در جستجو
* با حداقل يكي از واژه ها= بكارگيري حالت OR در جستجو
* بدون واژه ها= بكارگيري حالت NOT در جستجو.
زبان هاي حمايت شده در گوگل
زبان هاي حمايت شده در گوگل در April سال ۲۰۰۰، ۱۱ مورد بود كه در آگوست همان سال به ۲۴ زبان رسيد و در جولاي ۲۰۰۱ زبان روسي نيز به آن اضافه شد. هم اكنون ۳۴ زبان ذيل در گوگل قابل استفاده است:
عربي- بلغارستاني- چيني- كروواتي- چك- آلماني- دانماركي- انگليسي- استوني- فنلاندي- فرانسوي- هلندي- يوناني- عبري- لهستاني- ايسلندي- اندونزي- ايتاليايي- ژاپني- كره اي- لاتونيا- ليتواني- نروژي- پرتغالي- روماني- روسي- صربي- اسلوواكي- اسلووني- اسپانيايي- سوئدي و تركي