موتور جستجوی گوگل چطور کار میکند؟
در این نوشته ی علمی قصد داریم مقدمهای درخصوص نحوه عمل موتورهای جستجو به شما ارائه دهیم. این فرایندها مشتمل بر کرال، ایندکس و مرتبهبندی کردن صفحات و همچنین مفاهیم دیگری دراین مورد می باشد. پس با ما یار باشید تا ببینیم موتورهای جستجو چطور عمل میکنند؟ موتورهای جستجو با کرال کردن صدها میلیارد شیت با به کار گیری از خزندههای وبشان، فعالیت میکنند. این خزندههای وب معمولا به عنوان رباتهای موتور جستجو یا عنکبوت (spider) شناخته میشوند. یک موتور جستجو با لود کردن صفحات وب و دنبال کردن لینک و پیوندها در این صفحات، آنها را پیمایش خواهد کرد تا صفحات جدیدی که در دسترس میباشد را پیدا کند. در واقع، موتورهای جستجو، دستگاه پاسخگویی می باشند. آن ها برای کشف، شعور و سازماندهی محتوای جانور در اینترنت به وجود آمدهاند تا بتوانند مرتبطترین نتایج را به سوالاتی که جستجوگران از آنها میپرسند، ارائه دهند. برای اینکه وب سایت شما در نتایج جستجو علامت داده خواهد شد، شروع بایستی محتوایتان برای موتورهای جستجو قابل مشاهده باشد. قطعا مهمترین قسمت معمای سئو این است: در حالتیکه وب سایت شما پیدا نشود، هیچ راهی برای نمایش آن در SERP (شیت نتیجه ها موتور جستجو) وجود ندارد. برای این که ببینیم موتورهای جستجو چطور عمل میکنند، باید همت اصلی آن را پژوهش کنیم. موتورهای جستجو از طریق سه تلاش اصلی شغل میکنند: کرال کردن: تمام صفحه های وب را جستجو میکند. (کد یا محتوای هر URL را که پیدا کند، آن را جستجو خواهد کرد.) ایندکس کردن: محتوای پیدا شده طی فرآیند کرالینگ را ذخیره و سازماندهی میکند. سئو در مشهد را با ما تجربه کنید زمانی که یک برگه در ایندکس قرار گرفت، در اینک انجام میباشد تا برای سوال ها مربوطه، نمایش داده خواهد شد. رنکینگ یا مرتبهبندی: برای هر کوئری، نصیبهایی از محتوا را ارائه میکند که به بهترین وجه به سوال مخاطب پاسخ بدهد، این بدان معناست که نتیجه ها به ترتیب از نزدیکترین به دورترین پاسخ، سکو میگیرند.
دراین نوشتهعلمی با مطالب زیر آشنا میشوید:
کرالینگ موتور جستجو چیست؟
اولین قدم برای اینکه بفهمیم موتورهای جستجو چطور عمل میکنند، مبحث کرالینگ هست. کرالینگ (Crawling)، فرآیندی میباشد که توسط خزندههای وب موتور جستجو (رباتها یا عنکبوتها) برای بازدید و دانلود یک برگه و کسب لینکهای آن به منظور جستن سایر صفحات، به کار گیری میگردد. در واقع کرال کردن، اولی قدم برای کشف صفحات جانور در وب میباشد. از آنجایی که یک رجیستری مرکزی برای تمامی صفحات وب وجود ندارد، گوگل باید دائما صفحه های تازه را جستجو و آنان را به لیست صفحه ها شناخته شده خود، اضافه کند. البته بعضا از این صفحه ها شناخته شدهاند زیرا گوگل قبلا از آنان بازدید کرده است. هنگامی گوگل لینکی از یک کاغذ شناخته شده به یک ورقه نو را دنبال میکند، سایر صفحات دیسکاور (کشف) میگردند. زمانی رئیس وبوبسایت، لیستی از صفحات (نقشه وب سایت) را برای کرال شدن توسط گوگل ارسال میکند، سایر صفحه ها دیسکاور میشوند. درحالتی که از یک وب هاست مدیریت شده مانند وردپرس یا Blogger استعمال میکنید، ممکن میباشد آنها به گوگل بگویند که هر کاغذ آپ تو دیت شده یا جدیدی را که ایجاد کرد میکنید، جستجو کند. وقتی که گوگل یک URL صفحه را دیسکاور میکند، از آن کاغذ بازدید کرده یا عبور میکند، تا بفهمد چه چیزی در آن وجود دارد. گوگل صفحه را ارائه می دهد و متن و محتوای غیرمتنی آن را تجزیه و مطالعه میکند تا تصمیم بگیرد که کجا بایستی این کاغذ را در نتیجه ها جستجو نشانه بدهد. هرچه گوگل خوب بتواند سایت شما را شعور کند، عالی قادر است آن را به عده ای که درپی محتوای مرتبط با تارنما شما میباشند، نشانه بدهد. صفحه های شناخته شده برای موتور جستجو بهصورت فرصتای کرال میشوند تا معین شود آیا از آخرین باری که رباتها از آن کاغذ بازدید کردهاند، تغییری در محتوای آن تاسیس شده است یا خیر. درصورتیکه یک موتور جستجو بعد از کرال کردن یک کاغذ، تغییرات آن را تشخیص دهد، این شاخص را در پاسخ به این تغییرات شناسایی شده، آپ تو دیت میکند.
کرالینک وب چطور فعالیت میکند؟
موتورهای جستجو از خزنده وب خود برای دیسکاور کردن و دسترسی به صفحه های وب به کارگیری میکنند. مجموع کرالرهای موتور جستجو با بارگیری فولدر robots.txt آن، که حاوی قوانینی درباره صفحه های هست که به موتورهای جستجو اجازه می دهند آن صفحه ها را کرال کنند. فایل robots.txt همچنین ممکن میباشد حاوی اطلاعاتی دربارهی نقشه وب سایت یا همان وبسایتمپ باشد. این پوشه مشتمل بر لیستی از URLهایی می باشد که یک وبوبسایت، میخواهد خزندههای موتور جستجو آنها را کرال کنند. خزندههای موتور جستجو از یک سری الگوریتم و قانون برای گزینش تعداد دفعات بازدید مجدد یک ورقه و ایندکس شدن تعداد صفحه ها در یک سایت استفاده میکنند. مثلا، صفحهای که به طور منظم تغییر تحول میکند، ممکن میباشد بیشتر از کاغذای که بندرت آپیدت میشود، کرال خواهد شد.
چهگونه میقدرت کرالرهای موتور جستجو را شناسایی کرد؟
رباتهای موتور جستجو که در حالا کرال کردن یک تارنما میباشند، میتوانند از طریق «فن دلیل کاربر» یا همان user agent string که هنگام درخواست صفحه های وب به وب سرور منتقل میشوند، شناسایی شوند. در اینجا چند نمونه از فنهای عامل کاربر که بوسیله موتورهای جستجو استعمال میشود را به شما معرفی خوا هیم کرد:
دلیل استفاده کننده Googlebot
Mozilla / 5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)
عامل کاربرBingbot
Mozilla/5.0 (compatible; bingbot/2.0; +https://www.bing.com/bingbot.htm)
استدلال کاربر Baidu
Mozilla/5.0 (compatible; Baiduspider/2.0; +https://www.baidu.com/search/spider.html)
عامل کاربر Yandex
Mozilla/5.0 (compatible; YandexBot/3.0; +https://yandex.com/bots)
هر کسی میتواند از user agent یا برهان کاربر مشابه موتورهای جستجو استعمال کند. با این درحال حاضر، آدرس IP که درخواست را انجام داده است، میتواند تایید کند که این درخواست از سوی موتور جستجو آمده میباشد. این مراحل، DNS reverse lookup نامیده می شود.
کرال شدن تصاویر و سایر پوشههای غیرمتنی
موتورهای جستجو معمولا تلاش میکنند هر URLی که با آن عکس العمل میکنند را کرال و ایندکس کنند. با این هم اکنون، در صورتیکه URL از نوع فولدر غیرمتنی مانند تصویر، فیلم یا فولدر صوتی باشد، موتورهای جستجو معمولا قادر به قرائت محتوای فایل به غیر از نام آن و متادیتای مرتبط با آن نخواهند بود. اگرچه ممکن میباشد یک موتور جستجو تنها بتواند اطلاعات محدودی در خصوص اشکال پوشههای غیرمتنی کسب کند، اما باز هم میتوان آنان را ایندکس یا در نتیجه ها جستجو رتبهبندی کرد و از طریق آن، ترافیک بیشتری به دست آورد.
کرال کردن و حصول لینکها از صفحه های
خزندهها با کرال کردن مجدد صفحه های موجود که قبلا در مورد آنها اطلاعات داشتهاند، صفحات نو را دیسکاور کرده و بعد پیوندهای سایر صفحات را برای یافتن URLهای تازه استخراج میکنند. این URLهای تازه به صف صفحاتی که قرار میباشد کرال شوند، اضافه میشوند تا بتوانند در حین دیگری دانلود شوند. از طریق این پروسه در لینک و پیوندهای فالو، موتورهای جستجو قادر به جستن هر شیت وبی هستند که در اینترنت جان دار میباشد و دستکم از یک کاغذ دیگر به آن پیوند داده گردیدهاست.
موتور جستجوی گوگل چطور کار میکند؟
در این نوشته ی علمی قصد داریم مقدمهای درخصوص نحوه عمل موتورهای جستجو به شما ارائه دهیم. این فرایندها مشتمل بر کرال، ایندکس و مرتبهبندی کردن صفحات و همچنین مفاهیم دیگری دراین مورد می باشد. پس با ما یار باشید تا ببینیم موتورهای جستجو چطور عمل میکنند؟ موتورهای جستجو با کرال کردن صدها میلیارد شیت با به کار گیری از خزندههای وبشان، فعالیت میکنند. این خزندههای وب معمولا به عنوان رباتهای موتور جستجو یا عنکبوت (spider) شناخته میشوند. یک موتور جستجو با لود کردن صفحات وب و دنبال کردن لینک و پیوندها در این صفحات، آنها را پیمایش خواهد کرد تا صفحات جدیدی که در دسترس میباشد را پیدا کند. در واقع، موتورهای جستجو، دستگاه پاسخگویی می باشند. آن ها برای کشف، شعور و سازماندهی محتوای جانور در اینترنت به وجود آمدهاند تا بتوانند مرتبطترین نتایج را به سوالاتی که جستجوگران از آنها میپرسند، ارائه دهند. برای اینکه وب سایت شما در نتایج جستجو علامت داده خواهد شد، شروع بایستی محتوایتان برای موتورهای جستجو قابل مشاهده باشد. قطعا مهمترین قسمت معمای سئو این است: در حالتیکه وب سایت شما پیدا نشود، هیچ راهی برای نمایش آن در SERP (شیت نتیجه ها موتور جستجو) وجود ندارد. برای این که ببینیم موتورهای جستجو چطور عمل میکنند، باید همت اصلی آن را پژوهش کنیم. موتورهای جستجو از طریق سه تلاش اصلی شغل میکنند: کرال کردن: تمام صفحه های وب را جستجو میکند. (کد یا محتوای هر URL را که پیدا کند، آن را جستجو خواهد کرد.) ایندکس کردن: محتوای پیدا شده طی فرآیند کرالینگ را ذخیره و سازماندهی میکند. سئو در مشهد را با ما تجربه کنید زمانی که یک برگه در ایندکس قرار گرفت، در اینک انجام میباشد تا برای سوال ها مربوطه، نمایش داده خواهد شد. رنکینگ یا مرتبهبندی: برای هر کوئری، نصیبهایی از محتوا را ارائه میکند که به بهترین وجه به سوال مخاطب پاسخ بدهد، این بدان معناست که نتیجه ها به ترتیب از نزدیکترین به دورترین پاسخ، سکو میگیرند.
دراین نوشتهعلمی با مطالب زیر آشنا میشوید:
کرالینگ موتور جستجو چیست؟
اولین قدم برای اینکه بفهمیم موتورهای جستجو چطور عمل میکنند، مبحث کرالینگ هست. کرالینگ (Crawling)، فرآیندی میباشد که توسط خزندههای وب موتور جستجو (رباتها یا عنکبوتها) برای بازدید و دانلود یک برگه و کسب لینکهای آن به منظور جستن سایر صفحات، به کار گیری میگردد. در واقع کرال کردن، اولی قدم برای کشف صفحات جانور در وب میباشد. از آنجایی که یک رجیستری مرکزی برای تمامی صفحات وب وجود ندارد، گوگل باید دائما صفحه های تازه را جستجو و آنان را به لیست صفحه ها شناخته شده خود، اضافه کند. البته بعضا از این صفحه ها شناخته شدهاند زیرا گوگل قبلا از آنان بازدید کرده است. هنگامی گوگل لینکی از یک کاغذ شناخته شده به یک ورقه نو را دنبال میکند، سایر صفحات دیسکاور (کشف) میگردند. زمانی رئیس وبوبسایت، لیستی از صفحات (نقشه وب سایت) را برای کرال شدن توسط گوگل ارسال میکند، سایر صفحه ها دیسکاور میشوند. درحالتی که از یک وب هاست مدیریت شده مانند وردپرس یا Blogger استعمال میکنید، ممکن میباشد آنها به گوگل بگویند که هر کاغذ آپ تو دیت شده یا جدیدی را که ایجاد کرد میکنید، جستجو کند. وقتی که گوگل یک URL صفحه را دیسکاور میکند، از آن کاغذ بازدید کرده یا عبور میکند، تا بفهمد چه چیزی در آن وجود دارد. گوگل صفحه را ارائه می دهد و متن و محتوای غیرمتنی آن را تجزیه و مطالعه میکند تا تصمیم بگیرد که کجا بایستی این کاغذ را در نتیجه ها جستجو نشانه بدهد. هرچه گوگل خوب بتواند سایت شما را شعور کند، عالی قادر است آن را به عده ای که درپی محتوای مرتبط با تارنما شما میباشند، نشانه بدهد. صفحه های شناخته شده برای موتور جستجو بهصورت فرصتای کرال میشوند تا معین شود آیا از آخرین باری که رباتها از آن کاغذ بازدید کردهاند، تغییری در محتوای آن تاسیس شده است یا خیر. درصورتیکه یک موتور جستجو بعد از کرال کردن یک کاغذ، تغییرات آن را تشخیص دهد، این شاخص را در پاسخ به این تغییرات شناسایی شده، آپ تو دیت میکند.
کرالینک وب چطور فعالیت میکند؟
موتورهای جستجو از خزنده وب خود برای دیسکاور کردن و دسترسی به صفحه های وب به کارگیری میکنند. مجموع کرالرهای موتور جستجو با بارگیری فولدر robots.txt آن، که حاوی قوانینی درباره صفحه های هست که به موتورهای جستجو اجازه می دهند آن صفحه ها را کرال کنند. فایل robots.txt همچنین ممکن میباشد حاوی اطلاعاتی دربارهی نقشه وب سایت یا همان وبسایتمپ باشد. این پوشه مشتمل بر لیستی از URLهایی می باشد که یک وبوبسایت، میخواهد خزندههای موتور جستجو آنها را کرال کنند. خزندههای موتور جستجو از یک سری الگوریتم و قانون برای گزینش تعداد دفعات بازدید مجدد یک ورقه و ایندکس شدن تعداد صفحه ها در یک سایت استفاده میکنند. مثلا، صفحهای که به طور منظم تغییر تحول میکند، ممکن میباشد بیشتر از کاغذای که بندرت آپیدت میشود، کرال خواهد شد.
چهگونه میقدرت کرالرهای موتور جستجو را شناسایی کرد؟
رباتهای موتور جستجو که در حالا کرال کردن یک تارنما میباشند، میتوانند از طریق «فن دلیل کاربر» یا همان user agent string که هنگام درخواست صفحه های وب به وب سرور منتقل میشوند، شناسایی شوند. در اینجا چند نمونه از فنهای عامل کاربر که بوسیله موتورهای جستجو استعمال میشود را به شما معرفی خوا هیم کرد:
دلیل استفاده کننده Googlebot
Mozilla / 5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)
عامل کاربرBingbot
Mozilla/5.0 (compatible; bingbot/2.0; +https://www.bing.com/bingbot.htm)
استدلال کاربر Baidu
Mozilla/5.0 (compatible; Baiduspider/2.0; +https://www.baidu.com/search/spider.html)
عامل کاربر Yandex
Mozilla/5.0 (compatible; YandexBot/3.0; +https://yandex.com/bots)
هر کسی میتواند از user agent یا برهان کاربر مشابه موتورهای جستجو استعمال کند. با این درحال حاضر، آدرس IP که درخواست را انجام داده است، میتواند تایید کند که این درخواست از سوی موتور جستجو آمده میباشد. این مراحل، DNS reverse lookup نامیده می شود.
کرال شدن تصاویر و سایر پوشههای غیرمتنی
موتورهای جستجو معمولا تلاش میکنند هر URLی که با آن عکس العمل میکنند را کرال و ایندکس کنند. با این هم اکنون، در صورتیکه URL از نوع فولدر غیرمتنی مانند تصویر، فیلم یا فولدر صوتی باشد، موتورهای جستجو معمولا قادر به قرائت محتوای فایل به غیر از نام آن و متادیتای مرتبط با آن نخواهند بود. اگرچه ممکن میباشد یک موتور جستجو تنها بتواند اطلاعات محدودی در خصوص اشکال پوشههای غیرمتنی کسب کند، اما باز هم میتوان آنان را ایندکس یا در نتیجه ها جستجو رتبهبندی کرد و از طریق آن، ترافیک بیشتری به دست آورد.
کرال کردن و حصول لینکها از صفحه های
خزندهها با کرال کردن مجدد صفحه های موجود که قبلا در مورد آنها اطلاعات داشتهاند، صفحات نو را دیسکاور کرده و بعد پیوندهای سایر صفحات را برای یافتن URLهای تازه استخراج میکنند. این URLهای تازه به صف صفحاتی که قرار میباشد کرال شوند، اضافه میشوند تا بتوانند در حین دیگری دانلود شوند. از طریق این پروسه در لینک و پیوندهای فالو، موتورهای جستجو قادر به جستن هر شیت وبی هستند که در اینترنت جان دار میباشد و دستکم از یک کاغذ دیگر به آن پیوند داده گردیدهاست.