How does a search engine work? Indexing, crawling, and ranking:
বলা বাহুল্য, সার্চ ইঞ্জিনের বিভিন্ন বৈশিষ্ট্য আমাদের জীবনকে সহজ করেছে। আবহাওয়া পরীক্ষা করা থেকে শুরু করে মোবাইল অ্যালার্ম সেট করা, সার্চ ইঞ্জিনের ব্যবহার সর্বত্র ব্যাপক। সারা বিশ্বের মানুষ প্রতি মিনিটে গড়ে ৩.৮ মিলিয়ন সার্চ করে শুধু গুগলেই। দিন গড়ানোর সাথে সাথে তা দাঁড়িয়েছে ৫.৮ বিলিয়ন। সার্চ ইঞ্জিনকে নিয়মিত কতটা ট্রাফিক এবং চ্যালেঞ্জের সম্মুখীন হতে হয় তা সার্চ ট্রিবিউনের পরিসংখ্যান থেকে অনুমান করা যায়। কিন্তু আমরা কি কখনো ভেবে দেখেছি কিভাবে এই সার্চ ইঞ্জিন কাজ করে?
আজকের পোস্টে আমরা জানার চেষ্টা করব, "কিভাবে সার্চ ইঞ্জিন কাজ করে"? তবে তার আগে, পাঠকদের সুবিধার্থে, আমরা কিছু গুরুত্বপূর্ণ পদ নিয়ে আলোচনা করব যা তারা প্রায়শই বুঝতে পারে না। আমাদের লেখার বিষয়গুলো সুন্দরভাবে সাজানো হয়েছে। আপনি যদি ইতিমধ্যে কিছু জানেন তবে আপনি সহজেই তা এড়াতে পারেন। তাই আশাকরি মন খারাপের কোনো কারণ থাকবে না। আমরা আমাদের প্রতিটি শ্রোতাকে বিবেচনা করে বিষয়বস্তু লিখি। সবাই গুগলকে সার্চ ইঞ্জিন মনে করে। তাই গুগল আমাদের আলোচনায় প্রাধান্য পাবে।
সার্চ ইঞ্জিন কিভাবে কাজ করে?
সার্চ ইঞ্জিনের তিনটি প্রাথমিক কাজ আছে। এগুলো হলো- ক্রল, ইনডেক্স এবং র্যাঙ্ক। প্রথম ধাপ হল ইতিমধ্যেই ইন্ডেক্স করা তথ্য খুঁজে পেতে একটি ক্রলিং সিস্টেম ব্যবহার করা। Googlbot তারপর সিদ্ধান্ত নেয় কাকে আগে দেখাবে এবং কাকে পরে দেখাবে। পাঠকের সুবিধার্থে আরেকটি বিষয় পরিষ্কার করা ভালো। প্রতিটি সার্চ ইঞ্জিনের নিজস্ব ক্রলিং রোবট রয়েছে। তারা আগে থেকে নির্দেশিত র্যাঙ্কিং ফ্যাক্টর বিবেচনা করে বিষয়বস্তু র্যাঙ্ক করে। এরকম একটি বট হল গুগল বট। যেমন Maj.com এর Rogerbot আছে, Bing এর Bingbot আছে।
পাঠককে বিভ্রান্ত করে এমন কিছু পদ আমরা শুধু অনুমান করতে পারি। সেজন্য আমরা তাদের সকলের বিস্তারিত আলোচনায় ফিরে আসব।
সার্চ ইঞ্জিন ক্রলিং কি?
ক্রল এর সরাসরি বাংলা অর্থ হল হামাগুড়ি দেওয়া। সার্চ ইঞ্জিনের ক্ষেত্রে শব্দের অর্থ অনেকটাই একই, অর্থাৎ আপনি যখন কোনো কীওয়ার্ড সার্চ করেন, তখন প্রথমে Google যে কাজটি করে তা হল তার আগে ইনডেক্স করা ডেটা থেকে সার্চ করা, যার ফলাফল আপনার জন্য ভালো হবে। এই অনুসন্ধান প্রক্রিয়াকে ক্রলিং বলা হয়। আর যে হামাগুড়ি দেয় তাকে বলা হয় 'হামাগুড়ি'। অনেক ক্ষেত্রে একে 'স্পাইডার' বলা হয়। Google এর পক্ষে যেটি ক্রল করে তাকে বলা হয় 'গুগল বট'। হামাগুড়ি দেওয়া যে কোনো কিছু হতে পারে। এটা আপনার অনুসন্ধান উপর নির্ভর করে.
Google বট প্রথমে কিছু ওয়েব পেজকে আনয়নের মাধ্যমে লক্ষ্য করে (দ্রুত অনুসন্ধান পদ্ধতি)। বিশেষ করে যাদের ইউআরএল একদম নতুন। প্রথমে তাদের সনাক্ত করুন এবং ক্যাফিনে সংরক্ষণ করুন। ক্যাফেইন হল ইউআরএলের একটি বিশাল ভান্ডার যেখানে নতুন ইউআরএল সংরক্ষণ করা হয়। গুগল ক্যাফেইন 2010 সালে তৈরি করা হয়েছিল। গল্পটি অন্য একদিন বলা যেতে পারে। সবগুলো একসাথে বলে পাঠককে বিরক্ত করতে চাই না। ক্যাফেইন তাদের URL গুলিকে আগে থেকে সংরক্ষণ করে তাই অনুসন্ধানের ফলাফলে তাদের দেখাতে বেশি সময় লাগে না৷ এই কারণে, এটি প্রাক-ক্রল করা হয় এবং ক্যাফিনে সংরক্ষণ করা হয়।
সার্চ ইঞ্জিন ইনডেক্সিং কি?
সার্চ ইঞ্জিন ইনডেক্সিং হল সার্চ ইঞ্জিনগুলিকে আগে থেকে সংরক্ষণ করার প্রক্রিয়া যাতে তাদের সার্চের ফলাফল দেখানো সহজ হয়। এটা অনেকটা লাইব্রেরিতে বই সাজানোর মতো। একটি বই কোথায় আছে তা আগে থেকে গুছিয়ে রাখা যেমন সুবিধাজনক, তেমনি সার্চ ইঞ্জিনের পক্ষেও পরবর্তীতে তাদের ফলাফল দেখানোর জন্য আগে থেকেই সূচীকরণ করা খুবই সুবিধাজনক। এর জন্য প্রতিটি সার্চ ইঞ্জিন আগে থেকেই সূচী করে রাখে। আমি আশা করি পাঠক বুঝতে পেরেছেন সার্চ ইঞ্জিন সূচক কি।
সার্চ ইঞ্জিন র্যঙ্কিং কি?
যখন একজন ব্যবহারকারী একটি কীওয়ার্ড অনুসন্ধান করে, সার্চ ইঞ্জিন তার কীওয়ার্ড অনুসারে এটিকে পরিবর্তন করে, সবচেয়ে প্রাসঙ্গিক ডেটা যোগ করে। Google সহ আরও অনেকগুলি সার্চ ইঞ্জিন রয়েছে, যেগুলির অনেকগুলি নিয়ম ও প্রবিধান রয়েছে যা আপনাকে প্রথমে আপনার সামগ্রী দেখাতে দেয়৷ আর এই নিয়মগুলোকে বলা হয় র্যাঙ্কিং ফ্যাক্টর। গুগলের সাধারণত 218টি র্যাঙ্কিং ফ্যাক্টর থাকে। কিন্তু এটা খুবই পরিবর্তনশীল। কখনো কম আবার কখনো বেশি। কিন্তু আমার ক্ষেত্রে, সবচেয়ে সুবিধাজনক অবস্থান হল যে 200 টিরও বেশি র্যাঙ্কিং ফ্যাক্টর রয়েছে। এবং এই প্রক্রিয়ার মধ্য দিয়ে যাওয়ার পরে, কে প্রথমে দেখাবে এবং কে শেষের দিকে দেখাবে তার পুরো প্রক্রিয়াটি র্যাঙ্কিং ফ্যাক্টর দ্বারা নিয়ন্ত্রিত হয়। এক্ষেত্রে আরেকটি কথা বলা যেতে পারে যে-
যত তাড়াতাড়ি সার্চ ইঞ্জিন ফলাফল দেখায়, এর মানে হল যে Google মনে করে যে এটি আপনার জন্য সবচেয়ে প্রাসঙ্গিক ফলাফল।
আমাদের পরবর্তী পোস্টে আমরা শীর্ষস্থানীয় কিছু বিষয় নিয়ে আলোচনা করব। যারা এসইও নিয়ে বেশি আগ্রহী, তাদের জন্য ভালো কিছু অপেক্ষা করছে।
কিভাবে সার্চ ইঞ্জিন ইনফরমেশন অর্গানাইজ করে?
অনুসন্ধান ইঞ্জিনগুলি আপনার জন্য কিছু অনুসন্ধান করার জন্য তথ্য সূচী করতে প্রস্তুত। আমাদের সকলের সুবিধার্থে আমরা গুগলকে অনুসরণ করে আজকের পোস্টটি সাজিয়েছি। অন্য কথায়, আমরা গুগল সার্চ ইঞ্জিন অনুযায়ী তথ্য শেয়ার করেছি। যদিও আগেও বলেছি, আবারও বলব। অনেকেই হয়ত শুরু থেকে না পড়েই এখানে চলে গেছেন। আমি উদ্দেশ্যমূলকভাবে তাদের আবার জানিয়েছি। গুগলের মতে, তারা প্রায় 100 বিলিয়ন ওয়েব পেজ ক্রল করে এবং আপনার জন্য সার্চ ফলাফল আগে থেকেই সাজিয়ে রাখে।
সার্চ এর মৌলিক বিষয়
ক্রলিং প্রক্রিয়া শুরু হয় - আগে তালিকাভুক্ত ওয়েব ঠিকানা থেকে এবং ওয়েব সাইটের মালিকদের দেওয়া সাইটম্যাপের মাধ্যমে। আমি মনে করি যারা নতুন তাদের জন্য আরেকটি তথ্য যোগ করা দরকার। সাইটম্যাপ অনেকটা ফাইল ম্যানেজারের মতো। আপনার মোবাইলে কি ধরনের ফাইল ম্যানেজার সেট করা আছে- কোথায় ভিডিও ফাইল, কোথায় অডিও ফাইল। একইভাবে, ওয়েব সাইটের ফাইলের নাম হল সাইটম্যাপ। এটি সার্চ ইঞ্জিনগুলিকে আপনার ওয়েব সাইটটি কোথায়, এতে কী ডেটা রয়েছে এবং এতে কী কী পোস্ট রয়েছে সে সম্পর্কে ধারণা পেতে দেয়। যা পরে কীওয়ার্ড অনুযায়ী মিলে যায় এবং সার্চ ইঞ্জিনে দেখানো হয়।
পাঠক যদি একটু মনোযোগ দেন, দেখবেন সার্চ ইঞ্জিন হল আপনার ওয়েব সাইট বা ওয়েব পেজ- সাইটম্যাপ সম্পর্কে জানার অন্যতম 'মাধ্যম'। এই সাইটম্যাপ সার্চ ইঞ্জিনগুলিকে আপনার ওয়েবসাইটে ধারনা রাখতে সক্ষম করে। এত কথা বলার মূল উদ্দেশ্য হল- আপনার ওয়েব সাইটের কোন তথ্য আপডেট করা হয়েছে কিনা তা জানার একমাত্র উপায় এই সাইট ম্যাপ।
এর পরে, সার্চ ইঞ্জিনগুলি কী তথ্য খুঁজে পাবে তা কম্পিউটার প্রোগ্রাম নির্ধারণ করে। তারা সেই অনুযায়ী আপনার ওয়েবসাইট থেকে তথ্য নেয়। এখন আপনি যদি বলেন আমার ওয়েবসাইটে কিছু গুরুত্বপূর্ণ তথ্য আছে। যা আমি সার্চ ইঞ্জিন পড়তে চাই না। সে ক্ষেত্রে আমার কি করা উচিত? আপনার যদি এমন প্রশ্ন থাকে তবে আপনাকে অনেক ধন্যবাদ। এবার আসি আপনার উত্তরে। হ্যাঁ, পাঠক আপনার সার্চ ইঞ্জিনের জন্য কিছু নিয়ম অবশ্যই আছে। তারা এর নাম দিয়েছে - 'robots.txt'। এই 'robots.txt'-এর সাহায্যে আপনার ওয়েবসাইটে সম্পূর্ণ নিয়ন্ত্রণ থাকবে। এর মানে হল যে আপনি সার্চ ইঞ্জিনগুলিকে আগে থেকেই বলে দিতে পারেন কোন ওয়েব পৃষ্ঠাগুলি অনুসন্ধান করা যেতে পারে এবং কোন ওয়েব পৃষ্ঠাগুলি অনুসন্ধান করা যাবে না৷
যেহেতু আমাদের আজকের আলোচনার সার্চ ইঞ্জিন হিসেবে রয়েছে গুগল, তাই আরেকটা কথা বলে রাখা ভালো। এটি হল সার্চ কনসোল, যার মাধ্যমে আপনি আপনার ওয়েবসাইটের আরও কিছু গুরুত্বপূর্ণ নিয়ন্ত্রণ পাবেন।
ধরুন আপনি আপনার ওয়েবসাইটে একটি নতুন পরিবর্তন করেছেন। অথবা কিছু ওয়েব পেজ অন্যত্র সরানো হয়েছে। এর সাথে সমস্যাটি হল যেহেতু গুগল ইতিমধ্যে আপনার ওয়েবসাইটের একটি কাঠামো সূচী করেছে, এখন যখন আপনাকে একই ফলাফল দেখাতে হবে, তখন গুগল আগের ফলাফল খুঁজে পাবে না। এই জন্য দুটি সম্ভাব্য কারণ আছে। প্রথমত, আমরা ইতিমধ্যে গুগল ফলাফল দেখিয়ে পূর্বে তৈরি সূচী বা সাইটম্যাপ থেকে ধারনা নিয়ে আলোচনা করেছি। কিন্তু গুগল জানে না আপনি কখন আপনার সাইটম্যাপের গঠন পরিবর্তন করেছেন। দ্বিতীয়ত, গুগলকে জানানো হয়নি যে আপনি আপনার ওয়েবসাইট পরিবর্তন করেছেন। তার মানে গুগল নতুন সাইটম্যাপ সম্পর্কে কিছুই জানে না। আপনি Google কে পুনরায় ক্রল করতে বলেননি।
এই সমস্ত সমস্যার সমাধান হল আপনার ওয়েবসাইটে যখন খুশি পরিবর্তন করা - সাইটম্যাপ আপডেটের মাধ্যমে গুগলকে অবহিত করে। অথবা যদি সাইটের গঠন আমূল পরিবর্তন না হয় এবং সবকিছু পরিপাটি হয়, তাহলে এটি সমস্যা সৃষ্টি করে না। এবং এই পুরো সিস্টেমের নিয়ন্ত্রণের ক্ষেত্রে, আপনি 'গুগল সার্চ কনসোল' অবলম্বন করতে পারেন। আরেকটি বিষয় মনে রাখবেন যে বারবার সাইট-ম্যাপ পুনরায় ক্রল করার জন্য Google আপনাকে অতিরিক্ত চার্জ করে না।
ক্রলিং এর মাধ্যমে তথ্য খুঁজে নেওয়া
বিশ্বে ওয়েব পেজের সংখ্যা প্রতিনিয়ত বাড়ছে। সিটিফাই অনুসারে, প্রতিদিন গড়ে 54,6200টি ওয়েব পেজ তৈরি করা হয়। পাঠক বুঝতে পারবেন ওয়েব পেজ তৈরির পরিমাণ। মনে হচ্ছে লাইব্রেরিতে বইয়ের সংখ্যা বাড়ছে। এক সেকেন্ডের জন্য কল্পনা করুন আপনি আর্লের কর্মিক চালিত জগতে স্থানান্তরিত হয়েছেন। অযথা চিন্তা না করাই বুদ্ধিমানের কাজ হবে। গুগল আমাদের দেশের অফিসিয়াল লাইব্রেরির লাইব্রেরিয়ানদের মতো নয়। সাইট থেকে একটি ব্লক না থাকলে তারা সঠিক সময়ে সঠিক তথ্য সূচী করে। তারা এটির জন্য তৈরি করা সফ্টওয়্যারটির নাম দিয়েছে - "ওয়েব ক্রলারস" যার কাজ হল ক্রমাগত সর্বজনীন অ্যাক্সেসযোগ্য ওয়েব পৃষ্ঠাগুলিকে সূচী করা। আমি যেদিন 'robots.txt' নিয়ে আলোচনা করেছি সেদিন কেন আমি 'পাবলিক অ্যাকসেসিবল' বলেছিলাম তা আপনি ভালো করে বুঝতে পারবেন।
এই ক্ষেত্রে, আমি সাহায্য করতে পারি না কিন্তু আরও কিছু যোগ করতে পারি। যখন Google আপনার ওয়েবসাইটের একটি নির্দিষ্ট ওয়েবপৃষ্ঠার মাধ্যমে স্ক্রোল করে, তখন এটি শুধুমাত্র সেই নির্দিষ্ট ওয়েবপৃষ্ঠায় ফিরে আসে না। পরিবর্তে, সেই ওয়েব পৃষ্ঠায় যোগ করা সমস্ত লিঙ্ক এবং ব্যাকলিংক এবং অন্তর্মুখী লিঙ্কগুলির মাধ্যমে স্ক্রোল করুন। হ্যাঁ, তবে অবশ্যই 'robots.txt'-এর অনুমতি দেয়। এইভাবে তারা তাদের "ওয়েব ক্রলার" দিয়ে নতুন ওয়েব পেজ স্ক্রোল করে তাদের ডাটাবেস পূরণ করে।
ইনফরমেশন গুলো সাজিয়ে ইন্ডেক্স করা
চলুন এক নজরে দেখে নেওয়া যাক এই বিষয়ে গুগল কি বলে।
যখন ক্রলাররা একটি ওয়েবপৃষ্ঠা খুঁজে পায়, তখন আমাদের সিস্টেমগুলি পৃষ্ঠার বিষয়বস্তু রেন্ডার করে, ঠিক যেমন একটি ব্রাউজার করে। আমরা মূল সংকেতগুলি নোট করি - কীওয়ার্ড থেকে শুরু করে ওয়েবসাইটের সতেজতা - এবং আমরা অনুসন্ধান সূচীতে এটির উপর নজর রাখি।
এখানে একটি গুরুত্বপূর্ণ তথ্য রয়েছে যে 'আমরা মূল সংকেতগুলি নোট করি' এর অর্থ হল তারা আপনার ওয়েব পৃষ্ঠা সম্পর্কে কিছু মন্তব্য সংগ্রহ করছে। এবং তারা আরও বলে যে এই নোটগুলিতে তারা কীওয়ার্ড থেকে ওয়েবসাইটের সতেজতা পর্যন্ত সমস্ত ধরণের ডেটা সংগ্রহ করে, যাতে কেউ পরের বার খুব সহজেই অনুসন্ধান করলে তারা সবচেয়ে প্রাসঙ্গিক ফলাফল দেখাতে সক্ষম হয়। তারা আরও কঠোরভাবে বলছে যে 'আমরা সার্চ ইনডেক্সে এটি সব ট্র্যাক রাখি' যার মানে তারা সব ধরনের তথ্য বিবেচনা ও পর্যবেক্ষণ করছে।
গুগল ওয়েব স্ক্রলার দিয়ে এমনভাবে সার্চ করে যে তারা প্রতিটি শব্দকে শব্দ করে পড়ে।
আমি আপাতত এখানে রাখছি। পরবর্তী পোস্টে আমরা বিস্তারিত আলোচনা করব - বিষয় 'কিভাবে অনুসন্ধান অ্যালগরিদম কাজ করে'। ততক্ষণ পর্যন্ত ভালো থাকুন সুস্থ থাকুন। আর আমাদের কন্টেন্ট পড়তে ভালো লাগলে কমেন্ট করে আমাদের জানান। এবং আপনি এটি পছন্দ না হলেও, আমাকে জানান. কারণ আমরা মন্তব্যকে সম্মান করি। ভালো পাঠক। তোমার জীবন সুন্দর হোক, সেই প্রত্যাশা নিয়ে আজকের মত বিদায় নিচ্ছি।
ডোমেইন হোস্টিং সার্ভিস এই লিংকে চাপ দিন ।
ওয়েব ডিজাইন সার্ভিস এই লিংকে চাপ দিন ।
গ্রাফিক্স ডিজাইন সার্ভিস এই লিংকে চাপ দিন ।
ডোমেইন চেকার এই লিংকে চাপ দিন ।