সার্চ কনসোলে Indexed but Blocked by Rbots.txt erroro থেকে মুক্তির সেরা কৌশল

গুগল সার্চ কনসোলে Indexed but Blocked by Robots.txt error  দেখা দিলে আপনার ওয়েবসাইটের SEO পারফরম্যান্স একদমই ঠিকঠাক থাকবে না, তাইনা? তবে সাধারণভাবে এইটা শুরু হলে আসলে সমস্যা কোথায় হচ্ছে বুঝতে পারা খুব জরুরি,  প্রতিটি ওয়েবসাইট মালিকের জন্য দরকার হয়ে যায়।

Indexed-but-Blocked-by-Rbots.txt-erroro

এই আর্টিকেলের ভেতর আমরা একটু খুঁটিয়ে দেখব, সার্চ কনসোলে Indexed but Blocked by Robots.txt error ঠিক করার সহজ কিছু উপায়, এর পেছনের কারণগুলো কী, আর ভবিষ্যতে এমনটা এড়ানোর জন্য কী কী কার্যকর পদ্ধতি নিতে পারেন।

পেজ সূচীপত্রঃ সার্চ কনসোলে Indexed but Blocked by Robots.txt error থেকে মুক্তির সেরা কৌশল

সার্চ কনসোলে Indexed but Blocked by Robots.txt error 

সার্চ কনসোলে Indexed but Blocked by Robots.txt error  দেখা গেলে আসলে বুঝতে হবে গুগল আপনার সাইটের কিছু পেজ ইনডেক্স করে ফেলেছে, কিন্তু সেই একই পেজটা robots.txt ফাইলের নিয়মের কারনে ঠিকঠাক crawl করতে এসে বাধার মুখে পড়ছে। এই ব্যাপারটা যদি বেশ কিছুদিন ধরে চলতে থাকে, তাহলে আপনার SEO পারফরম্যান্সে বরং খারাপ প্রভাব পড়তে পারে, অমন কথাই।
এটার সমাধান করতে আগে একবার মোবাইল বা ল্যাপটপ অন করুন, এরপর ব্রাউজার খুলে নিন। তারপর Google Search Console-এ যান এবং যে প্রপার্টিতে সমস্যা হচ্ছে সেটা সিলেক্ট করুন। এবার বাম পাশের মেনু থেকে Indexing অপশন খুঁজে বের করে Pages সেকশনে প্রবেশ করুন।

তারপর Pages রিপোর্টের ভেতরে Indexed but Blocked by Robots.txt যেটা লেখা আছে সেটায় ক্লিক করুন। এখানেই কোন কোন URL এই সমস্যায় পড়েছে সেটা দেখতে পাবেন। এখন প্রতিটি URL আলাদা করে দেখুন , তারপর ভেবে নিন আপনি ওই পেজটা গুগলের কাছে দৃশ্যমান রাখতে চান নাকি একদমই ব্লক করে রাখতে চান। যদি সিদ্ধান্ত নেন পেজটা গুগলে দেখাবেন, তাহলে আপনার সাইটের robots.txt ফাইলটা খুলুন। সেখানে যদি Disallow রুলের মাধ্যমে ঐ পেজ বা ফোল্ডারটা ব্লক করা থাকে, তাহলে সেটা সরিয়ে দিন বা দরকারমতো সেটিংস বদলান। পরিবর্তন শেষে ফাইলটা ঠিকমতো Save করে সাইটে আপডেট করে দিন, ব্যাস ।
robots.txt আপডেট করার পর, আবার Google Search Console-এ ঢুঁ মারুন, তারপর URL Inspection Tool দিয়ে যেই URL গুলো আছে সেগুলো চেক করে নিন। এরপর Request Indexing অপশনে ক্লিক করুন , যাতে গুগল নতুন নিয়ম অনুযায়ী পেজটা যেন আবার ক্রল করার কথা চিন্তা করে।
আর যদি কোনো পেজ সত্যি সত্যি ইচ্ছাকৃতভাবেই ব্লক করা থাকে, তাহলে এই error নিয়ে বেশি দুশ্চিন্তা করার দরকার নেই। বেশিরভাগ সময়ই অ্যাডমিন পেজ , টেস্ট পেজ বা ব্যক্তিগত তথ্যের মত জিনিস থাকা পেজগুলো সিকিউরিটির খাতিরে robots.txt দিয়ে আটকে রাখা হয়। এটা kind of স্বাভাবিক SEO পদ্ধতি, তাই আর ঘাবড়ানোর কিছু নেই।

সবশেষে, কয়েক দিন পরে Google Search Console-এর Pages রিপোর্ট আবার একবার দেখে নিন। গুগল যখন নতুন করে ক্রল করবে, অনেক ক্ষেত্রে সমস্যাটা আপনা থেকেই কমে যেতে পারে । নিয়মিত ভাবে robots.txt ফাইল আর ইনডেক্সিং রিপোর্ট দুটোই পর্যবেক্ষণ করলে ভবিষ্যতে এই ধরনের ব্যাপার অনেক সহজে কন্ট্রোল করা যায়।

Robots.txt ইন্ডেক্সিং প্রতিরোধ করে?

অনেকেই ভাবেন robots.txt ফাইল ব্যবহার করলেই গুগল আর কখনো কোনো পেজ ইনডেক্স করবে না। কিন্তু এই ধারণাটা পুরোপুরি ঠিক না, আসলে একটু গুলিয়ে যায়। robots.txt মূলত সার্চ ইঞ্জিনের ক্রলারকে কিছু নির্দিষ্ট অংশ, যেমন পেজ বা ফোল্ডার, ঘুরে দেখা থেকে বিরত রাখে। তবে এটা সরাসরি ইনডেক্সিং বন্ধ করার টাইপের কোনো অর্ডার দেয় না।

যদি কোনো পেজের দিকে অন্য ওয়েবসাইট থেকে লিংক থাকে, বা আপনার নিজের সাইটের ভেতর থেকেও লিংক আসে, তাহলে গুগল ওই URL সম্পর্কে ধারণা পেতে পারে। এর ফলে তারা পেজের কনটেন্ট ক্রল না করেও সেটাকে সার্চ ইনডেক্সে ঢোকাতে পারে। তাই হয়তো Search Console এ বেশ কিছু সময় Indexed but blocked by robots.txt ধাঁচের নোটিশ দেখা যায়, এমনটাই সাধারণ।

আপনি যদি সত্যি সত্যি চান যে কোনো পেজ সার্চ রেজাল্টে আর না আসে, তাহলে robots.txt এর বদলে noindex মেটা ট্যাগ ব্যবহার করাই বেশি কার্যকর। তবে সাবধান, গুগল noindex নির্দেশনা ঠিকমতো বুঝতে হলে আগে সেই পেজটি ক্রল করতে পারতে হবে। তাই, ব্লকিং আর নোইনডেক্স একসাথে চাইলে পরিকল্পনা করে এগোনো দরকার।

Robots.txt ত্রুটি কি?

Robots.txt ত্রুটি হলো এক ধরনের সমস্যা, যেখানে আপনার ওয়েবসাইটের robots.txt ফাইলে কিছু ভুল নিয়ম, ভুল সিনট্যাক্স, বা অনিচ্ছুক রকমের ব্লকিং থাকে, তারপর সার্চ ইঞ্জিনের বট ঠিকমতো নির্দিষ্ট পেজ, বা ফাইল ক্রল করতে পারে না। এতে দেখা যায় গুরুত্বপূর্ণ পেজ গুগলের সার্চ রেজাল্টে ঠিকভাবে উঠে আসে না, মানে প্রদর্শিত হয় না।

ধরুন robots.txt ফাইলে ভুলভাবে কোনো জরুরি পেজের জন্য Disallow নির্দেশনা ঢুকে পড়ল, তখন Googlebot ওই পেজটার কনটেন্ট অ্যাক্সেসই করতে পারবে না। আরেক সময় এমনও হয়, সার্ভারের ভেতরের ইস্যু বা robots.txt ফাইলই পাওয়া যাচ্ছে না।এই কারণেও ক্রলিং এ ঝামেলা শুরু হয়।

তাই আপনার সাইটের robots.txt ফাইলটা নিয়মিত চেক করা জরুরি, কারণ সঠিকভাবে সেটআপ করা robots.txt সার্চ ইঞ্জিনকে দরকারি পেজগুলো ক্রল করতে সহায়তা করে এবং ফলস্বরূপ SEO পারফরম্যান্সও উন্নত রাখতে সাহায্য করে।

Robots.txt কি অবৈধ?

না, robots.txt আসলে কোনো অবৈধ ফাইল না। এটা একটা বৈধ, এবং বেশ জরুরি একটা টেক্সট ফাইল, যেটা সাইটের মালিক সার্চ ইঞ্জিনের বটকে একটু নির্দেশনা দিতে ব্যবহার করেন। এর ভিতর দিয়ে বোঝা যায় কোন page বা folder কে ক্রল করা যাবে, আর কোনগুলোকে করা যাবে না।
Indexed-but-Blocked-by-Rbots.txt-erroro
তবে সমস্যা হতে পারে যদি robots.txt ফাইলে ভুল নিয়ম থাকে, ভুল সিনট্যাক্স হয় বা Disallow টাইপের নির্দেশনা গুলো ঠিকমতো সাজানো না থাকে। তখন একে robots.txt ত্রুটি বা অবৈধ কনফিগারেশন বলাও যেতে পারে। এমন অবস্থায় কিছু গুরুত্বপূর্ণ পেজ গুগলের ক্রলিং থেকে বাদ পড়ে যেতে পারে, আর তার ফলে SEO সংক্রান্ত নানা সমস্যা, ঝামেলা তৈরি হয়।

আবার, ঠিকঠাকভাবে তৈরি করা robots.txt ফাইল ক্রল বাজেট পরিচালনা করতে সুবিধা দেয়, এবং সার্চ ইঞ্জিনকে দরকারি তথ্য খুঁজে বের করতেও সহজ করে। তাই robots.txt নিজে কখনো অবৈধ নয়, বরং ভুল কনফিগারেশনই আসল সমস্যা।

কিভাবে robots.txt চেক করব?

robots.txt ফাইল চেক করার সবচেয়ে সহজ উপায় হলো আপনার ওয়েবসাইটের ডোমেইনের শেষে /robots.txt যোগ করে ব্রাউজারে ঢুকে দেখা। ধরুন আপনার ওয়েবসাইটের ঠিকানা যদি example.com হয়, তাহলে example.com/robots.txt লিখে সার্চ দিলেই robots.txt ফাইলটা দেখা যাবে।  

আরেকভাবে Google Search Console এর URL Inspection টুল ব্যবহার করতে পারেন, এতে নির্দিষ্ট কোনো পেজ robots.txt দিয়ে ঠিকঠাক ব্লক হয়েছে কি না তা বেশ দ্রুত টের পাওয়া যায়। মনে করুন কোনো জরুরি পেজ ভুল করে Disallow হয়ে গেছে, তখন robots.txt ফাইলটা edit করে সেই নিয়মটা একটু পরিবর্তন করতে হবে।  

রুটিন করে robots.txt দেখা জরুরি, এতে ওয়েবসাইটে ক্রলিং সংক্রান্ত সমস্যা তাড়াতাড়ি ধরা পড়ে। ফলে সার্চ ইঞ্জিন যেন মূল গুরুত্বপূর্ণ পেজগুলো ঠিকমতো পৌঁছাতে পারে সেটা নিশ্চিত করাও সহজ হয়।

Robots.txt কি আসলে কাজ করে?

হ্যাঁ, robots.txt সত্যি সত্যি কাজ করে আর এটা ওয়েবসাইটের crawling নিয়ন্ত্রণ করার জন্য একটা ভীষণ জরুরি ধরণের ফাইল। এর ভিতরে আপনি সার্চ ইঞ্জিনের বটকে বলে দিতে পারেন কোন পেজ, কোন ফোল্ডার বা কোন ফাইল যেন ক্রল করা যায়, আর কোন জায়গায় প্রবেশ করা ঠিক না বা একদম না।  
তবে একটা কথা মাথায় রাখা দরকার , robots.txt মূলত ক্রলিং কে গাইড করে, কিন্তু সব ক্ষেত্রেই indexing পুরোপুরি বন্ধ করে দেয় না। উদাহরণস্বরূপ, যদি কোনো পেজ robots.txt দিয়ে ব্লক করা থাকে,
 তবুও সেই পেজের লিংক অন্য কোথাও পাওয়া গেলে , গুগল কখনো কখনো সেটাকে ইনডেক্স করেই ফেলে ।আর যদি ভালো ভাবে ব্যবহার করা হয়, তাহলে robots.txt অপ্রয়োজনীয় পেজ ক্রল হওয়া বেশ কমিয়ে দেয়, crawl budget অনেকটা বাঁচাতে সাহায্য করে, এমনকি গুরুত্বপূর্ণ পেজগুলোকে দ্রুত ক্রল করতেও সুবিধা দেয়। তাই SEO পরিচালনায় robots.txt আসলে একটা কার্যকর, দরকারি এবং বেশ ব্যবহৃত টুল।

Robots.txt না থাকলে কি হবে?

যদি কোনো ওয়েবসাইটে robots.txt ফাইল না থাকে, তাহলে সাধারণত খুব বড় সমস্যা হয় না। সার্চ ইঞ্জিনের বট ধরে নেয় যে সাইটের সব পেজ আর অন্যান্য ফাইল ক্রল করার অনুমতি আছে, এবং এগুলো স্বাভাবিকভাবে ভিজিট করতে পারে।

কিন্তু সমস্যা হলো robots.txt না থাকলে আপনি সার্চ ইঞ্জিনের ক্রলারকে কোনো নির্দিষ্ট পেজ, অ্যাডমিন অঞ্চল বা ঝামেলাময় নয় এমন ফাইল থেকে দূরে রাখতে পারবেন না। এর ফলে অনেক সময় অপ্রয়োজনীয় পেজগুলো ক্রল হয়ে যায়, আর ক্রল বাজেটটা নষ্ট হয়ে যায়, মানে অপচয় হতে থাকে।

তাই ছোট ওয়েবসাইটের ক্ষেত্রে robots.txt না থাকলেও প্রভাব তুলনামূলক কম হতে পারে। তবে বড়, আর SEO-কেন্দ্রিক সাইটের জন্য ঠিকভাবে কনফিগার করা robots.txt ফাইল রাখা বেশি ভালো। এতে সার্চ ইঞ্জিনের ক্রলিং আরো নিয়ন্ত্রিত আর দক্ষ হয়ে যায়, আর আপনার গুরুত্বপূর্ণ কনটেন্ট দ্রুত ধরা পড়ে।

Robot txt কিভাবে খুলব?

Robots.txt ফাইলটা খুলে দেখার সবচেয়ে সহজ উপায় আসলে হচ্ছে আপনার মোবাইল বা কম্পিউটারের যেকোনো ব্রাউজার চালু করা। তারপর ব্রাউজারের ঠিকানার ঘরে, আপনার ওয়েবসাইটের ডোমেইনের শেষে /robots.txt যোগ করে এন্টার দিন। যেমন ধরা যাক আপনার সাইটটা যদি www.example.com হয়, তাহলে সেখানে www.example.com/robots.txt লিখলেই খুলে যাবে।

আর যদি robots.txt ফাইলটা সাইটে থেকে থাকে, তাহলে খুব দ্রুতই এর ভিতরের নিয়মগুলো দেখা যাবে। কিন্তু যদি “404 Not Found” আসে, বা একদমই কোনো ফাইল দেখা না যায় , তাহলে বুঝবেন যে আপনার সাইটে এখনো robots.txt তৈরি করা নেই।

এদিকে, আপনি যদি WordPress ব্যবহার করেন তাহলে SEO প্লাগইন দিয়ে, অথবা হোস্টিংয়ের File Manager থেকে robots.txt ফাইল দেখা, এমনকি সম্পাদনাও করতে পারবেন। সঠিকভাবে এই robots.txt টা পরিচালনা করলে ওয়েবসাইটের ক্রলিং বা অনুসন্ধান-চলাচল নিয়ন্ত্রণ করা সহজ হয়, আর SEO-ও ভালোভাবে এগোয়।

Robots txt ফাইলের সাইজ সীমা কত?

Robots.txt ফাইলের একটা নির্দিষ্ট সাইজ সীমা আছেই, আর গুগল সাধারণত এই ফাইলের প্রথম ৫০০ KB পর্যন্ত অংশটাই ঠিকঠাকভাবে নেয় প্রসেস করে। মানে আপনার robots.txt যদি ৫০০ KB এর বেশি হয়, তাহলে বাকি অতিরিক্ত অংশ গুগল প্রায়শই উপেক্ষা করে,এটা ধরে নিন।
Indexed-but-Blocked-by-Rbots.txt-erroro
তবে বাস্তবে কিন্তু robots.txt ফাইলটা খুব ছোটই রাখা ভাল, সাধারণত কয়েক KB বা তারও কমে শেষ হওয়া উচিত। কারন এতে আসলে কেবল ক্রলিং নির্দেশনা, যেমন Disallow, Allow, Sitemapএগুলো থাকে। তাই এত বড় করে কোনো বাড়তি লেখা বা কনটেন্ট রাখার দরকার হয় না।সুতরাং, ছোট কিন্তু পরিষ্কার robots.txt ফাইল ঠিকভাবে ব্যবহার করলে সার্চ ইঞ্জিনের বোঝা সহজ হয়, এবং সাইটের SEO ক্রলিংও আরও কার্যকরভাবে চলে।

ChatGPT কত বড় txt ফাইল পড়তে পারে?

সাধারণ ধারণা হচ্ছে, একবারে কয়েক হাজার থেকে কয়েক লক্ষ শব্দের সমপরিমাণ লেখা ধরতে পারে, তবে বাস্তবে আপনি যদি খুব বড় TXT ফাইল দেন, যেমন 5MB বা 10MB আরও বেশি , তাহলে সেটি পুরোটা একবারে প্রসেস নাও হতে পারে।
বড় ফাইল হলে সাধারণত সিস্টেম নিজে থেকেই জিনিসটা অংশে ভাগ করে নেয় মানে chunk করে পড়া লাগে। কারণ AI মডেল “ফাইল সাইজ” চোখে দেখে না, বরং টেক্সটকে টোকেনে ভেঙে তারপর প্রসেস করে। তাই টেক্সট যদি অতিরিক্ত লম্বা হয়, তাহলে সারাংশ, সেগমেন্ট করে বিশ্লেষণ, বা নির্দিষ্ট অংশ নিয়ে কাজ করা সাধারণত বেশি কার্যকর।

 সহজ কথায়, ছোট/মাঝারি TXT ফাইল সাধারণত সহজেই পড়ে নেয়  কিন্তু খুব বড় ফাইল হলে অংশ ভাগ করে দিলে কাজটা বেশি মসৃণ হয়  আর সীমা আসলে “টোকেন-ভিত্তিক” , ফাইল সাইজ-ভিত্তিক না

গুগল কতবার robots.txt চেক করে?

গুগল আসলে কোন নির্দিষ্ট সময়সূচি মেনে robots.txt চেক করে না। মোটামুটি ভাবে, Googlebot যখন নিয়মিতভাবে কোনো ওয়েবসাইট ভিজিট করে, তখন সে robots.txt ফাইলটাও আবার দেখেশুনে নেয়, বিশেষ করে যখন সাইটে নতুন পেজ ক্রল করতে যায়… বা কিছু একটা হঠাৎ আপডেটেড থাকলে।

আপনার সাইটে যদি প্রায়ই পরিবর্তন হয়, তাহলে গুগল তুলনামূলক ভাবে বেশি ঘন ঘন robots.txt চেক করতে পারে। তবে, আপনার সাইট যদি কম আপডেট হয়, তাহলে ঐ চেক করার ব্যবধানটা কিছুটা বেশি, মানে টান দিয়ে আসে।

একটা ব্যাপার খুব গুরুত্বপূর্ণ, গুগল সাধারণত robots.txt কে cache করে রাখে (অর্থাৎ সংরক্ষিত কপি রাখে) তাই বারবার সার্ভার থেকে সরাসরি নামিয়ে আনতে হয় না। কিন্তু, ক্রলিং রুটিন এ এমন পরিবর্তনের সম্ভাবনা দেখা দিলে, তখন এটি আবার নতুন করে robots.txt যাচাই করে ফেলে।

শেষ কথাঃ লেখকের মন্তব্য

সার্চ কনসোলে Indexed but Blocked by Robots.txt error টাইপের এররটা সাধারণত একধরনের টেকনিক্যাল SEO ইস্যু, মানে আপনার সাইটের ক্রলিং আর ইনডেক্সিং প্রসেস একটু জটিল হয়ে যাচ্ছে। এমনটা হলে গুগল যে পেজটাকে ইনডেক্স করেছে ঠিকই, কিন্তু robots.txt ফাইলের জন্য সেটা ক্রল করতে পারছে না। তাই কনটেন্টটা পুরোপুরি বুঝে উঠতে সমস্যা হয়, আর সার্চ কনসোলেও কনফিউশন টাইপ রিপোর্ট দেখায় ।

এই সার্চ কনসোলে Indexed but Blocked by Robots.txt error ঠিক করতে হলে আগে Search Console-এর Pages রিপোর্টে যান। তারপর যে যে URL গুলো সমস্যার মত দেখাচ্ছে সেগুলো আলাদা করে নিন। এরপর robots.txt ফাইলটা চেক করে দেখুন, সেখানে কোনো জরুরি পেজ ভুল করে Disallow করা হয়েছে কিনা, যেমন URL pattern মিললে বা path টা ঠিক না থাকলে। নিয়মগুলো একটু সঠিক দিক-নির্দেশনা অনুযায়ী রিকনফিগার করলে পরে গুগল আবার ঐ পেজটা ক্রল করতে পারবে, এবং সমস্যা ধীরে ধীরে কমে যাবে ।

সার্চ কনসোলে Indexed but Blocked by Robots.txt error এড়াতে হলে robots.txt ফাইল টা সময়ে সময়ে আপডেট করা, আর সাথে সাথে মনিটরিং করাও জরুরি। মাঝেমধ্যে এমনও দেখা যায় যে ঠিকমত ব্লকিং লজিক বসানো হয় নি বা অকারণে কিছু পেজ আটকে যাচ্ছে, ওইটা দ্রুত ঠিক না করলে indexed অবস্থাও আটকে থাকে। দরকার হলে URL Inspection Tool দিয়ে আবারও রি-ইনডেক্সিং রিকুয়েস্ট পাঠানো যায়, আর পুরো ব্যাপারটা কনফার্ম করা থাকে। এভাবে SEO পারফরম্যান্সটা তুলনামূলকভাবে স্থির, মানে বেশ ব্যালেন্সড থাকে।

আপনার ওয়েবসাইট যদি Infonest IT এ থাকে, তাহলে সেটা টেকনিক্যাল SEO, ব্লগিং, এবং ইনফরমেশনভিত্তিক কনটেন্ট রিলিজের জন্য একধরনের ভালো জায়গা হতে পারে। আপনি যদি নিয়মিত ভাবে মানসম্মত কনটেন্ট প্রকাশ করতে থাকেন, আর কনটেন্টটা SEO অপটিমাইজড হয়, তাহলে আস্তে আস্তে সাইটের অর্গানিক ট্রাফিক ও সার্চ ভিজিবিলিটি আরও বাড়তে থাকে, এমনকি লম্বা সময়ের জন্যও।

এই পোস্টটি পরিচিতদের সাথে শেয়ার করুন

পূর্বের পোস্ট দেখুন পরবর্তী পোস্ট দেখুন
এই পোস্টে এখনো কেউ মন্তব্য করে নি
মন্তব্য করতে এখানে ক্লিক করুন

অর্ডিনারি আইটির নীতিমালা মেনে কমেন্ট করুন। প্রতিটি কমেন্ট রিভিউ করা হয়।

comment url