আগের লেখাটায় গুগলের বার্ট (BERT) অ্যালগরিদমের একটি দুর্বলতার কথা বলেছিলাম, যেটা গুগল নিজেই তার ব্লগে উল্লেখ করেছে। বার্ট বেশ স্মার্টভাবে শব্দ এবং বাক্যের কনটেক্সট বুঝতে পারলেও কিছু সার্চ টার্মের অর্থের ব্যাপারে সে কনফিউজড থাকে। এর একটি উদাহরণও দিয়েছিলাম। তবে বার্টের এর চেয়েও বড় সীমাবদ্ধতা, অ্যালগরিদমটি বাক্যের ভেতরে থাকা শব্দের কনটেক্সট বুঝতে পারলেও বাক্যের সঙ্গে বাক্যের সংযোগ স্থাপন করতে পারে না। ফলে কন্টেন্টের ভেতরে থাকা পুরো একটি প্যারাগ্রাফও বুঝতে পারে না। অর্থাৎ, পূর্ণাঙ্গ প্যারাগ্রাফের কনটেক্সট ধরতে পারে না।
এ কারণে বার্টের এই দুর্বল কাটাতে গুগলের গবেষকরা সম্প্রতি নতুন একটি অ্যালগরিদম তৈরি করেছেন, যার রিসার্চ পেপারও এরইমধ্যে প্রকাশ করা হয়েছে। গত বছরের একদম শেষের দিকে এই গবেষণাপত্র প্রকাশ করা হয়, যেখানে নতুন অ্যালগরিদমটির নাম জানানো হয়, স্মিথ অ্যালগরিদম (SMITH Algorithm)। SMITH-এর পূর্ণ রূপ ‘Siamese Multi-depth Transformer-based Hierarchical Encoder’।
অনেক দিক থেকে বার্টের সঙ্গে মিল থাকলেও পারফর্মেন্সে স্মিথ বার্টকেও ছাড়িয়ে গেছে গুগলের গবেষকরাই মনে করছেন। SMITH Algorithm ডেভেলপ করতেও Artificial Intelligence (AI), Machine Learning এবং Natural Language Processing (NLP)-এর মতো প্রযুক্তিগুলো ব্যবহার করা হয়েছে।
গুগল বলছে, NLP মডেলে ফোকাস করা হয় বাক্যের ভেতরে থাকা শব্দগুলোকে। তবে বড় ডকুমেন্ট বা কন্টেন্টের ভেতরে থাকা আলাদা বাক্য ও প্যারাগ্রাফগুলোর ভেতর সংযোগ তৈরিতে আগে সমস্যা ছিল। স্মিথ এই সমস্যা দূর করতে পারবে বলে রিসার্চ পেপারে বলা হয়েছে। অর্থাৎ, একটি বাক্যের আগের ও পরের বাক্য কী হতে পারে- সে সম্পর্কে গুগল এখন ধারণা করতে পারবে এবং বাক্যগুলোর সমন্বয়ে পুরো একটি প্যারাগ্রাফ কতটা শক্তিশালী হলো, কনটেক্সট কতটা ঠিক থাকলো, তা-ও গুগল বুঝতে পারবে। এখন থেকে সম্ভবত ইউজাররা একাধিক বাক্য লিখে সার্চ দিলেও গুগল তার বুঝতে পারবে এবং সবচেয়ে সঠিক ফলাফলটি সামনে নিয়ে আসতে পারবে।
বার্টের মতো স্মিথের একই রকম কতগুলো বৈশিষ্ট্য আছে। এটাও Bidirectional ও Transformer-Based এবং Pre-Trained ও Unsupervised। পার্থক্য হচ্ছে, বার্ট শব্দ ও বাক্য নিয়ে কাজ করে, আর স্মিথ প্যারাগ্রাফ ও পুরো ডকুমেন্ট লেভলে কাজ করে। এখানে ব্যবহার করা হয়েছে Masked Sentence-block Language Modeling। ফলে নতুন এই অ্যালগরিদম একটি বাক্যের সঙ্গে আগের ও পরের বাক্যের সংযোগ ঘটাতে পারে। ইতোমধ্যে অ্যালগরিদমটি নিয়ে পরীক্ষা-নিরীক্ষাও করা হয়েছে।
গুগলের রিসার্চ পেপার বলছে, স্মিথ সর্বোচ্চ ২০৪৮ শব্দের কন্টেন্ট একসঙ্গে পড়তে পারে এবং কনটেক্সট বুঝতে পারে। এর আগে বার্টকে অ্যালগরিদমের state-of-the-art মডেল বলা হচ্ছিল। প্রশ্ন হচ্ছে, তাহলে বার্ট কি অচল হয়ে গেলো? না। বরং দুটি অ্যালগরিদমই একে অপরের পরিপূরক এবং গুগল সম্ভবত দুটিকেই পাশপাশি ব্যবহার করবে।
গুগল কি স্মিথ অ্যালগরিদম ব্যবহার শুরু করেছে?
গুগল এসব বিষয় খুব কমই খোলাখুলিভাবে জানায়। রিসার্চ পেপারে স্মিথকে এখনও প্রস্তাবনা আকারে রাখা হয়েছে। তাই গুগল আনুষ্ঠানিকভাবে এ বিষয়ে না জানানো পর্যন্ত কিছু বলা যাচ্ছে না। যদিও সার্চ ইঞ্জিন গবেষকদের অনেকেই মনে করছেন, গুগল ইতোমধ্যে তাদের নতুন অ্যালগরিদমটি ব্যবহার শুরু করেছে।স্মিথেরও কিন্তু দুর্বলতা আছে। সেটা হচ্ছে, স্মিথ এখনও দুটি আলাদা কন্টেন্টের মধ্যে সংযোগ তৈরি করতে পারে না। এটাও গুগলের রিসার্চ পেপারে ইঙ্গিত দেয়া আছে।
এখানেও সেই একই প্রশ্ন ঘুরেফিরে আসবে- স্মিথ নিয়ে ডিজিটাল মার্কেটার কী করার আছে? আসলে কিছুই করার নেই। কন্টেন্ট নিয়ে যারা কাজ করছেন, তাদের এতটুকু জানা দরকার যে কন্টেন্টকে আগের চেয়ে আরও শক্তিশালী করতে হবে, নির্ভুল করতে হবে- প্রতিটি বাক্য, প্রতিটি শব্দ, প্রতিটি প্যারাগ্রাফ। বাক্যের ক্ষেত্রে প্রতিটি বাক্যের সেন্টিমেন্ট পজিটিভ- কমপক্ষে বেশিরভাগ পজিটিভ ও বাকিগুলো নিউট্রাল রাখা দরকার এবং হাই স্যালিয়েন্স স্কোরের সিমান্টিক ওয়ার্ড কন্টেন্টে প্রচুর ব্যবহার করতে হবে। দিন যতই যাচ্ছে কন্টেন্টের ক্ষেত্রে কনটেক্সটা গুরুত্বপূর্ণ হয়ে উঠেছে।
এজন্য কন্টেন্টে ইনবাউন্ড কিংবা আউটবাউন্ড লিংকিংয়ের ক্ষেত্রে অবশ্যই কনটেক্সচুয়াল লিংকিং করতে হবে এবং অ্যাঙ্কর টেক্সট বড় করে দিতে হবে, যাতে গুগলের কনটেক্সট বুঝতে সুবিধা হয়। তবে মনে রাখতে হবে, আপনি অবশ্যই পাঠকের জন্য লিখবেন; গুগলের জন্য নয়। লেখা হবে শতভাগ ন্যাচারাল।
সামনের দিনগুলোতে সম্ভবত এমন হবে- মানুষ কোনও একটি কন্টেন্ট পড়তে শুরু করলে গুগল নিজ থেকেই তার সঙ্গে সবচেয়ে বেশি সঙ্গতিপূর্ণ কন্টেন্টটি স্বয়ংক্রিভাবে তার সামনে নিয়ে আসবে। এমনকি হয়তো পপ-আপ আকারে এক ওয়েব সাইটের ভেতরে অন্য সাইটের কন্টেন্টও চলে আসতে পারে।আর্টিকেলের মূল লেখকঃ Rashed Ahmed Shaon
Leave a Reply