Alapon

ভাষার ধাঁচে আকাশ-পাতাল



The University of Science and Technology – Houari Boumediene. আলজেরিয়ার একটি বিজ্ঞান ও প্রযুক্তি বিশ্ববিদ্যালয়। হালিম সায়ৌদ (Halim Sayoud) নামে এক গবেষক অসাধারণ কিছু গবেষণা করেছেন এখানে। তার গবেষণাগুলো যথাক্রমে প্রকাশিত হয় ২০১২ ও ২০১৫ সালে

কী নিয়ে গবেষণা করেছেন তিনি? আমাদের আলোচনার সাথে তার গবেষণার কী সম্পর্ক? সেই গল্পই করবো আজকে। Computational-based Author Discrimination. কেমন খটমটে কথা মনে হচ্ছে? আচ্ছা, সহজ করে দিচ্ছি। কম্পিউটার মূলত গেইম খেলা আর নাটক-সিনেমা দেখার কাজে ব্যবহৃত হলেও, এর মূল কাজ কিন্তু ভিন্ন। কত অসাধারণ সব বিশ্লেষণ আর গবেষণা যে কম্পিউটারে করা যায়! আমার নিজেও কম্পিউটেশনাল বায়োলজিতে কাজ করার সৌভাগ্য হয়েছে, সেই কাজগুলো আন্তর্জাতিক গবেষণাপত্র হিসেবেও প্রকাশিত হয়েছে, আলহামদুলিল্লাহ।

যাহোক, Computational-based Author Discrimination – কথাটার অর্থ হচ্ছে, বিভিন্ন রচনার মাঝে কম্পিউটারের মাধ্যমে ভাষাগত বিশ্লেষণ করে রচনাগুলোর রচয়িতা কি একজন, নাকি কয়েকজন, সেটা বের করার একটা অসাধারণ পদ্ধতি।
ভাষাবিদ ও গবেষকরা এই অসাধারণ পদ্ধতি ব্যবহার করে বিভিন্ন গ্রন্থ আর রচনার মূল লেখক কে সেটা চিহ্নিত করে ফেলতে পারেন। মজা না? একটা উদাহরণ দিলে আরো বেশি মজা পাবেন।

বাইবেলের নিউ টেস্টামেন্টের স্কলাররা একটা গবেষণা করেছিলেন। তারা নিউ টেস্টামেন্টের যে রচনাগুলো সেইন্ট পলের বলে দাবী করা হয়, সেই রচনাগুলোর শব্দভান্ডার, রচনার ধাঁচ, ছাঁচ, গঠন এবং রচনার পেছনের মানসিকতা ইত্যাদি বিশ্লেষণ করে দেখেন। এবং বিশ্লেষণ শেষে এই উপসংহারে পৌঁছেন যে, এই রচনাগুলোর সবকটার রচয়িতা একই মানুষ হতে পারে না। কারণ Computational-based Author Discrimination এ রচনাগুলোর শব্দ-বর্ণের ভাষাশৈলীতে এত বেশি ভিন্নতা দেখা যাচ্ছিলো, যেটা একই রচয়িতার রচনায় থাকা সম্ভব নয়।

২০১২ সালে এই পদ্ধতি ব্যবহার করে যে গবেষণাপত্রটি[1] প্রকাশিত হয়েছিলো সেটা ছিলো ভাষাবিদ্যাগত বিশ্লেষণের (Linguistic Analyses) উপরে গবেষণার ফসল। আর ২০১৫ সালে প্রকাশিত গবেষণাটি[2] ছিলো ভিজুয়াল বিশ্লেষণের (Visual Analyses) উপর (বিস্তারিত ফুটনোটে)।

ভিজুয়াল এনালাইসিস কথাটার বাংলা অনুবাদ করার চেষ্টা করেছিলাম। বাবুরে বাবু! নিজের অনুবাদ দেখে নিজেই আঁতকে উঠেছি! এতটাই বিদঘুটে আর বিকৃত অনুবাদ! মূল শব্দের অর্থ এবং গবেষণার উপসংহারকে প্রায় খুনই করে ফেলেছে আমার অপূর্ব অনুবাদীয় দক্ষতা। আপনারা বেঁচে গেছেন সেই অনুবাদ দেখার হাত থেকে। আলহামদুলিল্লাহ। বলা বাহুল্য, অনুবাদ যত ভালো আর সুন্দরই হোক না কেন, মূল রচনার স্বাদ, গন্ধ, মাধুর্যের এক বিশাল অংশ আসলে অনুবাদে ধরা সম্ভবই না। এটা যেকোন পড়ুয়া পাঠক, যে কিনা নিয়মিত অন্তত দুই ভাষার বই পড়ে অভ্যস্ত, সে নিশ্চয়ই এক বাক্যে স্বীকার করে নিবে।

আচ্ছা, অনেক ভূমিকা দিলাম। এবার মূল আলোচনায় চলে যাই। প্রথমেই আমরা ভাষাবিদ্যাগত বিশ্লেষণটা সংক্ষেপে সহজ ভাষায় বুঝে নিই। এই গবেষণায় ষোলটা এক্সপেরিমেন্ট বা পরীক্ষা করা হয়। Computational-based Author Discrimination এর মাধ্যমে দেখা হয়, কুরআন কি আসলেই মুহাম্মাদ সাল্লাল্লাহু ‘আলাইহি ওয়া সাল্লামের রচনা কিনা। গবেষণাটা করার জন্য মোট দুইটি গ্রন্থ নেয়া হয়। একটি হচ্ছে কুরআন (আল্লাহর বাণী), আরেকটি হচ্ছে সুবিখ্যাত হাদীস গ্রন্থ (নবীর কথা সংকলন) “বুখারী”।

গবেষণায় করা পরীক্ষাগুলোর মাঝে ছিলো কুরআন ও বুখারীর মধ্যকার বিষয়বস্তুর বিশ্লেষণ (content analysis), অভিব্যক্তির তুলনা (comparing expressions), প্রচলিত সাধারণ শব্দ ও বর্ণের ভিন্নতার তুলনা, ব্যবহৃত শব্দসমূহের পুনরাবৃত্তি, বিভিন্ন সংখ্যার ব্যবহারের মাত্রা, বাক্য বা শব্দের শেষে উচ্চারণের ভিন্নতা, শব্দভান্ডারের মিল-অমিল এবং কুরআন ও বুখারীর মাঝে থাকা আরো অনেকগুলো উপাদান আর বৈশিষ্ট্যের মাঝে তুলনা। এই পরীক্ষাগুলোকে তিনটা ভাগে ভাগ করা যায়। তাদের ভাষায়ঃ
“Thus, three series of experiments are done and commented on.
The first series of experiments analyses the two books in a global form ... It concerns nine different experiments.
The second series of experiments analyses the two books in a segmental form (four different segments of text are extracted from every book). It concerns five different experiments.
The third series of experiments makes an automatic authorship attribution of the two books in a segmental form by employing several classifiers and several types of features. The sizes of the segments are more or less in the same range (four different text segments ...). It concerns two different experiments.”
গবেষনার ফলাফলগুলো সহজ ভাষায়, সংক্ষেপে নীচে বলছি।
পরীক্ষায় দেখা গেছে, কুরআনে যে শব্দভান্ডার ঘন ঘন ব্যবহৃত হয়েছে, সেই শব্দগুলো হাদীসে ব্যবহার করা হয়নি। আবার যে শব্দগুলো রাসুলুল্লাহ মুহাম্মাদ সাল্লাল্লাহু ‘আলাইহি ওয়া সাল্লামের কথার মাঝে (মানে, হাদীসে) বেশি বেশি পাওয়া যায়, সেগুলো কুরআনে ব্যবহৃত হচ্ছে না। আজব না?

একই গবেষণার আরেকটা এক্সপেরিমেন্টে দেখা গেছে, বুখারীতে ব্যবহৃত ৬২% শব্দ কুরআনে পাওয়াই যাচ্ছে না। আবার কুরআনে ব্যবহৃত ৮৩% শব্দ বুখারীতে নেই। কিভাবে সম্ভব? একই মানুষ যদি দু’টো সুবিশাল রচনার রচয়িতা হয়, তার দুই রচনার শব্দচয়নে এত বিশাল পার্থক্য থাকা বাস্তবে কখনোই সম্ভব না।
বলা বাহুল্য, এর উপসংহার শুধু একটাই। সেটা হচ্ছে হাদীসের যিনি (সা) প্রবক্তা, তিনি কুরআনের রচয়িতা নন। আর কুরআনের প্রবক্তা যিনি, তিনি হাদীসগুলোর বক্তা নন। অতএব...
রচনাশৈলী নিয়ে আলাদা এক্সপেরিমেন্ট চালানো হয়, ব্যবহার করা হয় COST parameter, যেটা একটা রচনায় ব্যবহৃত পাশাপাশি বাক্যগুলোর সর্বশেষ বর্ণের দিকে খেয়াল রেখে একটা চমৎকার ফলাফল দিতে পারে। এই বিশ্নেষণে দেখা যায়ঃ
“We remark that for the Hadith mixture, there are many COST values equal to zero; and when the COST is non-null, it has very small values: the average COST is only 0.46. For the Quran, we notice that the COST is almost never null, and the corresponding values are relatively high: the average COST of the Quran is approximately 2.52. This fact means that the structure of the Quran is very different from the Hadith one.”

সোজা বাংলায় বলি।
কুরআনের জন্য যে ফলাফল এসেছে, হাদীসের জন্য আসা ফলাফলের সাথে তার কোন মিল নেই। যে সংখ্যামানগুলো এসেছে, সেগুলো কুরআনের জন্য যদি হয় পৃথিবীর উত্তর মেরু, তাহলে হাদীসের জন্য হচ্ছে বুধ গ্রহ। হাদীসের জন্য আসা মানগুলো অনেকক্ষেত্রেই ছিলো শূন্য। যেগুলো শূন্য ছিলো না, সেগুলোর গড় মানও অতি সামান্য। মাত্র ০.৪৬। অন্যদিকে কুরআনের জন্য আসা মানগুলো ছিলো অনেক অনেক বেশি। এদের গড় মান হচ্ছে প্রায় ২.৫২, যেটা হাদীসের গড় মানের চাইতে প্রায় সাড়ে পাঁচ গুণ বেশি। ভাবা যায়! বুঝাই যাচ্ছে, কুরআনের ভাষাগত গঠনশৈলীও হাদীসের ভাষাগত গঠনশৈলী থেকে খুব বেশিই ভিন্ন।

শুধু কি তাই?
গবেষণার আরেকটা এক্সপেরিমেন্টে কুরআন আর হাদীসে ব্যবহৃত বিভিন্ন বর্ণ আর সংখ্যার মাঝেও তুলনা করে দেখা হয়। কী পাওয়া যায় অনুমান করেন তো! ঠিক ধরেছেন। এখানেও দেখা যায়, কুরআন আর হাদীসে বারবার ব্যবহৃত বর্ণ আর সংখ্যার মাঝে আসমান-জমীন তফাৎ!

আরেকটা পরীক্ষায় দেখা যায়, ২৯টা প্রাণীর নামের জন্য ‘কুরআনে’ ব্যবহৃত আরবী শব্দ বুখারীর কোন হাদীসেই নেই! যেমন, কুরআনে বাছুরের জন্য দশ বার বর্ণিত আরবী শব্দ عجل (যার অর্থ হচ্ছে বাছুর), বুখারীর হাদীসের পুরোপুরি অনুপস্থিত।
এর উল্টোটাও সত্যি। বুখারীতে এমন সব প্রাণীর নাম বা শব্দ এসেছে, যেগুলো কুরআনে একবারের জন্যেও উল্লেখ করা হয়নি। এরকম ১১টা প্রাণীর নামের জন্য বুখারীর হাদীসে আরবীতে যে শব্দগুলো ব্যবহৃত হয়েছে (যেমন, বুখারীতে ভেড়ার কথা এসেছে মোট ১০ বার), কুরআনে সেগুলো পুরোপুরি অনুপস্থিত। এই পরীক্ষার ফলাফল কি ইঙ্গিত করে?
আরবী রচনাতে শব্দ আর বাক্যের শেষে একধরণের বিশেষ ধ্বনিগত এবং শব্দগত বিন্যাস পাওয়া যায় (special ending bigrams)। কুরআন আর হাদীসের মধ্যে এই ক্ষেত্রেও উল্লেখযোগ্য ও সুতীক্ষ্ণ পার্থক্য ধরা পড়ে, যেটা একই ব্যক্তির রচনায় কিছুতেই থাকতে পারে না।

আরেকটা শক্তিশালী পরীক্ষা ছিলো শব্দভান্ডারের উপরে ভিত্তি করে সাদৃশ্য বা মিল খোঁজার এক্সপেরিমেন্ট। কুরআনের বিভিন্ন অংশের মাঝে শব্দভান্ডারের সাদৃশ্য (intra-similarities) ছিলো দেখার মতো। হাদীসের বিভিন্ন অংশের ক্ষেত্রেও মিল বা intra-similarities ছিলো অনেক বেশি। কিন্তু কুরআন আর বুখারীর মধ্যকার শব্দভান্ডারের সাদৃশ্য (inter-similarities) ছিলো অতি নগন্য। একই গ্রন্থের শব্দভান্ডারের মধ্যে থাকা অতি-সাদৃশ্য, এবং ভিন্ন গ্রন্থের শব্দভান্ডারের মাঝে থাকা বৈসাদৃশ্যের এই পর্যবেক্ষণ থেকে সহজেই বুঝা যায় যে, দুই গ্রন্থের রচয়িতাও আসলে পুরোপুরি ভিন্ন।
Automatic Authorship Attribution. এই এক্সপেরিমেন্টে সফটওয়্যারকে কুরআন থেকে চারটা ভিন্ন অংশ ইনপুট হিসেবে দেয়া হয়, বুখারী থেকেও চারটা ভিন্ন অংশ থেকে ভিন্ন ভিন্ন চারটা ইনপুট দেয়া হয়। এবং সফটওয়্যারকে এরপর স্বয়ংক্রিয়ভাবে রচয়িতার ব্যাপারে সিদ্ধান্ত দিতে বলা হয়। সফটওয়্যার বিশ্লেষণ করে কী উত্তর দিয়েছে, সেটা আমরা সবাই জানি। তাও বলছি।

সফটওয়্যার বলেছে, পরিসংখ্যানগত দিক থেকে এটা একদমই স্পষ্ট যে, কুরআনের অংশগুলোর রচয়িতা এবং বুখারীর (তথা হাদীসের) অংশগুলোর রচয়িতা সম্পূর্ণ ভিন্ন। সফটওয়্যারটা আলাদাভাবে এটা নির্ণয় করতেও ভুল করেনি যে, কুরআন থেকে দেয়া চারটা অংশের রচয়িতা যেমন একই, ঠিক একইভাবে বুখারী থেকে দেয়া চারটা অংশের রচয়িতাও একজন। এই কথাগুলোই গবেষকের ভাষায় পড়া যাকঃ
“The whole of each book (Qur’an and Hadith) must have been authored by one author.”

গবেষণাপত্রের উপসংহারে কী ছিলো জানেন?
“Consequently, we can conclude, according to this investigation, that the Quran was not written by the Prophet Muhammad and that it belongs to a unique author too.”
আবারো নিজের ভাষায়, সহজ কথায় বলি।
অতএব, গবেষণা অনুযায়ী আমরা এই সিদ্ধান্তে আসতে পারি যে, কুরআন প্রফেট মুহাম্মাদ সাল্লাল্লাহু ‘আলাইহি ওয়া সাল্লাম দ্বারা রচিত নয়, এবং কুরআনেরও একজন স্বতন্ত্র ও অনন্য রচয়িতা রয়েছেন।
২০১৫ সালে, দ্বিতীয় গবেষণাটি 6th International Conference on Information Visualization Theory and Applications এ প্রকাশিত হয়। এখানে visual analytics-based investigation of both the Qur'an and the Hadith অর্থাৎ কুরআন ও হাদীসের মধ্যকার ভিজুয়াল বিশ্লেষণের উপর ভিত্তি করে অনুসন্ধান বা পরীক্ষা-নিরীক্ষা করা হয়েছে। এই অনুসন্ধানে দু’টো পদ্ধতি ব্যবহার করা হয়।
১. Hierarchical Clustering (a method of cluster analysis which sought to build a hierarchy of clusters) and
২. Fuzzy C-mean Clustering (an automatic clustering technique in which the allocation of data points to clusters) along with several other types of features were extracted.
সোজা বাংলায় বলা যাক।
এই পরীক্ষায় কুরআনকে ১৪টি ভিন্ন ভিন্ন অংশে এবং হাদীসকে ১১টি ভিন্ন অংশে ভাগ করা হয়। এরপরে এই ২৫টি ভিন্ন ভিন্ন অংশের উপরে উপরের দুইটি পদ্ধতি প্রয়োগ করা হয়।
যদি ২৫টি অংশের উপরে দুটো পরীক্ষার ফলাফলে কেবল একটি গুচ্ছ বা cluster দেখা যায়, তার অর্থ হবে, এই ২৫টা অংশের (অর্থাৎ কুরআন ও হাদীস, উভয়ের) রচয়িতা একজনই।
যদি ফলাফলে অনেকগুলো গুচ্ছ বা cluster দেখা যায়, যেখানে কুরআনের কিছু রচনা হাদীসের রচনার সাথে একই গুচ্ছতে পাওয়া যাচ্ছে, তার মানে হচ্ছে, কুরআনের কিছু রচনা হাদীসের রচয়িতা দ্বারা রচিত হয়েছে।
আর যদি ফলাফলে শুধুমাত্র এমন দু’টো গুচ্ছ বা cluster দেখা যায়, যেখানে একটা গুচ্ছের মধ্যে কুরআনের সবগুলো রচনা পাওয়া যাচ্ছে, এবং আলাদা আরেকটা গুচ্ছের মধ্যে হাদীসের সবগুলো টেক্সট একত্রে দেখা যাচ্ছে, তাহলে এর অর্থ হচ্ছে কুরআন এবং হাদীস সম্পূর্ণ ভিন্ন দুইজন রচয়িতার কাছ থেকে এসেছে। এবং হাদীসের রচয়িতা কুরআনের কোন অংশই রচনা করেনি।
প্রথম পদ্ধতিতে (Hierarchical clustering) দু’টো সম্পূর্ণ আলাদা এবং ভিন্ন গুচ্ছ বা cluster পাওয়া গেছে, এবং এই দু’টো গুচ্ছের মাঝে কোনরকম ছেদ বা intersection দেখা যায়নি। অর্থাৎ কুরআন এবং হাদীসের রচয়িতা সম্পুর্ণ ভিন্ন।
দ্বিতীয় পদ্ধতিতেও (Fuzzy C-mean clustering) দু’টো আলাদা গুচ্ছ তথা cluster দেখা গেছে। ফলাফলের ত্রিমাত্রিক ছবিটাতে (3D representation) দেখা গেছে, কুরআনের সবগুলো অংশ একটা গুচ্ছ তৈরী করে ছবির একদম উপরে ডানদিকে অবস্থান করছে। অন্যদিকে, হাদীসের সবগুলো অংশ তৈরী করেছে আলাদা আরেকটা গুচ্ছ বা cluster, এবং সেটা অবস্থান করছে ছবির নীচে বামদিকে। অর্থাৎ পুরোপুরি বিপরীত দিকে, এমনভাবে অবস্থান করছে, ঠিক যেভাবে একটা রচনার সাথে আরেকটা রচনার কোন যোগসূত্র নেই, এবং দুই রচনার রচয়িতাও সম্পূর্ণ আলাদা। সাথে এটাও প্রমাণ হয়ে গেছে যে, হাদীসের রচয়িতা কুরআনের কোন অংশই রচনা করেননি।
এরপরেও যদি কেউ দেখতে না চায়, জোর করে চোখ বুজে রেখে অন্ধত্বকেই বরণ করে নিতে চায়, সত্য থেকে মুখ ফিরিয়ে রাখতে চায়, তাহলে এই দুঃসাহসী অহংকারের ফলাফল হিসেবে তার ভয়াবহ পরিণতির জন্য সে নিজেই দায়ী থাকবে। আর সত্য পৌঁছে দেয়ার জন্য, অন্যকে সত্য বুঝতে সাহায্য করার জন্য, নিজের জান-প্রাণ দিয়ে চেষ্টা করে অন্যদেরকে শাস্তির হাত থেকে বাঁচানোর আপ্রাণ আন্তরিক চেষ্টার জন্য মহানুভব প্রতিপালকের মহান দরবারে আমরা পরিপূর্ণ ক্ষমা আর পুরষ্কারের আশা করতে পারি।
আর আমাদের আজীবন চেষ্টার কারণে যদি একটা প্রাণও সত্যকে গ্রহণ করে আল্লাহর দিকে ফিরে আসে, নিজেকে অনন্তের অতি-দুঃসহ আর ভয়ংকরতম শাস্তি থেকে বাঁচাতে পারে, তাহলে এর চাইতে বড় আনন্দ, বড় শান্তির বিষয় একজন মানুষের জন্য আর কী হতে পারে?
রেফারেন্সঃ
[1] Sayoud, H. (2012) Author discrimination between the Holy Quran and Prophet's statements, in Literary and Linguistic Computing 27(4): 427-444, DOI: 10.1093/llc/fqs014
[2] Sayoud H. (2015). A Visual Analytics based Investigation on the Authorship of the Holy Quran. In Proceedings of the 6th International Conference on Information Visualization Theory and Applications - Volume 1: IVAPP, (VISIGRAPP 2015) ISBN 978-989-758-088-8, pages 177-181. DOI: 10.5220/0005355601770181

পঠিত : ২১৯ বার

মন্তব্য: ০