একবার ভাবুন তো, জীবনটা যদি হ্যারিপটারের কোনো সিরিজের মত হতো? কিংবা জাদুকরী কিছু থাকতো আমাদের কাছে, যাকে আমরা যেটাই বলবো সেভাবেই কাজ করবে, যা লিখতে বলবো, সেভাবেই লিখে যাবে? বিভিন্ন ফিকশনাল মুভিতে আমরা দেখি হলোগ্রাফিক স্ক্রিনের দিকে তাকিয়ে নায়ক কিছু বলছে, আর সামনে সেই অনুযায়ী কাজ হচ্ছে!! বিজ্ঞানের এই যুগে অসম্ভব শব্দটাও অনেক ছোটো হয়ে এসেছে নিত্য নতুন আবিষ্কারের কাছে। বিজ্ঞানের তেমনি এক আবিষ্কার হচ্ছে Speech Recognition Software।
স্পিচ রিকগনিশন সফটওয়্যার হচ্ছে মূলত কম্পিউটার ও কমান্ড নির্ভর এক ধরনের সফটওয়্যার। তড়িৎ প্রকৌশল, কম্পিউটার প্রকৌশল এবং ভাষাবিজ্ঞানের এক অপূর্ব সমন্বয় এই স্পিচ রিকগনিশন সফটওয়্যার। এই স্পিচ রিকগনিশন সফটওয়্যারের কিছু চমকপ্রদ তথ্য জেনে নেয়া যাকঃ
১৯৫২ সালে বেল ল্যাবারেটরি স্পিচ রিকগনিশন সিস্টেম উদ্ভাবন করেন যা শুধুমাত্র সংখ্যা বুঝতে পারতো। ১৯৭০ সালের দিকে Carnegie Mellon Harpy System সৃষ্টি করেন যা ১০০০ শব্দের উপরে উপলব্ধি করতে পারতো। সবচেয়ে মজার বিষয় হচ্ছে, একই শব্দের বিভিন্ন উচ্চারণ বুঝতে পারতো এই সিস্টেম। তবে আজকের স্পিচ রিকগনিশন সফটওয়্যার প্রযুক্তির পিছনে সবচেয়ে বড় অবদান হচ্ছে মার্কভের উদ্ভাবিত গাণিতিক মডেল যা বিভিন্ন তরঙ্গ দৈর্ঘ্যের শব্দ তরঙ্গকে বিশ্লেষণ করতে পারে।
আমরা যখন কোন শব্দ বা প্রশ্ন জিজ্ঞাসা করি সফটওয়ারকে তখন বাতাসে শব্দের তরঙ্গ সৃষ্টি হয়। Analog-to-Digital Converter (ADC) এই অ্যানালগ তরঙ্গকে ডিজিটাল ডাটাতে রূপান্তর করে যেন সফটওয়্যার বুঝতে পারে কোন শব্দ বা প্রশ্ন বলা হয়েছে তাকে। পরবর্তীতে সফটওয়্যার অন্তর্গত সিস্টেমটি শব্দকে ছোট ছোট অংশে বা Phoneme (Phoneme হচ্ছে কোন ভাষার ক্ষুদ্রতম একক) এ বিভক্ত করে ও সফটওয়্যারের অন্তর্গত ডাটাবেসের শব্দগুচ্ছের সাথে মিলিয়ে নেয়। অবশেষে সফটওয়্যার বিভিন্ন অ্যালগরিদম ব্যবহার করে শব্দটি মোবাইল বা ওয়েবপেজের স্ক্রিনের পর্দায় জানিয়ে দেয়। এমনকি সফটওয়ারকে কোন প্রশ্ন জিজ্ঞাসা করা হলেও একই পন্থায় উত্তর জানিয়ে দেয়।
বর্তমানে আইফোনের “Siri” হচ্ছে সবচেয়ে অত্যাধুনিক স্পিচ রিকগনিশন সফটওয়্যার, যা মুহুর্তের মধ্যেই কমান্ড পালন করে দেয় । যে কোনো তথ্য খুঁজে দেয়া, মোবাইল বা ইন্টারনেট ব্যবহার থেকে শুরু করে সবকিছুতে পারদর্শী এই Siri।
স্পিচ রিকগনিশন সফটওয়্যার নিয়ে নির্মিত বিখ্যাত মুভি হচ্ছে ২০১৩ সালে মুক্তিপ্রাপ্ত Her, এই মুভিতে ভার্চুয়াল স্পিচ রিকগনিশন সফটওয়্যারের সাথে একটা মানুষের সম্পর্ক কতদুর পর্যন্ত যেতে পারে সেটার কিছু নমুনা দেখানো হয়েছে যা একেবারেই ফেলে দেয়ার মত নয়।
এছাড়া, অ্যান্ড্রয়েড অপারেটিং সিস্টেম চালিত স্মার্টফোনে কণ্ঠের মাধ্যমে আদেশ (ভয়েস কমান্ড) দিয়ে অনেক কাজ যে করা যায়, তা মোটামুটি সবারই জানা। তবে সে কাজগুলো করতে নির্দিষ্ট রীতি মেনে যে আদেশ দিতে হয়, তা অনেকেই জানেন না। আর তাই গুগল অ্যাপটির পুরোপুরি সুবিধা নিতে পারছেন না অনেক ব্যবহারকারীই। এখানে মনে রাখা দরকার, আদেশগুলো দিতে হবে ইংরেজিতে। তা ছাড়া উচ্চারণের গরমিলের কারণে অনেক সময় সে আদেশ স্মার্টফোন না-ও গ্রহণ করতে পারে। তবে প্রতিবার আদেশ দেওয়ার আগে ‘OK Google’ বলতে হয়।
দৃষ্টি প্রতিবন্ধী মানুষ এই স্পিচ রিকগনিশন সফটওয়্যার ব্যবহার করে বিভিন্ন তথ্য সম্পর্কে সহজে জানতে পারে। কোন শব্দের সঠিক উচ্চারণ বা ভিনদেশি ভাষার শব্দ জানতে এই স্পিচ রিকগনিশন সফটওয়্যার বড় ভূমিকা পালন করে। এছাড়া, এয়ার ট্রাফিক কন্ট্রোল প্রশিক্ষণে এই সফটওয়্যার ব্যবহার করা হয়। শিক্ষানবিশ পাইলট বিমান চালনার বিভিন্ন দিক নির্দেশনা পেয়ে থাকে এই সফটওয়্যার থেকে।