স্পিচ স্বীকৃতি, কথ্য কমান্ডগুলিতে প্রতিক্রিয়া জানাতে ডিভাইসের ক্ষমতা। স্পিচ স্বীকৃতি হ'ল বিভিন্ন ডিভাইস এবং সরঞ্জামগুলির হ্যান্ডস-ফ্রি নিয়ন্ত্রণ সক্ষম করে (অনেকগুলি প্রতিবন্ধী ব্যক্তির জন্য একটি বিশেষ বর), স্বয়ংক্রিয় অনুবাদে ইনপুট সরবরাহ করে এবং প্রিন্ট-রেডি ডিক্টেশন তৈরি করে। বক্তৃতা স্বীকৃতির প্রাথমিকতম অ্যাপ্লিকেশনগুলির মধ্যে ছিল স্বয়ংক্রিয় টেলিফোন সিস্টেম এবং মেডিকেল ডিকশন সফ্টওয়্যার। এটি প্রায়শই স্বৈরশাসনের জন্য, ডেটাবেসগুলি অনুসন্ধানের জন্য এবং কম্পিউটার ভিত্তিক সিস্টেমগুলিকে বিশেষত বিশেষায়িত পেশাগুলিতে বিশেষায়িত শব্দভাণ্ডারের উপর নির্ভরশীল কমান্ড দেওয়ার জন্য ব্যবহৃত হয়। এটি অ্যাপলের সিরির মতো যানবাহন এবং স্মার্টফোনে ব্যক্তিগত সহায়কদের সক্ষম করে।
কোনও মেশিন বক্তৃতার ব্যাখ্যা দেওয়ার আগে, একটি মাইক্রোফোন অবশ্যই একজন ব্যক্তির কণ্ঠের কম্পনগুলি একটি ওয়েভেলিক বৈদ্যুতিক সংকেতে অনুবাদ করে। পরিবর্তে এই সংকেতটি সিস্টেমের হার্ডওয়্যার-যেমন কম্পিউটারের সাউন্ড কার্ডকে ডিজিটাল সিগন্যালে রূপান্তরিত করে। এটি সেই ডিজিটাল সিগন্যাল যা স্পিচ রিকগনিশন প্রোগ্রাম পৃথক ফোনমেস, স্পিচের মূল ভিত্তিক ব্লকগুলি সনাক্ত করার জন্য বিশ্লেষণ করে। ফোনমাসগুলি তখন শব্দের সাথে মিলিত হয়। তবে, অনেক শব্দ একরকম শোনাচ্ছে এবং উপযুক্ত শব্দটি বাছাই করতে প্রোগ্রামটিকে অবশ্যই প্রসঙ্গে নির্ভর করতে হবে। অনেক প্রোগ্রাম ত্রিগ্রাম বিশ্লেষণের মাধ্যমে প্রসঙ্গ স্থাপন করে, এমন একটি পদ্ধতি যা ঘন ঘন তিন-শব্দ ক্লাস্টারের একটি ডাটাবেসের উপর ভিত্তি করে যেখানে সম্ভাব্যতা নির্ধারিত হয় যে কোনও দুটি শব্দ প্রদত্ত তৃতীয় শব্দ অনুসরণ করবে। উদাহরণস্বরূপ, যদি কোনও স্পিকার যদি "কে তবে" বলে থাকে তবে পরের শব্দটি সমান-ধ্বনিযুক্ত নয় বরং "চোখ" এর চেয়ে সর্বনাম "আমি" হিসাবে স্বীকৃত হবে। তবুও, কখনও কখনও ত্রুটিগুলি সংশোধন করার জন্য মানুষের হস্তক্ষেপ প্রয়োজন।
টেলিফোন ভয়েস নেভিগেশন সিস্টেমের মতো কয়েকটি বিচ্ছিন্ন শব্দ সনাক্তকরণের প্রোগ্রামগুলি প্রায় প্রতিটি ব্যবহারকারীর জন্য কাজ করে work অন্যদিকে, ডিক্টেশন প্রোগ্রামগুলির মতো অবিচ্ছিন্ন বক্তৃতা প্রোগ্রামগুলিকে অবশ্যই কোনও ব্যক্তির বক্তৃতার ধরণগুলি সনাক্ত করতে প্রশিক্ষণ দিতে হবে; প্রশিক্ষণটিতে পাঠকের উচ্চস্বরে নমুনাগুলি পড়ার সাথে জড়িত। আজ, ব্যক্তিগত কম্পিউটার এবং মোবাইল ডিভাইসের ক্রমবর্ধমান শক্তির সাথে, বক্তৃতার স্বীকৃতির যথার্থতা উল্লেখযোগ্যভাবে উন্নত হয়েছে। কয়েক হাজার শব্দযুক্ত শব্দভান্ডারে ত্রুটির হারগুলি হ্রাস পেয়ে প্রায় 5 শতাংশ করা হয়েছে। এমনকি রেডিওলজিকাল ডায়াগনোসিসের ডিক্টেশন হিসাবে বিশেষায়িত অ্যাপ্লিকেশনগুলির সীমাবদ্ধ ভোকাবুলারিগুলিতে আরও বেশি নির্ভুলতা পৌঁছেছে।