বৈশিষ্ট্য এবং আট্রিবিউট: মেশিন লার্নিংয়ের ভিত্তি [Features and Attributes: Foundation of Machine Learning]
মেশিন লার্নিংয়ের জগতে, বৈশিষ্ট্য (Features) এবং আট্রিবিউট (Attributes) হল ডেটার মৌলিক উপাদান যা মডেলকে শেখার এবং সিদ্ধান্ত নেওয়ার ক্ষমতা দেয়। এই টিউটোরিয়ালে, আমরা বৈশিষ্ট্যের প্রকারগুলি, তাদের প্রতিনিধিত্ব, এবং একাধিক বৈশিষ্ট্য সহ রৈখিক প্রত্রাসন (Linear Regression) এবং বহুপদী প্রত্রাসন (Polynomial Regression) এর মতো উন্নত পদ্ধতিগুলি অন্বেষণ করব।
বৈশিষ্ট্য কী? এবং কেন এটি গুরুত্বপূর্ণ? [What are Features? And Why are They Important?]
বৈশিষ্ট্যের সংজ্ঞা [Definition of Features]
বৈশিষ্ট্য বা আট্রিবিউট হল ডেটার একটি নির্দিষ্ট বৈশিষ্ট্য যা মডেল দ্বারা ব্যবহৃত হয়। উদাহরণস্বরূপ, বাড়ির মূল্য পূর্বাভাসের ক্ষেত্রে বৈশিষ্ট্যগুলি হতে পারে: বর্গফুটেজ, শয়নঘরের সংখ্যা, অবস্থান, বয়স ইত্যাদি।
প্রতিটি বৈশিষ্ট্য ডেটা পয়েন্টের একটি মাত্রা উপস্থাপন করে এবং মডেল এই মাত্রাগুলি ব্যবহার করে প্যাটার্ন শেখে এবং ভবিষ্যদ্বাণী করে।
বৈশিষ্ট্যের গুরুত্ব [Importance of Features]
সঠিক বৈশিষ্ট্য নির্বাচন মেশিন লার্নিং মডেলের সাফল্যের চাবিকাঠি। ভাল বৈশিষ্ট্যগুলি মডেলকে নির্ভুল ভবিষ্যদ্বাণী করতে সাহায্য করে, যেখানে খারাপ বৈশিষ্ট্যগুলি শব্দ এবং অপ্রয়োজনীয় জটিলতা যোগ করে।
বৈশিষ্ট্য ইঞ্জিনিয়ারিং (Feature Engineering) হল নতুন বৈশিষ্ট্য তৈরি এবং বিদ্যমান বৈশিষ্ট্গুলি রূপান্তর করার প্রক্রিয়া, যা মডেলের কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করতে পারে।
বৈশিষ্ট্যের প্রকার: প্রাথমিক বিভাগ [Types of Features: Basic Categories]
সংখ্যাগত বৈশিষ্ট্য [Numerical Features]
যে সমস্ত বৈশিষ্ট্য সংখ্যা দ্বারা প্রকাশ করা হয়। এগুলি আবার দুটি প্রকারে বিভক্ত: সীমাবদ্ধ (Discrete) এবং অসীমাবদ্ধ (Continuous)।
  • বয়স, আয়, তাপমাত্রা
  • গাণিতিক অপারেশন সম্ভব
বিভাগীয় বৈশিষ্ট্য [Categorical Features]
যে সমস্ত বৈশিষ্ট্য শ্রেণী বা লেবেল দ্বারা প্রকাশ করা হয়। এগুলি আবার দুটি প্রকারে বিভক্ত: ক্রমিক (Ordinal) এবং নামমাত্র (Nominal)।
  • রং, ধরন, স্থান
  • গাণিতিক অপারেশন অসম্ভব
বৈশিষ্ট্যের প্রকার বোঝা গুরুত্বপূর্ণ কারণ এটি নির্ধারণ করে যে কোন ধরনের প্রসেসিং এবং মডেলিং কৌশল প্রয়োগ করা উচিত। সংখ্যাগত বৈশিষ্ট্গুলি সরাসরি মডেলে ব্যবহার করা যায়, যেখানে বিভাগীয় বৈশিষ্ট্গুলি প্রায়শই এনকোডিং (Encoding) প্রয়োজন করে।
সংখ্যাগত বৈশিষ্ট্যের প্রকার [Types of Numerical Features]
সীমাবদ্ধ [Discrete]
যে সমস্ত সংখ্যাগত বৈশিষ্ট্য পূর্ণ সংখ্যা হিসাবে প্রকাশ করা হয় এবং নির্দিষ্ট মান গ্রহণ করে।
  • শয়নঘরের সংখ্যা: 1, 2, 3, 4
  • পণ্যের পরিমাণ: 0, 1, 2, 3...
  • ছাত্রদের সংখ্যা: 25, 30, 35
অসীমাবদ্ধ [Continuous]
যে সমস্ত সংখ্যাগত বৈশিষ্ট্য যে কোনো মান গ্রহণ করতে পারে এবং অসীম সংখ্যক মান থাকতে পারে।
  • ওজন: 55.5, 60.2, 75.8 কেজি
  • উচ্চতা: 5.5, 5.8, 6.2 ফুট
  • তাপমাত্রা: 20.5, 25.3, 30.7 ডিগ্রি
সীমাবদ্ধ বৈশিষ্ট্যের উদাহরণ [Examples of Discrete Features]
একটি বাড়িতে শয়নঘরের সংখ্যা হতে পারে 1, 2, 3, বা 4 - কিন্তু কখনো 2.5 হতে পারে না। এটি একটি সীমাবদ্ধ বৈশিষ্ট্য কারণ এটি পূর্ণ সংখ্যার মান গ্রহণ করে।
অসীমাবদ্ধ বৈশিষ্ট্গুলির উদাহরণ [Examples of Continuous Features]
একটি ব্যক্তির ওজন 55.5 কেজি, 55.6 কেজি, বা যে কোনো মান হতে পারে। এটি অসীমাবদ্ধ কারণ এটি দশমিক মান গ্রহণ করতে পারে এবং অসীম সংখ্যক সম্ভাব্য মান রয়েছে।
বিভাগীয় বৈশিষ্ট্গুলির প্রকার [Types of Categorical Features]
1
ক্রমিক [Ordinal]
যে সমস্ত বিভাগীয় বৈশিষ্ট্গুলির প্রাকৃতিক ক্রম বা স্তর থাকে। মানগুলি তুলনা করা যায় কিন্তু পার্থক্য পরিমাপ করা যায় না।
  • শিক্ষাগত যোগ্যতা: এইচএসসি, স্নাতক, স্নাতকোত্তর
  • রেটিং: খারাপ, মাঝারি, ভাল, চমৎকার
  • সামাজিক স্তর: নিম্ন, মধ্যম, উচ্চ
2
নামমাত্র [Nominal]
যে সমস্ত বিভাগীয় বৈশিষ্ট্যগুলির কোনো প্রাকৃতিক ক্রম নেই। মানগুলি শুধুমাত্র শ্রেণী বা লেবেল হিসাবে কাজ করে।
  • রং: লাল, নীল, সবুজ, হলুদ
  • ধরন: কার, বাস, ট্রাক, সাইকেল
  • স্থান: কাকদ্বীপ,সাগর,নামখানা ,কোলকাতা
ক্রমিক বৈশিষ্ট্যগুলির মধ্যে একটি স্পষ্ট ক্রম থাকে যেখানে একটি মান অন্যটির চেয়ে বড় বা ছোট হতে পারে। নামমাত্র বৈশিষ্ট্যগুলির কোনো ক্রম নেই - তারা শুধু ভিন্ন শ্রেণী নির্দেশ করে। এই পার্থক্য মডেলিং কৌশল নির্বাচনে গুরুত্বপূর্ণ ভূমিকা পালন করে।
মাল্টিপল বৈশিষ্ট্য সহ ট্রেনিং উদাহরণের প্রতিনিধিত্ব [Representation of Training Examples with Multiple Features]
মেশিন লার্নিংয়ে, প্রতিটি ট্রেনিং উদাহরণ (Training Example) একটি বৈশিষ্ট্য ভেক্টর হিসাবে প্রকাশ করা হয়। একাধিক বৈশিষ্ট্গুলি একটি ম্যাট্রিক্সে সংগঠিত হয় যেখানে প্রতিটি সারি একটি ডেটা পয়েন্ট এবং প্রতিটি কলাম একটি বৈশিষ্ট্য উপস্থাপন করে।
বাড়ির মূল্য উদাহরণ [House Price Example]
বর্গফুট, শয়নঘর, অবস্থান, বয়স - প্রতিটি বৈশিষ্ট্য একটি কলাম হিসাবে থাকে
ছাত্র পারফরম্যান্স [Student Performance]
পরীক্ষার স্কোর, উপস্থিতি, পড়াশোনার সময় - এগুলি মডেলের ইনপুট হিসাবে ব্যবহৃত হয়
পণ্য বিক্রয় [Product Sales]
মূল্য, বিভাগ, রেটিং, পরিমাণ - এগুলি বিক্রয় পূর্বাভাসের জন্য ব্যবহৃত হয়
ম্যাথেমেটিক্যাল প্রতিনিধিত্ব [Mathematical Representation]
ধরা যাক আমাদের এন (n) টি ট্রেনিং উদাহরণ এবং এম (m) টি বৈশিষ্ট্য রয়েছে। আমরা ডেটাকে একটি ম্যাট্রিক্স X হিসাবে প্রকাশ করি:
এখানে
প্রথম সারির i-তম উদাহরণের j-তম বৈশিষ্ট্যের মান উপস্থাপন করে। প্রতিটি সারি একটি ডেটা পয়েন্টকে উপস্থাপন করে এবং প্রতিটি কলাম একটি বৈশিষ্ট্যকে উপস্থাপন করে।
মাল্টিপল বৈশিষ্ট্গুলি সহ রৈখিক প্রত্রাসন [Multiple Linear Regression with Multiple Features]
মাল্টিপল লিনিয়ার রিগ্রেশন (Multiple Linear Regression) হল সিম্পল লিনিয়ার রিগ্রেশনের সাধারণীকরণ যেখানে একাধিক স্বাধীন বৈশিষ্ট্গুলি ব্যবহার করে একটি নির্ভরশীল ভেরিয়েবলের পূর্বাভাস দেওয়া হয়। এটি একটি সর্বোত্তম ফিটিং হাইপারপ্লেন খুঁজে পাওয়ার চেষ্টা করে যা ডেটা পয়েন্টগুলিকে সেরাভাবে উপস্থাপন করে।
ওজন ভেক্টর খোঁজার সূত্র [Formula for Finding Weight Vector]
মাল্টিপল লিনিয়ার রিগ্রেশনে, ওজন ভেক্টর w খুঁজে পাওয়ার জন্য নরমাল ইকুয়েশন ব্যবহার করা হয়:


এখানে:
  • X = বৈশিষ্ট্য ম্যাট্রিক্স (n × m)
  • X^T = X-এর ট্রান্সপোজ
  • y = লক্ষ্য ভেক্টর (n × 1)
  • w = ওজন ভেক্টর (m × 1)
এই সূত্রটি সরাসরি ওজন ভেক্টর গণনা করে যা মডেলকে ডেটার সাথে সেরাভাবে মিলিত করে।
ফিচার ক্রস [Feature Cross]
ফিচার ক্রস কী? [What is Feature Cross?]
ফিচার ক্রস হল দুই বা ততোধিক বৈশিষ্ট্গুলির ইন্টারঅ্যাকশন তৈরি করার একটি কৌশল। এটি মডেলকে বৈশিষ্ট্গুলির মধ্যে জটিল সম্পর্ক শেখার অনুমতি দেয় যা পৃথকভাবে বিবেচনা করলে দৃশ্যমান হয় না।
উদাহরণস্বরূপ, যদি আমাদের দুটি বৈশিষ্ট্য থাকে x_1 এবং x_2, তাহলে ফিচার ক্রস x_1 \times x_2 একটি নতুন বৈশিষ্ট্য তৈরি করে।
সূত্র [Formula]
উদাহরণ ১: বাড়ির মূল্য [Example 1: House Price]
বর্গফুট × অবস্থান = একটি নতুন বৈশিষ্ট্য যা অবস্থানের সাথে আকারের প্রভাব ক্যাপচার করে
উদাহরণ ২: পণ্য বিক্রয় [Example 2: Product Sales]
মূল্য × রেটিং = মূল্য এবং গুণমানের সম্মিলিত প্রভাব প্রকাশ করে
উদাহরণ ৩: বিজ্ঞাপন কার্যকারিতা [Example 3: Advertisement Effectiveness]
বয়স × আয় = বিভিন্ন আয় স্তরে বয়সের প্রভাব মডেল করে
ফিচার ক্রস ব্যবহার করে মডেল নন-লিনিয়ার প্যাটার্ন শেখার ক্ষমতা পায় যা একক বৈশিষ্ট্গুলি দ্বারা ধারণ করা যায় না। এটি বিশেষত তখন কার্যকর হয় যখন বৈশিষ্ট্গুলির মধ্যে ইন্টারঅ্যাকশন গুরুত্বপূর্ণ হয়।
বহুপদী প্রত্রাসন (Polynomial Regression)
বহুপদী প্রত্রাসন হল রৈখিক প্রত্রাসনের একটি প্রসারণ যেখানে বৈশিষ্ট্গুলিকে উচ্চতর ডিগ্রি পর্যন্ত উত্থাপিত করা হয়। এটি নন-লিনিয়ার রিলেশনশিপ মডেল করতে সাহায্য করে যা সরল রৈখিক মডেল দ্বারা ধারণ করা যায় না।
ডিগ্রি ১ (রৈখিক) [Degree 1 (Linear)]
সরল রৈখিক রেখা - সর্বনিম্ন জটিলতা
ডিগ্রি ২ (দ্বিঘাত) [Degree 2 (Quadratic)]
প্যারাবোলিক বক্ররেখা - একটি বাঁক
ডিগ্রি ৩ (ঘন) [Degree 3 (Cubic)]

S-আকৃতির বক্ররেখা - দুটি বাঁক
মাল্টিপল বৈশিষ্ট্গুলি সহ বহুপদী প্রত্রাসন [Polynomial Regression with Multiple Features]
একাধিক বৈশিষ্ট্গুলির জন্য, বহুপদী প্রত্রাসন বৈশিষ্ট্গুলিকে উচ্চতর ডিগ্রি পর্যন্ত উত্থাপিত করে এবং তাদের মধ্যে ইন্টারঅ্যাকশন অন্তর্ভুক্ত করে। উদাহরণস্বরূপ, দুটি বৈশিষ্ট্গুলি x_1 এবং x_2 এর জন্য ডিগ্রি ২ পর্যন্ত:
এখানে x_1x_2 হল ফিচার ক্রস যা দুটি বৈশিষ্ট্গুলির ইন্টারঅ্যাকশন ক্যাপচার করে।
বৈশিষ্ট্য এবং প্রত্রাসন: সারাংশ [Features and Regression: Summary]
বৈশিষ্ট্গুলির প্রকার [Types of Features]
সংখ্যাগত (সীমাবদ্ধ এবং অসীমাবদ্ধ) এবং বিভাগীয় (ক্রমিক এবং নামমাত্র) - প্রতিটির নিজস্ব প্রসেসিং প্রয়োজন
ম্যাট্রিক্স প্রতিনিধিত্ব [Matrix Representation]
একাধিক বৈশিষ্ট্গুলি একটি ম্যাট্রিক্সে সংগঠিত হয় যেখানে প্রতিটি সারি একটি ডেটা পয়েন্ট এবং প্রতিটি কলাম একটি বৈশিষ্ট্য
মাল্টিপল রৈখিক প্রত্রাসন [Multiple Linear Regression]
ওজন ভেক্টর:
- নরমাল ইকুয়েশন দ্বারা সরাসরি গণনা
বহুপদী প্রত্রাসন [Polynomial Regression]
উচ্চতর ডিগ্রি বৈশিষ্ট্গুলি এবং ফিচার ক্রস ব্যবহার করে নন-লিনিয়ার প্যাটার্ন মডেল করে
প্রধান বিষয়গুলি [Key Points]
  • বৈশিষ্ট্গুলি মেশিন লার্নিং মডেলের ভিত্তি - সঠিক বৈশিষ্ট্গুলি নির্বাচন সাফল্যের চাবিকাঠি
  • বৈশিষ্ট্গুলির প্রকার নির্ধারণ করে কোন প্রসেসিং এবং মডেলিং কৌশল প্রয়োগ করা উচিত
  • মাল্টিপল বৈশিষ্ট্গুলি ম্যাট্রিক্স ফর্মে প্রকাশ করা হয় এবং নরমাল ইকুয়েশন দ্বারা ওজন গণনা করা হয়
  • ফিচার ক্রস এবং বহুপদী প্রত্রাসন নন-লিনিয়ার প্যাটার্ন মডেল করার ক্ষমতা দেয়
  • বৈশিষ্ট্গুলির সঠিক প্রতিনিধিত্ব এবং ট্রান্সফরমেশন মডেলের কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করতে পারে
Made with