Data Science Process

ডেটা সায়েন্স- আপনার উপযুক্ত জব কোনটি?

ডেটা সায়েন্স- আপনার উপযুক্ত জব কোনটি– এটি আজকের লেখার বিষয়। এটি খুবই গুরুত্বপূর্ণ একটি টপিক। কেননা জব মার্কেটে নামার আগেই জানতে হবে কোন ধরনের জবের সাথে আপনার স্কিলসেট মেলে এবং কোন ধরনের জবের ফাংশন কী।

হার্ভার্ড বিজনেস রিভিউ ২০১২ সনে লিখেছিল একবিংশ শতাব্দীর সেক্সিয়েস্ট জব হলো ডেটা সায়েন্স। এর সত্যতা প্রমাণের দরকার নেই; চাকরি বাজারে তাকালেই এর সত্যতা মেলে। আগের লেখায় বলেছিলাম ডেটা সায়েন্স এখন হট টপিক। তেমনি হট এর চাকুরির বাজার। আর বাজারের চাহিদা মেটাতে আমেরিকা এবং কানাডার অনেক বিশ্ববিদ্যালয়ে সম্প্রতি ডেটা সায়েন্স প্রোগ্রাম চালু করেছে। ধারণা করা যায় এই অনেকদিন অব্যাহত থাকবে যতদিন না বাজারে ডেটা সায়েন্টিস্টদের চাহিদার সাথে যোগানের সমন্বয় হয়।

বাংলাদেশে এখনো সেভাবে ডেটা সায়েন্স-এর প্রচার কিংবা ডেটা সায়েন্টিস্টদের প্রয়োজনীয়তা অনুভূত হয়নি। তবে অন্যান্য দেশের মতো বাংলাদেশেও ব্যাপকভাবে ডেটা ভিত্তিক সিদ্ধান্তগ্রহণের কাজ দ্রুত শুরু হয়ে যাবে। এখন একটু একটু করে ঢেউ বাংলাদেশে এসে লাগছে। আমার ধারণা আগামী ১ থেকে ২ বছরের মধ্যেই এই ঢেউ সুনামির রূপ ধারণ করবে। যার মানে হলো আমেরিকার মতো বাংলাদেশেও ডেটা ব্যবহার করে ব্যবসায়িক সিদ্ধান্তগ্রহণ করা শুরু হবে। আর তখনই ডেটা সায়েন্স জব মার্কেটে দক্ষ ডেটা সায়েন্টিস্ট ও এনালিস্টদের শুন্যতা অনুভূত হবে।

বিদেশে বিশেষ করে আমেরিকাতে গত এক বছরে ডেটা সায়েন্স ফিল্ডে চাকুরির বাজার ব্যাপক প্রসার লাভ করেছে। যার ফলে এই ফিল্ডের সাথে যে-কোনভাবে সম্পর্কযুক্ত সবাই এই মার্কেটে ঢুকতে চাইছে। ফলে প্রতিযোগিতা বাড়ছে তবে এখনো দক্ষ জনবলের অভাব রয়ে গিয়েছে। ফলে যত বেশী জবের সুযোগ আছে তত বেশী প্রার্থী পাওয়া যাচ্ছে না। কিছুদিন আগেও চাকুরি প্রার্থী এবং চাকুরি দাতা কেউই ঠিকমতো জানতো না ডেটা সায়েন্স এবং ডেটা সায়েন্টিস্টদের আসলে কোথায় কাজে লাগানো হবে। কিংবা কী ধরনের দক্ষতা সম্পন্ন লোকদের হায়ার করতে হবে। সে পরিস্থিতি এখনও খুব একটা পরিবর্তিত হয়েছে তা বলা যাবে না তবে আগের চেয়ে পরিশোধিত হয়েছে এবং চাকুরিদাতারা এখন ডেটা সায়েন্টিস্টদের কাজের পরিধি এবং কাজের ধরণ আগের চেয়ে ভালো বুঝতে পারছে এবং সে মোতাবেক দক্ষ ব্যক্তিদের হায়ার করছে। বলা যায় আগামী দিনে কাজের পরিধিগুলো আরো সুনির্দিষ্ট হবে এবং চাকুরি প্রার্থীরা জব মার্কেটে তাদের জায়গা খুঁজে পাবে।

পরিসংখ্যানবিদরা কীভাবে এই বাজারে নিজেদের উপযোগী জব খুঁজবে?

নতুন প্রজন্মের পরিসংখ্যানবিদ বা অন্য কোয়ান্টিটেটিভ ডিসিপ্লিনের গ্রাজুয়েটরা এই বাজারে প্রবেশের জন্য উদগ্রীব। কিন্তু তাদের বেশীরভাগই ডেটা সায়েন্সে প্রাতিষ্ঠানিকভাবে প্রশিক্ষিত নয়। যে কারণে চাকুরীর বাজারে গিয়ে তারা বুঝতে পারছে না কোন পদের জন্য আবেদন করবে কিংবা কোন পদের সাথে তাদের দক্ষতা সামঞ্জস্যপূর্ণ।

কিন্তু তাদের বেশীরভাগই ডেটা সায়েন্সে প্রাতিষ্ঠানিকভাবে প্রশিক্ষিত নয়। যে কারণে চাকুরীর বাজারে গিয়ে তারা বুঝতে পারছে না কোন পদের জন্য তারা আবেদন করবে কিংবা কোন পদের সাথে তাদের দক্ষতা সামঞ্জস্যপূর্ণ।

জব ডেসক্রিপশনের সাথে প্রার্থীর অভিজ্ঞতা ও দক্ষতার মিল না হলে একদিকে যেমন চাকুরী প্রাপ্তিতে দেরী হবে অন্যদিকে চাকুরী কোনভাবে পেয়ে গেলেও কর্মক্ষেত্রে গিয়ে সেই মিসম্যাচ প্রকাশিত হবে। এটা প্রার্থী এবং কোম্পানী — দুয়ের জন্যই ব্যয়বহুল।

ডেটা সায়েন্সে চাকুরীর বাজারে যা চাওয়া হচ্ছে

এটি অনস্বীকার্য যে সংশ্লিষ্ট সবাই এই ফিল্ডে কাজ করতে চাইছে এবং আরো অনেকেই উঁকি মেরে দেখছে যে ডেটা সায়েন্টিস্টরা আসলে কী ধরনের কাজ  করে। আমি এখানে এটা হাই-লেভেল ওভারভিউ দিচ্ছি যাতে ডেটা সায়েন্স ফিল্ডে কাজের প্রবাহচিত্রটি বোঝা যায়। প্রথমেই দেখে নেয়া যাক ডেটা সায়েন্টিস্ট পদের জবে কী ধরনের অভিজ্ঞতা চাওয়া হয়।

জেনারেল ইলেক্ট্রিক তাদের ক্যালিফোর্নিয়া বেইজে ডেটা সায়েন্টিস্ট চাইছে। সেখানে যা যা চাওয়া হচ্ছে তার সারসংক্ষেপ —

Data Scientist at GE

  • Gather and analyze data, devise innovative data science solutions and build prototypes
  • Enable development of high-performance algorithms for solutions in scalable, product-ready code
  • Guide data science teams to develop, verify, and validate analytics leveraging the latest data science techniques
  • Contribute to the exploration and creation of new scientific understanding
  • Initiate and propose unique and promising modeling projects, develop new and innovative algorithms and technologies, pursuing patents where appropriate
  • Stay current on published state-of-the-art algorithms and competing technologies
  • Maintain world-class academic credentials through publications, presentations, external collaborations and service to the research community
  • Participate in academic conferences and publish research papers
  • Communicate methods, findings, and hypotheses with stakeholders.

এরপর দেখা যাক ক্লিভল্যান্ড ক্লিনিকে ডেটা সায়েন্টিস্টদের জন্য কী কী চাওয়া হচ্ছে —

Data Scientist at Cleveland Clinic

  • Generates routine reports and ad hoc reports on patient, prospects, conversion, ROI and CM for campaigns of all marketing channels, including paid media (Paid search, Banner Ads), earned media (PR), owned media (website , mobile apps) shared media (social media) through various systems such as SAS, SQL, SPSS or R or Python.
  • Performs basic data analysis to include data validation, investigation, and trending analysis.
  • Assists Data Scientist II and III with transforming data into actionable insights and useful information by conducting analysis pertaining to patient profiling, segmentation, path analysis, cluster analysis and cohort analysis to support decision making.
  • Assists with testing hypotheses.
  • Builds basic predictive models, market mix models, attribution models and other statistical models as needed by using modeling tools.
  • Utilizes process enhancement opportunities to improve the efficiency of data pulling, reporting, programming, etc.
  • Works with DBA/Developer on standardizing and improving data pulling, cleansing and loading processes.
  • Assists in communicating and presenting business issues and analytical findings to marketing team and clients.
  • Installs and maintains analytic program(s). Updates existing analytics software as necessary.
  • Identifies technical issues and manages resolution for analytics programs.

দেখা যাক ইন্টেল কী ধরনের ডেটা সায়েন্টিস্ট চাইছে

Data Scientist/Machine Learning Engineer at Intel

  • Uses predictive modeling, statistics, Machine Learning, Data Mining, and other data analysis techniques to collect, explore, and extract insights from structured and unstructured data.
  • Develop software, algorithms and applications to apply mathematics to data, perform large scale experimentation and build data driven apps to translate data into intelligence, solve a variety of business problems and enable business strategy.
  • Assists business with casual inferences & observations with finding patterns, relationships in data.
  • Must possess strong understanding of internal business segment (stakeholders) and possess strong written and communication skills.
  • Typically requires expertise in relational database structures, research methods, machine learning, Cloud based technologies, Big Data technologies (i.e. Hadoop , HBase, Lucene/Solr), analytics packages (i.e. R, Mahout, Matlab, Octave, Weka), scripting languages (i.e. Python, Perl), programing languages (i.e. Java, C/C++, SQL).
  • Typically possesses advanced degree in Computer Science, Mathematics, Machine Learning, Operation Research, and Statistics or equivalent expertise.

আপনি উপরের উদাহরণগুলোতে পুরো জব ডেসক্রিপশন নাও পড়ে থাকেন শুধু আন্ডারলাইন করা অংশুটুকু পড়লেও বুঝতে পারবেন কী ধরনের দক্ষতা এরা চাইছে। পরিসংখ্যানের ছাত্র হয়ে থাকলে এর অধিকাংশই আপনার জানাশোনার মধ্যে হবে। শুধু ডেটাবেইজ, বিগডেটা আর্কিটেকচার, হাডুপ, এইচবেইজ, মাহাউট, এসব আপনার কাছে নতুন লাগবে।

আপনি উপরের উদাহরণগুলোতে পুরো জব ডেসক্রিপশন নাও পড়ে থাকেন শুধু আন্ডারলাইন করা অংশুটুকু পড়লেও বুঝতে পারবেন কী ধরনের দক্ষতা এরা চাইছে। পরিসংখ্যানের ছাত্র হয়ে থাকলে এর অধিকাংশই আপনার জানাশোনার মধ্যে হবে।

ডেটা সায়েন্স ফিল্ডে কাজের প্রবাহচিত্র

এবারে প্রবাহচিত্রটি তুলে ধরছি যাতে করে সবাই সহজে বুঝতে পারেন। পোস্টের একদম শুরুতে আমি একটি প্রবাহচিত্র দিয়েছি। সেটিকেই বাংলায় করে দিলাম যাতে পাঠক আকৃষ্টবোধ করেন।

ডেটা সায়েন্স- আপনার উপযুক্ত জব: র ডেটা -> এক্সট্র্যাক্ট, ট্রান্সফরম, লোড -> স্ট্যাটিসটিক্যাল মডেলিং
র ডেটা -> এক্সট্র্যাক্ট, ট্রান্সফরম, লোড -> স্ট্যাটিসটিক্যাল মডেলিং

ডেটা সায়েন্স এর জব মূলত ইটিএল (ETL – Extract, Transform, Load) এবং এনালিটিক্স — এই দুই ধাপে সীমাবদ্ধ। আরেকটি ধাপ চিন্তা করা যেতে পারে যেটিকে আমি তথ্য সংগ্রহ ধাপ বলেছি। এগুলো সংক্ষেপে ব্যাখ্যা করছি।

সোর্সিং

প্রথম ধাপটি সাধারণত ডেটা সাইন্টিস্টদের কাছে উহ্য থাকে। যেটিকে আমরা সোর্স বলতে পারি। সোর্স পর্যায়ে আসলে তথ্য সংগ্রহ করা হয়। কোন একটি ইন্ডাস্ট্রির কথা চিন্তা করুন। তারা কোন না কোন ভাবে তথ্য সংগ্রহ করছে। এসব সিস্টেমে ফ্রন্টএন্ডে ইউজার ফ্রেন্ডলি ইন্টারফেসের মাধ্যমে তথ্য ইনপুট করা হয়। যেটি কোন এক ডেটাবেইজে গিয়ে জমা হয়। মোটা দাগে এই অংশটি সফটওয়্যার ডেভলপারদের কাজ। তারা ইউজার ইন্টারফেইস ডিজাইন থেকে শুরু করে বেসিক ডেটা স্টোরেজ সলুশন তৈরী করে। এই ধাপে সাধারণত কোন এনালিটিক কাজ করা হয়না। হয়তো বেসিক ডেটা সামারি টাইপের কিছু করা হয়ে থাকে। সেটা নির্ভর করে সফটওয়্যারে সেরকম সুবিধাদি আছে কিনা তার উপর।

ইটিএল

দ্বিতীয় ধাপটি অনেক বড়। এটিকে জব ডেসক্রিপশনে বলবে ETL। এই ধাপটিকে আইটি ধাপও বলা যায় কেননা পরিসংখ্যানবিদরা সাধারণত এই ধাপে কাজ করেনা বা তারা এখন পর্যন্ত ততটা অবগত নয়। তবে পরিস্থিতি বদলাচ্ছে। এখন সবাইকেই সবকিছু সম্পর্কে মোটামুটি ধারণা রাখতে হচ্ছে।

সহজ কথায় বলতে গেলে এই ধাপে ITর লোকজন নানা সোর্স সিস্টেম থেকে ডেটাকে এনালিস্টদের কাছে পৌঁছানোর জন্য যা করা দরকার সেগুলো সম্পন্ন করে। এই ধাপে যে কাজ গুলো করা হয় সেগুলোকে সংক্ষেপে ETL বা extract, transform, load বলে। এখানে বিভিন্ন সোর্স সিস্টেমের র ডেটাকে এক্সট্রাক্ট করে, সেগুলোকে প্রয়োজন মতো একটার সাথে একটা জুড়ে দিয়ে (merging/linking/joining), পরিশোধন, পরিবর্তন, পরিবর্ধন করে ডেটা ওয়্যারহাউজে এনে জমা করে। ডেটা ওয়্যারহাইজ হলো অনেক বড় ডেটা স্টোরেজ যেখান থেকে প্রয়োজনীয় ডেটা সহজে কোয়েরি করা যায়। বলা যায় ডেটা ওয়্যারহাউজ হলো সব ডেটাবেজের ডেটাবেজ।

ইটিএল -এর সহজ পাঠ

আমি জানি বাইরে থেকে এই প্রসেসটি সহজে বোঝা সহজ নয়। তাই বাংলাভাষীরা বুঝতে পারবে এমন একটি উদাহরণের মাধ্যমে বোঝানোর চেষ্টা করবো।

ইটিএল প্রসেসটিকে তুলনা করা যায় জমি থেকে ফসল তুলে খাবার টেবিলে পৌঁছানোর আগ পর্যন্ত যা করা হয় তার সাথে। ফসলের জমি থেকে নানা ধরনের ফসল (ধান, আলু, গম) তুলে এনে, গাড়িতে বা অন্য কোনভাবে বহন করে মধ্যবর্তী কোন স্থানে এনে পরিস্কার করে বিভিন্ন শস্য আলাদা করে  হোলসেল মার্কেটে বা স্টোরেজে পাঠানো। সেখান থেকে গ্রাহক পর্যায়ে পৌঁছানোর জন্য কাঁচা ফসল বিক্রয় কেন্দ্রে পাঠানো হবে। এই ধাপটিই ইটিএল। অর্থাৎ

এক্সট্র্যাক্ট-  জমি থেকে নানা শস্য তুলে আনা (সব ধরনের সোর্স থেকে ডেটা সংগ্রহ করা)
ট্রান্সফরম – শস্যগুলোকে বাছাই করা,  আলাদা আলাদা করে শস্যের ধরন অনুযায়ি বস্তায় ভরা (ডেটা ক্লিনিং, মার্জিং)
লোড – গ্রহকের কাছে পৌঁছানোর জন্য বাজারে পাঠানোর উপযোগি করা (ডেটা ওয়্যারহাউজিং)

কোন ব্যক্তি যেমন নিজে বীজ বুনে জমিতে লাগিয়ে, চাষ করে, ফসল ফলিয়ে সেই ফসল পরিচর্যা করে তারপর টেবিলে বসে খাওয়ার জন্য যা যা করা দরকার তার সবগুলো নিজে করে না, বরং প্রত্যেকটি ধাপে দক্ষতা অনুযায়ি ব্যক্তিবর্গ তাদের অংশটুকু সম্পন্ন করে বলেই ভোক্তাদের টেবিলে খাবার পৌঁছে যায়।

এনালিটিক্স/ইনসাইট

তৃতীয় ধাপটি হলো এনালিটিক ধাপ — যেখানে ডেটা থেকে ইনসাইট বের করে সেটা ব্যবসায়িক সিদ্ধান্ত গ্রহণে কাজে লাগানো হবে। এই ধাপটিকে তুলনা করা যায় বাজার থেকে (জমি থেকে নয়) চাল, ডাল, লবণ, মরিচ, সবজি, গোশত কিনে এনে সেগুলো প্রসেস করে খাবার তৈরী করার সাথে। ডেটা সাইন্টিস্ট, পরিসংখ্যানবিদ, এবং কোয়ান্টিটেটিভ ডিসিপ্লিনের লোকজন এখানে কাজ করে।

আপনি কোথায় ফিট করেন?

প্রশ্ন হলো আপনি এই প্রবাহচিত্রের কোথায় ফিট করেন।

প্রথম ধাপটি বাদ দিলে দ্বিতীয় ও তৃতীয় ধাপের কোনটি আপনার জন্য সুবিধাজনক সেটি নির্ভর করবে আপনি কোনটির জন্য বেশী দক্ষ। আপনি যদি ডেটাবেইজ প্রফেশনাল হন তাহলে ETL আপনার জন্য ভালো হতে পারে। এই ধাপের প্রফেশনালদের অনেক সময় ডেটা ইঞ্জিনিয়ার (Data Engineer or Data Scientist – Big Data Architect) বলা হয়।

আপনি যদি পরিসংখ্যানবিদ বা অন্য কোয়ান্টিটেটিভ ডিসিপ্লিনের ছাত্র/ছাত্রী হল তাহলে আপনার জন্য শেষ ধাপটি সুইটেবল হবে।

আপনার যদি কোনটির অভিজ্ঞতাই না থাকে তাহলেও পরিশ্রমের মাধ্যমে যেকোনটিতে কাজ করার জন্য নিজেকে প্রস্তত করতে পারবেন। সাফল্য নির্ভর করবে আপনার আগ্রহ ও কতটা পরিশ্রম করতে পারেন তার উপর।

(শেষ)

 

এ পর্বে লিখেছি ডেটা সায়েন্স- আপনার উপযুক্ত জব কোনটি — সে সম্পর্কে। পরের পর্বে লিখবো ডেটা সায়েন্টিস্ট হওয়ার জন্য কীভাবে প্রস্ততি নিতে হবে। কোন প্রশ্ন থাকলে মন্তবে জানিয়ে দিন। আর কোন পরামর্শ থাকলে সেটিও জানাতে ভুলবেন না। ধন্যবাদ।

 

স্থায়ী লিংক

http://wp.me/p85dFo-1t

ফেইসবুক কমেন্ট

wavatar

ড. এনায়েতুর রহীম

পরিসংখ্যান নিয়ে কাজ করছি প্রায় দুই দশক। কর্মজীবন শুরু ঢাকা বিশ্ববিদ্যালয়ে শিক্ষকতার মাধ্যমে। বর্তমানে আমেরিকায় ড্যাটা সাইন্টিস্ট হিসেবে কাজ করছি ক্যারোলাইনা হেলথকেয়ার সিস্টেমে। তরুণ পরিসংখ্যানবিদদের জন্য পরিসংখ্যান নিয়ে লেখালেখি করতে পছন্দ করি। পরিসংখ্যানে উচ্চশিক্ষা ও কর্মক্ষেত্রে পরিসংখ্যানের ব্যবহার সম্পর্কিত বিষয় নিয়ে আমার সাথে যোগাযোগ করা যাবে। যোগাযোগ করতে উপরের Contact লিংক ব্যবহার করতে পারেন।

4 thoughts to “ডেটা সায়েন্স- আপনার উপযুক্ত জব কোনটি?”

  1. স্যার আপনাকে অসংখ্য ধন্যবাদ। বর্তমানে পরিসংখ্যানবিদদের জন্য কি করনীয় সে বিষয়ে বস্তুনিষ্ট বক্তব্য তুলে ধরা একটি অনন্য কাজ। আশাকরি, নতুন প্রজন্মের পরিসংখ্যানবিদরা বিষয়টির গভীরতা খুব সহজেই অনুধাবন করতে পারবেন এবং সে মোতাবেক নিজেদের তৈরি করবেন। আপনার এই উদ্যোগ আব্যাহত থাকুক এই প্রত্যাশা করি।

    কামরুজ্জামান, রাবি।

Leave a Reply

Your email address will not be published. Required fields are marked *