Bolehkah seseorang menjadi arkitek Big Data yang berjaya tanpa mempelajari Sains Data? Apa perbezaan antara arkitek Big Data dan saintis Data?


Jawapan 1:

Terima kasih kerana berbilang A2As! :)

Ini adalah tangan saya mengenai pengalaman peribadi mengenai perkara ini.

Di Miniclip kami mempunyai pasukan sains data dan pasukan kejuruteraan data. Pasukan kejuruteraan data mengendalikan semua data besar. Dengan kerja-kerja pasukan sains data boleh melakukannya tetapi kita akan melakukannya lebih buruk dan lebih perlahan ... kita tidak mahu itu! :)

Pasukan kejuruteraan data tidak semestinya perlu masuk ke dalam pengetahuan domain khusus cara pasukan sains data pergi. Walau bagaimanapun, mereka tahu agak sedikit pembelajaran mesin dan dalam projek data automatik yang lebih besar kami bekerjasama.

Oleh itu, pada pendapat saya, anda boleh menjadi arkitek / jurutera data besar yang berjaya tanpa sains data, yang bermaksud, tanpa pengetahuan domain / algoritmik yang syarikat bergantung kepada saintis data. Walau bagaimanapun anda akan menjadi jurutera data yang lebih baik jika anda mendapatkan tangan anda di dalamnya.


Jawapan 2:

Setuju dengan Marcin. Para saintis data boleh memanfaatkan infrastruktur data Big oleh arkitek data Big. IMO, beberapa pertimbangan utama seorang arkitek data Big harus tahu adalah berikut, yang analitik / sains data adalah bahagian (titik 3 di bawah):

1) Pengingesan data - batch & streaming

2) Penyimpanan data - Storan yang diedarkan, NoSQL

3) Pemprosesan & Analisis ** - Pemprosesan kumpulan, pemprosesan aliran, analisis. Di sini, arkitek data Big sekurang-kurangnya tahu mengenai alat analisis / API analytics yang tersedia untuk dapat mengesyorkan dan memasukkannya ke dalam infrastruktur data Big (berdasarkan kes penggunaan perniagaan dan pilihan saintis data juga). Beberapa faktor yang perlu dipertimbangkan dalam alat untuk membolehkan seorang saintis data dapat - jenis algoritma yang ada, sokongan bahasa asli, sambungan dengan persekitaran data Big, keupayaan parsing data, profil data, dll.

4) Penggunaan - penggunaan kumpulan atau aliran

5) Keperluan perkakasan untuk pelbagai komponen persekitaran diedarkan data Big

6) Keperluan operasi persekitaran data Big


Jawapan 3:

Setuju dengan Marcin. Para saintis data boleh memanfaatkan infrastruktur data Big oleh arkitek data Big. IMO, beberapa pertimbangan utama seorang arkitek data Big harus tahu adalah berikut, yang analitik / sains data adalah bahagian (titik 3 di bawah):

1) Pengingesan data - batch & streaming

2) Penyimpanan data - Storan yang diedarkan, NoSQL

3) Pemprosesan & Analisis ** - Pemprosesan kumpulan, pemprosesan aliran, analisis. Di sini, arkitek data Big sekurang-kurangnya tahu mengenai alat analisis / API analytics yang tersedia untuk dapat mengesyorkan dan memasukkannya ke dalam infrastruktur data Big (berdasarkan kes penggunaan perniagaan dan pilihan saintis data juga). Beberapa faktor yang perlu dipertimbangkan dalam alat untuk membolehkan seorang saintis data dapat - jenis algoritma yang ada, sokongan bahasa asli, sambungan dengan persekitaran data Big, keupayaan parsing data, profil data, dll.

4) Penggunaan - penggunaan kumpulan atau aliran

5) Keperluan perkakasan untuk pelbagai komponen persekitaran diedarkan data Big

6) Keperluan operasi persekitaran data Big