数据科学和数据科学家的现状 -中国篇
揭秘中国数据科学和数据科学家的现状
Related Posts/Categories
2022-02-10 3年前
一、什么是数据科学
数据科学是一门横跨了统计学,计算机科学,机器学习,商业等多领域的综合学科。
以下是来自维基百科对数据科学的定义:
“数据科学是一门利用数据学习知识的学科,其目标是通过数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模型识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。数据科学技术可以帮助我们如何正确的处理数据并协助我们在生物学、社会科学、人类学等领域进行研究调研。 此外,数据科学也对商业竞争有极大的帮助。“
二、什么是数据科学家
对于”数据科学家”一词暂时还没有的明确定义,以下是参照百度百科的解释:
“数据科学家是指能采用科学方法、运用数据挖掘工具对复杂多量的数字、符号、文字、网址、音频或视频等信息进行数字化重现与识别,并能寻找新的数据洞察的工程师或专家(不同于统计学家或分析师)。一个优秀的数据科学家需要具备的能力有:数据采集、数学算法、数学软件、数据分析、预测分析、市场应用、决策分析等。”
另外,对于数据科学家的解释,还可以分别从狭义和广义两种角度来定义。
(观点1)
广义:能够处理数据的工作人员都被称为科学家。 例如,传统的数据库管理员、数据库工程师和数据统计分析师。
狭义:只有依托数据来推动公司业务的增长,创造出新价值的人才能被称得上是真正的数据科学家。
(观点2)
广义:从事数据处理、加工、分析等工作的数据科学家、数据架构师和数据工程师都可以被称为数据科学家。
狭义:拥有数据分析能力、精通各种算法和能够直接处理数据的人才能被称为数据科学家。
总的来说,在国内,“科学家”一词不像国外那样被广泛使用,只有真正做研究和学术的才能被称做科学家。数据科学更聚焦在创造商业价值上面。因此,数据科学家不仅需要计算机科学方面的知识,还需要数学、统计学以及优秀的沟通能力。
但是没有人能够精通各个领域,所以在实际工作中,我们会根据数据科学家的工作内容来称呼他的职业,比如算法工程师和建模开发工程师等。此外,根据公司规模的不同,名称也会经常发生变化。
以下,我们对数据领域的3种职业进行了比较:
①数据工程师: 开发数据仓库及相关服务
负责构架、技术平台和工具
辅助数据科学家和数据分析师的工作
掌握编程和运维的能力
②数据科学家: 用数据创造实际价值
数据的收集、处理和挖掘
通过建模等方式形成洞察
在商业领域、机器学习、流程把控及沟通方面,有着很深的造诣。
③数据分析师: 基于数据平台、工具及算法模型,探索数据、形成商业洞察
商业相关的专业知识
优秀的沟通能力
三、现状和挑战
1、应用情况
如今中国市场,数据科学被运用在各行各业,公众场景中。但是其中,银行等金融机构和政府,不管是在中国、甚至在全世界都是数据科学最大的投资方。各中小企业虽然投资仍处于较低水平,但即使是这样的中小企业,也有很多在零售行业中使用数据科学的案例,主要体现在云端的解决方案中。
在某招聘网站上,我们以数据科学家为关键词搜索了有关招聘的信息,排行前10的结果如下。
数据科学在电子商务行业中被广泛使用,对相关人才的需求量也非常大。在电子商务行业,数据科学家收集用户行为数据来分析用户偏好,以确定潜在客户和促进个性化营销。 他们还使用推荐算法来推断用户的偏好,并推荐用户可能感兴趣的产品。
教育行业是仅次于电商,对数据科学家需求最大的第二大行业。以疫情为契机,中国在线教育行业的迅猛增长。数据科学在在线教育中的使用非常活跃。 例如,渠道管理(微博、小红书、抖音)、客户服务(在线问答、官方购买)、扩大和提高题库的的精度等。
在国内,使用国产产品的情况在增加。 原因有以下三点。
①出于政策和数据保护的考虑,银行和国有企业更倾向于购买国产产品。
②在数据科学领域中,数据的保管位置是非常重要的因素,因此即使产品和服务还不成熟,中国用户也倾向于选择中国本土企业。 政策的推动只是一个外部因素。
③数据科学中,R语言和Python等开源技术的应用越来越活跃。 本地企业和海外的企业都在广泛运用开源技术。那么,实际操作和维护便成为了服务供应商可以提供附加价值的一个领域。 在这种情况下,无论供应商是国内的还是海外的,便不是一个很重要的因素。
2、人才资源
中国于2016年首次在北京大学等三所高校设立数据科学和大数据专业,截至2019年3月,总数达到418所(中国全国共有1265所大学和研究生学院)。 各个学校的项目可能略有不同,但一般来说是相同的。
例子如下:
基础科目:数学分析、高等代数、物理数学、数据结构、基础数据科学、基础编程设计和实践
必选科目:离散数学、概率和统计、算法分析和设计、数据库、计算机科学、并行计算和编程、非结构化大数据分析
调查还显示,美国大学的数据科学项目数量是世界上最多的,约有425件。而中国约有93件,仅占美国总数的20%,日本约有60件。 按国家的领土面积计算平均数显示,中国的水平比日本低。
数据科学家的学科还设立不久,对中国数据人才的出身学科调查显示,其中最多的是来自传统的计算机科学和数学统计学背景,在数据科学家层面,他们基本上都有研究生和博士学历。
专业情况
男女比例方面,在传统的高科技领域,男性的比例较高,男女之间的差异较大。 然而,在数据领域中,女性的比例超过三分之一,表明这是一个受女性欢迎的职业。
推荐算法、数据架构、架构
搜索算法、深度学习
图形算法、语音识别、自然语言处理
算法工程师、GO语言、音频/视频/图形开发
分布式计算、图像识别、战略咨询
数据科学家在中国是非常受欢迎的职业,但是人才不足是一个很大的课题。。 为了促进知识的学习和分享,许多数据科学家社区不断涌现,并定期组织竞赛。 现在知名竞赛的参赛经验,也成为了大企业招聘的条件之一。
四、总结
在中国,数据科学是一个蓬勃发展的行业,无论是在应用方面还是在人才方面。 虽然还是一个未成熟的领域,但它正在以惊人的速度进入实践的阶段。 恕康上海所在的Iconic Data集团在数据管理,以及数据分析、智能运维方面有着丰富的经验,可以为您提供相关见解和项目落地服务,如有需要,请在下方联系我们。