01机器学习与大数据笔记
目录
机器学习方法论与原理
序言
叙述选择什么样的赛道:AI+经验+应用
-
书籍
- 专业研究算法理论,偏研究理论,应用较少
- 工具与平台使用书,有实践没有理论指导,即有方法论,缺少原理
- 综述产业资讯和分析的书,主要偏宏观层面,少涉及技术理论,也没有太多具体技术实践
缺少AI基础知识基础应用方法论方面的书籍。
-
赛道
如果靠拼命,只能支撑年轻时代,所以他是很危险的
如果靠资历,内卷程度越来越高的情况下,资历很容易被优胜劣汰
如果靠专精,如果专精的技术,被时代抛弃,相当于断臂
- 赛道1,算法理论赛道,面对大学教授专家、高校毕业生
- 赛道2,AI平台工具使用,面对大批量培训机构的学生
- 赛道3,开创者,
- 赛道4,经验者,中医、律师,多年摸爬滚打的建模经验,来自于时间的积累
- 赛道5,应用者,用AI技术发挥应用创新
-
适合人员
- 产品、业务、管理人员,产品业务如何去设计AI业务,管理人员需要知道产品业务、技术人员们在说什么,在讨论什么,进度安排的是什么。
- 技术工程师,对AI技术有个全局的了解,懂得去利用算法模型,即使不参与建模,可能对接AI技术,也需要了解AI技术方面的知识。
-
本书的特点
- 更多思想性交流,而不是知识的灌输
- 更多使用普通话语和故事来讲述原理 通过努力可以变得更自信,相信自己可以改变很多事情。
-
如何学习更快
- 实践
- 深思
- 分享
-
产业应用
产业化才能推进技术成熟
企业业务AI化,只有所有人懂得AI才能真正把AI技术应用到业务中。
-
前置知识
- 微积分
- 线性代数
- 概率论
建议日本欧姆社漫画系列,其中:
- 统计学
- 相对论
- 微积分
机器学习可能吗
-
统计学习
现象推导出规律,比如古人发现乌云、大风之后就是下雨,以后就知道这么个规律,有乌云和大风,就会下雨。
统计学习不是个案学习。
吸烟有害健康。正态分布的哲学意义。
正态分布,告诉我们虽然选择健康的生活方式(尽人事),但也得要听天命
小孩观测更多的样本,通过学习好,能够看到更多的好的人生观。比如考高分,小孩可以亲身理解一分耕耘一分收获的人生观,而如果成绩不好,他就不容易去感受到那些更加积极的态度。
我们能相信统计吗?通过统计去推测背后的规律,也就是反推背后抽象的规律,也是不靠谱的。那机器学习到底靠谱吗?
从看到的样本中总结规律,完全无法预测未知的世界。
-
大数定律
人类就是靠案例的抽象总结,归纳和演绎,来评价过去、判断当下和预测未来。
当试验次数足够多时,事件出现的频率无穷接近于该事件发生的概率
一则无心,二则成疑,三则信。
建模经验:数据少重视先验,数据多则重视后验。比如抛硬币。
-
大数定律原理
样本数越大,统计值与真实值接近的概率越高。
基于概率的信任。
-
统计学家看待统计结论的方式
- 基于概率的信任
- 观测样本越多,结论越发置信(大数据的价值)
结论:机器学习是可能的
机器如何学习
-
机器学习方案
训练,也就是归纳
-
观察数据,做关系假设,去拟合观测到的数据。假设关系:a= w*F。
-
评价指标loss,用于衡量拟合程度。loss最小时,表示拟合效果最好,也就是最优解。
-
求loss最小时,w的值
随着参数w取值的不同,评价指标loss会随之变化,我们可以认为loss=f(w)是一个曲线,而求loss最小值的参数w,就是解微分方程f’(w)=0
-
-
拟合
观测的数据要拟合正确的关系
-
评价指标loss
衡量假设对观测数据的拟合程度
可能关系对应点的数据-观测点的数据之和,最小时,直线的参数就是我们想求的最优解
loss=f(w)
-
微分方程
求导:斜率为0,即水平
f’(w),也就是求导,求曲线上斜率为0的点,w的值
-
本质与表象
张三丰、张无忌学习太极拳对话:
"无忌,我教你的还记得多少?" - "回太师傅,我只记得一大半" " 那,现在呢?" - "已经剩下一小半了" "那,现在呢?" - "我已经把所有的全忘记了!" "好,你可以上了…"
学习的本质,忘记具体的招式,学习其中的本质
机器学习牛顿定律,y=x y=wx….
@马哲:现象与本质
-
做假设
也就是y和x,他们在这个世界上是存在无数种的可能,我们需要画个圈,选定一个圈,比如y=n*x,但具体还要知道y=2x还是y=3x,我们还要得到n的值
-
loss
评价每一次假设是好还是坏
把所有差距加权得到一个值
loss也是随着w的变化而变化的
-
差值
(实际值-预测值)的平方的加和。与|实际值-预测值|的加和 ,两个结果是一样的,但在后续的应用中会有一些好处
-
机器学习过程三要素
-
假设空间
线性与非线性假设
-
优化目标
评价指标、∑((实际值-预测值)的平方)
∑:加和
-
寻解算法
- 解微分方程:理想情况,很困难。
- 梯度下降:实际情况,相对容易。盲人走的方式。
三要素各种设计组合,形成众多的模型。
-
-
如何记录学习到的知识
y与x的关系,更复杂的关系,更多的待学习w参数,以及更多的训练样本,以及更多更复杂的模型假设
y:预测值
x:特征
本质理念是一样的
输入特征、预测值,输入与预测值之间的参数,就是需要机器去确定的值就是参数。
大数据的价值
大样本使得大特征成为可能,大特征使得大样本发挥价值。
样本太小,统计结果不置信。
-
期望
- 保证调研数据足够细分,够准确。比如一二线城市的30-40岁的女性白领。
- 保证调研数据样本量,够置信。样本空间足够大
- 大数据可以同时实现以上两方面
大样本使得大特征成为可能,大特征使得大样本发挥价值。
-
大数据的价值
-
更细致的刻画
上海地区的30岁年龄段的白领喜欢xxx,xxx年龄的大妈喜欢xxx,等等,而不是中国的女性50%喜欢高跟鞋,这是一个宽泛的统计,没有任何指导意义。
-
更智能的学习
图像学习:像素抽象边界特征抽象部位特征抽象人脸特征,具体到抽象的过程(@马哲,具体与抽象)
大数据会让我们更智能的学习,而不需要像17世纪牛顿定律的长期归纳与演绎。
在足够多的数据情况下,人类可以不去假设空间,而直接由机器进行寻找Y与X之间的关系。
-
-
过拟合/欠拟合
-
领域知识
泛指理论,但实际考虑更多的是现实中大概率出现的一个
-
大数据给机器学习带来的帮助
机器学习的任务是:从数据中学习出现规律(Y->X),达到自动判断Y
- 精细刻画:释放学习Y->X关系的能力
- 智能学习:释放自动学习特征X的能力
- 假设被弱化,当然数据需求量会更大
- 未来只需要指定Y,提供足够多的数据,机器就可以预测Y->X的关系
为什么要上大数据的战车
数据量非线性增长:IT化、移动化,内容生产快速,收集手段加强
-
信息内涵
数据融合的信息增长:1+1>2 (@马哲 整体大于部分之和)
人的一天:注册论坛、看新闻、搜索、购物、订旅行计划
-
应用需要大数据的原因
-
促进业务发展(进攻)
数据量暴增,数据内涵非线性增长,业务上涨。业务价值骑上数据量的非线性暴涨。
-
核心竞争力(防守)
-
商业上的成功:技术-》满足需求-》控制供给
案例:空气-水-房子,(需求迫切性与价格成反比,@马哲-影响力,稀缺原则)
-
创新:商业上就是创造垄断,垄断创造利润
技术创新是一个领先的时间窗口,产品领先,沉淀数据领先,反馈产品体验领先。
-
领先:技术领先-》产品领先-》数据领先-》产品领先:良性循环
数据领先才是先对安全(/马哲@辩证看待黑科技,相对/)
-
-
-
大数据的常见应用场景
-
个性化匹配
农业时代,个性生产个性化产品,
工业时代,规模化生产共性产品,
信息时代,规模化生产个性化产品
比如今日头条、淘宝,其中的新闻和商品是千人千面的,也就是规模化的推送个性化新闻或商品。
-
代替人工
业务中的人工环节,引入智能模型,提升效率
比如机器、客服、翻译等
-
-
产业链
数据<->模型<->业务<->需求
比如:教育个性化,数据、模型、业务都没有问题,但需求大吗?
代替人工应用思考
-
3秒钟准则
3秒内能够决策的。
单一场景,同类型海量数据判断。开车、翻译等3秒内决策的容易被替代
需要关联的,联想抽象的,一般很难被替代
-
性价比
收益/成本
-
数据成为壁垒
没有科技是永远的黑科技
-
AI公司
数据、模型、业务、需求的全面理解,并不是有几个AI工程师就是AI公司,应该是产品策划管理层有AI层面的思想理解,才能促进公司产品逐步融入AI
-
AI技术人员,找不到龙的屠龙者
主动去发现AI应用场景
-
AI黑盒工具使用者
最优的解决模型,并不是标准的模型
白盒有个透彻的理解,对应用业务有一定的深度的理解