音乐播放器
sola的小屋
 
文章 标签
17

Powered by Gridea | Theme: Fog
载入天数...
载入时分秒...
总访问量:  |   访问人数:

读书笔记(一) 人工智能导论 绪论

人工智能 artificial intelligence

以机器为载体,展式出的人类智能。
也被称为机器智能 machine intelligence

对人类智能的模拟:
符号主义-逻辑推理 概念符号化、从判断到新结论
问题求解-探寻搜索 由已有信息约束条件求解
数据驱动-机器学习 从数据出发发现内在模式
行为主义-强化学习 通过环境奖罚反馈施加最佳行动
博弈对抗-群体智能 从数据拟合优化解到均衡解

1.1 人工智能的起源

1955年8月《人工智能达特茅斯夏季研究项目提案》
A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence
① 自动计算模拟人脑高级功能
② 使用通用语言进行计算机编程以模仿人脑推理
③ 神经元相互连接形成概念
④ 对计算复杂性的度量
⑤ 算法自我提升
⑥ 算法的抽象能力
⑦ 随机性与创造力

人工智能是以机器为载体所实现的人类智能或生物智能。

产生两个问题:
① 承载计算的器械如何产生?
从手工计算时代迈入自动计算时代

② 如何用计算器模拟人工智能?
符号逻辑-以推理为核心
联结主义-统计机器学习
行为学派-环境交互中学习策略

1.2 可计算载体:形式化与机械化

形式化系统:完备性、一致性、可判定性
1900年 算术公理的相容性
the compatibility of the arithmetical axioms
1931年 哥德尔不完备定理
1937年 图灵《论数字计算在决断难题中的应用》

1.3 智能计算方法

1.3.1 符号主义为核心的逻辑推理

人工智能问题求解中的三大方法:推理、搜索、约束满足
推理:高度概括、抽象、严格化和精确化的符号系统
亚里士多德:三段论 syllogism
归纳 inductive 推理:从特殊到一般由具体到抽象
演绎 deductive 推理:从前提推导到结论
因果 causality 推理:判断事物间存在原因和结果的关系
因果模型 structural causal model, SCM
因果图 causal diagram

推理由易到难程度分成三个层次:
① 关联 association 可直接从数据中计算得到统计相关
② 干预 intervention 无法直接从观测数据中计算得到统计相关
③ 反事实 counterfactual 某个事情已经发生了,则在相同环境中,
这个事情不发生会带来怎样的新结果

"反事实"可以用来定义事物间的因果关系。
反事实框架 counterfactual framework 或 potential outcomes是一种推断因果关系的标准。
事实是指在某个特定变量AA的影响下可观测到的状态或结果BB
反事实是指在该特定变量AA取负向淔时可观测到的状态或结果BB
BBBB'的差异存在且在统计上是显著的,则说明条件变量与结果变量之间存在因果关系。

归纳推理 如果AiA_iii为若干取值),那么BB:不是必然性
演绎推理 如果AA,那么BBBBAA的子集
因果推理 因为AA,所以BB:因果性不是相关性

逻辑推理推动了专家系流 expert system 的产生。

1.3.2 问题求解为核心的探寻搜索

① 无信息搜索 uninformed search
盲目搜索方法:广度优先搜索、深度优先搜索等
② 有信息搜索 informed search 启发式搜索
贪婪最佳优先搜索 greedy best first search
AA*搜索
③ 对抗搜索 adversarial search
博弈搜索 game search
在一个竞争的环境中,智能体 agents 之间通过竞争实现相反的利益,一方最大化这个利益,另一方最小化这个利益
最小最大搜索 minimax search
Alpha-Beta 剪枝搜索 pruning search
蒙特卡洛树搜索 Monte-Carlo tree search

1.3.3 数据驱动为核心的机器学习

数据驱动 data-drive 从数据出发,从承载表达某一概念的数据中直接学习该概念所涉及的模式,然后基于学习得到的模板对未知数据进行分类或识别。

机器学习算法可分为监督学习,无监督学习、半监督学习。

一些常见的概念:
假设空间 hypothesis space
卷积神经网络 convolutional neural network, CNN
池化层 pooling
激活函数 activation
全连接层 fully connected
误差后向传播 error back-propagation

监督学习算法:回归分析、提升算法 boosting、支持向量机和决策树等判别学习方法,隐狄利克雷分布 latent dirichlet allocation, LDA 和隐马尔可夫链等生成式学习方法。
无监督学习算法:聚类降维(主成分分析)和期望极大expectation maximization, EM 算法等。

1.3.4 行为主义为核心的强化学习

强化学习 reinforcement learning, RL 赋予智能体自监督学习能力,使其能够自主与环境交互,不故出序列决策,完成序列化形式的任务,向学会学习“learning to learn”这一能力塑造目标而努力。

强化学习起源于行为主义理论,强化学习解决的是序贯决策优化问题,即智能体与环境不断效,在某个状态采取某一行为后进入一个新的状态,根据环境给出的奖励或惩罚反馈 reward 来改进策略,以求获得最大的累积奖惩 accumulated reward。

马尔可夫决策过程 markov decision process. MDP
刻画了当前状态采取某一行动后进入后读状态,且因为采取了这一行动会从环境获得一定的奖励反馈或惩罚反馈的机制。

QQ学习
qq函数记录了某个状态下采取某一动作所能够收到的奖励值或惩罚值。
QQ学习可以为智能体构造一个状态一行为效用 state-action utility 矩阵,矩阵中行和列分别代表状态和行为,矩阵的行列值为某一状态下采取某个行为所能够获得的回报。
qq函数参数化 parametrize,用神经网络来拟合qq函数,深度学习与强化学习结合形成
深度强化学习 deep reinforcement learning, DRL

1.3.5博弈对抗为核心的决策智能,
博弈论 Game Theory
纳什均衡:非合作博弈 non-cooperation Games 及其均衡解定存在
现代博弈论推动机器学习从“数据拟合”过程中以“求取最优解”为核心向博弈对抗过程中“求取均衡解”为核心的转变。

Reference

吴飞编著. 人工智能导论. 北京:高等教育出版社, 2020.05.