Skip to content

Frontier

Collected by Jianan, 2021. 本章节会实时收录全球科技动态。部分文字从原文直接引用,如有侵权,立即删除。本文仅供个人参考学习,不作商业用途。

1209 IEEE Fellow李世鹏 :人工智能与机器人前沿研究之思考

2021年12月9日,由粤港澳大湾区人工智能与机器人联合会、雷峰网合办的第六届全球人工智能与机器人大会(GAIR 2021)在深圳正式启幕

Noteworthy research directions:

  • machine learning 机器学习:深度学习依赖于大数据,其瓶颈也在于大数据。 其中一个解决方案是:扩展深度学习框架。例如优化深度学习算法、知识图谱+深度学习、专家系统+深度学习等等。另一条路径是因果推理,其目标是借助人类举一反三的能力,期望超越数据之间的相关性,进而探索数据之间的因果性,从而得到数据之间的逻辑推理。第三条路径是类脑计算,从生物学角度,探索人脑认知元素和机制,以仿真方法再现人类大脑。
  • motion intelligence, 运动智能:向仿生控制,逼近控制,柔性机器人方向发展。
  • human-machine harmonic cooperation, 人机谐作: 人机谐作的目标是:不需要告诉机器人类的意图,机器就能领会,从而达到人机的无缝连接。
  • group collaboration, 群体协作:智能体群体协作目前涉及的规则包括,群体行为模型和激励机制、群体智能协同决策。这一方面,蚂蚁是我们的学习对象。另外,在自动驾驶方面,越来越多自主驾驶机器人出现,它们之间如何做到协同感知和协同控制也是当今热门话题。

Back to Top

1001 解读2021年诺贝尔物理学奖—平衡混沌与秩序的复杂

今年获得诺贝尔物理学奖前两位得主的成果,正是发现了全球气候系统无序中的有序现象。今年诺贝尔物理学奖的头两位得主,Syukuro Manabe和Klaus Hasselmann的工作却否定了这个结论。他们发现,当我们从更大尺度去考虑天气甚至全球气候这样更大系统的时候,我们不仅能够预测全球大尺度气候系统的宏观行为,甚至还可以评估人类的碳排放怎样对全球气候造成影响。即使在微观尺度,混沌效应的确存在,但当我们考虑全球气候变暖这样的更大尺度问题时,混沌效应所产生的混乱、不确定性就可以被视为噪音涨落而忽略掉,从而得到确定性的结论。

复杂系统研究的三宝:

  • 玻尔兹曼分布:连接微观粒子状态与宏观状态的桥梁;
  • Ising模型:混沌与秩序边缘的数学建模,能量符合玻尔兹曼分布
  • 尺度重整化:发现不同尺度确定性规律的核心方法。

从更大尺度看问题,让小尺度的随机系统具备了统计意义,也就使得发现确定性的统计规律成为可能。复杂性系统理论可以用来解释深度学习的机理,请参考我这篇 #薛定谔的滚与深度学习中的物理 。 CNN提取的图像 FeatureMap, RNN Attention的自然语言的Context Vector, 傅里叶/小波变换出来语音的频谱,其实都是隐含尺度上的确定性规律,而深度学习可以帮助发现这些规律。

Back to Top

0912 小米发布四足机器狗“铁蛋”

  • ROS2 + Minicheetah 源代码

Back to Top

0827 Deepmind通过游戏元宇宙训练AI

Back to Top

0606 鸿蒙系统全面解析

  • 鸿蒙产生的时代背景:

    • 数字化的时代背景/大数据与云计算/人工智能的兴起
    • IoT 与 5G:5G物联网时代的到来对操作系统提出了新的要求;
    • 中国面临“卡脖子”的挑战:独立自主的研发操作系统是迫切的需求;
  • 操作系统历经四代:

    • Unix --> Windows/Mac/Linux --> iOS/Android --> 鸿蒙/Fuchsia

鸿蒙系统设计初衷是为满足全场景智慧体验的高标准链接要求,可适配手机、平板、电视、智能汽车、可穿戴设备等广泛的终端设备, 将在未来万物互联的智能社会中打造下一代操作系统。

特点:

  • 鸿蒙的另一大卖点是方舟编译器。方舟编译器可以方便安卓APP移植到鸿蒙系统。

方舟编译器是华为自主研发的编译器平台,它将以前边解释边执行的低效运行方式转变为将Java、C、C++等代码一次编译成机器码的高效运行方式,同时也实现了多语言的统一。

Back to Top

0118 哈佛鱼群机器人

哈佛大学约翰·保尔森工程与应用科学学院(SEAS)和威斯生物工程研究所(Wyss Institute for biological Inspired Engineering)的研究人员研发出一组鱼形水下机器人,它可以像鱼一样平静地聚在一起,也可以自动导航并且寻找彼此,协作完成任务。这也是研究人员首次在水下机器人领域,展示了具有内隐协调(implicit coordination)的复杂三维集体行为。

Back to Top

0110 全面回顾2020年图机器学习进展

towarddatascience 原文

伦敦帝国理工学院教授、推特图学习研究负责人Michael Bronstein与图机器学习领域的多位资深研究者进行了深入交流,对该领域在过去的一年中的进展进行了较为全面的盘点,并预测了未来发展的方向。

Back to Top

0101 深度学习和机器视觉top组都在研究什么?

来源 作者 | Guosheng Hu

op组重合度高的研究方向主要包含: self-supervised learning, multi-modality (audio-vision, text-vision, vision-touch, etc), Reinforcement learning (in Robotics), 3D, video analysis。

  • 将CV的技术应用到其他领域。例如 Li Fei-Fei做了很多将CV用在medical领域的应用,她刚发了篇Nature, `Illuminating the dark spaces of healthcare with ambient intelligence'. 这篇文章极为广泛地介绍了CV和ML可以在医疗领域的落地场景。文中介绍的很多场景,每一个都可以支撑起一家估值可观的初创公司(看我安利论文后的投资人和创业者未来发达了别忘记请我吃饭)。

    除了医疗领域,还有将CV/DL/ML用在药物设计,洪灾预测,通过谷歌街景地图来识别车的牌子,来判断当地的生活水平和预测美国大选等等。

  • 引入新的模态(modality)来解决经典问题以实现降维打击。比如把音乐的声音信号自动转化成谱子(transcription), 这是一个经典的语音识别问题。Andrew Zisserman 发表了一篇 ICASSP 2020 (Sight to Sound: An End-to-End Approach for Visual Piano Transcription), 他引入了图像信息,在钢琴上面放置摄像头来识别演奏者手的位置,用这个信息来转谱。这样的好处是可以排除噪音对转谱的影响。还有好多好多,比如用声音信号辅助detection and segmentation;手语识别时不仅用手的姿态变换信息,引入了嘴型变化信息;学习如何给无声电影/视频片段配音配乐等。

  • 仍然在CV的领域,但创造新的应用。MIT的William Freeman喜欢发这类论文,好多论文都是用现有的CV和语音技术发明一个崭新的应用,比如Speech2Face (根据一段声音重构人脸,因为声音会传递出性别,年龄,地域等很多信息)。他有好多新的应用,很多应用在提出的当时并没有合适的落地场景,但多年后各种条件成熟后取得了成功的应用。

  • 解决深度学习领域的一些fundamental的问题。比如,Hinton认为现在的CNN读取的是像素,这跟人脑来识别物体天然不同,人脑处理整个物体 (object centric),而不是一个像素一个像素来处理像素。所以CNN天然对view, translation, small pixel perturbation (对抗样本)不鲁棒。他给的解决方案是胶囊网络。他设计了很多版本的胶囊网络,自己也在不停地推翻自己,不停迭代前进。让人尊敬。

    虽然大家偏好不同,但是有一点是相同的,大家都不去做tricks类的研究,不去发明一些可以提高性能的tricks。大家通常是着眼于一个大的picture,各种刷库技巧只是为一个大的picture服务。

  • 一个在西方国家逐渐兴起,但我国还没有太重视的研究方向: trustworthy AI, 包含了 Explainable AI, fairness, accountability, privacy, transparency and ethics. 对这个方向感兴趣,给大家推荐一篇大佬们合写的论文 Toward trustworthy AI development: mechanisms for supporting verifiable claims。

  • 深度学习时代,computer vision和graphics的桥梁(或者说是game changer)包含 (1) neural rendering, 如今年大火的NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis, 渲染速度快,效果逼真,必然对游戏,电影特效, AR产业带来革命性的影响。(2) GAN, 主要用于对图像和视频的编辑。

  • 大家从基于2D静态图像的研究已经过渡到了3D和视频相关任务的研究。

Back to Top