<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>科研 on SeleiXi</title>
    <link>http://blog.seleixi.site/categories/%E7%A7%91%E7%A0%94/</link>
    <description>Recent content in 科研 on SeleiXi</description>
    <image>
      <title>SeleiXi</title>
      <url>http://blog.seleixi.site/%3Clink%20or%20path%20of%20image%20for%20opengraph,%20twitter-cards%3E</url>
      <link>http://blog.seleixi.site/%3Clink%20or%20path%20of%20image%20for%20opengraph,%20twitter-cards%3E</link>
    </image>
    <generator>Hugo -- 0.134.2</generator>
    <language>zh-Hans</language>
    <lastBuildDate>Sun, 20 Apr 2025 00:00:00 +0000</lastBuildDate>
    <atom:link href="http://blog.seleixi.site/categories/%E7%A7%91%E7%A0%94/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>计术Talk讲座丨基于LLM的 AI Agent</title>
      <link>http://blog.seleixi.site/zh-cn/post/agent_introduction/</link>
      <pubDate>Sun, 20 Apr 2025 00:00:00 +0000</pubDate>
      <guid>http://blog.seleixi.site/zh-cn/post/agent_introduction/</guid>
      <description>&lt;h2 id=&#34;前言&#34;&gt;前言&lt;/h2&gt;
&lt;p&gt;感谢复旦计院分团委学生会给咱的机会、团校在三教五教的海报宣传，也很荣幸这次讲座能和彭鑫老师一起讲。这篇讲座主要是想为想参与 Agent 项目的同学做一个入门。本身的理解可能也非常浅薄，但最近也接触并实际参与了挺多的 Agent 项目（最近的一篇打算投 EMNLP Demo），在参与的过程中总结出来了很多经验，尽管不一定准确，但还是想把这么多宝贵的经历、在和很多大佬交流后得出的心得分享一下，希望对大家有所帮助！&lt;/p&gt;
&lt;p&gt;&lt;img loading=&#34;lazy&#34; src=&#34;http://blog.seleixi.site/agent%E8%AE%B2%E5%BA%A7%E5%9B%BE%E7%89%871.jpg&#34;&gt;&lt;/p&gt;
&lt;p&gt;&lt;img loading=&#34;lazy&#34; src=&#34;http://blog.seleixi.site/3108_intro.jpg&#34;&gt;&lt;/p&gt;
&lt;p&gt;&lt;img alt=&#34;讲座海报&#34; loading=&#34;lazy&#34; src=&#34;http://blog.seleixi.site/agent_post.png&#34;&gt;&lt;/p&gt;
&lt;p&gt;&lt;img loading=&#34;lazy&#34; src=&#34;http://blog.seleixi.site/%E8%AE%B2%E5%BA%A7%E5%90%88%E7%85%A7.jpg&#34;&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href=&#34;https://www.bilibili.com/video/BV1wm5mzoE9Q/?spm_id_from=333.1387.homepage.video_card.click&#34;&gt;讲座录像&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img loading=&#34;lazy&#34; src=&#34;http://blog.seleixi.site/Agent_3108.pptx&#34;&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href=&#34;https://www.seleixi.com/post/research/agent_introduction/Agent_3108.pptx&#34;&gt;讲座 Slides&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href=&#34;https://mp.weixin.qq.com/s/EVKArnpSgGW39wPdsUhfJg&#34;&gt;https://mp.weixin.qq.com/s/EVKArnpSgGW39wPdsUhfJg （微信公众号推送）&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;Agent 在近年是趋势所向，无论是做产品还是水 paper 都是最热门的方向，所以对工业界和学术界都非常有影响力。而相对于非常硬核的一些工作，Agent 骗投资也更容易（bushi）。那为什么呢？因为这个东西是最能落地的方向之一，他的产生就是为了解决某一个实际的、非常有需求的问题（水 paper 另计）。&lt;/p&gt;
&lt;p&gt;其实在 NLP 的鄙视链相对较低，因为普遍认为科研属性比较低，工程的属性比较强，而对科班知识的门槛较低。有人称 2025 为 Agent 之年，就是因为这个东西非常好发 paper，&lt;/p&gt;
&lt;h2 id=&#34;agent-是什么&#34;&gt;Agent 是什么&lt;/h2&gt;
&lt;p&gt;如前言所说，Agent 现在真的非常热门，在我们的生活处处都是。因此笔者在此随便举几个 Agent 的例子，你可能就能理解 Agent 大概是个什么东西了&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Cursor / Copilot&lt;/li&gt;
&lt;li&gt;Deep Research / Deep Search&lt;/li&gt;
&lt;li&gt;Manus&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;是指利用大语言模型（如 GPT 系列）构建的智能系统。他相对于传统的软件来说，会用到大模型的能力，并且会通过微调 / 一些规则 / 适应的手段来在这个领域表现地比传统软件更出色.&lt;/p&gt;
&lt;p&gt;所以说一个 Agent 相对于传统软件比较强，而相对于 Base Model 来说更能适配特定领域的任务，因此大家可以理解为一个很能改善我们生活体验的结合大模型的软件&lt;/p&gt;
&lt;h2 id=&#34;agent-的实现及流程&#34;&gt;Agent 的实现及流程&lt;/h2&gt;
&lt;p&gt;以一个非常简单的传统翻译软件 / 结合 LLM 的翻译 Agent 为例子&lt;/p&gt;</description>
    </item>
    <item>
      <title>人工智能强化学习在游戏领域的应用 - Deepmind在星际争霸2上进行的科研工作</title>
      <link>http://blog.seleixi.site/zh-cn/post/sc2rl/</link>
      <pubDate>Sat, 05 Apr 2025 00:00:00 +0000</pubDate>
      <guid>http://blog.seleixi.site/zh-cn/post/sc2rl/</guid>
      <description>&lt;hr&gt;
&lt;h1 id=&#34;以下仅为演讲大纲具体录像请点击&#34;&gt;以下仅为演讲大纲，具体录像请点击&lt;/h1&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href=&#34;https://www.bilibili.com/video/BV1ysRqYXEcq/&#34;&gt;讲解录像&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;p&gt;纯 RL 在复旦貌似没什么资源，也没有老师做这个方向的，但是却做出了人工智能最早出圈的成果之一（击败了柯洁的 AlphaGo），Google 的 Deepmind 团队在 AlphaGo 之后在星际争霸 2 继续了他们的 RL 研究。在 2019 年，Deepmind 发布 AlphaStar，登顶 Nature 期刊封面，并且在暴雪嘉年华也击败了星际争霸 2 最强的职业选手 Serral&lt;/p&gt;
&lt;p&gt;而 Deepmind 的工作远不止最出圈的 AlphaStar，对于星际争霸 2 的 RL 研究更重要的基石其实要追溯到 2017 年，Deepmind 发布了 StarCraft II: A New Challenge for Reinforcement Learning（http://arxiv.org/abs/1708.04782），而这无论是对学术界还是对工业界而言，都是影响巨大、毫无疑问的开山之作&lt;/p&gt;
&lt;p&gt;尽管是快 8 年前的工作，但是 paper 的含金量毋庸置疑，且至今都在学术界与业界影响巨大。最近一直在学习这方面的内容，理解仍然非常浅薄，但是刚好有个机会让我去分享这方面的工作，尽管时间比较紧，其实看的不是特别透彻就得讲了…但&lt;strong&gt;实在心痒难挠，也只好冒着撞墙撞得鼻青脸肿的风险来跳梁献丑、贻笑方家了。列位只当是一家之辞，笑话之余还望海涵&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h1 id=&#34;introduction&#34;&gt;Introduction&lt;/h1&gt;
&lt;p&gt;众所周知，在 2016 年时，由 Google Deepmind 发布的 AlphaGo 击败了世界冠军李世石，之后又击败了积分榜第一的柯洁，成为了当时的热点话题。&lt;/p&gt;
&lt;p&gt;在 2017 年，Deepmind 的 RL 工作从围棋转型至星际争霸 2，同年携手暴雪发布了 SC2LE&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;StarCraft II: A New Challenge for Reinforcement Learning&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
