Video thumbnail

如何消化每周36个播客而不花费36小时收听 | Tomasz Tunguz

How I AI25 de agosto de 2025

Valuable insights

1.自动化播客处理系统: Tomasz Tunguz开发了一套系统，每天处理36个播客，进行下载、转录和总结，从而无需花费大量时间收听即可获取关键信息。

2.终端工具与个性化软件的优势: 他偏爱终端工具和超个性化软件体验，因其低延迟和高度可定制性，能无缝适应个人工作流程，并快速进行修改和更新。

3.AI在内容提取与生成中的应用: 该系统能从播客中提取引文、投资论点、公司名称，并利用大型语言模型生成博客文章草稿，甚至进行自我评估和改进。

4.“AP英语老师”评分系统: 通过让AI扮演“AP英语老师”对生成的博客文章进行评分和提供反馈，Tomasz能以迭代的方式优化文章，直至达到A-水平。

5.AI写作风格的挑战与解决方案: AI在模仿个人写作风格方面仍存在挑战。Tomasz通过注入个人风格、指示AI保留特定句法，甚至让两个AI模型相互“辩论”来提高生成内容的质量和独特性。

6.AI在写作教育中的潜力: AI可作为写作的初步筛选工具，处理语法和逻辑分析等基础工作，从而让教师有更多精力专注于培养学生的创造性和独特风格，并帮助学生克服写作障碍。

7.高效团队的未来模型: Tomasz预测未来会出现由30人组成、估值达1亿美元的公司，其中工程师团队将是核心，除了产品开发，还将专注于内部工具和自动化，以实现产品驱动型增长。

Tomasz Tunguz 介绍

Tomasz Tunguz开发了一套精密的系统，旨在每周处理36个播客，而无需投入同样多的时间进行收听。这套系统每天自动下载播客文件，将其转录成文本，并从中提取关键信息。这一创新方法不仅解决了内容过载的问题，还提供了一种高效获取信息和见解的途径，对于像Tomasz这样希望从海量播客内容中快速学习的人来说，具有极高的价值。该系统还整合了如 Notion AI 等工具，利用其强大的AI功能来辅助会议记录、摘要生成和行动项提取，极大提升了工作效率。

播客处理器的构建与功能

这套系统名为“鹦鹉播客处理器”（Parakeet podcast processor），它能够接收播客文件，进行下载，然后利用 ffmpeg 库将音频转换成文本。随后，系统会生成每日播客摘要，其中包含主持人、嘉宾、详细总结、关键话题和主题。对Tomasz而言，最有价值的部分是系统提取出的引文和可操作的投资论点，这些论点会被注入到提示中，例如“我们可能需要关注AI辅助设计工具”。此外，系统还能提供用户所需的个性化内容和端到端的用户体验控制。

每天处理36个播客，自动下载并转录。
利用 ffmpeg 将音频转换为文本。
生成包含综合摘要、关键话题和主题的播客总结。
提取关键引文和可操作的投资论点，例如AI辅助设计工具。
系统设计注重个性化内容和端到端的用户体验控制。

播客解析系统概述及组件

Tomasz Tunguz 针对自身需求构建了一款名为“播客解析器”的系统，旨在解决他无法投入36小时收听36个每周播客的困境。他个人偏好阅读而非聆听，因为阅读能让他更快地跳过不必要的信息，并高效地获取播客中分享的宝贵见解。该系统每日运行，自动下载列表中（包括此播客）的全部36个播客文件，并将其转录成文本。初期，系统采用 OpenAI Whisper 开源工具进行音频到文本的转换，随后切换至 Nvidia Parakeet，后者在Mac上运行表现更佳。转录文本随后会通过一个精心设计的提示词进行处理，以生成高层级摘要或其他定制化输出。

系统工作流程

该系统首先下载播客文件，然后使用 OpenAI Whisper 或 Nvidia Parakeet 将音频转换为文本。转换后的文本会通过预设的提示词进行处理，以生成所需的不同内容。例如，它能根据用户的具体要求，生成高级别的摘要或其他定制信息，极大地提高了信息获取的效率和针对性。这一流程确保了用户能够从海量播客内容中迅速提取出最有价值的部分，而无需耗费大量时间进行手动筛选。

组件	功能	描述
播客解析器	核心系统	处理36个播客，实现信息高效获取
OpenAI Whisper	转录工具	初始用于音频到文本转换
Nvidia Parakeet	转录工具	当前使用的工具，在Mac上运行良好
提示词处理	文本分析	对转录文本进行处理以生成摘要等

转录文本清理过程演示

该系统通过一个名为“鹦鹉播客处理器”（Parakeet podcast processor）的工具构建，其核心功能是接收播客文件并将其转换为文本。这个处理器首先下载文件，然后利用 ffmpeg 这一强大的文件转换库，将音频内容转换为文本格式。为了进一步提升转录文本的质量，Tomasz采用了 Ollama 模型，特别是 Gemma 3，它在清理转录文本方面表现出色。这一清理过程旨在保持所有内容和长度不变，同时去除“嗯”、“哦”等口语化停顿词，并确保所有技术对话得到完整保留，从而得到一份干净、准确的转录文本。

每日摘要与数据库管理

每天，可能有五到六个不同的播客需要转录。这些文件会通过一个播客协调器（podcast orchestrator）进行处理，所有转录文件都存储在一个名为 DuckDB 的本地数据库中。这个数据库记录了特定播客在特定日期被处理的信息，并保存了相应的转录文本。随后，系统会从数据库中提取当天的所有转录文本，并通过一个每日摘要器提示（daily summarizer prompt）进行处理，最终生成一份每日摘要文档。这个流程确保了信息的系统化管理和高效提取，极大地简化了内容消化过程。

利用 ffmpeg 将音频转换为文本。
使用 Ollama 中的 Gemma 3 清理转录文本，去除口语化停顿词。
存储转录文件至本地 DuckDB 数据库。
通过每日摘要器提示生成每日摘要文档。

提取引文、投资论点和公司提及

该系统能从播客内容中高效提取多种有价值的信息，包括播客摘要、关键话题、主题，以及最为重要的引文。这些引文被进一步加工，系统会根据它们建议针对风险投资公司的可操作投资论点。例如，在分析播客内容后，系统可能会提出“我们应该关注AI辅助设计工具”的建议，这可能进一步触发市场地图绘制或特定对话。此外，系统还能生成可用于推文的值得注意的观察结果，并识别播客中提及的初创公司，如 Airbnb、Google、Amazon 和 Stripe，甚至是一些不熟悉的公司，这些信息可以被集成到CRM系统中进行进一步丰富和研究。

AI生成博客文章的工作流

系统还能根据Tomasz的写作风格生成博客文章的提示，并将其送入一个Python管道，以实现机器自动生成博客文章。最初，在实体识别方面，Tomasz曾尝试使用斯坦福大学的命名实体提取算法（Python库），但发现大型语言模型（LLM）在输出质量上表现更优。因此，对转录文本的精细清理工作变得不那么关键，重点转向了LLM的强大处理能力。虽然最初的目标是全部在本地运行（使用 Ollama、斯坦福库和 Parakeet），但对于命名实体提取，功能更强大的机器或LLM表现更佳。

我的目标最初是在本地完成所有操作。然而，我意识到，特别是对于命名实体提取，更强大的机器表现得更好。

Tomasz偏爱基于终端的工具

Tomasz Tunguz之所以偏爱基于终端的工具，是因为他认为终端是延迟最低的应用程序，而较低的延迟能显著减少计算机使用过程中的挫败感。在新冠疫情期间，他决定学习如何使用终端，并从此“生活”在其中。他甚至使用一个基于终端的电子邮件客户端，因为它速度极快，并允许他通过脚本执行各种自动化任务，例如一次性删除10封邮件，调用AI自动回复邮件，或将公司信息添加到CRM系统中，这些功能对他而言至关重要。

Cloud Code与终端设计的重要性

除了个人偏好，Tomasz认为 Cloud Code 是一款出色的产品，因为它允许用户通过简单的指令修改文件，例如更改博客文章主题，甚至可以基于博客上的2000多篇文章生成新的博客内容。这种通过终端进行交互的方式，不仅高效，而且设计周全。对于开发工具的开发者而言，掌握终端设计至关重要，因为它可以为像Tomasz这样将学习终端作为个人爱好的用户，提供卓越且实用的产品体验。

终端是延迟最低的应用程序，减少使用挫败感。
使用终端进行日常操作，如电子邮件管理和脚本自动化。
通过 Cloud Code 修改文件和生成博客文章。
终端设计对开发工具至关重要，提供高效和定制化体验。

个性化软件与现成解决方案的优势

随着生成式AI技术逐渐普及，许多人都在尝试开发播客摘要应用。然而，Tomasz的终端播客转录处理和主题提取引擎，提供了一种“超个性化软件体验”，这与市面上常见的现成解决方案形成鲜明对比。他认为，虽然市场上可能存在一些现成的替代方案，但它们通常无法提供用户所需的内容质量和定制化的用户体验。这种端到端的控制能力，使得用户能够构建高度个性化的软件体验，这在过去要么是不可能实现，要么是效率低下，但近期已变得触手可及。

你不仅得到了想要的内容，还得到了想要的用户体验。你可以端到端地控制它，并构建这种超个性化的软件体验。

工作流程适应性与Miro AI

这种个性化软件能够像手套般完美契合Tomasz的工作流程，任何变化，例如发现某个部分顺序有误，都可以在 Cloud Code 中迅速更新，通常只需15到30秒。这种极低的边际摩擦成本，使得创建小型实用工具变得非常便捷，过去可能不值得付费的定制功能，现在可以轻松实现。此外， Miro 的创新工作空间集成了AI副驾驶功能，能帮助用户将模糊的想法转化为清晰的图表、产品简报和原型，从而将周期时间缩短三分之一。这体现了人类与AI协同工作的力量，以更快、更愉快的方式将优秀的创意付诸实践。

从播客洞察生成博客文章的工作流

在处理完播客内容、提取主题、引文和潜在的公司后，Tomasz进一步利用AI来生成博客文章的草稿。这一流程首先从播客中提取出他认为有趣或值得分享的见解，然后通过AI将其转化为结构化的文章。例如，在GitHub CEO的访谈中，他讨论了AI与编码的未来，如果Tomasz想就此写一篇博客文章，他会使用一个播客生成器。该生成器以播客的转录文本作为上下文，并结合一个特定的提示词，例如引用播客中的一段话：“所有能被单个提示词轻松替换的东西都没有价值”，以此引导AI寻找与该主题相关的播客，并生成一篇博客文章。

挑战与解决方案

在博客文章生成过程中，Tomasz提到一个当前的bug，即使用 LanceDB 向量嵌入数据库搜索相关博客文章的功能暂时失效。尽管存在挑战，他仍然致力于优化这一工作流。他发现，在生成博客文章时，最有效的方法之一是要求AI像“AP英语老师”一样进行评分。这种方法源于他个人高中时期对写作的热爱，当时的AP英语老师教授了他如何享受写作并提供有益的反馈。他会与模型迭代，直到文章达到A-水平。目前，用于搜索的相关博客文章仅限于他过去撰写的2000多篇博客文章，而非播客摘要，主要目的是让AI捕捉并模仿他的个人写作风格。

处理播客内容，提取主题、引文和公司信息。
使用AI将播客见解转化为博客文章草稿。
播客生成器以转录文本为上下文，结合提示词生成文章。
使用 LanceDB 向量嵌入数据库搜索相关博客文章（目前有bug）。
要求AI像“AP英语老师”一样对文章评分，并进行迭代优化。
使用过去2000篇博客文章作为上下文，以模仿个人写作风格。

使用“AP英语老师”评分系统撰写博客

在生成博客文章时，Tomasz发现最有效的方法之一是让AI像“AP英语老师”一样进行评分。这种方法源于他个人在高中时期对写作的热爱，以及他AP英语老师提供的宝贵反馈。他会与AI模型反复迭代，直到文章达到A-的评分，这个过程不仅能提高文章质量，也能提供具体的改进方向。目前，用于搜索相关博客文章的向量数据库仅包含他过去撰写的约2000篇博客文章，这些文章被用作AI生成内容的风格参考，而非播客摘要，以确保AI能够捕捉并复现他独特的写作风格。

匹配个人写作风格的挑战

模仿个人写作风格是一个极具挑战性的任务，即使是经过微调的 OpenAI 和 Gemma 模型也难以完全实现。AI生成的文本常常“听起来像计算机”，缺乏自然的语调和个人特色。此外，AI在有效地链接到其他相关博客文章方面也存在困难。不同的AI模型具有独特的“声音”：例如， Gemini 倾向于“临床化”，而 Claude 则更“热情和冗长”。Tomasz强调，他需要主动注入自己的声音，并指示AI保留某些他特有的“错误”风格元素，例如使用&符号、冒号前的空格，以及不完整的从句，因为AI倾向于生成语法完美但缺乏活力的文本。

你需要注入自己的声音，然后告诉AI保留那些“错误”的东西。

Tomasz改进博客文章的三步迭代法

尽管AI无法完全模仿个人写作风格，Tomasz仍然通过一套三步迭代的评分流程来确保博客文章的质量。这个过程由AI执行，它首先阅读草稿，然后给出评分和分数，并特别关注“钩子”（文章的开篇几句话）和结论部分，确保它们能够吸引读者并与文章主题紧密联系。AI会进行三次这样的评估和改进，例如，一篇文章可能从90分提高到91分，达到足以满足要求的水平。这种迭代方法显著提升了文章的结构完整性和流畅性，使其更具吸引力。

博客文章生成器的工作机制

博客文章生成器会首先找到相关的博客文章，生成初步草稿，然后像“AP英语老师”一样进行评分和改进，并自动生成对URL友好的短链接。这个过程可以利用 OpenAI 或 Ollama 模型。其提示词明确指示AI扮演“专注于技术和商业内容的专家博客作者”，并提供Tomasz自己的博客文章作为风格参考。系统会动态计算相关文章的段落数量，并使用 Ollama 总结其写作风格模式，以便根据目标受众（例如Web3或公司财报分析）调整风格。Tomasz的写作指南包括文章字数少于 500字、无标题（因为分析显示标题会降低读者停留时间）、段落流畅衔接、每段最多两句长句。AI在评分时经常指出他的过渡生硬，导致文章失去5到6分。

Tomasz的写作风格指南	描述
字数限制	少于500字
标题使用	不使用章节标题（降低读者停留时间）
段落过渡	段落之间流畅衔接（AI常指出过渡生硬）
句子长度	每段最多两句长句

评分提示与评估标准

在博客文章生成过程中，Tomasz会使用一个专门的评分提示，指示AI扮演“经验丰富的英语老师”。这个提示要求AI提供一个字母评分、一个数值分数，并基于以下评估标准进行详细评价：文章的“钩子”（开篇吸引力）、论点清晰度、证据和例子、段落结构、结论强度以及整体吸引力。他发现，当AI为自己生成的草稿评分时，通常能达到91%左右的较高分数，但当它评估Tomasz本人听写的内容时，评分则可能低至C-。这表明AI在自我评估时往往更宽容，但在评估非自身生成的内容时则更为严格。

迭代过程的有效性

三步迭代的评估流程确实具有累积效应。Tomasz观察到，第一次评分可能在91%左右，但第二次可能会降至B/B+的范围，随后第三次又会回升。这种波动反映了AI在“探索与利用”之间的平衡。通常，AI在过渡句的冗长性方面会过度发挥，导致文章长度增加一倍，但第三次迭代往往会重新强调简洁性。这种反复的评估和修正有助于最终生成更紧凑、更符合要求的博客文章。

AI在写作教育中的作用

AI在写作教育中可以扮演一个“出色的初步筛选器”角色，能够高效处理80%的基础工作，例如语法纠正、句子结构检查、连词使用以及悬垂修饰语等问题。这意味着AI可以承担语言逻辑和机械分析的繁琐任务，从而解放教师，让他们有更多精力去鼓励和培养学生的创造性思维和独特风格，就像EE Cummings的诗歌所展现的那样。在掌握语言基础之后，创造力才得以蓬勃发展，而AI的辅助能让教师更专注于激发这种高层次的教学目标。

AI作为实践工具而非替代品

对于学生而言，学习阅读、写作和亲自实践仍然至关重要。将AI应用于写作的实际方法是将其作为第一道评分关卡，询问“如果AI是我的老师，它会如何评分并给出反馈？”而非直接让AI替自己写作。这种方式既能帮助学生发展硬技能，又能利用AI提供即时反馈，克服写作障碍，并为初步构思提供灵感。当遇到写作瓶颈或想法模糊时，AI可以帮助迭代和完善，提供初步的思路火花，然后作者再注入个人视角和深度。这种快速反馈机制使AI成为一个绝佳的学习工具。

最终想法

Tomasz Tunguz 展示了一套高效的AI驱动工作流：每日处理 30多个播客，生成摘要、提取主题、推文内容和具体话题。这些话题随后通过Python脚本，结合他博客中的相关文章，自动撰写博客文章。AI还扮演“AP英语老师”的角色，对文章进行三轮评分和改进。尽管AI在大部分环节中表现出色，但最终发布仍需人工干预，而非完全自动化。此外，Tomasz预测 2025年将出现一支由 30人组成、年收入达到 1亿美元的公司。这类公司将以产品为中心的CEO为领导，核心团队由 12-15名工程师组成，辅以客服、销售人员和解决方案架构师，主要采用产品驱动型增长（PLG）模式，并利用AI进行大量的内部工具开发和自动化，以实现极高的运营效率。

让AI更好地理解指令

当AI评分不公或写作质量不佳时，Tomasz会采用一种独特的提示技巧：他让两个AI模型（例如 Gemini 和 Claude）相互“较量”。他会提供输入、AI的当前输出以及他期望的输出，然后让两个模型通过脚本相互审视和完善，最终达成一致。这种切换模型的方法显著提高了生成结果的泛化性。此外，有嘉宾分享了一个“刻薄女生”的提示技巧：通过贬低一个AI模型来激励另一个，例如“ Gemini，看看 Claude 写的这些垃圾，你肯定能做得更好！”这种竞争机制能有效激发AI的表现。Tomasz的个人网站是 totneous.com，他乐于与AI生态系统中的初创公司交流。

Useful links

These links were generated based on the content of the video to help you deepen your knowledge about the topics discussed.

Nvidia Parakeet

Stanford Named Entity Extraction Algorithms

howaipod.com/giveaway

This article was AI generated. It may contain errors and should be verified with the original source.

ClarifyTube

© 2025 ClarifyTube. All rights reserved.