搜索内容

CV
  • 【清深CVML组实习】基于LLM的图表理解-文献阅读汇报
    CV

    【清深CVML组实习】基于LLM的图表理解-文献阅读汇报

    摘要:图表对于呈现和解释复杂的数据关系非常重要。最近,多模态大型语言模型(MLLMS)在图表理解方面表现出显著的能力。然而,这些模型的庞大规模限制了它们在……
    Zhang, Hongxing 2025年1月20日
  • 【火灾监测系统】Colors of Smoke and Fire
    CV

    【火灾监测系统】Colors of Smoke and Fire

    the four characteristics of smoke: volume, color, velocity and density. Smoke Color is the visible shade of the spectrum and tells the stage of the ……
    Zhang, Hongxing 2024年11月19日
  • 【APMCM数学建模竞赛】国家一等奖:基于改进YOLOv8模型的远景图像苹果识别
    CV

    【APMCM数学建模竞赛】国家一等奖:基于改进YOLOv8模型的远景图像苹果识别

    摘要:针对密植栽培苹果果园中环境复杂导致果实识别效果差问题,现有研究主要集中于优化近景图像在背景干扰、气象变化、季节变迁等情况下的识别效果,而较少……
    Zhang, Hongxing 2024年10月20日
  • 【中科院自动化所实习】行人属性识别调研学习
    CV

    【中科院自动化所实习】行人属性识别调研学习

      Pedestrian attribution recognition is **the task of recognizing pedestrian features** - such as whether they are talking on a phone, whether……
    Zhang, Hongxing 2024年10月19日
  • 【重点】Bert – 双向Encoder
    AI

    【重点】Bert – 双向Encoder

    摘要:BERT由嵌入层和Transformer的Encoder组成,输出Masked Language Model (MLM) 和 Next Sentence Prediction (NSP) 的预测结果。除此之外,本文还讨论了Em……
    Zhang, Hongxing 2024年8月20日
  • 【重点】Transformer
    AI

    【重点】Transformer

    摘要:Transformer模型通过自注意力机制进行信息建模,包含编码器和解码器两部分。编码器将输入序列转化为上下文丰富的表示,解码器则根据编码器输出和已生成……
    Zhang, Hongxing 2024年8月18日
  • 【重点】常见变体 – RNN LSTM GRU
    AI

    【重点】常见变体 – RNN LSTM GRU

    摘要:Bidirectional RNNs通过结合前后序列信息,增强了对上下文的捕捉能力,适合填补缺失词语等任务。而Deep RNNs则通过叠加多层RNN,提升模型的表示能力。Bi……
    Zhang, Hongxing 2024年8月16日
  • 【重点】GRU – 门控循环神经网络
    AI

    【重点】GRU – 门控循环神经网络

    摘要:GRU通过重置门和更新门来控制信息的流动,简化了LSTM的结构并提高了计算效率。 1 模型原理 1.1 超参数 input_size :input_size 是指每个时间步长输入……
    Zhang, Hongxing 2024年8月14日
  • 【重点】LSTM – 长短时记忆神经网络
    AI

    【重点】LSTM – 长短时记忆神经网络

    摘要:LSTM旨在解决传统RNN在处理长序列时出现的梯度消失和爆炸问题。通过输入门、遗忘门和输出门来控制信息的流动。 1 模型原理 1.1 超参数 input_size :i……
    Zhang, Hongxing 2024年8月12日
  • 【重点】RNN – 循环神经网络
    AI

    【重点】RNN – 循环神经网络

    摘要:RNN(循环神经网络)是一种能处理序列数据的神经网络,可以利用先前的输入信息来进行预测当前时刻的值。 1 模型原理 1.1 超参数 input_size :input_s……
    Zhang, Hongxing 2024年8月9日