侯晓婷
- 手机: +86 189-3099-4563
- 电子邮箱: katherine_hou@foxmail.com
求职意向
高级/资深数据分析师/工程师
教育背景
复旦大学 管理学院 统计学专业 统招本科毕业&理学学士学位 09/2009 - 07/2013
工作技能
我具备完成数据分析项目的全面能力。整合多数据源,复杂数据清洗,探索性分析,机器学习建模并评估模型效果,对分析结果进行可视化展示和报告。我也具备一定的工程开发能力,能够将重复的工作自动化,提高数据分析建模和报告的效率。能够参与生产系统的Python开发,将数据分析和建模的成果投入实际的线上产品。
数据分析技能
- SQL:熟悉SQL语法,熟悉Oracle, MySQL, PostgreSQL和MongoDB等的数据结构。
- Python:熟悉主流数据处理、可视化和建模库,如pandas, sqlalchemy, matplotlib, scikit-learn等。
- R:熟悉dplyr、ggplot2,熟练应用Split-Apply-Combine方法进行数据的转换和清洗加工。
- SAS:通过认证考试获得证书Certified Base & Advanced Programmer for SAS 9
- Office:熟练使用Microsoft Office Excel、PPT和Word完成数据报告展示。
语言能力
- 英语:CET4 620/710,CET6 611/710;听说读写熟练, 能无障碍地搜索和阅读英文数据技术的资料和文档。
工作经历
上海即富信息技术有限公司 - 金融风控部 - 数据分析工程师 05/2016 至今
完成日常报表制作和发布,ETL 处理,数据分析与挖掘,可视化展示,机器学习建模与优化等工作。 完成信贷业务⻛控模型训练和优化,为风控政策修改提供数据支持,并进行后续监测验证分析。 参与 Python 数据处理相关功能库的开发,⻛控系统相关组件开发等工作。
上海蓝瀚广告有限公司 (WPP集团) - MSU - 数据统计专员 09/2014 - 04/2016
根据客户的需求,运用统计学知识对数据进行加工处理和建模,为客户提供专业的数据分析报告。
中国衣恋集团 - 战略企划部 - 管理培训生 07/2013 - 08/2014
为集团内各⾏业多品牌商业问题进⾏市场调查,整理商业分析报告,向公司和品牌领导进⾏汇报。
项目经历
数据分析与挖掘
机器学习风控模型的开发 02/2017 - 09/2017
- 项目背景: 公司小额贷款业务积累了一定的订单和坏账数据,而初期人工审核的效率低下,后来的专家模型考虑维度单一且效果一般,公司考虑上线机器学习模型进行自动化⻛控和审件。
- 解决方案:
- 先进行线下的开发和测试,清洗和加工多个数据源的数据,用于分析放贷申请特征数据和坏账之间的关系。内容包括支付业务数据、小贷数据、第三方同盾数据、通话详单数据等。存储形式包含Oracle、Mongodb、Json、Excel 文件等。
- 利用探索性分析和数据可视化手段增加团队和业务人员对于坏账现象的理解。
- 探索不同学习模型,如评分卡、随机森林、 XGBoost,提高对坏账的预测准确性。
- 调整线上系统获取数据的流程,将机器学习⻛控模型应用于线上。
- 根据线上模型效果定期调整模型并部署,以达到更优⻛控效果。
- 项目成果:
- 增加了团队对于坏账现象的理解;模型在测试数据的表现比之前的专家模型能提升 20% 的收益
- 将线上维度单一的专家模型迭代为同时参考多维度的⻛控模型,提高⻛控模型效果,降低 5% 坏账用户
⻛控系统数据监测 09/2017 - 10/2017
- 在新的⻛控政策或模型上线后,监控对比政策或模型效果对用户和收益的影响,对系统优化提供数据支持。
通话详单数据清洗 05/2017
- 项目背景: 将10000多个格式不统一或不是标准表格形式的通话单Excel文件清洗处理成标准格式表格。
- 存在的困难: 清洗流程非常复杂且涉及大量多层次的条件判断,需要不断的通过人工观察,修改清洗处理流,反复迭代。
- 解决方案与项目成果:
- 我开发了用于构建带有多个条件判断的处理流,和交互式升级处理流并且维护清洗结果的工具。
- 清洗出70%的文件,并进行了初步分析和可视化展示,也为后续风控建模提供了更多维度。
流失用户分析 08/2016 - 09/2016
- 分析每个用户的交易历史,绘制用户流失曲线。由于数据量庞大无法利用pandas,主要运算通过SQL完成。
- 对流失用户和留存用户特征进行对比分析,找出流失用户的典型画像,对即将流失的用户提出干预方案。
展厅访问量模型/网络点击量和广告投放模型 09/2014 - 12/2014
- 项目背景: 客户想了解不同媒体渠道的广告投放对展厅访问量/网络点击量的影响,并据此调整预算以达到最佳效果。
解决方案:
- 建立展厅访问量/网络点击量与不同媒体渠道投放金额间的关系模型,测算不同渠道的广告效率。
- 以最大化展厅访问量/网络点击量为目标,在有限的投资预算下,为客户提供最优媒体投放方案。
系统/工具开发
ETL系统开发(Python) 10/2016 - 01/2017
- 项目背景: 初期的ETL框架缺乏足够的容错性,导致ETL流程在执行时经常由于一些意外原因中断,且难以定位原因。
- 解决方案与项目成果:
- 我完善了ETL框架,添加了遇到异常错误时重试的机制,并且添加了日志方便错误定位。
- 我梳理了来自业务和建模的需求,编写并测试了支付数据的ETL流程。
团队基础功能库开发(Python) 07/2016 - 04/2017
- 项目背景: 团队平时在数据的读取,处理,分析,建模,可视化,报告生成等各环节存在很多重复性的步骤和工作。
- 解决方案和项目成果:
- 参与团队内部通用基础库的开发,针对重复出现的工作和需求开发相应的Python工具。
- 减少团队在重复性工作上消耗的时间和精力,大幅提高了团队的工作效率和产出。
R工具开发 10/2014 - 06/2015
- 文本分析工具开发:对问卷收集/网络论坛上获得的英文文本进行态度和主题分析,绘制词云图和词关联图。
- 交互式建模工具开发:参与设计和开发具备模型拟合和参数调整功能的建模工具,提高100%模型更新效率。
培训经历
业余时间在各MOOC平台对大数据和机器学习领域进行学习。
- Deep Learning Specialization, Coursera On going 08/2017
- Introduction to Computer Science & Programming Using Python, MIT, edx Achieved 10/2015
- Core Presentation Skills Workshop, Simitri Achieved 06/2015
- R Programming, Johns Hopkins University, Coursera Achieved with Distinction 11/2014