二手数据分析 马亮 博士-副教授
- 格式:pdf
- 大小:569.05 KB
- 文档页数:20
基于随机森林回归模型的二手车价格评估研究
宁苑添;朱芹;韦金明;阴鹏飞;朱虹霖
【期刊名称】《桂林航天工业学院学报》
【年(卷),期】2024(29)1
【摘要】通过特征价格理论分析和RStudio软件构建二手车交易样本,计算每个特征的重要性值,获取二手车价格评估参数;搭建二手车价格评估随机森林回归模型,利用测试样本数据对模型进行测试,获取最优模型并与重置成本法评估二手车价格进行对比,得出模型预测的价格更接近真实价格,其评估效果更优于重置成本法,满足我国二手车市场的评估需求.
【总页数】12页(P82-93)
【作者】宁苑添;朱芹;韦金明;阴鹏飞;朱虹霖
【作者单位】桂林航天工业学院汽车工程学院
【正文语种】中文
【中图分类】F426.471;TP18
【相关文献】
1.基于随机森林和XGBoost算法的二手车价格预测
2.基于层次分析法和随机森林回归算法的谷物资源风险评估模型
3.基于随机森林模型的房产价格评估
4.基于岭回归的上海地区大众品牌二手车价格预测模型
5.基于线性回归和神经网络模型的二手车交易价格预测分析
因版权原因,仅展示原文概要,查看原文内容请购买。
基于线性回归和神经网络模型的二手车交易价格预测分析二手车交易市场一直以来都备受关注,人们关注交易价格的预测和波动趋势。
本文将探讨基于线性回归和神经网络模型的二手车交易价格预测分析方法,以提供决策参考。
1. 研究背景二手车交易市场的波动性给卖家和买家都带来了很大的不确定性。
因此,价值预测模型的建立是市场参与者预测价格的重要工具之一。
2. 数据集介绍本研究所使用的数据集是从二手车交易平台上获取的真实交易数据,并经过处理和清洗。
数据集包含了诸如品牌、型号、车龄、里程数、燃油类型、变速器类型等多个特征,以及对应的交易价格。
3. 线性回归模型线性回归模型是一种建立特征和目标变量之间线性关系的预测模型。
通过对数据集进行线性回归分析,可以建立二手车交易价格与其特征之间的数学模型,并基于该模型进行价格预测。
4. 特征选择在建立线性回归模型之前,需要对特征进行选择。
常用的特征选择方法包括相关系数分析、方差分析、主成分分析等。
通过这些方法,可以选择出与交易价格相关性较高的特征,从而提高预测模型的准确度。
5. 模型训练与评估将数据集划分为训练集和测试集,利用训练集对线性回归模型进行训练,并使用测试集评估模型的预测效果。
评估指标可以采用均方误差(MSE)、决定系数(R-squared)等。
6. 神经网络模型神经网络模型是一种模拟人脑神经元工作原理的预测模型。
与线性回归模型相比,神经网络模型可以学习更为复杂的非线性关系,提高价格预测的准确性。
7. 网络结构设计设计合适的神经网络结构对模型的准确性起着重要作用。
常见的神经网络结构包括前馈神经网络、循环神经网络和卷积神经网络。
根据数据集的特点,选择合适的网络结构是十分必要的。
8. 训练与优化利用数据集对神经网络模型进行训练,并通过反向传播算法不断优化模型的权重和偏置,从而提高模型的预测能力。
此外,还可以采用正则化和批归一化等方法避免过拟合问题。
9. 模型比较与选择通过对线性回归模型和神经网络模型的训练和评估,比较两种模型的预测准确性。
基于聚类分析的二手房推荐研究----以北京市为例作者:毛凤华来源:《科技创业月刊》 2018年第5期摘要:为了从属性相似的房源中挑选出性价比更高的二手房,提高二手房交易市场的价格调整效率,运用聚类分析方法及爬取数据,针对北京市二手房进行研究,在各属性相似的簇中挑选出价格更低的房源推荐。
北京市的二手房主要分为5类,近城蜗居房、近城中型房、近城大型房、远城中型房和远城大型房,每个类簇中价格更低的房源认为具有更高性价比,也是在推荐时需要重点关注的项目。
关键词关键词:二手房;聚类分析;数据挖掘;属性分析中图分类号中图分类号:TP391.3文献标识码:ADOIdoi:10.3969/j.issn.16722272.2018.05.041基金项目*基金项目:作者简介作者简介:毛凤华(1997),女,华中师范大学学生,研究方向:推荐系统。
收稿日期收稿日期:201803150引言住房一直是人们长期关注的热点话题。
近年来,房价更是一涨再涨,二手房的价格也逐步攀升,尤其是"北上广深"4大城市。
但是二手房房价的高涨没有影响人们买房的热情。
二手房房价除了受到最基本的面积、地理位置与设施等影响,更受到了很多社会因素影响。
如何寻找条件合适(如老人更适合低楼层住房,家庭人数较多的需要更多的卧室等),价格合适的二手房成为人民群众关注的焦点,同时这也是二手房网站在对消费者进行推荐时亟待解决的问题。
1文献综述通过对已有研究进行梳理发现,目前与聚类相结合的推荐主要有基于用户的聚类和基于情景的聚类两个层面。
在以用户聚类为基础进行推荐的研究中,陈克寒等提出了一种基于两阶段聚类的推荐算法,实现了基于用户兴趣的主题推荐。
王晓耘等将粗糙用户聚类与协同过滤推荐相结合,离线时利用粗糙kmeans用户聚类生成用户的初始近邻集,在线时从初始近邻集中寻找最近邻进行推荐。
明小红从离线用户聚类和用户相似度计算两个方面改进了传统的协同过滤推荐算法。
媒体问计专家解惑作者:来源:《科学导报》2021年第80期山西科技报:您曾是山西农业大学的学生,在选择创业方向以及定好创业方向时该怎么做方面有没有什么经验要与学弟学妹们分享?马亮:缺少创业的充分准备是新手创业者创业成功率低的一个重大原因。
想创业千万不能盲目跟风,一定要选择自己了解且有能力做好的行业。
创业前期还需要做到未雨绸缪,并做好充足的知识储备,包括书本上没有的知识,比如亲自去工厂学习,同时需要做好人员储备以及资金的储备,在创业期需要做到考虑周全,运筹帷幄,做好团队的运作,人员的协调以及市场销售的运作,同时需要新技术的开发与创新,并将产品附加值提高,且做好经验的总结与不足积极改进。
生活晨报:作为一名高校老师,带领指导大学生进行创新创业课题多年,积累了丰富经验与心得体会。
在您看来,高校老师应如何发挥好大学生在创业创新过程中的指导与引导作用呢?武志明:创业者经常会遇到各种各样的困难,有的时候会遭遇失败和打击。
因此,也特别需要得到老师的安慰、鼓勋和支持。
老师是最值得学生信赖的人。
安慰、鼓励学生也是教师的工作内容之一。
大学生的创业梦想有时也需要老师们去点燃。
老师们可以组织各种活动,如请创业成功的校友回校给大学生们做创业报告,请企业家返校谈创业人生;请专家介绍国家的创业环境等,让学生看到目前的创业热潮中的各种机会,激励学生踊跃投身创业热潮中去。
生活晨报:您农业从业20年,与玉米结缘十余年,请您结合自身经历,在这条充满艰辛与激情的创新创业道路上,您认为农业创新人应具备哪些具体的素质与能力,创业成功的密钥是什么?张世元:首先做农业必须要有情怀,可光有情怀也不行,必须还要有市场洞察力。
我在创业的2011年遇到了困难,马上在2012年就转型,所以必须要有敏锐的市场洞察力。
同时也要坚持,一定不能半途而废,别人可以辞职,而在这方面我没有半点退路。
在刚开始创业的时候,大家不要图大图强,反而做的越多压力越大,而要整合好资源,趋利避害,先易后难。
作者: 马亮
作者机构: 南洋理工大学南洋公共管理研究生院,新加坡639798
出版物刊名: 公共管理学报
页码: 127-136页
年卷期: 2014年 第1期
主题词: 政府2 0 社交媒体 创新扩散 电子政务 跨国研究
摘要:本文旨在识别影响社交媒体或Web2.0技术在政府中扩散的关键因素。
利用《联合国电子政务调查报告》中各国政府采用社交媒体的数据,使用Logit模型实证分析政府2.0在全球扩散的影响因素。
研究结果显示,包括政府规模、财富状况、电子服务和电子民主等在内的政府资源与能力因素是驱动政府2.0在全球扩散的主要因素,而公众的需求与压力、政府自身的规范、国际竞争与学习等并未产生显著影响。
研究局限在于关注各国中央政府,结果可能不适于地方政府;研究基于截面数据,无法检验变量之间的因果关系。
实践价值在于,本研究发现对于理解政府2.0及其扩散具有重要启示,并有助于政府部门推动其广泛使用并发挥积极影响。
作为较早对政府2.0扩散展开的实证研究,本研究有助于理解新兴信息技术在政府部门的应用及其驱动因素,并填补了已有文献的不足。
OPC DA服务器的设计与实现马亮, 张志鸿(郑州大学信息工程学院,河南郑州 450001)摘要:本文对OPC技术做了详细的分析,在OPC DA标准的基础上,给出了一个OPC数据存取访问服务器框架的设计方案,并介绍了实现的主要步骤。
在设计中引入了适配器模式,用来针对不同数据源进行快速开发。
关键词:OPC;数据访问;COM;适配器模式中图分类号:TP273 文献标识码:BDesign and Implement of OPC Data Access ServerMA Liang , ZHANG Zhi-hong(School of Information Engineering, Zhengzhou University, Zhengzhou Henan 450001, China ) Abstract: This paper presented a detailed analysis of OPC technical, gave an OPC Data Access Server framework on the basis of OPC DA standards, and introduced the main steps of realization. In the design, we exploited the Adapter Pattern to accelerate the implement for different data sources.Key words: OLE for Process Control; Data Access; COM; Adapter pattern0 引言OPC全称OLE for Process Control,它是由OPC基金会制定的自动化领域过程控制标准。
实际上,OPC代表一系列的标准,包括OPC 数据访问(OPC Data Access),OPC报警与事件(Alarms & Events ),历史数据访问(OPC Historical Data Access),OPC XML-DA(1.0)等[3]。
南京市二手房房价影响因素的多元线性回归分析
刘冰;金跃强;王书营
【期刊名称】《南京工业职业技术学院学报》
【年(卷),期】2017(017)001
【摘要】通过分析南京市8个区12479个二手房数据,建立了影响单位面积房价的多元回归模型.通过比较8个变量对单位面积房价的影响,得到区域和是否有电梯对单位面积房价影响较大,面积及卧室数对单位面积房价影响较小的结论.
【总页数】3页(P17-19)
【作者】刘冰;金跃强;王书营
【作者单位】南京工业职业技术学院公共基础课部,江苏南京 210023;南京工业职业技术学院公共基础课部,江苏南京 210023;南京工业职业技术学院公共基础课部,江苏南京 210023
【正文语种】中文
【中图分类】F293.3
【相关文献】
1.基于特征价格模型的学区二手房价格影响因素分析——以南京市为例 [J], 高明媚;唐焱;张子婴
2.南宁市二手房价格影响因素分析及房价走势的预测 [J], 邝文竹;刘琳
3.南京市二手房房价影响因素的主成分回归分析 [J], 刘冰;朱建国;金跃强
4.基于Box-Cox变换的南京市二手房房价模型实证分析 [J], 刘冰;金跃强;李朝阳
5.基于Box-Cox变换的南京市二手房房价模型实证分析 [J], 刘冰;金跃强;李朝阳
因版权原因,仅展示原文概要,查看原文内容请购买。
公益性校园二手物品交易平台的构建王酉兰,简珍霞,郭书君,马子颖,黄晓冬,代海涛(吉林农业科技学院经济管理学院,吉林吉林132000)[摘要]从大学生对二手物品的实际需求出发,并为了响应建设节约型社会,合理利用资源,提高资源的可循环利用率,搭建一个公益性校园二手物品交易平台是尤为必要的。
该平台具有二货买卖模块、二货捐赠模块、旧物回收改造模块和信息交流模块。
构建此平台既可以避免校园内闲置物品的大量堆积,又可以实现大学生的公益梦,符合我国节能减排绿色发展的政策号召,体现了当今时代可持续发展的大趋势要求。
经营者应注重提升自身的信用度、知名度,进行准确的市场定位,同时采取方便、快捷的服务策略,使广大消费者在其中得到更多有价值的体验,这样才能保证公益性校园二手交易平台的可持续发展。
[关键词]二手物品;二手物品交易平台;爱心捐赠[中图分类号]F724.6[文献标识码]A[文章编号]1009-6043(2018)06-0182-03[通讯作者]代海涛(1974-),吉林柳河人,硕士研究生,副教授,研究方向:区域经济学。
[基金项目]吉林省大学生科持创新项目:“二货天使”二手品回收项目研究中期成果(吉农院合字【2017】第075号)。
随着当今时代的快速发展,越来越多的大学生购买力不断增强,使得各类产品的更新换代速度加快,因此就造成了大学校园普遍存在着大量的闲置物品。
在倡导绿色生活的大背景下,我们构建了具有公益性的校园二手交易平台。
高效地实现了资源的循环利用,为学生传递爱心提供了信息和渠道,也有利于培养学生的低碳意识和奉献精神。
一、需求分析(一)用户需求在日常生活中,人们在生产生活的更迭中不断产生闲置物品。
而这些闲置物品最终没有得到最大价值的使用造成不同程度的资源浪费。
通过调研发现,对于闲置物品高达27%的同学表示会丢弃;28%的同学会赠与他人,还局限于彼此认识;还有14%的人会捐赠给需要的人、11%的人会选择校园二手交易平台和网络交易平台,9%的人会选择跳蚤市场。
我国房地产价格影响因素实证分析
齐千
【期刊名称】《经济研究导刊》
【年(卷),期】2011(000)014
【摘要】房地产作为我国国民经济的支柱产业,在近几年里,价格持续攀升,波动幅度较大.透过我国房地产价格的波动.深入研究其价格影响因素,对于防范房地产泡沫,稳定金融安全,维持经济持续发展有极其重要的意义.通过回归分析、协整检验、White检验和LM检验等方法进行实证研究,发现房价主要受到利率、人均收入、土地价格和房地产开发投资额因素的影响.
【总页数】3页(P76-78)
【作者】齐千
【作者单位】哈尔滨商业大学金融学院,哈尔滨,150076
【正文语种】中文
【中图分类】F293.3
【相关文献】
1.我国房地产价格影响因素的实证分析 [J], 董春游;丁立秋
2.房地产价格影响因素研究--基于我国1991-2014年时间序列实证分析 [J], 马竹;李汉
3.我国房地产价格的影响因素——基于二手房数据的实证分析 [J], 刘贝贝
4.我国城市房地产价格的影响因素研究——基于“去库存”视角的实证分析 [J],
申博;田学斌;焦红兵
5.我国房地产价格影响因素的实证分析 [J], 高艳云;王影丽
因版权原因,仅展示原文概要,查看原文内容请购买。
《公共管理与政策研究方法论》
第9讲
2016年11月14日二手数据分析
马亮博士副教授
中国人民大学公共管理学院
多元的方法——
管理学
资料来源:
Scandura & Williams (2000)
多元的方法——管理学
对2008-2011年间涉及战略管理研究的四本顶尖学术期刊SMJ、AMJ、OS、JIBS 进行分析,其所发表的实证论文中,二手数据的占比达到“半壁江山”。
资料来源:周长辉(2012, p. 217)。
定量研究方法的分支及占比:
二手数据共计210篇,合计44.8%。
Groeneveld, S., Tummers, L., Bronkhorst, B., Ashikali, T., & Van Thiel, S. (2015). Quantitative Methods in Public Administration: Their Use and Development Through Time.International Public Management Journal, 18(1).
多元的方法——中国公共管理学
资料来源:
Wu, He, Sun (2011)
不同学科的二手数据
•经济学:主要是二手数据,特别是各类统计年鉴•金融学:证券市场股价、上市公司年报、各类二次数据库
•社会学:主要是一手调查数据,包括问卷和访谈•心理学:主要是一手数据,通过调查或实验获取•政治学:各类政策、决策、报告、履历
•管理学:
–宏观研究:主要是一手企业调查和二手案例分析
–微观研究:基本上都是一手员工调查
•公共管理学、公共政策学、公共财政学
–约20-40%的数据来源是二手数据(调查或非调查)。
二手数据分析的意涵
•什么是二手数据?倒几手才是二手?三手、四手?•定义:数据的目的与来源
–一手或原始数据(primary/first hand/original
data)
–二手数据(secondary data)
•孰优孰劣?孰主孰次?相互补充?“非你莫属”?•数据驱动还是理论驱动?数据在先还是理论在先?
–Cook:the theory-data match
•一手与二手数据的边界日趋模糊。
–商业调查中的“搭车调查”、与政府部门的合作实验–网络搜索、API数据抓取、大数据
为什么要用二手数据?•“在我看来,中国可以说遍地都是数据金矿。
我这里说的数据金矿,就是指二手数据。
”
•“但二手数据确如金矿,只不过丰富而珍贵的二手数据大多是以‘矿石’的形式存在着,它等待着有心人去探索、识别和开发。
研究者要像淘金者一样去‘淘’。
虽说‘淘’金的过程并不容易,但终归比问卷调研更能做到自主可控。
”
周长辉. (2008/2012). 二手数据在组织管理学研究中的使用
.陈晓萍, 徐淑英, & 樊景立. 组织与管理研究的实证方法(第
九章). 北京:北京大学出版社.
二手数据的优势是什么?
•总体(population)或大样本(large-N)
–通常来说,二手数据的样本量较大,且多数可以提供跨年、跨季的纵贯数据,进而有利于构造面板数据。
•客观性、可复制和可重复性
–信度(validity)与科学本质
–“他律性”与学术伦理,可以减少学术造假。
•多源数据和三角测量(triangulation)
–避免共同方法偏误(CMB/CSB)
–多角度认识事物,从而更精确地观测并发现规律。
•数据采集成本低廉
–许多情况下甚至是免费的
–成本是相对而言,因为数据清洗和处理成本未必低。
•非侵入性或无干涉的研究
二手数据的局限与劣势
•数据的可靠性(信度)可能欠缺
–“官出数字,数字出官。
”层层上报的遗漏、误差与蒙骗。
•中国官方GDP数据的水分、空气污染等环境数据造假。
–不同地区和国家的定义和测量方式不同。
•数据不“解渴”,测量的效度不高
–没有问到最需要的问题,没有使用成熟量表提问,或者无法匹配到具体的地区(如县)、组织乃至个人。
–理论构念无法得到最佳的衡量,或者操作方式不同。
•例如,犯罪率的低估或低报、对交通事故的认定。
•数据分析与处理都很“费劲”
–数据编码、清洗、匹配、合并、管理等需要大量工作。
•数据的开发与再开发程度
–数据被“用烂了”,有人“捷足先登”,数据的再开发和再利用程度有限,需要“绞尽脑汁”和“独辟蹊径”。
数据公开与复制研究(Replication)(King, 1995)
二手量化数据的处理
•数据来源
–中国各级政府的统计年鉴、年报、季报、月报
–国际组织等的跨国数据、区域数据
–其他国家的统计年鉴和调查数据
–商业咨询公司数据(Compustat、国泰安、零点)–其他研究者分享的数据
•量化数据的清洗与合并
–一个数据库的内部清洗与整理
•“情人眼里出西施”
–多个数据库的合并管理
•“变废为宝”、“化腐朽为神奇”
质性数据的二次分析(secondary analysis of qualitative data)•数据来源
–文本:访谈记录、问卷开放题、实地手记、日记、年谱、档案等。
–影像:录音、图片/照片、录像/视频。
–共享:英国质性数据中心(Qualidata,1994)
•质性数据的二次分析(质性→质性)
–区别于文档分析:是否曾被其他研究者使用过?
–分析类型:原始数据的收集者是否参与?
–区别于质性数据的量化分析:元分析/系统综述?
•质性数据的转换(质性→量化)
–从文本、图片、视频等质性数据转化到量化数据
–编码(coding)至关重要
•内容分析(content analysis)或扎根理论(grounded theory)
几个实例
•治理研究的挑战:多层模型(Heinrich & Lynn, 2001)。
•公务员调查数据的二次利用(Fernandez, et al., 2015)。
•公共政策/计划/项目绩效的数据(Moynihan, 2013)。
大数据技术
•数据开放、数据共享与云计算
•科学2.0、研究2.0与政府2.0
•原始获取的大数据
–电子病历、网上投诉、政府采购、审判文书等。
•二次开发的大数据
–谷歌流感、百度迁徙、淘宝消费、微博热度等。
•实例与趋势
–经济学的应用(Einav& Levin, 2014)
值得讨论的问题
•在条件允许的情况下,尽可能开展一手数据收集,特别是通过调查和观察,抢救式记录中国公共管理的历史进程。
–中国公务员价值观、态度、动机与行为调查
–中国政府部门决策、行为、绩效调查
•如果有可用的数据,为什么不用?培养数据敏锐性和嗅觉,让数据找你,而不是你找数据!
–“好记性不如烂笔头”,随时随地记录和整理数据。
•“万事万物是普遍联系的。
”
–研习如何嫁接和联系多个数据库,如跨层分析或分层
线性模型的使用。
•实证公共管理研究:理论与数据的水乳交融
下一次课程研讨的论文清单
1.Brower, R. S., Abolafia, M. Y., & Carr, J. B. (2000). On improving
qualitative methods in public administration research.
Administration & Society, 32(4), 363-397.
2.Gerring, J. (2004). What is a case study and what is it good for?
American Political Science Review, 98(02), 341-354.
3.Ospina, S. M., & Dodge, J. (2005). It's about time: Catching
method up to meaning -the usefulness of narrative inquiry in
public administration research. Public Administration Review,
65(2), 143-157.
4.Cappellaro, G. (2016). Ethnography in public management
research: A systematic review and future directions. International Public Management Journal, 1-35.
5.Suddaby, R. (2006). From the editors: What grounded theory is
not. Academy of Management Journal, 49(4), 633-642.
谢谢!
Email: liangma@。