人工智能的含义最早由艾伦.图灵于1950年提出,并且同时提出一个机器智能的测试模型。()A. 对B. 错
面向对象开发方法包括______、______、______三部分。8. 软件工程管理的具体内容包括对______、______、______、______等方面的管理。12、在详细设计阶段,除了对模块内的算法进行设计,还应对模块内的______进行设计。13. 对象的抽象是______。15. 软件工程包括______和______两大部分内容。18、数据字典中有四类条目,分别是______、______、______、______。19、用于描述基本加工的小说明的三种描述工具是______、______、______。21、McCabe复杂性度量又称______。22、喷泉模型是一种以用户需求为动力,以______为驱动的模型。26、软件质量管理由软件质量保证、______和______三方面活动组成。31、采用手工方法开发软件只有程序而无文档,维护困难,这是一种______维护。32、结构化方法是一种面向数据流的开发方法。由______、______、______________构成。33、对象之间进行通信的构造叫做______。34、按软件服务对象的X围可以把软件划分为______软件和______软件。35、瀑布模型将软件生命期划分为若干阶段,各个阶段之间是通过______实现过渡的。36、概要设计主要是把各项功能需求转换成系统的______。39、软件质量管理由______、______和______三方面活动组成。40、类具有操作,它是对象______的抽象。49、继承性是子类自动共享其父类的______机制。10.〔A〕是用户和设计交换最频繁的方法。A、原型模型B、瀑布模型方法C、螺旋模型方法D、构件组装模型14.〔B〕是为了获得高质量软件所需要完成的一系列任务的框架,他规定了完成各项任务的工作步骤。C、软件工程B、软件过程A.质量管理D、软件方法学20.数据存储和数据流都是(D ),仅仅是所处的状态不同。A、分析结果B、事件C、动作D、数据21.数据流图和(C)共同组成系统的功能模型。A、HIPO图B、PDLC、数据字典D、层次图24.数据字典是对数据定义信息的集合,它所定义的对象都包含在( )中。A、数据流图B、程序框图C、软件结构D、方框图32.下列叙述中,__A_____不属于数据字典的作用。A、作为编码阶段的描述工具B、为用户与开发人员之间统一认识C、作为概要设计的依据D、为需求分析阶段定义各类条目33.不适于作为数据流图处理〔加工〕框名称的是_B___。A、人工校核工资数据B、工资支票数据C、打印工资支票D、计算职工工资35.虽然可以使用自然语言描述由数据元素组成数据的关系,但为了更加清晰简洁,建议采用符号来表示,其中1(a)5所代表的含义是( A)A、a重复出现,最少出现1次,最多出现5次B、a重复出现,只能出现1次,或5次C、a重复出现,其可以出现1次,也可以出现5次D、a是可选的,可以出现2、3、4次36.〔C〕是可行性研究的一项重要内容,是客户组织负责人从经济角度判断是否继续投资于这项工程的主要依据。A、纯收入计算B、投资回收期分析C、成本/效益分析D、投资回收率分析39.〔〕需求制定系统必须提供的服务,是对软件系统的一项基本需求,但却并不是唯一的需求。C、功能需求B、性能需求C、可靠性和可用性需求D、接口与约束44.“快速建立软件原型〞是一种比较准确、有效、强大的需求分析技术,为了快速的构建和修改原型,通常采用3种方法和工具,以下哪项是无效的〔C〕A、可重用的软件构件B、形式化需求规格说明和环境原型C、高级语言选择D、第四代技术47,〔A〕是对引起系统做动作或〔和〕从一个状态转换到另一个状态的外界事情的抽象。A、事件B、状态C、初态D、终态50.描述复杂的事物时,图形远比文字叙述优越得多,在需求分析阶段可以使用〔C〕等图形工具。A、层次方框图和判定表B、数据流图和程序流程图C、IPO图和层次方框图D、warnier图和PDL53.软件需求分析阶段建立原型的主要目的是(A).A、确定系统的功能和性能要求B、确定系统的性能要求C、确定系统是否满足用户要求D、确定系统是否开发人员需要58.下面关于“深度、宽度、扇出和扇入〞描述错误的是〔〕A、深度表示软件结构中控制的的层数B、宽度是软件同一层次上的模块总数的最大值C、扇出是一个模块调用的模块数目D、扇入是直接调用这个模块的上级模块的数目80.〔B〕的结果基本上决定了最终的程序代码的质量。C、概要设计B、详细设计C、编码D、测试82. (B)阶段是为每个模块完成的功能进行具体的描述,要把功能描述转变为精确的、结构化的过程描述。A、概要设计B、详细设计C、编码D、测试86.(C)应考虑对模块相联和资源共享问题进行描述和制约。A、系统设计B、详细设计C、接口控制D、结构化编辑工具90.详细设计是软件总体设计滞后的工作。下列可选内容中,(D)不属于详细设计内容。A、算法设计B、程序流程设计C、界面设计D、功能设计99.对软件是否能达到用户所期望的要求的测试称为(A)A、集成测试B、系统测试C、有效性测试D、验收测试106.软件测试方法一般有黑盒测试和白盒测试,而其中黑盒测试主要是依据程序的(C)A、结构B、流程C、功能D、逻辑108.调试是指在测试发现错误之后排除错误的过程,〔D〕不属于调试途径。A、蛮干法B、回溯法C、原因排除法D、运用测试实例法113.〔A〕是一种黑盒测试技术,这种技术把程序的输入域划分成若干个数据类,据此导出测试用例。A、等价划分B、边界值分析128.以下文档,〔B〕不属于系统文档包括的内容。A、软件需求规格说明B、软件使用手册C、软件详细设计D、软件测试用例135. (B)模型表示了对象的相互行为。A、对象B、动态C、功能D、分析142,一个面向对象的系统的体系结构通过它的〔B〕的关系确定。A、类与对象B、对象与对象C、过程与对象D、类与界面143.所谓管理就是通过〔〕、〔〕和〔〕等一系列活动,合理地配置和使用各种资源,以达到既定目标的过程。A、计划、组织、控制145.〔A〕技术依据以往开发类似项目的经验和历史数据,估计实现一个功能所需要的源程序行数。A、代码行技术B、专家估计法C、PERT方法D、功能点法146.功能点技术定义了信息域的5个特性,分别是:输入项数,输出项数,查询,主文件数和〔D〕。A、内部接口数B、内部查询数C、外部数据库数D、外部接口数149.赶工一个任务时,应该关注〔C〕。A、尽可能多的任务B、非关键任务C、加速执行关键路径上的任务D、通过成本最低化加速执行任务150.质量与等级的区别是什么〔B〕。A、质量是对需求的满足程度,而等级是对质量的排序。B、质量是与用户需求的一致程度,而等级是对服务的排序。C、在项目管理过程中,质量和等级没有明显的区别。D、质量是项目的最终结果,而等级是项目进展过程中对质量的排序。9.软件再工程过程:库存目录分析;文档重构;逆向工程;代码重构;数据重构;正向工程。10.面向对象方法学的定义:尽可能模拟人类习惯的思维方式,使开发软件的方法与过程尽可能接近人类认识世界解决问题的方法与过程,也就是使描述问题的问题空间与实现解法的解空间在结构上尽可能一致优点:与人类习惯的思维方法一致;稳定性好;可重用性好;较易开发大型软件产品;可维护性好。
6. (单选题,10.0分) 数据合并可以将相关的两个或多个表格进行合并,下列关于数据合并中merge函数用法正确的是()A. merge函数可以进行横向连接(列连接)或纵向连接(行连接)B. merge合并时,两个表一定要有相同的列名。C. merge函数没有axis参数,因此只能进行横向连接(列连接)D. merge函数默认连接方式为left连接
采用多种媒体访问控制技术。由于采用共享广播信道,而信道又可用不同的传输媒体,所以局域网面对的是多源、多目的链路管理的问题。由此引发出多种媒体访问控制技术。(2)局域网采用广播通信是因为局域网中的机器都连接到同一条物理线路,所有主机的数据传输都经过这条链路,采用的通信方式是将主机要发送的数据送到公用链路上,发送至所有的主机,接收端通过地址对比,接收法网自己的数据,并丢弃其他数据的方式。广域网是由更大的的地理空间、更多的主机构成的,若要将广播用于广域网,可能会导致网络无法运行。首先,主机间发送数据时,将会独自占用通信链路,降低了网络的使用率;另一方面,主机A向主机B发送数据时,是想网络中所有的主机发送数据,当主机数目非常多时,将严重消耗主机的处理能力。同时也造成了数据的无效流动;再次,极易产生广播风暴,是网络无法运行。3-14 常用的局域网的网络拓扑有哪些种类?现在最流行的是哪种结构?为什么早期的以太网选择总线拓扑结构而不使用星形拓扑结构,但现在却改为使用星形拓扑结构?答:常用的局域网的网络拓扑有(1)总线网 (2)星形网 (3)环形网 (4)树形网。现在最流行的是星形网。当时很可靠的星形拓扑结构较贵。人们都认为无源的总线结构更加可靠,但是实践证明,连接有大量站点的总线式以太网很容易出现故障,而现在专用的ASIC芯片的使用可以将星形结构的集线器做得非常可靠。因此现在的以太网一般都是用星形结构的拓扑结构。3-15 什么叫做传统以太网?以太网有哪两个主要标准?答:以太网是当今现有局域网采用的最通用的通信协议标准,组建于七十年代早期。Ethernet(以太网)是一种传输速率为10Mbps的常用局域网(LAN)标准。在以太网中,所有计算机被连接一条同轴电缆上,采用具有冲突检测的载波感应多处访问(CSMA/CD)方法,采用竞争机制和总线拓朴结构。基本上,以太网由共享传输媒体,如双绞线电缆或同轴电缆和多端口集线器、网桥或交换机构成。在星型或总线型配置结构中,集线器/交换机/网桥通过电缆使得计算机、打印机和工作站彼此之间相互连接。有DIX Ethernet V2标准和802.3标准。3-16 数据率为10Mb/s的以太网在物理媒体上的码元传输速率是多少码元/秒?答:码元传输速率即为波特率。以太网使用曼彻斯特编码,这就意味着发送的每一位都有两个信号周期。标准以太网的数据速率是10Mb/s,因此波特率是数据率的两倍,即20M波特。3-17 为什么LLC子层的标准已制定出来了但现在却很少使用?答:为了是数据链路层能更好的使用多种局域网标准,802委员会就将局域网的数据链路层拆成两个子层,即逻辑链路控制LLC子层和媒体介入控制MAC子层。与接入到传输媒体有关的内容都放在MAC子层,而LLC子层则与传输媒体无关,不管采用何种协议的局域网对LLC子层来说都是透明的。由于现在TCP/IP体系经常是用的局域网是DIX Ethernet V2而不是802.3标准中的几种局域网。因此现在802委员会制定的逻辑链路控制子层的作用已经不大了,很多厂商生产的网卡上都仅装有MAC协议而没有LLC协议。所以LLC子层的标准现在已经很少使用了。3-18 试说明10BASE-T中的“10”、“BASE”和“T”所代表的意思。答:10BASE-T:“10”表示数据率为10Mb/s,“BASE”表示电缆上的信号是基带信号,“T”表示使用双绞线的最大长度是500m。3-19 以太网使用的CSMA/CD协议是以争用方式接入到共享信道。这与传统的时分复用TDM相比优缺点如何?答:CSMA/CD是一种动态的媒体随机接入共享信道方式,而传统的时分复用TDM是一种静态的划分信道,所以对信道的利用,CSMA/CD是用户共享信道,更灵活,可提高信道的利用率,不像TDM,为用户按时隙固定分配信道,即使当用户没有数据要传送时,信道在用户时隙也是浪费的;也因为CSMA/CD是用户共享信道,所以当同时有用户需要使用信道时会发生碰撞,就降低信道的利用率,而TDM中用户在分配的时隙中不会与别的用户发生冲突。对局域网来说,连入信道的是相距较近的用户,因此通常信道带宽较宽,如果使用TDM方式,用户在自己的时隙内没有数据发送的情况会更多,不利于信道的充分利用。对计算机通信来说,突发式的数据更不利于使用TDM方式。3-20 假定1km长的CSMA/CD网络的数据率为1Gb/s。设信号在网络上的传播速率为200000km/s。求能够使用此协议的最短帧长。答:对于1km电缆,单程传播时间为1÷200000=5×10-6s,即5us,来回路程传播时间为10us。为了能够按照CSMA/CD工作,最短帧的发射时间不能小于10us。以1Gb/s速率工作,10us可以发送的比特数等于:因此,最短帧是10000位或1250字节长。3-21 什么叫做比特时间?使用这种时间单位有什么好处?100比特时间是多少微秒?答:比特时间是指传输1bit所需要的时间。种时间单位与数据率密切相关,用它来计量时延可以将时间与数据量联系起来。“比特时间”换算成“微秒”必须先知道数据率是多少。如数据率是100Mb/s,则100比特时间等于10us。3-22 假定在使用CSMA/CD协议的10Mb/s以太网中某个站在发送数据时检测到碰撞,执行退避算法时选择了随机数 r=100.试问这个站需要等多长时间后才能再次发送数据?如果是100Mb/s的以太网呢?答:对于10Mb/s的以太网,等待时间是5.12毫秒对于100Mb/s的以太网,等待时间是512微妙。3-23 公式(3-3)表示,以太网的极限信道利用率与链接在以太网上的站点数无关。能否由此推论出:以太网的利用率也与链接在以太网上的站点数无关?请说明理由。答:实际的以太网各站发送数据的时刻是随机的,而以太网的极限信道利用率的得出是假定 以太网使用了特殊的调度方法(已经不再是CSMA/CD了),使各站点的发送不发生碰撞。3-24 假定站点A和B在同一个10Mb/s以太网网段上。这两个站点之间的时延为225比特时间。现假定A开始发送一帧,并且在A发送结束之前B也发送一帧。如果A发送的是以太网所容许的最短的帧,那么A在检测到和B发生碰撞之前能否把自己的数据发送完毕?换言之,如果A在发送完毕之前并没有检测到碰撞,那么能否肯定A所发送到帧不会和B发送的帧发生碰撞?(提示:在计算时应当考虑到每一个以太网帧在发送到信道上时,在MAC帧前面还要增加若干字节的前同步码和帧定界符)答:设在t=0时A开始发送。在t=576比特时间,A应当发送完毕。t=225比特时间,B就检测出A的信号。只要B在t=224比特时间之前发送数据,A在 发送完毕之前就一定检测到碰撞。就能够肯定以后也不会再发送碰撞了。如果A在发送完毕之前并没有检测到碰撞,那么就能够肯定A所发送到帧不会和B发送的帧发生碰撞(当然也不会和其他的站点发送碰撞)。3-25 在上题中的站点A和B在t=0时同时发送了数据帧。当t=255比特时间,A和B同时检测到发送了碰撞,并且在t=225+48=273比特时间完成了干扰信号的传输。A和B在CSMA/CD算法中选择不同的r值退避。假定A和B选择的随机数分别是rA=0和rB=1.。试问A和B各在什么时间开始重传其数据帧?A重传的数据帧在什么时间到达B?A重传的数据会不会和B重传的数据再次发送碰撞?B会不会在预定的重传时间停止发送数据?答:t=0时,A和B开始发送数据。t=255比特时间,A和B都检测到碰撞。t=273比特时间,A和B结束干扰信号的传输。t=594比特时间,A开始发送t=785比特时间,B再次检测信道。如空闲,则B在881比特时间发送数据。否则再退避。A. 重传的数据在819比特时间到达 B. ,B先检测到信道忙,因此B在预定的881比特时间停止发送数据。
阅读下面的文字,完成问题。材料一: 人工智能是指通过分析其环境而具有一定程度的自主性行动,以实现特定目标而显示智能行为的系统。近来研究更趋向于将人工智能定义为建立在现代算法基础上,以历史数据为支撑而形成的具有感知、推理、学习、决策等思维活动并能够按照一定目标完成相应行为的计算系统。目前众多基于人工智能的系统已广泛应用,如搜索引擎通过处理海量数据,将原本混乱的互联网以人类可理解的、可感知的形式呈现出来;无人驾驶通过传感器感知环境而实现转向、加速和制动。这些为增强与替代人类的活动和任务提供了变革潜力,逐渐提升了人类的感知、思考和对世界采取行动的能力。 人工智能具有以往技术无法企及的增强人类活动的特点,且在某种程度上以独立的、不可预测的方式通过采取精准行动而做出决策。一些学者认为,以大数据和算法匹配的人工智能正在不可逆转地重塑人类生活、工作和交往的方式,但与此同时也带来了公共安全风险、算法偏见问题、责任伦理问题等一系列的挑战。回溯人工智能发展历程,不管是符号主义、联结主义还是行为主义,其发展的核心是由数据驱动算法的不断升级和优化。数据是“基本驱动力”,而算法是“一种有限、确定、有效并适合用计算机程序来实现的解决问题的方法”。从技术底层逻辑来看,人工智能存在的不确定性风险主要来源于数据与算法:其一是数据的不当收集和处理。人工智能的发展以海量信息作支撑,各类数据信息采集覆盖于数字化空间中,如个人身份、网络行为等。如不采取合理的治理措施,人类将面临隐私“裸奔”的尴尬局面,进而触发极大的伦理风险。其二是算法内在缺陷及其不当使用。在技术层面,算法就是一些复杂的电脑代码程式,并不具有情感或价值偏见,但是由于在编码、运用过程中离不开设计者和开发者的主观意志,有可能将个人情感、社会观、价值观嵌入技术中,造成如算法失算、算法歧视、算法“黑箱”、审查难等问题,从而导致人工智能的“脱靶”现象,即背离既定的正面目标而产生相反的破坏活动。像ChatGPT,其强大的信息检索和数据存储功能确实给人类生活、工作带来了福祉,但如不对输出加以控制,可能生成种族主义、性别歧视之类有偏见的内容或有害指令信息,扰乱社会公平和正义。(摘编自刘丹鹤孙嘉悦《人工智能规制政策制定的风险与治理》)材料二: 在人机互动中,人具有思想和情感,ChatGPT在涉及人类情感的细微之处或措辞的把握上并不准确,例如,男女之间的语言通常带有性别化表述特征,ChatGPT在互动问答中将形成普遍性的或“非人非机”双向训练的“中性化”融合式表述方式,主体的个性化语言特质在ChatGPT互动中试图链接理解它的普遍化特征,在语言主体间性过程中形成的语言“混合物”将对其话语风格和语言伦理产生影响,这是从生活方式到表达方式的改变,语言的趋同化或同质化将被规训并固定。这一改变是语言伦理领域的改变,表达方式的改变是文化学意义上的话语革命,但其不是语言伦理关于语言使用的道德准则和规范性话语价值的体现。赵汀阳认为,不能过于注重人工智能的“拟人化”,拟人化并不意味着否定有用性,而是人工智能试图拥有人的情感、价值观。人并不完美,将人工智能拟人化是非常可怕且消极的事情。真正的主体性在无限的驯化中成为智能机器人的训练客体,这是主体客体化的一种变现。ChatGPT将人的主体性话语转化为客体的结果,即人的语言物化症候。 ChatGPT的训练和被训练会规制与被规训,更加实在地呈现效果,如同ChatGPT掌控受众想象力的空间或方式,成为技术异化后统治人类的一门艺术。法国学者勒庞在《乌合之众:大众心理研究》一书中指出:“影响民众想像力的,并不是事实本身,而是它们发生和引起注意的方式。如果让我表明看法的话,我会说,必须对它们进行浓缩加工,它们才会形成一种令人瞠目结舌的惊人形象。掌握了影响群众想像力的艺术,也就掌握了统治他们的艺术。”人的从众心理将转变为从智能机器人心理,在广泛的社会语境中被认为是个性化的叙事方式被人工智能以潜移默化的方式改变,语言的长期改变会渗透其情感认知、伦理行为和整体行为的走向,对人的价值信仰、态度和行为产生重要影响,这既是值得关注的科技哲学问题,又是伦理问题。 人工智能正在接管学术界甚至世界,即使这一担忧不是主要的,却将长期存在。人工智能模型可以快速复制已有学术文献,虽然其复制的文献没有出处,没有正确性的考证来源,但ChatGPT会不断产生其认为的客观答案,生成虚假的学术文本,其对学术道德的影响是深远的。因此,使用人工智能模型时仍需谨慎,ChatGPT被视为“嘴替”或“文替”,数据的滥用或对知识的不完整性采用,将为错误信息的传播埋下风险和隐患。在使用ChatGPT的过程中要遵循学术伦理,以确保学术的真实性和公正性。人工智能被界定为在某一情境中采取最好可能行动的理性行动者,而不能在实践中走向道德理性的反面。在伦理规则方面,2021年,国家新一代人工智能治理专业委员会发布《新一代人工智能伦理规范》,提出“将伦理道德融入人工智能研发和应用的全生命周期”。吴沈括认为,在人工智能治理过程中,伦理和法律应在不同层次相互配合,唯有如此,才能在不同程度的风险处置过程中形成有效且广泛的保护网络。对于人工智能发展过程中产生的中高风险,需要用法律划定行为红线,最大限度降低风险程度。(摘编自令小雄王鼎民袁健《ChatGPT爆火后关于科技伦理及学术伦理的冷思考》)(1)下列对材料相关内容的理解和分析,不正确的一项是 ____ A.人工智能是一种计算系统,它以现代算法为基础,以历史数据为支撑,具有人的某些思维活动。B.人工智能在增强人类活动方面具有以往技术无法企及的优势,它可以通过采取精准行动做出决策。C.人工智能是复杂的电脑代码程式,并不具有情感或价值偏见,但在开发过程中可能嵌入人的主观意志。D.人工智能改变了个性化的叙事方式,这一改变会对人的价值信仰、态度和行为产生重要的影响。(2)根据材料内容,下列说法正确的一项是 ____ A.人工智能为增强与替代人类的活动和任务提供了变革潜力,随着人工智能系统的应用,人类的活动将会被替代。B.人工智能能够重塑人类生活、工作和交往的方式,它给人类带来巨大机遇的同时也带来了一系列的挑战。C.人机对话中主体的个性化语言特质与普遍化特征相链接,人的主体性话语转化为客体的结果,主体性随之消失。D.在人工智能治理过程中,只要伦理和法律在不同层次相互配合,就能在风险处置过程中形成有效广泛的保护网络。(3)近日,有关专家呼吁暂停聊天机器人ChatGPT的进一步研发。请结合材料,试分析这一做法的原因。
3 名词释题1数据通信[1]技术 .2系统软件 .3数据组织[2] . 4 数据结构 5并机处理系统 6 计算机网络[3] 7物流 8区间码 9半结构化问题 10数据库系统 11线形表 12树 13数据文件 14主键 .15 索引文件 16数据模型 17城 18 第三范式[4] 19数据的完整性 20 网络拓扑结构[5]3.4 问答题I采用周转义件是为了防止数据丢失吗? 2 数据处理[6]经历了哪些阶段,各有什么特点?3线性表[7]顺序结构和链表[8]结构各有何优缺点? 4 数据文件有哪些特点?各有何优缺点?3.4.5 文件设计时,首先应设计共享文件吗?3.4.6 索引表本身不必排序,只要对与它相关的数据文件排序就可以,这种说法正确吗?3.4.7 简述数据库系统的组成。 8文件组织是数据在计算机内存中的组织,请简要评述。9 什么是关系模型?关系模型有哪些特点?10 直接文件组织方式的查找速度低于索引文件组织方式吗?II正磁盘上的记录,是采取顺序存储[9],还是随机地存储? 12 简述计算机网络的重要概念。3.4.13简述客户 /服务器模式的网络有何特点。3.5 应用题3.5 . 1 直接存取文件中,杂凑法常用的方法之一是质数除余法。请写出地址转换公式及记录地址分布范围。已知所需存储单元[10]个数为 M V 5000,鉴别键号分散在10 000〜50 000号之间,需要转变的键号K,质数用P表示,转换后的地址用 H ( K表示。3.5.2 何谓信息的滞后性? 3 关系数据模型[11]的基本性质是什么?4简述数据通信系统的组成及其工作模型。 5线性表的顺序存储和链接存储备有何优缺点?3. 5 . 6 数据文件有哪些类型?各有何优缺点? 7 简述实体联系模型。3.5.8 什么是关系模型?关系模型有哪些特点?. 9简述第一范式[12]和第二范式[13]。3.5.10 简述数据库的安全性、完整性、并发控制[14]和数据库恢复。11网络通信信道有哪几种?它们各有何优缺点? 12 简述客户、服务器模式有何优点?13 简述 OSI 模型。3.3 名词释题参考答案3.3.1 数据通信系统是以计算机为中心,结合分散在远程的终端装览或其他计算机,通过通信线路 彼此连接起来,进行数据的传输、交换、存储和处理的设备总称。3.3.2 系统软件是指为管理、控制和维护计算机及外设,以从提供计算机与用户界面的软件。3. 3 .3 数据结构是指将具有某种逻辑关系的一批数据组织起来,按一定的 存储表示方式配置在计算机的存储器[15]中, 目的是使计算机在处理时能够符合速 度快、占用存储器的容量少、 成本低等多方面的要求。3.3.4 描述某些数据项[16]之间的关系。一个数据结构可以由若干个数据项 或数据结构组成。3.3.5为了提高系统的可靠性,使两台电子计算机组合起来同时运行,以便在一台机器维修或出现故障时,保证系统正常运行,这样的系统称为非机处理系统。3.3.6 计算机网络是用通信线路把几个分布在不同地区的、具有独立功能的计算机连接起来形成网。 配有相应的网络软件,以实现计算机资源共享的系统。7 物流是指企业中由原材料等资源投入企业,经过形态、性质的变化,转换为产品而输出的运动过程。.8 这种编码方式是把数据项分成若干组, 每一区间代表一个组, 码中数字的值和位置都代表一定意义。3.3.9 决策过程中,有些问题涉及环境因素、决策者的心理、经验及其他不 确定因素,使得决策过程不完全可理和计算,这类问题称为半结构化问题。3.3.10 面向全组织的复杂结构,数据冗余度小易于扩充,数据与程序独 立,实现统一的数据控制功能和集中管理,提高了数据的利用率和一致性。3.3.11 指数据的结构形式本质上是一维的线性关系,其中每个节点都是同一类型的数据结构。3.3.12 节点之间有分支的、层次关系的结构,类似于自然界中的树。3 .3.13 是为了某一特定目的而形成的同类记录的集合,是一种按某种数据结构把数据记录存放在外 存设备上的方式,一般适用于数据记录存储的比较简单的场合。3 .3.14 记录中能唯一标志该记录的数据项。3 .3.15 有时为了便于检索,除文件本身外,另外建一张指示逻辑记录和物理记录之间对应关系的索 引表,这类包括文件数据区和索引表两大部分的文件称为索引文件。3. 3 .16对客观事务以及其联系的数据化描述。 17 属性的取值范围。.18第三范式是指关系不仅满足第二范式,而且它的任何一个非主属性[17]都不传递依赖于任何主关键字。3 .3.19 数据库的完整性是指数据的正确性、有效性和相容性。3. 3. 20 网络的拓扑结构:网络的链路[18]和节点在地理上所形成的几何结构。3 . 4 问答题多考答案3 .4.1 答:采用周转文件是为了在数据处理过程中便于根据不同的数据属性分别处理,有利于数据的共享和使用,不是为了防止数据丢失。3 .4.2 答: 数据处理先后经历了简单数据处理、文件系统[19]、数据库系统阶段。在简单数据处理阶段, 数据与程序没有分离,需要手工安装数据的存放方式和处理过程,仅用于简单数据计算的场合。文件管理[20] 阶段有了专门的数据文件,数据采用统一方式组织,能够满足复杂数据处理的需要。数据库系统阶段通过 数据模型和数据库系统的组织,数据及其联系被统一考虑到数据库结构中,实现了全局数据的统一,适合 大型信息系统应用的要求。3 . 4.3 答: 顺序存储结构物理地址与记录的逻辑顺序一致,为直接存取结构,可以根据初始地址记 录长度直接读取所需记录,但插入删除操作时,为了保持记录的有序,需要做大量的数据移动操作,适合 记录比较稳定的情况。链表结构插入删除记录不需要移动记录,但查找时需要从头一个个查起,适合经常 需要进行插入删除操作的情况。3 . 4.4 答:数据文件有顺序文件[21]。索引文件等结构。顺序文件查找方便,但在有新记录加入时,需 要进行排序操作,在文件很大时,很费时间。索引文件建立了记录与索引的对应关系,只需要对索引进行 排序,但索引文件需占用额外的存储空间。
定点数的原码乘法是通过( 来实现的。A. 加法和算术右移B. 加法和算术左移C. 加法和逻辑右移D. 减法和算术右移
0.(5.0分)对学生读者而言,校外访问系统的用户名是学号,请问密码是()。
【判断题】叙述法又可分为时间顺序法、空间顺序法和进程顺序法。A. 对B. 错
(每空2分)hadoop使用自己的序列化[1]格式为:______。•简答题,3分(17题),5分(5题)共75分1.(3分)简要描述如何安装配置apache的一个开源hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。答:1使用root账户登录2修改IP3修改host主机名[2]4配置SSH免密码登录5关闭防火墙6安装JDK7解压hadoop安装包8配置hadoop的核心文件hadoop-env.sh,core-site.xml,mapred-site.xml,hdfs-site.xml9配置hadoop环境变量10格式化hadoop namenode -format11启动节点start-all.sh2.(3分)请列出正常的hadoop集群中hadoop都分别需要启动哪些进程,他们的作用 分别都是什么,请尽量列的详细一些。答:namenode:管理集群,存储数据的原信息,并管理记录datanode中的文件信息。secondarynamenode:它是namenode的一个快照,会根据configuration中设置的值来 决定多少时间周期性的去cp一下namenode,记录namenode中的metadata及其它数据。Data node:存储数据ResourceManager:ResourceManager负责集群中所有资源的统一管理和分配,它接收来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应 用程序(实际上是ApplicationManager)NodeManager:是YARN中每个节点上的代理,它管理Hadoop集群中单个计算节点(3分)请写出以下的shell命令(1)杀死一个job(2)删除hdfs上的/tmp/aaa目录(3)加入一个新的存储节点和删除一个节点需要执行的命令答:(1)map red job -list得到job的id,然后执行mapred job-kill jobld就可以杀死一个指 定jobId的job工作了。(2)hadoop fs -rmr /tmp/aaa或者hdfs dfs-rmr /tmp/aaa(3)增加一个新的节点在新的节点上执行hadoop-daemon.sh start datanode然后在主节点中执行hdfs dfsadmin -refreshNodes删除一个节点的时候,只需要在主节点执行hdfs dfsadmi n-refresh nodes3.(3分)请简述mapreduce中的combine和partition的作用答:combiner是发生在map的最后一个阶段,其原理也是一个小型的reducer,主要作用是减少输出到reduce的个数,减少reducer的输入,提高reducer的执行效率。Partition的主要作用就是指定输出到reduce的个数的。4.(3分)hdfs的体系结构答:HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若 干个DataNode组成的。其中NameNode作为主服务器,管理文件系统[3]的命名空间[4]和客户端 对文件的访问操作;集群中的DataNode管理存储的数据5.(3分)三个data node中当有一个data node出现错误时会怎样? 答:当有一个data node出现错误的时候,name node会将那个data node上的数据拷贝到其 他的节点去进行存储。6.(3分)文件大小[5]默认为64M,改为128M有什么影响?答:更改文件的block块大小,需要根据我们的实际生产中来更改block的大小,如果block定义的太小,大的文件都会被切分成太多的小文件,减慢用户上传效率,如果block定义的太大,那么太多的小文件可能都会存到一个block块中,虽然不浪费硬盘资源,可是还是会增加name node的管理内存压力。7.(3分)NameNode与SecondaryNameNode的区别与联系?答:seco ndaryNameNode更像是Name node的一个冷备份[6], 当name node宕机之后,可以从9.(3分)参考下列M/R系统的场景:hdfs块大小为64MB,输入类为File In putFormat, 有3个文件的大小分别为64KB, 65MB, 127MB,Hadoop框架会把这些文件拆分为 多少块?答:64k>一个block65MB---->两个文件:64MB是一个block,1MB是一个block 127MB--->两个文件:64MB是一个block,63MB是一个block10.(5分)hadoop中RecordReader的作用是什么?答:RecorderReader是一个接口,主要是用来读取文件的输入键值对的,我们也可以自定义输入的key,value对的读取规则。属于split和map per之间的一个过程,将in putsplit输出的 行为一个转换记录,成为key-value的记录形式提供给mapper11.(3分)Map阶段结束后,Hadoop框架会处理:Partitioning, Shuffle和Sort,在这几 个阶段都发生了什么?答:Partition是对输出的key,value进行分区,可以自定义分区,按照业务需求,将map的 输出归分到多个不同的文件中将map的输出作为输入传给reducer称为shufflesort是排序的过程,将map的输出,作为reduce的输入之前,我们可以自定义排序,按照key来对map的输出进行排序12.(5分)如果没有定义partitioner,那数据在被送达reducer前是如何被分区的?答:Partiti on er是在map函数执行con text.write()时被调用。用户可以通过实现自定义的Partitioner来控制哪个key被分配给哪个Reducer。hadoop有一个默认的分区类,HashPartioer类,通过对输入的k2去hash值来确认map输出的k2,v2送到哪一个reduce中去执行。13.(3分)什么是combiner?答:comb in er就是规约[7]操作,通过对map输出的数量进行规约,可以减少reduce的数量, 提高执行效率。combiner的输入输出类型必须和mapper的输出以及reducer的输入类型一 致14.(3分)分别举例什么情况要使用combiner,什么情况不使用?答:求平均数的时候就不需要用combiner,因为不会减少reduce执行数量。在其他的时候,可以依据情况,使用combiner,来减少map的输出数量,减少拷贝到reduce的文件,从而减轻reduce的压力,节省网络开销,提升执行效率15.(5分)简述Hadoop中replication(复本)放置策略?________Hadoop的默认布局策略是在运行客户端的节点上放第一个复本;第二个复本放在与第一个不同且随机另外选择的机架中的节点上(离架);第三个复本与第二个复本放在同一个机架上,且随机选择另一个节点。16.(5分)如何为一个hadoop任务设置mappers的数量?答:map的数量通常是由hadoop集群的DFS块大小确定的,也就是输入文件的总块数,正 常的map数量的并行规模大致是每一个Node是10~100个,对于CPU消耗较小的作业可以设置Map数量为300个左右,但是由于hadoop的没一个任务在初始化时需要一定的时间, 因此比较合理的情况是每个map执行的时间至少超过1分钟。具体的数据分片[8]是这样的,InputFormat在默认情况下会根据hadoop集群的DFS块大小进行分片,每一个分片会由一个map任务来进行处理,当然用户还是可以通过参数mapred.min.split.size参数在作业提交客户端进行自定义设置。还有一个重要参数就是mapred.map.tasks,这个参数设置的map数 量仅仅是一个提示,只有当InputFormat决定了map任务的个数比mapred.map.tasks值小时才起作用。同样,Map任务的个数也能通过 使用JobConf的conf.setNumMapTasks(int num)方法来手动地设置。这个方法能够用来增加map任务的个数,但是不能设定任务的个数小于Hadoop系统通过分割输入数据得到的值。当然为了提高集群的并发效率,可以设置一个 默认的map数量,当用户的map数量较小或者比本身自动分割的值还小时可以使用一个相 对交大的默认值,从而提高整体hadoop集群的效率。17.(3分)hdfs文件写入的流程?答:1)Client向NameNode发起文件写入的请求。2)NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。3)Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。.
热门问题
网络安全包括物理安全[1]、逻辑安全、操作系统安全及联网安全,其中逻辑安全包括访问控制[2]、加密、安全管理及用户身份认证。A. 正确B. 错误
以下哪种方法属于卷积神经网络的基本组件()。A. 卷积层B. 池化层C. 激活函数D. 复制层
Windows中“复制”操作的快捷键是Ctrl+V。
下列哪项属于因果推理模型()A. 因果图B. 神经符号推理C. 符号推理模型D. 结构因果模型
网络诈骗中常见的“钓鱼网站”目的是()?A. 传播病毒B. 窃取个人信息C. 提供免费电影
AdaBoosting采用多个单一分类器组成一个强分类器()A. 错误B. 正确
网络安全包括物理安全[1]、逻辑安全、操作系统安全及联网安全,其中逻辑安全包括访问控制[2]、加密、安全管理及用户身份认证。A. 正确B. 错误
下列哪项关于监督学习算法的描述正确()A. 强化学习的训练效果一定优于监督学习B. 主要的监督学习方法包括生成方法和判别方法C. 广度优先搜索算法是一种监督学习算法
下列哪项贪婪最佳优先搜索算法的描述正确()A. 贪婪最佳优先搜索不属于启发式搜索算法B. 贪婪最佳优先搜索是一种A*搜索算法C. 贪婪最佳优先搜索是一种广度优先搜索算法D. 贪婪最佳优先搜索属于有信息搜索算法
下列哪个方法属于知识图谱推理方法()A. 路径排序算法B. 深度学习推断C. 广度优先搜索D. 归纳逻辑程序设计
2.单选题 讯飞星火可以实现多种文案类型和语言风格的文本写作。讯飞星火(网页版)“内容写作”功能可选的“语言风格”不包括( )。A. 口语化B. 高情商C. 专业D. 热情
下列哪项不是求解对抗搜索问题的基本算法( ) A.反向传播算法 B.广度优先排序算法 C.Alpha-Beta剪枝算法D.最小最大搜索算法
3.判断题K-means聚类算法对数据的尺寸敏感。()A. 对B. 错
7、 加强电脑安全防护,及时升级病 毒库,安装防火墙,及时查杀病毒和木马,是防范 电信网络诈骗的有效做法。A. 正确B. 错误
程序=算法+()A. 数据结构B. 程序结构C. 控制结构[1]D. 体系结构
路径排序算法的工作流程主要有三步()A. 特征计算B. 特征抽取C. 分类器训练D. 因果推断
在决策树建立过程中,使用一个属性对某个结点对应的数集合进行划分后,结果具有高信息熵(highentropy),对结果的描述,最贴切的是()。A. 纯度高B. 纯度低C. 有用D. 无用E. 以上描述都不贴切
下列不属于量子机器学习算法的是()A. 量子支持向量机B. 量子主成分分析C. 薛定谔方程求解D. 深度量子学习
由脸书(Facebook)公司开发的深度学习编程框架是()A. TensorFlowB. PaddlePaddleC. PyTorchD. Mindspore
下列哪个方法属于知识图谱推理方法()A. 广度优先搜索B. 深度学习推断C. 路径排序算法D. 归纳逻辑程序设计