பின்னணி மற்றும் வளர்ச்சி

SWE-bench 2024 ஆம் ஆண்டில் Princeton University மற்றும் Stanford University ஆராய்ச்சியாளர்களால், AI அமைப்புகள் நடைமுறை மென்பொருள் பொறியியல் சவால்களை எவ்வளவு நன்றாக சமாளிக்க முடியும் என்பதை அளவிடுவதற்கான கடுமையான மதிப்பீட்டு கட்டமைப்பாக அறிமுகப்படுத்தப்பட்டது. செயற்கை அல்லது கல்வி சார்ந்த நிரலாக்க பணிகளை நம்பும் பெஞ்ச்மார்க்குகளுக்கு மாறாக, SWE-bench உண்மை உலக செயல்பாட்டின் அடிப்படையில் அமைந்துள்ளது: அதன் எடுத்துக்காட்டுகள், பரவலாக பயன்படுத்தப்படும் திறந்த மூல Python நிரல்தொகுப்புகளுக்கு எதிராக GitHub-ல் தாக்கல் செய்யப்பட்ட சிக்கல்களிலிருந்து பெறப்படுகின்றன; அவற்றை தீர்க்க இறுதியில் ஏற்றுக்கொள்ளப்பட்ட குறியீட்டு மாற்றங்களுடன் இணைக்கப்படுகின்றன. இந்த வடிவமைப்பு, உண்மையான மென்பொருள் பராமரிப்பு பணியின் சிக்கல்தன்மையும் மாறுபாடுகளும் பெஞ்ச்மார்க்கில் பிரதிபலிக்கப்படுவதை உறுதி செய்கிறது.

இந்த பெஞ்ச்மார்க் ஒரு இணை மதிப்பாய்வு செய்யப்பட்ட அரங்கில் முறையாக அறிமுகப்படுத்தப்பட்டதுடன், swebench.com என்ற தனிப்பட்ட இணையதளம் வழியாக அணுகக்கூடியதாக உள்ளது; அங்கு காலப்போக்கில் சமர்ப்பிக்கப்பட்ட மாதிரிகள் மற்றும் ஏஜென்ட்களின் செயல்திறனை கண்காணிக்கும் பொது லீடர்போர்டு இடம்பெற்றுள்ளது.

கட்டமைப்பு மற்றும் வகைகள்

வேறுபட்ட மதிப்பீட்டு தேவைகள் மற்றும் கணினி வள வரம்புகளுக்கு ஏற்ப, SWE-bench பல பிரிவுகளில் வழங்கப்படுகிறது:

Full: பல்வேறு Python நிரல்தொகுப்புகளிலிருந்து பெறப்பட்ட 2,294 பணித் எடுத்துக்காட்டுகள் கொண்ட முழுத் தரவுத்தொகுப்பு.
Verified: பணியின் தெளிவும் சோதனை நம்பகத்தன்மையும் உறுதி செய்ய கூடுதல் தரச் சரிபார்ப்புகள் செய்யப்பட்ட 500 எடுத்துக்காட்டுகளைக் கொண்ட தேர்ந்தெடுக்கப்பட்ட துணைத்தொகுப்பு.
Lite: வேகமான மீள்முறை மற்றும் குறைந்த செலவிலான மதிப்பீட்டு இயக்கங்களுக்காக நோக்கமிடப்பட்ட 300 எடுத்துக்காட்டுகளைக் கொண்ட சிறிய பிரிவு.
Multilingual: ஆங்கிலம் மையமாக உள்ள நிரல்தொகுப்புகளுக்கு அப்பால் பெஞ்ச்மார்க்கின் எல்லையை விரிவுபடுத்தும், 300 எடுத்துக்காட்டுகளையும் கொண்ட ஒரு வகை.
Multimodal: 517 எடுத்துக்காட்டுகளைக் கொண்ட ஒரு வகை; இதில் உரையுடன் சேர்த்து பட உள்ளீடுகளும் சேர்க்கப்படுகின்றன. இதனால், சிக்கல் அறிக்கைகளுடன் வரும் ஸ்கிரீன்ஷாட்கள் அல்லது வரைபடங்கள் போன்ற காட்சி தகவல்களை செயலாக்கக்கூடிய மாதிரிகளை மதிப்பிட முடியும்.

ஒவ்வொரு பணியும், அந்த நிரல்தொகுப்பில் பயன்படுத்தப்படும் போது தொடர்புடைய சோதனைத் தொகுப்பு வெற்றியடையச் செய்யும் ஒரு குறியீட்டு பேட்சை உருவாக்கும்படி ஒரு மாதிரி அல்லது ஏஜென்டை தேவைப்படுத்துகிறது. முதன்மை அளவுகோல் என்பது வெற்றிகரமாக தீர்க்கப்பட்ட சிக்கல்களின் சதவீதம்; இது செயல்பாட்டு சரியானதன்மைக்கான தெளிவான மற்றும் பொருள்மையான அளவீட்டை வழங்குகிறது.

பயன்பாட்டு வழக்குகள் மற்றும் ஆராய்ச்சி தாக்கம்

SWE-bench, பெரிய மொழி மாதிரிகள் மற்றும் தன்னாட்சி மென்பொருள் பொறியியல் ஏஜென்ட்களின் நடைமுறை குறியீட்டுத் திறன்களை மதிப்பிடுவதற்கான பரவலாக ஏற்றுக்கொள்ளப்பட்ட தரநிலையாக மாறியுள்ளது. ஆராய்ச்சியாளர்கள், களத்தில் பயன்படுத்தப்படும் மென்பொருள் மேம்பாட்டு பணிச்சூழல்களை அண்மித்த நிபந்தனைகளில் புதிய மாதிரி கட்டமைப்புகளையும் ஏஜென்ட் கட்டமைப்புகளையும் பெஞ்ச்மார்க் செய்ய இதைப் பயன்படுத்துகின்றனர்; இதில் நிரல்தொகுப்பு வழிசெலுத்தல், பிழை இடம்காணல், மற்றும் பேட்ச் உருவாக்கம் ஆகியவை அடங்கும்.

மேலும், ஏஜென்ட் மதிப்பீட்டை பற்றிய பரந்த AI மற்றும் மென்பொருள் பொறியியல் சமூகத்தின் சிந்தனையை SWE-bench பாதித்துள்ளது. பணிகள் தனித்த செயல்பாடுகளை மட்டும் அல்லாமல் பல கட்ட காரணமிடலையும் உண்மையான குறியீட்டு அடுக்குகளுடன் தொடர்பையும் தேவைப்படுத்துவதால், எளிய குறியீடு உருவாக்க பெஞ்ச்மார்க்குகள் வெளிப்படுத்தாமல் விடக்கூடிய வரம்புகளை SWE-bench வெளிப்படுத்துகிறது. இதனால் retrieval-augmented coding agents, tool-use frameworks, மற்றும் தானியக்க சோதனை குழாய்கள் போன்ற பணிகளில் ஊக்கம் கிடைத்துள்ளது.

Verified பிரிவு கிடைப்பது சமூக விவாதங்களில் குறிப்பாக குறிப்பிடத்தக்கதாக இருந்துள்ளது; ஏனெனில் முழுப் பெஞ்ச்மார்க் இயக்கங்கள் கணினி ரீதியாக செலவாக இருக்கும் போது, அர்த்தமுள்ள ஒப்பீடுகளுக்கான அதிக கட்டுப்பாட்டுள்ள துணைத்தொகுப்பை இது வழங்குகிறது. அதேபோல், Multimodal வகை பார்வை-மொழி மாதிரிகள் மென்பொருள் மேம்பாட்டு சூழல்களில் பயன்படுத்தப்படுவதற்கான மதிப்பீட்டு பாதைகளைத் திறக்கிறது.

லீடர்போர்டு மற்றும் சமூகம்

swebench.com இல் உள்ள பொது லீடர்போர்டு, நிறுவனங்களும் சுயாதீன ஆராய்ச்சியாளர்களும் முடிவுகளை சமர்ப்பித்து, மாதிரி தலைமுறைகள் முழுவதும் முன்னேற்றத்தை கண்காணிக்க உதவுகிறது. பதிவுகள் பல்வேறு அணுகுமுறைகளை உள்ளடக்குகின்றன; பொதுப் பயன்பாட்டு மொழி மாதிரிகளுக்கு பயன்படுத்தப்படும் prompting உத்திகள் முதல், குறிப்பாக உருவாக்கப்பட்ட தன்னாட்சி குறியீட்டு ஏஜென்ட்கள் வரை. லீடர்போர்டின் வெளிப்படைத்தன்மை, தொழில்நுட்ப அறிக்கைகளிலும் மாதிரி வெளியீட்டு அறிவிப்புகளிலும் SWE-bench ஐ ஒரு பொதுவான குறிப்புப் புள்ளியாக மாற்றியுள்ளது; இதனால் AI உதவியுடன் மென்பொருள் பொறியியல் துறையில் பகிரப்பட்ட அடிப்படை அளவுகோல்கள் உருவாக உதவுகிறது.

SWE-bench

Metrics

வகைகள்

தீம்கள்

பின்னணி மற்றும் வளர்ச்சி

கட்டமைப்பு மற்றும் வகைகள்

பயன்பாட்டு வழக்குகள் மற்றும் ஆராய்ச்சி தாக்கம்

லீடர்போர்டு மற்றும் சமூகம்